JP6303340B2 - 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム - Google Patents

音声処理装置、音声処理方法及び音声処理用コンピュータプログラム Download PDF

Info

Publication number
JP6303340B2
JP6303340B2 JP2013180685A JP2013180685A JP6303340B2 JP 6303340 B2 JP6303340 B2 JP 6303340B2 JP 2013180685 A JP2013180685 A JP 2013180685A JP 2013180685 A JP2013180685 A JP 2013180685A JP 6303340 B2 JP6303340 B2 JP 6303340B2
Authority
JP
Japan
Prior art keywords
frame
window function
correction
audio signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013180685A
Other languages
English (en)
Other versions
JP2015049354A (ja
Inventor
松尾 直司
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013180685A priority Critical patent/JP6303340B2/ja
Priority to US14/323,151 priority patent/US9343075B2/en
Priority to EP14177041.2A priority patent/EP2849182B1/en
Publication of JP2015049354A publication Critical patent/JP2015049354A/ja
Application granted granted Critical
Publication of JP6303340B2 publication Critical patent/JP6303340B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Noise Elimination (AREA)

Description

本発明は、例えば、音声処理装置、音声処理方法及び音声処理用コンピュータプログラムに関する。
車載のハンズフリーホンまたは携帯電話機といった、様々な環境下で利用できる音声入力装置が普及するにつれ、車室内、あるいは、屋外といった、雑音環境下での通話あるいは雑音環境下で発せられた音声の認識が行われる機会が増えている。そのような雑音環境下では、例えば、話者の声とともにマイクロホンによって集音される、車両の走行音といった背景雑音により、通話相手が話者の声を聞き取り難くなったり、あるいは、音声認識の精度が低下する。そこで、集音された音声信号を周波数解析することで、音声信号に含まれる雑音成分を推定し、音声信号から雑音成分を除去したり、あるいは、雑音成分を低減させる音声処理が利用されている。このような音声処理では、音声信号は、オーバーラップしながらフレーム単位に分割され、フレームごとに、例えば、ハニング窓といった窓関数が乗じられた後、直交変換されて周波数スペクトルが得られる。そしてその周波数スペクトルに対して雑音除去などの信号処理が行われて、補正された周波数スペクトルが得られる。そして、その補正された周波数スペクトルに対して逆直交変換が行われることで、フレーム単位の補正された音声信号が求められ、その補正された音声信号を含むフレーム同士をオーバーラップしながら加算することで、最終的な補正音声信号が得られる。
しかし、各フレームに対する信号処理の結果、補正された周波数スペクトルを逆直交変換することにより得られた補正音声信号では、フレームの端部での信号値がゼロにならず、連続するフレーム同士を加算したときに補正音声信号が不連続になることがある。このような場合、フレーム長に応じた周期的な雑音が、補正された音声信号に重畳されてしまう。その結果として、通話音声の品質が低下したり、音声認識の精度が低下するおそれがある。そこで、連続するフレーム同士がオーバーラップする割合を増加させるごとにフィルタ処理が実行された後の信号と任意の信号との類似度をそれぞれ算出し、類似度に基づいてオーバーラップする割合を設定する技術が提案されている(例えば、特許文献1を参照)。
特開2013−117639号公報
特許文献1に記載された技術では、オーバーラップする割合が、例えば、50%〜87.5%の割合に設定される。そしてオーバーラップする割合が高くなるほど、ある時点における補正後の音声信号を算出するために利用されるフレームの数が増える。そのため、フレーム端で信号がゼロにならないフレームがあっても、そのフレームの端部の信号が補正音声信号中に占める比率は低下するので、補正音声信号の品質劣化が抑制される。
しかしながら、オーバーラップする割合が高くなるほど、単位時間当たりのフレームの数が増加する。例えば、オーバーラップの割合が(100-(50/n))%(ただし、nは2の整数倍)に設定された場合の単位時間当たりのフレームの数は、オーバーラップの割合が50%のときのフレームの数のn倍になる。そして単位時間当たりのフレームの数が増えるほど、信号処理に要する演算量が増える。例えば、音声処理を車載機器または携帯電話機などに組み込まれたプロセッサで実行する場合、プロセッサの処理能力が限られるので、演算量が増えることは好ましくない。特に、直交変換及び逆直交変換は、相対的に演算量が多いので、直交変換及び逆直交変換の実行回数が増加することは好ましくない。
そこで本明細書は、一つの側面として、音声処理により生じる周期的な雑音を抑制しつつ、演算量の増加を抑制可能な音声処理装置を提供することを目的とする。
一つの実施形態によれば、音声処理装置が提供される。この音声処理装置は、音声信号を所定の時間長を持つフレーム単位で、かつ、時間的に連続する二つのフレームが所定の割合でオーバーラップするように分割する分割部と、フレームごとに、そのフレームの両端の信号を減衰させる第1の窓関数を乗じる第1窓掛部と、第1の窓関数が乗じられた各フレームを直交変換することにより、フレームごとに周波数スペクトルを算出する直交変換部と、フレームごとに、周波数スペクトルに対する信号処理を行って補正周波数スペクトルを算出する周波数信号処理部と、フレームごとに、補正周波数スペクトルを逆直交変換することにより、補正フレームを算出する逆直交変換部と、補正フレームごとに、補正フレームの両端の信号を減衰させる第2の窓関数を乗じる第2窓掛部と、第2の窓関数が乗じられた各補正フレームを、時間順に所定の割合でオーバーラップさせながら加算することにより、補正音声信号を算出する加算部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音声処理装置は、音声処理により生じる周期的な雑音を抑制しつつ、演算量の増加を抑制できる。
音声処理装置を有する音声入力システムの概略構成図である。 第1の実施形態による音声処理装置の概略構成図である。 (a)は、補正音声信号が不連続にならない場合の補正フレームの一例を示す図であり、(b)は、補正音声信号が不連続になる場合の補正フレームの一例を示す図である。 第1の実施形態による音声処理の動作フローチャートである。 (a)は、車両の走行雑音を含む音声信号に対して、各フレームに第1の窓関数、すなわち、ハニング窓のみを乗じて走行雑音を抑制した場合のパワースペクトルを示す図である。(b)は、車両の走行雑音を含む音声信号に対して、各フレームに第1の窓関数と第2の窓関数を乗じて走行雑音を抑制した場合のパワースペクトルを示す図である。 第2の実施形態による音声処理装置の概略構成図である。 第2の実施形態による音声処理の動作フローチャートである。 上記の何れかの実施形態またはその変形例による音声処理装置の各部の機能を実現するコンピュータプログラムが動作することにより、音声処理装置として動作するコンピュータの構成図である。
以下、図を参照しつつ、音声処理装置について説明する。
この音声処理装置は、時間的に連続するフレーム同士が一定の割合(例えば、フレーム長の50%)で重なるように音声信号をフレーム単位で分割し、フレームごとに、両端の信号を減衰させる窓関数を乗じてから、直交変換、周波数スペクトルに対する信号処理及び逆直交変換を実行する。その際、この音声処理装置は、逆直交変換によって得られた補正フレーム同士を一定の割合で重なるように加算することで、補正音声信号が不連続になるか否か判定する。そしてこの音声処理装置は、補正音声信号が不連続になると判定した場合、補正フレームにも、フレームの両端の信号を減衰させる窓関数を乗じてから、各補正フレームを加算する。これにより、この音声処理装置は、フレームのオーバーラップの割合を変えることなく、周波数スペクトルに対する信号処理に起因する周期的な雑音を抑制する。
図1は、音声処理装置が実装された音声入力システムの概略構成図である。本実施形態では、音声入力システム1は、例えば、車載のハンズフリーホンであり、マイクロホン2と、増幅器3と、アナログ/デジタル変換器4と、音声処理装置5と、通信インターフェース部6とを有する。
マイクロホン2は、音声入力部の一例であり、音声入力システム1の周囲の音を集音し、その音の強度に応じたアナログ音声信号を生成し、そのアナログ音声信号を増幅器3へ出力する。増幅器3は、そのアナログ音声信号を増幅した後、増幅されたアナログ音声信号をアナログ/デジタル変換器4へ出力する。アナログ/デジタル変換器4は、増幅されたアナログ音声信号を所定のサンプリング周期でサンプリングすることによりデジタル化された音声信号を生成する。そしてアナログ/デジタル変換器4は、デジタル化された音声信号を音声処理装置5へ出力する。なお、以下では、デジタル化された音声信号を、単に音声信号と呼ぶ。
この音声信号には、例えば、音声入力システム1を利用するユーザの声といった、集音対象となる信号成分の他に、背景の騒音といった雑音成分が含まれることがある。そこで、音声処理装置5は、例えば、デジタル信号プロセッサを有し、音声信号に含まれる雑音成分を抑圧することにより、補正音声信号を生成する。そして音声処理装置5は、補正音声信号を通信インターフェース部6へ出力する。なお、音声処理装置5が音声信号に対して実行する音声処理は、雑音成分の抑制に限られず、音声信号自体の増幅、雑音成分の抑制と信号成分の強調の組み合わせなどであってもよい。
通信インターフェース部6は、音声入力システム1を、携帯電話機といった他の機器と接続するための通信インターフェース回路を有する。通信インターフェース回路は、例えば、Bluetooth(登録商標)といった、音声信号の通信に利用可能な近距離無線通信規格に従って動作する回路、あるいは、universal serial bus(USB)といったシリアルバス規格に従って動作する回路とすることができる。そして通信インターフェース部6は、音声処理装置5から受け取った補正音声信号を他の機器へ送信する。
図2は、第1の実施形態による音声処理装置5の概略構成図である。音声処理装置5は、分割部10と、第1窓掛部11と、直交変換部12と、周波数信号処理部13と、逆直交変換部14と、第2窓掛部15と、加算部16と、不連続性判定部17とを有する。音声処理装置5が有するこれらの各部は、例えば、デジタル信号プロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。
分割部10は、音声信号を、連続する二つのフレームが所定の割合でオーバーラップするように、所定のフレーム長(例えば、数10msec)を持つフレーム単位に分割する。本実施形態では、分割部10は、連続する二つのフレームがフレーム長の1/2だけオーバーラップするように各フレームを設定する。分割部10は、各フレームを、時間順に、第1窓掛部11へ出力する。
第1窓掛部11は、フレームを受け取る度に、そのフレームに対して第1の窓関数を乗じる。第1の窓関数として、例えば、フレームの両端の値が減衰する窓関数が使用される。第1の窓関数は、例えば、次式で与えられる。
Figure 0006303340
ここで、Nはフレームに含まれるサンプル点の数であり、tは、フレームの先頭からのサンプル点の番号である。そしてiは、0<i≦1を満たす実数であり、不連続性判定部17からの指示により設定される。なお、補正音声信号が不連続性にならない場合には、iは1に設定される。すなわち、この場合には、第1の窓関数はハニング窓となる。一方、補正音声信号が不連続性になる場合には、iは、0<i<1を満たす値、例えば、0.5に設定される。すなわち、補正音声信号が不連続になる場合の第1の窓関数によるフレームの信号の減衰量は、補正音声信号が不連続にならない場合の第1の窓関数によるフレームの信号の減衰量よりも少なくなる。これは、補正音声信号が不連続になる場合には、第2の窓関数によって補正フレームの信号が減衰させられるためである。
第1窓掛部11は、第1の窓関数を乗じたフレームを直交変換部12及び不連続性判定部17へ出力する。
直交変換部12は、第1の窓関数が乗じられたフレームを受け取る度に、そのフレームを直交変換することで、そのフレームの周波数スペクトルを求める。周波数スペクトルは、複数の周波数帯域のそれぞれについての周波数信号を含み、各周波数信号は、振幅成分と位相成分とで表される。直交変換部12は、例えば、直交変換処理として、高速フーリエ変換(Fast Fourier Transform, FFT)、または修正離散コサイン変換(Modified Discrete Cosine Transform, MDCT)を使用する。
直交変換部12は、フレームごとに、周波数スペクトルを周波数信号処理部13へ出力する。
周波数信号処理部13は、フレームの周波数スペクトルを受け取る度に、その周波数スペクトルに対する信号処理を実行することで、補正周波数スペクトルを求める。例えば、周波数信号処理部13は、各周波数帯域について、周波数信号に含まれる雑音成分を推定し、その雑音成分を周波数信号から減じることで、補正周波数スペクトルを求めてもよい。この場合、周波数信号処理部13は、例えば、過去の所定数のフレームに基づいて推定された周波数帯域ごとの雑音成分を表す雑音モデルを、最新のフレームである現フレームの周波数スペクトルに基づいて更新する。これにより、周波数信号処理部13は、現フレームにおける各周波数帯域の雑音成分を推定する。
具体的には、周波数信号処理部13は、フレームごとに、各周波数帯域の周波数信号の振幅成分の絶対値の平均値を算出する。周波数信号処理部13は、現フレームの周波数信号の振幅成分の絶対値の平均値と、雑音成分の上限に相当する閾値とを比較する。そして周波数信号処理部13は、平均値が閾値未満である場合、各周波数帯域について、過去のフレームにおける雑音成分と現フレームの振幅成分の絶対値とを、忘却係数αを用いて加重平均することにより、雑音モデルを更新する。なお、現フレームの振幅成分の絶対値に対して乗じられる忘却係数αは、例えば、0.01〜0.1の何れかの値に設定される。一方、過去のフレームにおける雑音成分には、(1-α)が乗じられる。
また、現フレームの振幅成分の絶対値の平均値が閾値以上である場合、現フレームには、雑音以外の信号成分が含まれると推定されるので、周波数信号処理部13は、忘却係数αを、例えば、0.0001のように非常に小さい値にする。
周波数信号処理部13は、現フレームの各周波数帯域について、周波数信号の振幅成分から雑音成分を減じて得られる振幅成分と元の周波数信号の位相成分を統合することで、雑音成分が抑制された補正周波数スペクトルを求める。なお、周波数信号処理部13は、周波数信号の振幅成分から雑音成分を減じて得られる振幅成分に、所定のゲインを乗じてから、位相成分と統合してもよい。
周波数信号処理部13は、フレームの補正周波数スペクトルを求める度に、その補正周波数スペクトルを逆直交変換部14へ出力する。
なお、周波数信号処理部13は、周波数スペクトルに対して、雑音を抑制したり、音声信号に含まれる信号成分を強調する他の様々な信号処理の何れかを実施することで、補正周波数スペクトルを求めてもよい。例えば、周波数信号処理部13は、各周波数帯域の周波数信号に、残響を抑制する伝達関数を乗じることで補正周波数スペクトルを求めてもよい。
逆直交変換部14は、補正周波数スペクトルを受け取る度に、その補正周波数スペクトルを逆直交変換して時間領域の信号に変換することにより、フレーム単位の補正音声信号を含む補正フレームを得る。なお、この逆直交変換は、直交変換部12により行われる直交変換の逆変換である。
逆直交変換部14は、補正フレームを求める度に、その補正フレームを第2窓掛部15及び不連続性判定部17へ出力する。
第2窓掛部15は、補正フレームを逆直交変換部14から受け取る度に、その補正フレームに対して第2の窓関数を乗じる。第2の窓関数は、例えば、次式で与えられる。
Figure 0006303340
ここで、Nはフレームに含まれるサンプル点の数であり、tは、フレームの先頭からのサンプル点の番号である。そしてiは、0<i≦1の間の実数であり、不連続性判定部17からの指示により設定される。本実施形態では、(1)式及び(2)式から明らかなように、第1の窓関数と第2の窓関数を乗じることにより、ハニング窓となる。そのため、互いにオーバーラップする連続する補正フレーム同士を加算して得られる補正音声信号の歪みが抑制される。なお、連続する二つの補正フレームを加算しても補正音声信号が不連続にならない、すなわち、補正音声信号の連続性が保たれる場合には、iは1に設定される。この場合には、wB(t)は、全てのtに対して1となる。すなわち、第2窓掛部15は、補正フレームの補正音声信号を減衰させない。一方、連続する二つの補正フレームを加算することで補正音声信号が不連続になる場合には、iは、0<i<1を満たす値、例えば、0.5に設定される。したがって、この場合には、第2の窓関数は、補正フレームの両端の補正音声信号を減衰させる。
第2窓掛部15は、第2の窓関数を乗じた補正フレームを加算部16へ出力する。
加算部16は、補正フレームを第2窓掛部15から受け取る度に、その補正フレームを、一つ前の補正フレームに対して、そのオーバーラップの割合、例えば、フレーム長の1/2だけずらして加算することにより、連続する二つの補正フレームを加算する。これにより、加算部16は、補正音声信号を得る。そして加算部16は、補正音声信号を出力する。
不連続性判定部17は、補正フレームを逆直交変換部14から受け取ると、連続する二つの補正フレームの加算により、補正音声信号が不連続になるか否か判定する。
図3(a)は、補正音声信号が不連続にならない場合の補正フレームの一例を示す図であり、(b)は、補正音声信号が不連続になる場合の補正フレームの一例を示す図である。図3(a)及び図3(b)において、横軸は時間を表し、縦軸は信号強度を表す。図3(a)に示された補正フレームの補正音声信号300の振幅は、ほぼ、第1の窓関数310以下となっており、補正フレームの両端においてその信号値の絶対値が0などの非常に小さな値になっている。そのため、連続する補正フレーム同士を加算しても、補正音声信号の連続性は保たれる。
一方、図3(b)に示される例では、補正音声信号301の振幅は、補正フレームの両端付近において、第1の窓関数310よりも大きくなっており、補正フレームの両端で補正音声信号301は0などの非常に小さな値にならない。元々、フレームの両端の信号値の絶対値が0などの非常に小さな値になる第1の窓関数をフレームに乗じることで、連続するフレーム同士のオーバーラップによる補正音声信号の歪みが抑制されている。そのため、補正フレームの端部の信号値が第1の窓関数よりも大きくなると、連続するフレーム同士を加算したときに、その端部に相当する付近において、補正音声信号の振幅が大きくなり過ぎ、補正音声信号が不連続となる。
そこで、不連続性判定部17は、例えば、補正フレームの両端それぞれの所定の区間に含まれる、補正音声信号の強度の平均値を算出する。そして不連続性判定部17は、その平均値が所定の閾値よりも高い場合、連続する二つの補正フレームの加算により補正音声信号が不連続になると判定する。一方、その平均値が所定の閾値以下であれば、不連続性判定部17は、連続する二つの補正フレームを加算しても補正音声信号は不連続にならないと判定する。なお、所定の区間は、例えば、それぞれ、フレーム端から、フレーム長の1/8〜1/4の長さの区間とすることができる。また所定の閾値は、例えば、その所定の区間における、第1の窓関数の平均値とすることができる。
また、連続する二つの補正フレームの加算により補正音声信号が不連続になる場合、第1の窓関数が乗じられ、かつ、直交変換される前のフレームと、そのフレームから算出された補正フレーム間の相関性が低くなる。そこで、不連続性判定部17は、例えば、第1の窓関数が乗じられたL番目のフレームとL番目の補正フレーム間の相関値r(L)を次式に従って算出してもよい。
Figure 0006303340
ここで、xL(t)及びyL(t)は、それぞれ、第1の窓関数が乗じられたフレームのサンプル点t(t=1,2,...,N)の音声信号値、補正フレームのサンプル点tの補正音声信号値を表す。
不連続性判定部17は、相関値r(L)が、閾値Th未満の場合、連続する二つの補正フレームの加算により補正音声信号が不連続になると判定する。閾値Thは、補正音声信号が不連続になる場合の相関値の上限値、例えば、0.5に設定される。
なお、連続する二つの補正フレームの加算により補正音声信号が不連続になる主な原因は、入力される音声信号ではなく、周波数信号処理部13による信号処理にある。そのため、ある補正フレームと連続する補正フレームとの加算で補正音声信号が不連続になる場合、それ以降のフレームに関しても、周波数信号処理部13による信号処理の内容が変わらない限り、補正音声信号が不連続になる可能性が高い。そこで、不連続性判定部17は、一旦、補正音声信号が不連続になると判定した場合、一定間隔ごとに、その判定を行うようにしてもよい。一定間隔は、例えば、0.5秒、1秒、あるいは2秒に設定される。これにより、不連続性判定部17は、その不連続性の判定処理の実行回数を減らせる。
一方、不連続性判定部17は、例えば、補正音声信号の連続性が保たれている間、補正フレームを逆直交変換部14から受け取る度に、補正音声信号が不連続になるか否か判定してもよい。
不連続性判定部17は、補正音声信号が不連続になるか否かの判定結果に応じて、第1窓掛部11により使用される第1の窓関数及び第2窓掛部15により使用される窓関数を制御する。
本実施形態では、不連続性判定部17は、L番目の補正フレームと連続する補正フレームの加算で補正音声信号が不連続になると判定すると、第1窓掛部11に対して、(L+1)番目以降のフレームに対してハニング窓を分割することを指示する。すなわち、不連続性判定部17は、(L+1)番目以降のフレームに対して用いられる第1の窓関数の変数iを1未満の値、例えば、0.5に設定することを指示する。また不連続性判定部17は、第2窓掛部15に対して、(L+1)番目以降の補正フレームに対して適用する第2の窓関数として、補正フレームの両端の信号を減衰させる窓関数を用いることを指示する。すなわち、不連続性判定部17は、(L+1)番目以降の補正フレームに対して用いられる第2の窓関数の変数iを1未満の値、例えば、0.5に設定することを指示する。
一方、不連続性判定部17は、L番目の補正フレームと連続する補正フレームを加算しても補正音声信号が不連続にならないと判定すると、第1窓掛部11に対して、(L+1)番目以降のフレームに対してハニング窓を適用することを指示する。すなわち、不連続性判定部17は、(L+1)番目以降のフレームに対して用いられる第1の窓関数の変数iを1に設定することを指示する。また不連続性判定部17は、第2窓掛部15に対して、(L+1)番目以降の補正フレームに対して、信号を減衰させずにそのまま出力する第2の窓関数を用いることを指示する。すなわち、不連続性判定部17は、(L+1)番目以降のフレームに対して用いられる第2の窓関数の変数iを1に設定することを指示する。
図4は、第1の実施形態による音声処理の動作フローチャートである。
分割部10は、音声信号を、連続する二つのフレームがフレーム長の所定の割合、例えば1/2だけオーバーラップするように、フレーム単位に分割する(ステップS101)。分割部10は、各フレームを、第1窓掛部11へ順次出力する。
第1窓掛部11は、現フレーム、すなわち、最新のフレームに第1の窓関数を乗じる(ステップS102)。第1窓掛部11は、第1の窓関数が乗じられた現フレームを、直交変換部12及び不連続性判定部17に出力する。
直交変換部12は、第1の窓関数が乗じられた現フレームを直交変換することにより、現フレームについての周波数スペクトルを算出する(ステップS103)。そして直交変換部12は、周波数スペクトルを周波数信号処理部13へ出力する。周波数信号処理部13は、雑音抑制といった音声信号処理を、現フレームの周波数スペクトルに対して実行することで、補正周波数スペクトルを得る(ステップS104)。周波数信号処理部13は、補正周波数スペクトルを逆直交変換部14へ出力する。
逆直交変換部14は、補正周波数スペクトルに対して逆直交変換を実行して時間領域の信号に変換することにより、現フレームの補正フレームである現補正フレームを得る(ステップS105)。そして逆直交変換部14は、現補正フレームを第2窓掛部15及び不連続性判定部17へ出力する。
第2窓掛部15は、現補正フレームに第2の窓関数を乗じる(ステップS106)。そして第2窓掛部15は、第2の窓関数が乗じられた現補正フレームを加算部16へ出力する。加算部16は、第2の窓関数が乗じられた現補正フレームを、一つ前の補正フレームに対してフレーム長の1/2だけずらして、その現補正フレームの音声信号を一つ前の補正フレームの音声信号に加算することで補正音声信号を得る(ステップS107)。
一方、不連続性判定部17は、現補正フレームと連続する補正フレームの加算により補正音声信号が不連続になるか否か判定する(ステップS108)。
不連続性判定部17は、現補正フレームと連続する補正フレームの加算により補正音声信号が不連続になると判定した場合(ステップS108−Yes)、次フレーム以降について、第1窓掛部11にハニング窓を分割することを指示する。また不連続性判定部17は、第2窓掛部15に、分割されたハニング窓を第2の窓関数として適用することを指示する(ステップS109)。
一方、不連続性判定部17は、現補正フレームと連続する補正フレームを加算しても補正音声信号の連続性が保たれると判定した場合(ステップS108−No)、次フレーム以降について、第1窓掛部11に、第1の窓関数をハニング窓そのものとすることを指示する。また不連続性判定部17は、第2窓掛部15に、第2の窓関数を補正フレーム全体を減衰させない関数とすることを指示する(ステップS110)。
ステップS109またはS110の後、音声処理装置5は、次のフレームを現フレームとして、ステップS102以降の処理を繰り返す。
図5(a)は、車両の走行雑音を含む音声信号に対して、直交変換前に、各フレームにハニング窓のみを乗じて走行雑音を抑制した場合のパワースペクトル500を示す図である。一方、図5(b)は、車両の走行雑音を含む音声信号に対して、各フレームにi=0.5とした場合の第1の窓関数と第2の窓関数を乗じて走行雑音を抑制した場合のパワースペクトル510を示す図である。図5(a)及び図5(b)のそれぞれにおいて、横軸は周波数を表し、縦軸はパワースペクトルの強度[dB]を表す。なお、この例では、周波数信号処理の対象となるフレームに含まれるサンプル点数は32であり、連続する二つのフレーム間のオーバーラップの割合は50%である。パワースペクトル500に示されるように、フレームにハニング窓しか乗じない場合には、周期的なピークが16個表れており、スペクトルが不連続になっている。このことから、補正音声信号が不連続になり、フレーム長に応じた周期的な雑音が補正音声信号に含まれていることが分かる。一方、パワースペクトル510に示されるように、逆直交変換後のフレームに第2の窓関数を乗じることで、周期的なピークが抑制されている。
以上に説明してきたように、この音声処理装置は、フレームごとの周波数信号に対する信号処理により得られる補正フレーム同士の加算により補正音声信号が不連続になるときに、補正フレームに再度窓関数を乗じる。これにより、この音声処理装置は、逆直交変換により得られたフレームの両端付近の補正音声信号の強度を低下させることができる。したがって、この音声処理装置は、補正音声信号の不連続性に起因する、周期的な雑音を抑制するために、フレーム間のオーバラップの割合を増やさなくてもよいので、周期的な雑音を抑制しつつ、演算量の増加を抑制できる。
次に、第2の実施形態による音声処理装置について説明する。この音声処理装置は、現フレームに対する、補正音声信号が不連続になるか否かの判定結果が一つ前のフレームに対するその判定結果と異なる場合、現フレームについての判定結果に応じて変更された第1及び第2の窓関数を現フレームにも適用する。
図6は、第2の実施形態による音声処理装置51の概略構成図である。音声処理装置51は、分割部10と、第1窓掛部11と、直交変換部12と、周波数信号処理部13と、逆直交変換部14と、第2窓掛部15と、加算部16と、不連続性判定部17と、バッファ18とを有する。
図6において、音声処理装置51の各構成要素には、図2に示した音声処理装置5の対応する構成要素の参照番号と同じ参照番号を付した。
第2の実施形態による音声処理装置51は、第1の実施形態による音声処理装置5と比較して、バッファ18を有する点で異なる。そこで以下では、バッファ18及びその関連部分について説明する。音声処理装置51の他の構成要素については、第1の実施形態の対応する構成要素の説明を参照されたい。
バッファ18は、例えば、揮発性の半導体メモリを有する。そして、分割部10は、フレームを生成する度に、そのフレームをバッファ18に記憶する。そして第1窓掛部11は、バッファ18から時間順にフレームを読み出し、読み出したフレームに第1の窓関数を乗じる。
また、不連続性判定部17による、現フレームについての補正音声信号の不連続性についての判定結果が、一つ前のフレームについての判定結果と異なると、第1窓掛部11及び第2窓掛部15により使用される窓関数が変更される。そこで第1窓掛部11は、バッファ18から現フレームの音声信号を再度読み出す。そして第1窓掛部11は、現フレームに対して変更後の第1の窓関数を乗じる。また、直交変換部12、周波数信号処理部13及び逆直交変換部14は、変更後の第1の窓関数が乗じられた現フレームに対して再処理を実行する。そして第2窓掛部15も、変更後の第2の窓関数を、再処理された現補正フレームに対して乗じる。そして加算部16は、変更後の第1及び第2の窓関数が乗じられた現補正フレームを、一つ前の補正フレームに対して、所定のオーバーラップ割合だけずらして加算する。
図7は、第2の実施形態による音声処理の動作フローチャートである。音声処理装置51は、以下の動作フローチャートに従って、フレームごとに音声処理を実行する。なお、図7に示された動作フローチャートにおける、ステップS202〜S209は、図4に示された動作フローチャートのステップS102〜S106及びS108〜S110と同様である。そのため、以下では、ステップS201及びS210〜S212について説明する。
分割部10は、音声信号を、連続する二つのフレームが、所定の割合、例えば、フレーム長の1/2だけオーバーラップするように、フレーム単位に分割する。そして分割部10は、各フレームをバッファ18に記憶する(ステップS201)。そして音声処理装置51は、現フレームに対して、ステップS203〜S209の処理を実行する。
その後、不連続性判定部17は、適用される各窓関数に変更が有るか否か判定する(ステップS210)。なお、上記のように、現補正フレームに対する不連続性の判定結果が、一つ前の補正フレームに対する不連続性の判定結果と異なる場合に、適用される各窓関数が変更される。適用される各窓関数に変更がある場合(ステップS210−Yes)、不連続性判定部17は、適用される窓関数が変更されることを第1窓掛部11及び加算部16へ通知する。この場合、加算部16は、現補正フレームを破棄する。また、第1窓掛部11、直交変換部12、周波数信号処理部13、逆直交変換部14及び第2窓掛部15は、変更後の窓関数を用いて、現フレームを再処理して、再度補正フレームを算出する(ステップS211)。
ステップS211の後、加算部16は、現補正フレームを、一つ前の補正フレームに対してフレーム長の1/2だけずらして現補正フレームの補正音声信号を一つ前の補正フレームの補正音声信号に加算することで補正音声信号を得る(ステップS212)。なお、ステップS201にて、適用される各窓関数に変更がない場合、すなわち、現補正フレームに対する不連続性の判定結果が、一つ前の補正フレームに対する不連続性の判定結果と同一の場合(ステップS210−No)も、ステップS212の処理が行われる。
ステップS212の後、音声処理装置51は、バッファ18から現フレームを消去して、ステップS202以降の処理を繰り返す。
第2の実施形態による音声処理装置は、窓関数を変更する必要が生じたフレームから、変更後の窓関数を用いて処理できる。そのため、この音声処理装置は、補正音声信号の不連続性に起因する雑音をより早いフレームから抑制できる。したがって、例えば、処理後の音声信号が音声認識処理に利用される場合のように、瞬間的な雑音が悪影響を及ぼす可能性がある用途にも、この音声処理装置は、好適に使用できる。
変形例によれば、不連続性判定部17は省略されてもよい。この場合には、第1窓掛部11及び第2窓掛部15は、第1の窓関数及び第2の窓関数として、それぞれ、分割されたハニング窓、すなわち、iが0<i<1の条件を満たすときの(1)式及び(2)式を常に用いればよい。特に、フレームに含まれるサンプル点数が少ない場合、例えば、サンプル点数が16〜32である場合には、補正音声信号の不連続性に起因する周期的な雑音が生じると、雑音の周期が短いので、その雑音は、補正音声信号の音質を著しく劣化させる。そこでこの変形例による音声処理装置は、各補正フレームに対して常にフレーム端近傍の信号を減衰させる窓関数を乗じることで、不連続性に起因する周期的な雑音を常に抑制できる。
また、他の変形例によれば、第2の窓関数として、補正フレームの両端の信号を減衰させる窓関数が適用される場合、フレームごとに、第1の窓関数と第2の窓関数の比率が調節されてもよい。例えば、フレームの両端近傍の信号強度が元々大きい場合には、そのフレームと連続するフレームとの間で、補正音声信号の不連続が生じ易い。そこで、不連続性判定部17は、例えば、フレームごとに、そのフレームの両端近傍の所定区間内の信号強度の絶対値の平均値を算出し、その平均値が高いほど、第1の窓関数による信号の減衰量を大きくし、第2の窓関数による信号の減衰量を小さくしてもよい。すなわち、(1)式及び(2)式において、フレームの両端近傍の所定区間内の信号強度の絶対値の平均値が高いほど、不連続性判定部17は、iを大きくする。そして例えば、その平均値が所定の閾値以上になると、不連続性判定部17は、i=0.75に設定する。
さらに他の変形例によれば、第1の窓関数と第2の窓関数の積が、フレーム長の所定の割合だけずらして加算すると略一定の値になる他の窓関数となるように、第1の窓関数と第2の窓関数は設定されてもよい。
なお、上記の各実施形態または変形例による音声処理装置は、ハンズフリーホン以外にも、携帯電話機、または拡声器など、他の音声入力システムにも適用できる。
さらに、上記の各実施形態または変形例による音声処理装置は、例えば、携帯電話機に実装され、他の装置により生成された音声信号を補正してもよい。この場合には、音声処理装置によって補正された音声信号は、音声処理装置が実装された装置が有するスピーカから再生される。
さらに、上記の各実施形態による音声処理装置の各部が有する機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。なお、この記録媒体には、搬送波は含まれない。
図8は、上記の何れかの実施形態またはその変形例による音声処理装置の各部の機能を実現するコンピュータプログラムが動作することにより、音声処理装置として動作するコンピュータの構成図である。
コンピュータ100は、ユーザインターフェース部101と、オーディオインターフェース部102と、通信インターフェース部103と、記憶部104と、記憶媒体アクセス装置105と、プロセッサ106とを有する。プロセッサ106は、ユーザインターフェース部101、オーディオインターフェース部102、通信インターフェース部103、記憶部104及び記憶媒体アクセス装置105と、例えば、バスを介して接続される。
ユーザインターフェース部101は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部101は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部101は、例えば、ユーザの操作に応じて、オーディオインターフェース部102を介して入力される音声信号に対する音声処理を開始する操作信号をプロセッサ106へ出力する。
オーディオインターフェース部102は、コンピュータ100に、マイクロホンなどの音声信号を生成する音声入力装置と接続するためのインターフェース回路を有する。そしてオーディオインターフェース部102は、音声入力装置から音声信号を取得して、その音声信号をプロセッサ106へ渡す。
通信インターフェース部103は、コンピュータ100を、イーサネット(登録商標)などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有する。そして、通信インターフェース部103は、プロセッサ106から受け取った、補正音声信号を含むデータストリームを通信ネットワークを介して他の機器へ出力する。また通信インターフェース部103は、通信ネットワークに接続された他の機器から、音声信号を含むデータストリームを取得し、そのデータストリームをプロセッサ106へ渡してもよい。
記憶部104は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部104は、プロセッサ106上で実行される、音声処理を実行するためのコンピュータプログラム、及びこれらの処理の途中または結果として生成されるデータを記憶する。
記憶媒体アクセス装置105は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体107にアクセスする装置である。記憶媒体アクセス装置105は、例えば、記憶媒体107に記憶されたプロセッサ106上で実行される、音声処理用のコンピュータプログラムを読み込み、プロセッサ106に渡す。
プロセッサ106は、上記の各実施形態の何れかまたは変形例による音声処理用コンピュータプログラムを実行することにより、オーディオインターフェース部102または通信インターフェース部103を介して受け取った音声信号を補正する。そしてプロセッサ106は、補正した音声信号を記憶部104に保存し、または通信インターフェース部103を介して他の機器へ出力する。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
音声信号を所定の時間長を持つフレーム単位で、かつ、時間的に連続する二つのフレームが所定の割合でオーバーラップするように分割する分割部と、
フレームごとに、該フレームの両端の信号を減衰させる第1の窓関数を乗じる第1窓掛部と、
前記第1の窓関数が乗じられた各フレームを直交変換することにより、前記フレームごとに周波数スペクトルを算出する直交変換部と、
前記フレームごとに、前記周波数スペクトルに対する信号処理を行って補正周波数スペクトルを算出する周波数信号処理部と、
前記フレームごとに、前記補正周波数スペクトルを逆直交変換することにより、補正フレームを算出する逆直交変換部と、
前記補正フレームごとに、該補正フレームの両端の信号を減衰させる第2の窓関数を乗じる第2窓掛部と、
前記第2の窓関数が乗じられた各補正フレームを、時間順に前記所定の割合でオーバーラップさせながら加算することにより、補正音声信号を算出する加算部と、
を有する音声処理装置。
(付記2)
前記第1の窓関数及び前記第2の窓関数は、前記第1の窓関数に前記第2の窓関数を乗じて得られる関数がハニング窓となるように設定される、付記1に記載の音声処理装置。
(付記3)
複数の前記フレームのうちの第1のフレームに対応する第1の補正フレームと時間的に連続する他の補正フレームとを加算することで前記補正音声信号が不連続になるか否か判定し、前記補正音声信号が不連続になる場合、前記第2の窓関数を、前記補正フレームの両端の信号を減衰させる関数に設定し、一方、前記補正音声信号が不連続にならない場合、前記第2の窓関数を前記補正フレーム全体の信号を減衰させない関数に設定し、かつ前記第1の窓関数による前記フレームに含まれる信号の減衰量が、前記補正音声信号が不連続になる場合における前記第1の窓関数による前記フレームに含まれる信号の減衰量よりも小さくなるように、前記第1の窓関数を設定する不連続性判定部をさらに有する、付記1または2に記載の音声処理装置。
(付記4)
バッファをさらに有し、
前記分割部は、前記第1のフレームを前記バッファに保存し、
前記第1窓掛部は、前記第1の補正フレームについての前記補正音声信号が不連続になるか否かの判定結果が、前記第1の補正フレームの直前の補正フレームに対する前記補正音声信号が不連続になるか否かの判定結果と異なる場合、前記バッファから前記第1のフレームを読み出し、該読み出した第1のフレームに、前記第1の補正フレームについての前記補正音声信号が不連続か否かの判定結果に応じて設定された前記第1の窓関数を乗じて再処理フレームを生成し、
前記直交変換部は、前記再処理フレームを直交変換して前記再処理フレームの周波数スペクトルを算出し、
前記周波数信号処理部は、前記再処理フレームの補正周波数スペクトルを算出し、
前記逆直交変換部は、前記再処理フレームの補正周波数スペクトルを逆直交変換することにより、再処理補正フレームを算出し、
前記第2窓掛部は、前記再処理補正フレームに、前記第1の補正フレームについての前記補正音声信号が不連続か否かの判定結果に応じて設定された前記第2の窓関数を乗じて再処理減衰フレームを算出し、
前記加算部は、前記直前の補正フレームに対して前記再処理減衰フレームを前記所定の割合でオーバーラップさせて加算することにより、前記補正音声信号を算出する、
付記3に記載の音声処理装置。
(付記5)
前記不連続性判定部は、前記第1の補正フレームと前記第1のフレーム間の相互相関値を算出し、該相互相関値が第1の閾値未満の場合に前記補正音声信号が不連続になると判定する、付記3または4に記載の音声処理装置。
(付記6)
前記不連続性判定部は、前記第1の補正フレームの両端のそれぞれの所定区間に含まれる信号の強度の絶対値の平均値を算出し、該平均値が第2の閾値よりも高い場合に前記補正音声信号が不連続になると判定する、付記3または4に記載の音声処理装置。
(付記7)
前記不連続性判定部は、前記第1の補正フレームについて前記補正音声信号が不連続になると判定した場合、前記第1のフレームよりも第2のフレームの両端のそれぞれの所定区間に含まれる信号の強度の絶対値の平均値を算出し、該平均値が高いほど、前記第1の窓関数による減衰量を前記第2の窓関数による減衰量よりも大きくする、付記3〜6の何れか一項に記載の音声処理装置。
(付記8)
音声信号を所定の時間長を持つフレーム単位で、かつ、時間的に連続する二つのフレームが所定の割合でオーバーラップするように分割し、
フレームごとに、該フレームの両端の信号を減衰させる第1の窓関数を乗じ、
前記第1の窓関数が乗じられた各フレームを直交変換することにより、前記フレームごとに周波数スペクトルを算出し、
前記フレームごとに、前記周波数スペクトルに対する信号処理を行って補正周波数スペクトルを算出し、
前記フレームごとに、前記補正周波数スペクトルを逆直交変換することにより、補正フレームを算出し、
前記補正フレームごとに、該補正フレームの両端の信号を減衰させる第2の窓関数を乗じ、
前記第2の窓関数が乗じられた各補正フレームを、時間順に前記所定の割合でオーバーラップさせながら加算することにより、補正音声信号を算出する、
ことを含む音声処理方法。
(付記9)
音声信号を所定の時間長を持つフレーム単位で、かつ、時間的に連続する二つのフレームが所定の割合でオーバーラップするように分割し、
フレームごとに、該フレームの両端の信号を減衰させる第1の窓関数を乗じ、
前記第1の窓関数が乗じられた各フレームを直交変換することにより、前記フレームごとに周波数スペクトルを算出し、
前記フレームごとに、前記周波数スペクトルに対する信号処理を行って補正周波数スペクトルを算出し、
前記フレームごとに、前記補正周波数スペクトルを逆直交変換することにより、補正フレームを算出し、
前記補正フレームごとに、該補正フレームの両端の信号を減衰させる第2の窓関数を乗じ、
前記第2の窓関数が乗じられた各補正フレームを、時間順に前記所定の割合でオーバーラップさせながら加算することにより、補正音声信号を算出する、
ことをコンピュータに実行させるための音声処理用コンピュータプログラム。
1 音声入力システム
2 マイクロホン
3 増幅器
4 アナログ/デジタル変換器
5、51 音声処理装置
6 通信インターフェース部
10 分割部
11 第1窓掛部
12 直交変換部
13 周波数信号処理部
14 逆直交変換部
15 第2窓掛部
16 加算部
17 不連続性判定部
18 バッファ
100 コンピュータ
101 ユーザインターフェース部
102 オーディオインターフェース部
103 通信インターフェース部
104 記憶部
105 記憶媒体アクセス装置
106 プロセッサ
107 記憶媒体

Claims (6)

  1. 音声信号を所定の時間長を持つフレーム単位で、かつ、時間的に連続する二つのフレームが所定の割合でオーバーラップするように分割する分割部と、
    フレームごとに、該フレームの両端の信号を減衰させる第1の窓関数を乗じる第1窓掛部と、
    前記第1の窓関数が乗じられた各フレームを直交変換することにより、前記フレームごとに周波数スペクトルを算出する直交変換部と、
    前記フレームごとに、前記周波数スペクトルに対する信号処理を行って補正周波数スペクトルを算出する周波数信号処理部と、
    前記フレームごとに、前記補正周波数スペクトルを逆直交変換することにより、補正フレームを算出する逆直交変換部と、
    前記補正フレームごとに、該補正フレームの両端の信号を減衰させる第2の窓関数を乗じる第2窓掛部と、
    前記第2の窓関数が乗じられた各補正フレームを、時間順に前記所定の割合でオーバーラップさせながら加算することにより、補正音声信号を算出する加算部と、
    複数の前記フレームのうちの第1のフレームに対応する第1の補正フレームと時間的に連続する他の補正フレームとを加算することで前記補正音声信号が不連続になるか否か判定し、前記補正音声信号が不連続になる場合、前記第2の窓関数を、前記補正フレームの両端の信号を減衰させる関数に設定し、一方、前記補正音声信号が不連続にならない場合、前記第2の窓関数を前記補正フレーム全体の信号を減衰させない関数に設定し、かつ前記第1の窓関数による前記フレームに含まれる信号の減衰量が、前記補正音声信号が不連続になる場合における前記第1の窓関数による前記フレームに含まれる信号の減衰量よりも小さくなるように、前記第1の窓関数を設定する不連続性判定部とを有し、
    前記第1の窓関数及び前記第2の窓関数は、前記第1の窓関数に前記第2の窓関数を乗じて得られる関数がハニング窓となるように設定される音声処理装置。
  2. バッファをさらに有し、
    前記分割部は、前記第1のフレームを前記バッファに保存し、
    前記第1窓掛部は、前記第1の補正フレームについての前記補正音声信号が不連続になるか否かの判定結果が、前記第1の補正フレームの直前の補正フレームに対する前記補正音声信号が不連続になるか否かの判定結果と異なる場合、前記バッファから前記第1のフレームを読み出し、該読み出した第1のフレームに、前記第1の補正フレームについての前記補正音声信号が不連続か否かの判定結果に応じて設定された前記第1の窓関数を乗じて再処理フレームを生成し、
    前記直交変換部は、前記再処理フレームを直交変換して前記再処理フレームの周波数スペクトルを算出し、
    前記周波数信号処理部は、前記再処理フレームの補正周波数スペクトルを算出し、
    前記逆直交変換部は、前記再処理フレームの補正周波数スペクトルを逆直交変換することにより、再処理補正フレームを算出し、
    前記第2窓掛部は、前記再処理補正フレームに、前記第1の補正フレームについての前記補正音声信号が不連続か否かの判定結果に応じて設定された前記第2の窓関数を乗じて再処理減衰フレームを算出し、
    前記加算部は、前記直前の補正フレームに対して前記再処理減衰フレームを前記所定の割合でオーバーラップさせて加算することにより、前記補正音声信号を算出する、
    請求項に記載の音声処理装置。
  3. 前記不連続性判定部は、前記第1の補正フレームと前記第1のフレーム間の相互相関値を算出し、該相互相関値が第1の閾値未満の場合に前記補正音声信号が不連続になると判定する、請求項1または2に記載の音声処理装置。
  4. 前記不連続性判定部は、前記第1の補正フレームの両端のそれぞれの所定区間に含まれる信号の強度の絶対値の平均値を算出し、該平均値が第2の閾値よりも高い場合に前記補正音声信号が不連続になると判定する、請求項1または2に記載の音声処理装置。
  5. 音声信号を所定の時間長を持つフレーム単位で、かつ、時間的に連続する二つのフレームが所定の割合でオーバーラップするように分割し、
    フレームごとに、該フレームの両端の信号を減衰させる第1の窓関数を乗じ、
    前記第1の窓関数が乗じられた各フレームを直交変換することにより、前記フレームごとに周波数スペクトルを算出し、
    前記フレームごとに、前記周波数スペクトルに対する信号処理を行って補正周波数スペクトルを算出し、
    前記フレームごとに、前記補正周波数スペクトルを逆直交変換することにより、補正フレームを算出し、
    前記補正フレームごとに、該補正フレームの両端の信号を減衰させる第2の窓関数を乗じ、
    前記第2の窓関数が乗じられた各補正フレームを、時間順に前記所定の割合でオーバーラップさせながら加算することにより、補正音声信号を算出し、
    複数の前記フレームのうちの第1のフレームに対応する第1の補正フレームと時間的に連続する他の補正フレームとを加算することで前記補正音声信号が不連続になるか否か判定し、前記補正音声信号が不連続になる場合、前記第2の窓関数を、前記補正フレームの両端の信号を減衰させる関数に設定し、一方、前記補正音声信号が不連続にならない場合、前記第2の窓関数を前記補正フレーム全体の信号を減衰させない関数に設定し、かつ前記第1の窓関数による前記フレームに含まれる信号の減衰量が、前記補正音声信号が不連続になる場合における前記第1の窓関数による前記フレームに含まれる信号の減衰量よりも小さくなるように、前記第1の窓関数を設定する、
    ことを含み、
    前記第1の窓関数及び前記第2の窓関数は、前記第1の窓関数に前記第2の窓関数を乗じて得られる関数がハニング窓となるように設定される音声処理方法。
  6. 音声信号を所定の時間長を持つフレーム単位で、かつ、時間的に連続する二つのフレームが所定の割合でオーバーラップするように分割し、
    フレームごとに、該フレームの両端の信号を減衰させる第1の窓関数を乗じ、
    前記第1の窓関数が乗じられた各フレームを直交変換することにより、前記フレームごとに周波数スペクトルを算出し、
    前記フレームごとに、前記周波数スペクトルに対する信号処理を行って補正周波数スペクトルを算出し、
    前記フレームごとに、前記補正周波数スペクトルを逆直交変換することにより、補正フレームを算出し、
    前記補正フレームごとに、該補正フレームの両端の信号を減衰させる第2の窓関数を乗じ、
    前記第2の窓関数が乗じられた各補正フレームを、時間順に前記所定の割合でオーバーラップさせながら加算することにより、補正音声信号を算出し、
    複数の前記フレームのうちの第1のフレームに対応する第1の補正フレームと時間的に連続する他の補正フレームとを加算することで前記補正音声信号が不連続になるか否か判定し、前記補正音声信号が不連続になる場合、前記第2の窓関数を、前記補正フレームの両端の信号を減衰させる関数に設定し、一方、前記補正音声信号が不連続にならない場合、前記第2の窓関数を前記補正フレーム全体の信号を減衰させない関数に設定し、かつ前記第1の窓関数による前記フレームに含まれる信号の減衰量が、前記補正音声信号が不連続になる場合における前記第1の窓関数による前記フレームに含まれる信号の減衰量よりも小さくなるように、前記第1の窓関数を設定する、
    ことをコンピュータに実行させ、
    前記第1の窓関数及び前記第2の窓関数、前記第1の窓関数に前記第2の窓関数を乗じて得られる関数がハニング窓となるように設定される、
    声処理用コンピュータプログラム。
JP2013180685A 2013-08-30 2013-08-30 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム Active JP6303340B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013180685A JP6303340B2 (ja) 2013-08-30 2013-08-30 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US14/323,151 US9343075B2 (en) 2013-08-30 2014-07-03 Voice processing apparatus and voice processing method
EP14177041.2A EP2849182B1 (en) 2013-08-30 2014-07-15 Voice processing apparatus and voice processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013180685A JP6303340B2 (ja) 2013-08-30 2013-08-30 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2015049354A JP2015049354A (ja) 2015-03-16
JP6303340B2 true JP6303340B2 (ja) 2018-04-04

Family

ID=51205231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013180685A Active JP6303340B2 (ja) 2013-08-30 2013-08-30 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム

Country Status (3)

Country Link
US (1) US9343075B2 (ja)
EP (1) EP2849182B1 (ja)
JP (1) JP6303340B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015206874A (ja) * 2014-04-18 2015-11-19 富士通株式会社 信号処理装置、信号処理方法、及び、プログラム
KR101619260B1 (ko) * 2014-11-10 2016-05-10 현대자동차 주식회사 차량 내 음성인식 장치 및 방법
JP6445417B2 (ja) * 2015-10-30 2018-12-26 日本電信電話株式会社 信号波形推定装置、信号波形推定方法、プログラム
CN106559569A (zh) * 2016-11-20 2017-04-05 广西大学 一种汽车综合人机信息交互***
CN109087632B (zh) * 2018-08-17 2023-06-06 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
TWI759591B (zh) * 2019-04-01 2022-04-01 威聯通科技股份有限公司 語音增強方法及系統
CN113129922B (zh) * 2021-04-21 2022-11-08 维沃移动通信有限公司 语音信号的处理方法和装置
WO2023148955A1 (ja) * 2022-02-07 2023-08-10 日本電信電話株式会社 時間窓生成装置、方法及びプログラム
CN117975991B (zh) * 2024-03-29 2024-07-02 华东交通大学 基于人工智能的数字人驱动方法及装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182042B1 (en) * 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US6502066B2 (en) * 1998-11-24 2002-12-31 Microsoft Corporation System for generating formant tracks by modifying formants synthesized from speech units
EP1099215B1 (en) * 1999-05-26 2005-02-23 Koninklijke Philips Electronics N.V. Audio signal transmission system
JP4095206B2 (ja) 1999-06-29 2008-06-04 ヤマハ株式会社 波形発生方法および装置
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
JP2003131689A (ja) * 2001-10-25 2003-05-09 Nec Corp ノイズ除去方法及び装置
JP3973488B2 (ja) 2002-05-27 2007-09-12 株式会社ケンウッド Ofdm信号の送信装置
CA2454296A1 (en) 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7587254B2 (en) * 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
JP5032314B2 (ja) 2005-06-23 2012-09-26 パナソニック株式会社 オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
US8010350B2 (en) * 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
WO2008022207A2 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Time-warping of decoded audio signal after packet loss
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
JP5018193B2 (ja) * 2007-04-06 2012-09-05 ヤマハ株式会社 雑音抑圧装置およびプログラム
JP5275612B2 (ja) * 2007-07-18 2013-08-28 国立大学法人 和歌山大学 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
JP2009033570A (ja) 2007-07-27 2009-02-12 Mitsubishi Electric Corp 受信装置
JP2010164859A (ja) * 2009-01-16 2010-07-29 Sony Corp オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム
JP2012078422A (ja) * 2010-09-30 2012-04-19 Roland Corp 音信号処理装置
JP5821584B2 (ja) 2011-12-02 2015-11-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理プログラム

Also Published As

Publication number Publication date
JP2015049354A (ja) 2015-03-16
EP2849182B1 (en) 2018-05-09
EP2849182A2 (en) 2015-03-18
US9343075B2 (en) 2016-05-17
US20150066487A1 (en) 2015-03-05
EP2849182A3 (en) 2015-03-25

Similar Documents

Publication Publication Date Title
JP6303340B2 (ja) 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
US9113241B2 (en) Noise removing apparatus and noise removing method
US10580428B2 (en) Audio noise estimation and filtering
JP6107151B2 (ja) 雑音抑圧装置、方法、及びプログラム
US8891780B2 (en) Microphone array device
JP5875609B2 (ja) 雑音抑圧装置
US10679641B2 (en) Noise suppression device and noise suppressing method
JP6156012B2 (ja) 音声処理装置及び音声処理用コンピュータプログラム
JPWO2012038998A1 (ja) 雑音抑圧装置
CN110970051A (zh) 语音数据采集方法、终端及可读存储介质
JP2008309955A (ja) ノイズサプレス装置
US9697848B2 (en) Noise suppression device and method of noise suppression
US10951978B2 (en) Output control of sounds from sources respectively positioned in priority and nonpriority directions
CN111785290A (zh) 麦克风阵列语音信号处理方法、装置、设备及存储介质
JP2017040752A (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
KR102012522B1 (ko) 방향성 음향 신호 처리 장치
JP2018063400A (ja) 音声処理装置及び音声処理プログラム
JP6559576B2 (ja) 雑音抑圧装置、雑音抑圧方法及びプログラム
JP2016039399A (ja) 突発音抑圧装置、方法及びプログラム
JP2017067990A (ja) 音声処理装置、プログラム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170703

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180111

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180219

R150 Certificate of patent or registration of utility model

Ref document number: 6303340

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150