JP5530812B2 - 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム - Google Patents

音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム Download PDF

Info

Publication number
JP5530812B2
JP5530812B2 JP2010128443A JP2010128443A JP5530812B2 JP 5530812 B2 JP5530812 B2 JP 5530812B2 JP 2010128443 A JP2010128443 A JP 2010128443A JP 2010128443 A JP2010128443 A JP 2010128443A JP 5530812 B2 JP5530812 B2 JP 5530812B2
Authority
JP
Japan
Prior art keywords
audio signal
pair
signal processing
spectrum
csp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010128443A
Other languages
English (en)
Other versions
JP2011253133A (ja
Inventor
治 市川
雅史 西村
Original Assignee
ニュアンス コミュニケーションズ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ,インコーポレイテッド filed Critical ニュアンス コミュニケーションズ,インコーポレイテッド
Priority to JP2010128443A priority Critical patent/JP5530812B2/ja
Priority to US13/150,804 priority patent/US8566084B2/en
Publication of JP2011253133A publication Critical patent/JP2011253133A/ja
Application granted granted Critical
Publication of JP5530812B2 publication Critical patent/JP5530812B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)

Description

本発明は、音声信号に含まれる「位相」の情報を利用して、音声特徴量を出力するための音声信号処理を行う技術に関する。
音声認識装置の耐雑音性能は継続的に改善されているが、厳しい条件下での認識精度は未だ不十分である。例えば、自動車における高速走行や空調利用などSN比が極めて低い条件下や、音楽や雑踏などの非定常な雑音環境下での認識率は大変低いことが知られている。雑音環境での音声認識を改善するためにこれまで多くの手法が検討されており、その1つに、雑音に強い特徴量の利用がある。
従来の音声認識では、ケプストラムなど音声の持つスペクトル強度に由来する特徴量が主に使用されてきた。その際音声信号に含まれる「位相」の情報は捨てられてきた。
非特許文献1は、そのように従来捨てられてきた位相情報を音声認識で利用する方法を開示する。より具体的には、非特許文献1は、位相情報を長時間分析することにより得られる位相スペクトルを特徴量として利用することにより、音声認識の性能の向上を図る技術を開示する。
また、特許文献1は、音響特徴量の持続性を評価することにより音声区間の決定を行う技術を開示する。より具体的には、特許文献1は、調波構造の持続性を、フレーム間のスペクトル強度外形の相関値により評価して音声区間の決定を行う手法を開示する。
特許第3744934号公報
末吉 英一、外2名、「長時間位相スペクトルの音声認識への利用」、日本音響学会講演論文集、2009年3月、P.161−164
非特許文献1は、その提案する位相スペクトルに音声認識能力があることを実験により示す。しかしながら非特許文献1は、雑音環境下の話者認識については、提案する位相スペクトルの特徴量は、MFCCと組み合わせてみても20dBというSNRが高めの条件下において僅かに効果を得ることができることを示すのみである。
一方、特許文献1では、時間的に連続するフレームにおいて調波構造が連続しているという性質を、音声認識に利用することを開示する。しかしながらこの性質の利用について特許文献1が開示するのは、調波構造のみを残したパワースペクトル成分のフレーム間での相関性を評価することにより、母音の区間であるか否かを評価して精度よく有声区間を抽出する技術に留まる。調波構造のみを残したパワースペクトルは、位相情報を含まず、また、パワースペクトル成分の微細な形状は一般に雑音の影響を受けやすいという問題がある。
この発明は、上記の問題点を解決するためになされたものであって、音声信号に含まれる位相情報を利用して、SN比が極めて低い条件下においても音声認識の精度を高めることが可能な雑音に強い特徴量を抽出する技術を提供することを目的とする。
音声信号に含まれる位相については、時間―周波数空間において、母音(有声音)部分は位相が安定しているという性質がある。そこで、本願発明者は、上記課題を解決するために、非特許文献1に開示されるように位相情報をそのまま利用するのではなく、位相の安定性を特徴量として利用するというアイデアに想到した。
即ち、上記課題を解決するために、本発明の第1の態様においては、入力された音声信号を、隣接するフレームのペアが前記音声信号の1周期以上のフレーム・シフト幅を有しかつ一定以上のオーバーラップ部分を有するように、フレーム単位に分割するフレーム分割手段と、前記フレーム毎に離散フーリエ変換を行って前記音声信号のスペクトルを出力する離散フーリエ変換手段と、前記隣接するフレームのペア毎に、該ペアのスペクトルのCross−Power SpectrumPhase(CSP)係数を算出するCSP係数算出手段と、前記隣接するフレームのペア毎に、音声の波が一周期以上ずれる所定の探索範囲内で前記CSP係数の最大値を探索して取得する位相情報取得部と、前記フレームの順に従って並べた前記CSP係数の最大値の時系列データを、音声特徴量として生成する時系列データ生成部とを含む音声処理システムを提供する。
好ましくは、前記所定の探索範囲は、前記隣接するフレームのペアのうち時間的に後のフレームのフレーム始まり位置を基準としてその前後L/2の範囲であり、Lは、想定される人の音声の波のうち最小の基本周波数100Hzを有する波の周期である。
また好ましくは、前記フレーム・シフト幅は、想定される人の音声の波のうち最小の基本周波数100Hzを有する波が入る幅である10msecである。
また好ましくは、上記音声処理システムは、前記隣接するフレームのペア毎に、該ペアに対して求められた前記CSP係数を前記所定の探索範囲内で最大にするインデックスの値に基づいて、前記ペアの両スペクトルを、位相を揃えて加算する母音強調処理手段と、前記母音強調処理手段の出力を入力として受け取り、該入力から音声特徴量を抽出し、該音声特徴量を前記CSP係数の最大値の時系列データと共に音声特徴ベクトルとして出力する特徴ベクト算出手段とを更に含む。
また好ましくは、上記音声処理システムは、前記隣接するフレームのペア毎に、該ペアに対して求められた前記CSP係数を前記所定の探索範囲内で最大にするインデックスの値に基づいて、前記ペアの両スペクトルの位相のずれを最小にする位置において比較した場合に両スペクトルの符号が一致しない周波数binのスペクトルを弱めるマスカーを算出し、該マスカーを前記ペアの一方のスペクトルに適用するマスク処理手段と、前記マスク処理手段の出力を入力として受け取り、該入力から音声特徴量を抽出し、該音声特徴量を前記CSP係数の最大値の時系列データと共に音声特徴ベクトルとして出力する特徴ベクトル算出手段とを更に含む。
なお、母音強調処理手段又はマスク処理手段からの出力を入力として受け取る特徴ベクトル算出手段は、該入力から、その算出方法が既知である、例えば、MFCCなどのケプストラム係数やそのデルタ(1次変化量)及びデルタデルタ(2次変化量)の組み合わせ、またそれらの線形変換であるLDA(Linear Discriminant Analysis)など、任意の特徴量を抽出してよい。
以上、音声処理システムとして本発明を説明したが、本発明は、プロセッサと記憶領域を備えたコンピュータの計算処理によって音声特徴量を抽出するための音声信号処理方法、及びプロセッサと記憶領域を備えたコンピュータにおいて実行される、音声特徴量を抽出するための音声信号処理プログラムとして把握することもできる。
本発明によれば、音声信号に含まれる母音部分の位相の安定性を特徴量として利用するので、該特徴量を利用した音声認識処理システムにおいて、SN比が極めて低い条件下においても音声認識の精度を高めることが可能となる。本発明のその他の効果については、各実施の形態の記載から理解される。
図1は、本発明の実施の形態による音声信号処理システムを実現するのに好適なコンピュータのハードウェア構成の一例を示した図である。 図2は、一般的な音声認識装置の構成の一例を示す。 図3は、本発明の実施形態に係る音声信号処理システム300の機能構成を示す。 図4は、フレームの分割方法を説明する図である。 図5(a)は、CSP係数の最大値の探索範囲を説明する図である。図5(b)は、CSP係数を最大とするインデックスを、隣接するフレームのペア2組について比較した図である。 図6(a)は、本発明の実施形態に係る音声信号処理システム300に入力するサンプル音声を示す図である。図6(b)は、図6(a)に示すサンプル音声を入力とした場合に、本発明の実施形態に係る音声信号処理システム300により得られるCSP係数の最大値の時系列データである。 図7(a)は、本発明の実施形態に係る音声信号処理システム300により得られるCSP係数の最大値の時系列データの一例である。図7(b)は、調波と非長波のパワー比の時系列データの一例である。図7(c)は、ケプストラムの最大値の時系列データの一例である。 図8は、雑音環境における本発明の評価実験結果の一例を示す表である。
以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、本発明を実施するためのコンピュータ100の例示的なハードウェア構成を示す。図1においてマイク105付近で発生した音は、マイク105によってアナログ信号としてA/D変換器110に入力され、そこでCPU125が処理可能なディジタル信号に変換される。
マイク105が拾う音は、例えばカーナビの場合、運転者の話声、同乗者の話声だけでなく、エアコンの送風音、エンジン音、クラクションの音などが含まれる。更に車の窓が開いている場合には、対向車からの騒音、通行人の話声なども含まれる。
外部記憶装置115やROM120は、オペレーティング・システムと協働してCPU125に命令を与え、本発明を実施するための音声信号処理プログラム・モジュールを含む複数のコンピュータ・プログラムのコードや各種データを記録することができる。そして外部記憶装置115やROM120に格納された複数のコンピュータ・プログラムは各々RAM130にロードされることによってCPU125により実行される。なお、外部記憶装置115は、SCSIコントローラなどのコントローラ(図示しない)を経由してバス145へ接続されている。
コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。なお、CPU125が、A/D変換器110から渡されるディジタル信号に対して、音声信号処理プログラムにより行う処理の詳細は後述する。
コンピュータ100はまた、視覚データをユーザに提示するための表示装置135を含む。表示装置135は、グラフィックスコントローラ(図示しない)を経由してバス145へ接続されている。コンピュータ100は、通信インタフェース140を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。
なお、上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。同様に本発明を実施するためのコンピュータ100は、キーボードやマウスのような入力デバイス、スピーカー等の他の構成要素を含むことも可能であることは言うまでもない。
図2は、一般的な従来の音声認識装置200の構成を示す。前処理部205は、ディジタル信号に変換された音声信号を入力し、これをハニング窓、ハミング窓などの適当な方法でフレーム化した後、離散フーリエ変換して音声信号のスペクトルを出力する。オプションとして前処理部205は更に、雑音に対処するための処理を行ってもよい。例えば前処理部205は、マイクロフォンアレーにより特定の方向から到来する目的の音声信号のみを強調することで雑音を相対的に弱めたり、また、目的とする音声信号だけをスペクトルサブトラクション法等によりスペクトルから雑音を除去したりしてもよい。
特徴量抽出部210は、音声信号のスペクトル(または雑音が除去された後の音声信号のスペクトル)を入力し、静的特徴量や動的特徴量を抽出して出力する。従来はMFCC(Mel−Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)とそのデルタ(1次変化量)及びデルタデルタ(2次変化量)の組み合わせ、またはそれらの線形変換が利用されることが多く、これらがそれぞれ静的特徴量、動的特徴量として抽出されていた。
スイッチ215は、学習時においては学習部225側へ倒され、学習部225は、学習データとしての音声信号から特徴量抽出部210が抽出した特徴量と、学習データとしての音声信号に対応する入力テキストとを入力し、これらデータから音響モデル220を構築する。なお、学習処理自体は本発明の要旨ではないので、これ以上の説明は省略する。
またスイッチ215は、認識時においては音声認識部235側へ倒され、音声認識部235は、認識データとしての音声信号から特徴量抽出部210が抽出した特徴量と、音響モデル220及び言語モデル230からのデータとを入力し、これらデータから音声信号を認識して認識結果のテキストを出力する。なお、音声認識処理自体は本発明の要旨ではないので、これ以上の説明は省略する。
このように音声認識装置200は、学習時には、音声信号と入力テキストから音響モデル220を構築し、認識時には、入力信号と、音響モデル220と、言語モデル230とから認識結果のテキストを出力する。本発明は、図2に示す点線の矩形240で囲まれた従来の特徴量抽出部210と前処理部205の部分を、従来の音声認識では捨てられていた音声信号に含まれる位相情報を利用して、それぞれ改良するものである。以下、図3を参照して、図2に示す矩形240に対応する、本願発明の実施形態に係る音声信号処理システム300を説明する。
図3は、本発明の実施形態に係る音声信号処理システム300の機能構成を示す。本発明の実施形態に係る音声信号処理システム300は、フレーム分割部305と、離散フーリエ変換部310と、CSP係数算出部315と、位相情報取得部320と、特徴量抽出部325と、母音強調処理部340と、マスク処理部345とを含む。特徴量抽出部325は、時系列データ生成部330と、特徴ベクトル算出部335とを含む。
フレーム分割部305は、入力された音声信号を、隣接するフレームのペアが音声信号の1周期以上のフレーム・シフト幅を有しかつ一定以上のオーバーラップ部分を有するように、フレーム単位に分割する。これを、図4を参照して説明する。
図4において、参照番号400は入力される音声信号を示し、矢印で示されるフレーム1とフレーム2が、隣接するフレームのペアである。すると、フレーム分割部305は、フレーム1とフレーム2のずれ幅405であるフレーム・シフト幅が音声信号の1周期以上であって、かつ、フレーム1とフレーム2が一定以上のオーバーラップ部分410を有するように、音声信号をフレーム単位に分割する。なお、フレーム化の方法自体は、従来通りハニング窓、ハミング窓など公知の方法を利用してよい。
このようにフレームを分割するのは、次のような理由による。即ち、本願発明では、母音部分における位相の安定性を特徴量として利用するために、後述するCSP係数算出部315において隣接するフレームのペアのCSP係数を算出する。このとき、母音部分の相関を強くすべく短いフレーム・シフト幅を使用すると、1周期遅れた音声の相関でなく遅れのない波の相関をとる危険性が高くなる。一方、長いフレーム・シフト幅を採用すると、今度は隣接するフレーム同士が重なる部分が短くなり、母音部分において強い相関が得られなくなる。そこで、フレーム分割部305は、隣接するフレームのペアが音声信号の1周期以上のフレーム・シフト幅を有しかつ一定以上のオーバーラップ部分を有するように、音声信号をフレーム単位に分割する。
なお、人の音声の基本周波数は、一般におよそ100Hz-400Hzの範囲とされる。従って、シフト幅は、最も波長の長い100Hzの波が入る幅、即ち10msec以上必要であるが、上述したように、オーバーラップ部分を長くするためにはなるべく短いほうがよい。以上より、フレーム・シフト幅は、想定される人の音声の波のうち最小の基本周波数100Hzを有する波が入る幅である10msecとするのが好ましい。
離散フーリエ変換部310は、フレーム分割部305の出力を入力とし、フレーム毎に高速フーリエ変換(FFT:Fast FourierTransform)等により離散フーリエ変換を行って、音声信号のスペクトルを出力する。
CSP係数算出部315は、離散フーリエ変換部310の出力を入力とし、隣接するフレームのペア毎に、該ペアのスペクトルのCSP係数を算出する。CSP係数の算出は次式により行う。
Figure 0005530812

ここで、ST-1とSTは、T-1フレーム目とTフレーム目の音声信号をそれぞれ表し、記号DFTとIDFTは、離散フーリエ変換とその逆変換をそれぞれ表す。また、CSPT(k)は、Tフレーム目のCSP係数を表し、kはインデックス(位相指標)を表す。*は共役複素数を表す。
位相情報取得部320は、CSP係数算出部315の出力を入力とし、隣接するフレームのペア毎に、音声の波が一周期以上ずれるような所定の探索範囲内でそのCSP係数の最大値を探索し、CSP係数を最大にするインデックスとCSP係数の最大値とを取得する。このようにCSP係数の最大値を探索する範囲を一定の範囲に制限するのは、次のような理由による。
CSP係数算出部315においてCSP係数は、隣接するフレームのペア毎に、離散フーリエ変換の幅(標本点数、多くの設定では512)に等しいベクトルサイズで得られる。しかしこの512の標本点全てを探索範囲としてCSP係数の最大値をサーチすると、隣接するT-1フレームとTフレームのシフト幅が256標本点以下であるような場合に、サーチ範囲に周期遅れのない自身の波との相関を求めるケースが含まれ、当然ながらそのケースでは最大の相関、即ち1を常にとる。そこで本願発明では、位相情報取得部320は、音声の波が一周期以上ずれる所定の探索範囲内でそのCSP係数の最大値を探索する。
そのような所定の探索範囲を、図5(a)の音声信号500を参照して説明する。即ち、上記所定の探索範囲は、矢印で示される隣接するフレーム1とフレーム2において、時間的に後のフレーム2のフレーム始まり位置505を基準としてその前後L/2の範囲515であってよい。但しLは、想定される人の音声の波のうち、最小の基本周波数100Hzを有する波510の周期であり、fをサンプリング周波数とするとL=f/100により求められる。このように探索範囲を一定の領域に制限してCSP係数の最大値を求めた場合、CSP係数を最大にするインデックスKは次式により表される。
Figure 0005530812

なお、図5に示す音声信号500の例では、上記基準位置505からマイナスの方向に進んだ矢印520が示す位置においてCSP係数の最大値が求められた。
時系列データ生成部330は、位相情報取得部320の出力を入力とし、隣接するフレームのペア毎のCSP係数の最大値を、フレームの順に従って並べて、CSP係数の最大値の時系列データを生成する。そして時系列データ生成部330は、生成した時系列データを、音声特徴量として出力する。
図5(b)は、CSP係数を最大とするインデックスの値を、隣接するフレームのペア2組について比較した図である。図5(b)において、矢印540は、フレーム2とフレーム3のCSP係数の最大値を指し、矢印545は、フレーム1とフレーム2のCSP係数の最大値を指している。このように、CSP係数を最大とするインデックスの値はフレームごとに異なり、CSP係数を最大とするインデックスはフレームごと独立である。
このように、隣接するフレームのペア毎に得られるCSP係数の最大値を、フレーム順に従って並べると、母音の位置で値が高くなる時系列データが得られる。図6に、本発明の実施形態に係る音声信号処理システム300によって音声特徴量として出力される、CSP係数の最大値の時系列データを示す。図6(a)は、音声信号処理システム300に入力されたサンプル音声を示す。図6(b)は、図6(a)に示すサンプル音声を入力として得られたCSP係数の最大値の時系列データを示す。
図6(a)と(b)を比較すると分かるように、CSP係数の最大値の時系列データは、母音の位置で値が高くなっている。このことは、CSP係数の最大値の時系列データによって、背景雑音が非定常であっても、母音部分のみを識別できることを意味する。そこで比較のため、図7に本発明が提案する特徴量と従来の特微量とを示す。図7(a)は、本発明の実施形態に係る音声信号処理システム300によって出力されるCSP係数の最大値の時系列データ、図7(b)は、ケプストラムの最大値の時系列データ、図(c)は、調波と非調波のパワー比の時系列データである。いずれも図6(a)に示すサンプル音声を入力として計算されたデータである。
3つの時系列データを比較すると、図7(a)に示す時系列データでは、山の部分とそれ以外とがはっきりと識別できるのに対し、図7(b)と(c)に示す従来の時系列データでは、母音の位置以外でも、低くはあるが山が存在しており、また、非母音部での変動(バラツキ)が多いことが分かる。
このように、本発明の実施形態に係る音声信号処理システム300によって音声特徴量として出力されるCSP係数の最大値の時系列データは、白色化の効果により、スペクトル包絡に影響されにくい安定した指標であるといえる。従って、CSP係数の最大値の時系列データを音声認識の特徴量の1つとして追加することにより、SN比が極めて低い条件下においても音声認識の精度を高めることが可能となる。
次に図3に戻って、母音強調処理部340と、マスク処理部345と、特徴ベクトル算出部335とを説明する。母音強調処理部340は、離散フーリエ変換部310の出力と、位相情報取得部320の出力とを入力とし、隣接するフレームのペア毎に、そのCSP係数を最大にする、数式2により表されるインデックスKに基づいて、上記ペアの両スペクトルの位相を揃えて加算する。
位相情報取得部320により求められる、隣接するフレームのペア毎のCSP係数を最大にするインデックスKは、両フレームの位相のずれに相当する。そのため、インデックスKに基づいて片方のフレームの位相を補正して両フレームの位相を揃えることができる。位相を揃えた後両フレームのスペクトルを足し合わせれば、該位相を有する音声(多くは母音)を強調することができ、従って、雑音を相対的に弱めることが可能となる。
なお、数式2で表されるインデックスKは、両フレームのスペクトルの位相のずれを時間レベル(標本点数)で表したものである。そこで母音強調処理部340はまず、この時間遅れを示すインデックスKを次式により両フレームの位相のずれに変換する。
Figure 0005530812

ここでτは補正すべき位相量、Kは数式2により表される、CSP係数を最大にするインデックス、jは離散フーリエ変換の周波数bin番号、mは離散フーリエ変換の幅(標本点数)をそれぞれ表す。なお、周波数bin番号のjは、fをサンプリング周波数、wを周波数とすると、j=w・m/fにより求められる。
続いて母音強調処理部340は、インデックスKがT-1フレーム目とTフレーム目のCSP係数を最大にするインデックスであるとすると、τを用いてT-1フレーム目のスペクトルの位相を補正し、その後Tフレーム目のスペクトルに加算する。なお、T-1フレーム目のスペクトルをST-1(j)とすると、位相を補正した後のスペクトルS’T-1(j)は、τを用いて次式により求められる。
Figure 0005530812

ここでiは虚数である(以下、同様)。
特徴ベクトル算出部335は、母音強調処理部340の出力を入力として受け取り、該入力から音声特徴量を抽出する。そして特徴ベクトル算出部335は、抽出した音声特徴量を、時系列データ生成部330の出力であるCSP係数の最大値の時系列データと共に、音声特徴ベクトルとして出力する。ここで、特徴ベクトル算出部335が母音強調処理部340から出力された母音部分が強調されたスペクトルを入力として抽出する特徴量は、その算出方法が既知である、例えば、MFCCなどのケプストラム係数やそのデルタ(1次変化量)及びデルタデルタ(2次変化量)の組み合わせ、またそれらの線形変換LDA(Linear Discriminant Analysis)など、任意の特徴量であってよい。
マスク処理部345は、離散フーリエ変換部310の出力と、位相情報取得部320の出力とを入力とし、隣接するフレームのペア毎に、対応するCSP係数を最大にする、数式2により表されるインデックスKに基づいて、上記ペアの両スペクトルの位相のずれを最小にする位置において比較した場合に両スペクトルの符号が一致しない周波数binのスペクトルを弱めるマスカーを算出し、該マスカーを上記ペアの一方のスペクトルに適用する。
そのようなマスカーg(j)は複数考え得るが、一例として次式により求めることができる。
Figure 0005530812

ここで、ST(j)はTフレーム目のスペクトルであり、θT(j)はその位相を表す。また、S’T-1(j)は数式4で示されるT-1フレーム目の位相補正後のスペクトルであり、θ’T-1(j)はその位相を表す。また、jは離散フーリエ変換の周波数bin番号である。Tフレーム目のスペクトルST(j)にマスカーg(j)を適用した後のスペクトルS’’T(j)は次式により表される。
Figure 0005530812
マスカーg(j)は、その両スペクトルの位相のずれを最小にする位置において隣接するフレームのペアを比較した場合に両スペクトルの符号が一致しない周波数binのスペクトルを弱める。そのため、マスカーg(j)は、母音部で調波構造以外からの音声を弱める効果を有し、結果、雑音を相対的に弱めることができる。
特徴ベクトル算出部335は、マスク処理部345の出力を入力として受け取り、該入力から音声特徴量を抽出する。そして特徴ベクトル算出部335は、抽出した音声特徴量を、時系列データ生成部330の出力であるCSP係数の最大値の時系列データと共に、音声特徴ベクトルとして出力する。ここで、特徴ベクトル算出部335がマスク処理部345から出力されたが調波構造以外からの音声を弱められたスペクトルを入力として抽出する特徴量は、その算出方法が既知である、例えば、MFCCなどのケプストラム係数やそのデルタ(1次変化量)及びデルタデルタ(2次変化量)の組み合わせ、またそれらの線形変換LDA(Linear Discriminant Analysis)など、任意の特徴量であってよい。
次に図8を参照して、本発明が提案する特徴量を利用した音声認識の評価実験について述べる。図8を参照して説明する評価実験には、情報処理学会(IPSJ)SIG−SLP雑音下音声認識評価ワーキンググループの、自動車内音声認識の評価データベースCENSREC−2(Corpus and Environment for Noisy Speech RECognishon)を使用した。
評価実験は、3種類の走行速度(アイドリング、低速走行、高速走行)と、2種類の車内環境(通常走行、エアコンOn)を組み合わせた6種類の環境下について行った。また表中、ベースラインとして規定されている特徴量は、静的特徴量としてMFCC12次元、デルタ特徴量としてデルタMFCC12次元、デルタデルタ特徴量としてデルタデルタMFCC12次元、更に音声の対数パワーとそのデルタ及びデルタデルタの3次元を合わせた、合計39次元のベクトルである。
第1の評価実験では、上記39次元に、本願発明が提案するCSP係数の最大値の時系列データを追加して40次元の特徴ベクトルとし、該特徴ベクトルを利用して音声認識を行った結果(図8に示す表のInter-frame CSP feature の列)を、39次元の特徴ベクトルを利用した場合の音声認識の結果(図8に示す表のBaselineの列)と比較した。いずれの環境下でも本願発明により単語認識率は改善されている。特に、高速走行時(ノーマル)では、単語認識率は、従来のベースラインの79.29%から86.12%に改善しており、高速走行時(ファン)では、単語認識率は、従来のベースラインの79.65%から83.44%に改善している。このように、本願発明が提案するCSP係数の最大値の時系列データの特徴量は、SN比が極めて低い条件下において音声認識率を大幅に改善し、上記評価実験によりその残響環境における特徴量としての有効性が示された。
また、第2の評価実験では、本願発明が提案する母音強調処理の前処理を行ったスペクトルから抽出した上記39次元の特徴量を利用して音声認識を行った結果(図8に示す表のInter-frameDSの列)と、そのような前処理を行わないスペクトルから抽出した39次元の特徴ベクトルを利用した場合の音声認識の結果(図8に示す表のBaselineの列)と比較した。第2の評価実験では、高速走行時(ノーマル)において、単語認識率は、従来のベースラインの79.29%から85.82%に改善しており、高速走行時(ファン)では、単語認識率は、従来のベースラインの79.65%から82.21%に改善している。
また、第3の評価実験では、本願発明が提案するマスク処理の前処理を行ったスペクトルから抽出した上記39次元の特徴量を利用して音声認識を行った結果(図8に示す表のSoftmaskの列)と、そのような前処理を行わないスペクトルから抽出した39次元の特徴ベクトルを利用した場合の音声認識の結果(図8に示す表のBaselineの列)と比較した。第3の評価実験では、高速走行時(ノーマル)において、単語認識率は、従来のベースラインの79.29%から85.51%に改善しており、高速走行時(ファン)では、単語認識率は、従来のベースラインの79.65%から82.72%に改善している。
このように、本願発明が提案する母音強調処理とマスク処理の両前処理は、いずれもSN比が極めて低い条件下において音声認識率を改善し、上記評価実験によりその残響環境における雑音の影響を除去する前処理としての有効性が示された。
以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更または改良を加えることが可能であることが当業者に明らかである。従って、そのような変更または改良を加えた形態も当然に本発明の技術的範囲に含まれる。

Claims (7)

  1. 音声特徴量を出力する音声信号処理システムであって、
    入力された音声信号を、隣接するフレームのペアが前記音声信号の1周期以上のフレーム・シフト幅を有しかつ一定以上の長さのオーバーラップ部分を有するように、フレームに分割するフレーム分割と、
    前記フレーム毎に離散フーリエ変換を行って前記音声信号のスペクトルを出力する離散フーリエ変換と、
    前記隣接するフレームのペア毎に、該ペアのスペクトルのCross−Power Spectrum Phase(CSP)係数を算出するCSP係数算出と、
    前記隣接するフレームのペア毎に、音声の波が一周期以上ずれる所定の探索範囲内で前記CSP係数の最大値を探索して取得する位相情報取得部と、
    前記フレームの順に並べた前記CSP係数の最大値の時系列データを、音声特徴量として生成する時系列データ生成部と、
    を含む音声信号処理システム。
  2. 前記所定の探索範囲は、前記隣接するフレームのペアのうち時間的に後のフレームのフレーム始まり位置を基準としてその前後L/2の範囲であり、ここでLは、想定される人の音声の波のうち最小の基本周波数100Hzを有する波の周期である、請求項1に記載の音声信号処理システム。
  3. 前記フレーム・シフト幅を、想定される人の音声の波のうち最小の基本周波数100Hzを有する波が入る幅である10msecとする、請求項2に記載の音声信号処理システム。
  4. 前記隣接するフレームのペア毎に、該ペアに対して求められた前記CSP係数を前記所定の探索範囲内で最大にするインデックスの値に基づいて、前記ペアの両スペクトルを、位相を揃えて加算する母音強調処理と、
    前記母音強調処理の出力を入力として受け取り、該入力から音声特徴量を抽出し、該音声特徴量を前記CSP係数の最大値の時系列データと共に音声特徴ベクトルとして出力する特徴ベクトル算出とを更に含む、請求項1に記載の音声信号処理システム。
  5. 前記隣接するフレームのペア毎に、該ペアに対して求められた前記CSP係数を前記所定の探索範囲内で最大にするインデックスの値に基づいて、前記ペアの両スペクトルの位相のずれを最小にする位置において比較した場合に両スペクトルの符号が一致しない周波数binのスペクトルを弱めるマスカーを算出し、該マスカーを前記ペアの一方のスペクトルに適用するマスク処理と、
    前記マスク処理の出力を入力として受け取り、該入力から音声特徴量を抽出し、該音声特徴量を前記CSP係数の最大値の時系列データと共に音声特徴ベクトルとして出力する特徴ベクトル算出とを更に含む、請求項1に記載の音声信号処理システム。
  6. プロセッサと記憶部を備えたコンピュータにおいて実行される、音声特徴量を出力するための音声信号処理方法であって、
    前記プロセッサが、入力された音声信号を、隣接するフレームのペアが前記音声信号の1周期以上のフレーム・シフト幅を有しかつ一定以上の長さのオーバーラップ部分を有するように、フレームに分割し、前記記憶部に記憶するステップと、
    前記プロセッサが、前記フレーム毎に離散フーリエ変換を行って前記音声信号のスペクトルを出力し、前記記憶部に記憶するステップと、
    前記プロセッサが、前記隣接するフレームのペア毎に、該ペアのスペクトルのCross−Power SpectrumPhase(CSP)係数を算出し、前記記憶部に記憶するステップと、
    前記プロセッサが、前記隣接するフレームのペア毎に、音声の波が一周期以上ずれる所定の探索範囲内で前記CSP係数の最大値を探索して取得し、前記記憶部に記憶するステップと、
    前記プロセッサが、前記フレームの順に並べた前記CSP係数の最大値の時系列データを、音声特徴量として生成するステップと
    を含む音声信号処理方法。
  7. 記憶部を備えたコンピュータにおいて実行される、音声特徴量を出力するための音声信号処理プログラムであって、該音声信号処理プログラムは、前記コンピュータに、
    入力された音声信号を、隣接するフレームのペアが前記音声信号の1周期以上のフレーム・シフト幅を有しかつ一定以上の長さのオーバーラップ部分を有するように、フレームに分割し、前記記憶部に記憶するステップと、
    前記フレーム毎に離散フーリエ変換を行って前記音声信号のスペクトルを出力し、前記記憶部に記憶するステップと、
    前記隣接するフレームのペア毎に、該ペアのスペクトルのCross−Power SpectrumPhase(CSP)係数を算出し、前記記憶部に記憶するステップと、
    前記隣接するフレームのペア毎に、音声の波が一周期以上ずれる所定の探索範囲内で前記CSP係数の最大値を探索して取得し、前記記憶部に記憶するステップと、
    前記フレームの順に従って並べた前記CSP係数の最大値の時系列データを、音声特徴量として生成するステップと
    を実行させる、前記音声信号処理プログラム。
JP2010128443A 2010-06-04 2010-06-04 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム Expired - Fee Related JP5530812B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010128443A JP5530812B2 (ja) 2010-06-04 2010-06-04 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム
US13/150,804 US8566084B2 (en) 2010-06-04 2011-06-01 Speech processing based on time series of maximum values of cross-power spectrum phase between two consecutive speech frames

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010128443A JP5530812B2 (ja) 2010-06-04 2010-06-04 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム

Publications (2)

Publication Number Publication Date
JP2011253133A JP2011253133A (ja) 2011-12-15
JP5530812B2 true JP5530812B2 (ja) 2014-06-25

Family

ID=45065168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010128443A Expired - Fee Related JP5530812B2 (ja) 2010-06-04 2010-06-04 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム

Country Status (2)

Country Link
US (1) US8566084B2 (ja)
JP (1) JP5530812B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4906908B2 (ja) * 2009-11-30 2012-03-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム
US20140329511A1 (en) * 2011-12-20 2014-11-06 Nokia Corporation Audio conferencing
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
WO2016208000A1 (ja) * 2015-06-24 2016-12-29 Pioneer DJ株式会社 表示制御装置、表示制御方法および表示制御プログラム
JP6477295B2 (ja) * 2015-06-29 2019-03-06 株式会社Jvcケンウッド 雑音検出装置、雑音検出方法及び雑音検出プログラム
JP6597062B2 (ja) * 2015-08-31 2019-10-30 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法、雑音低減プログラム
JP2017167433A (ja) * 2016-03-17 2017-09-21 株式会社東芝 サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
CN107463904B (zh) * 2017-08-08 2021-05-25 网宿科技股份有限公司 一种确定事件周期值的方法及装置
CN109346109B (zh) * 2018-12-05 2020-02-07 百度在线网络技术(北京)有限公司 基频提取方法和装置
CN113611292B (zh) * 2021-08-06 2023-11-10 思必驰科技股份有限公司 用于语音分离、识别的短时傅里叶变化的优化方法及***

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders
US5781881A (en) * 1995-10-19 1998-07-14 Deutsche Telekom Ag Variable-subframe-length speech-coding classes derived from wavelet-transform parameters
JP3534012B2 (ja) * 1999-09-29 2004-06-07 ヤマハ株式会社 波形分析方法
US20030055634A1 (en) * 2001-08-08 2003-03-20 Nippon Telegraph And Telephone Corporation Speech processing method and apparatus and program therefor
US7016839B2 (en) * 2002-01-31 2006-03-21 International Business Machines Corporation MVDR based feature extraction for speech recognition
KR100836574B1 (ko) * 2002-10-24 2008-06-10 도꾸리쯔교세이호진 상교기쥬쯔 소고겡뀨죠 악곡재생방법, 장치 및 음악음향데이터 중의 대표 모티프구간 검출방법
WO2004111996A1 (ja) * 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. 音響区間検出方法および装置
CN1957397A (zh) * 2004-03-30 2007-05-02 先锋株式会社 声音识别装置和声音识别方法
EP1647937A1 (en) * 2004-10-15 2006-04-19 Sony Deutschland GmbH Method for motion estimation
JP4247195B2 (ja) * 2005-03-23 2009-04-02 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体
US7672842B2 (en) * 2006-07-26 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for FFT-based companding for automatic speech recognition
US8139777B2 (en) * 2007-10-31 2012-03-20 Qnx Software Systems Co. System for comfort noise injection
KR101470528B1 (ko) * 2008-06-09 2014-12-15 삼성전자주식회사 적응 빔포밍을 위한 사용자 방향의 소리 검출 기반의 적응모드 제어 장치 및 방법
JP5334037B2 (ja) * 2008-07-11 2013-11-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 音源の位置検出方法及びシステム
US8275622B2 (en) * 2009-02-06 2012-09-25 Mitsubishi Electric Research Laboratories, Inc. Ultrasonic doppler sensor for speaker recognition
JP5919516B2 (ja) * 2010-07-26 2016-05-18 パナソニックIpマネジメント株式会社 多入力雑音抑圧装置、多入力雑音抑圧方法、プログラムおよび集積回路

Also Published As

Publication number Publication date
JP2011253133A (ja) 2011-12-15
US8566084B2 (en) 2013-10-22
US20110301945A1 (en) 2011-12-08

Similar Documents

Publication Publication Date Title
JP5530812B2 (ja) 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム
CN108198547B (zh) 语音端点检测方法、装置、计算机设备和存储介质
JP5723923B2 (ja) 音声特徴量抽出装置、及び音声特徴量抽出プログラム
JP4757158B2 (ja) 音信号処理方法、音信号処理装置及びコンピュータプログラム
JP5505896B2 (ja) 発話区間検出システム、方法及びプログラム
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
US8812312B2 (en) System, method and program for speech processing
JP3006677B2 (ja) 音声認識装置
Rajan et al. Using group delay functions from all-pole models for speaker recognition
JP2013164572A (ja) 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
Morise Error evaluation of an F0-adaptive spectral envelope estimator in robustness against the additive noise and F0 error
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
US9087513B2 (en) Noise reduction method, program product, and apparatus
Priyadarshani et al. Dynamic time warping based speech recognition for isolated Sinhala words
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
JP6087731B2 (ja) 音声明瞭化装置、方法及びプログラム
CN110838294B (zh) 一种语音验证方法、装置、计算机设备及存储介质
JP5325130B2 (ja) Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Mitra et al. From acoustics to vocal tract time functions
JP4325044B2 (ja) 音声認識システム
Ramesh et al. Glottal opening instants detection using zero frequency resonator
Bahja et al. An overview of the cate algorithms for real-time pitch determination
JP2002507775A (ja) 音声信号処理方法および音声信号処理装置
JP6092345B2 (ja) 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130709

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20130711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140421

R150 Certificate of patent or registration of utility model

Ref document number: 5530812

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees