JP5530812B2

JP5530812B2 - 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム

Info

Publication number: JP5530812B2
Application number: JP2010128443A
Authority: JP
Inventors: 治市川; 雅史西村
Original assignee: ニュアンスコミュニケーションズ，インコーポレイテッド
Priority date: 2010-06-04
Filing date: 2010-06-04
Publication date: 2014-06-25
Anticipated expiration: 2030-06-04
Also published as: JP2011253133A; US8566084B2; US20110301945A1

Description

本発明は、音声信号に含まれる「位相」の情報を利用して、音声特徴量を出力するための音声信号処理を行う技術に関する。

音声認識装置の耐雑音性能は継続的に改善されているが、厳しい条件下での認識精度は未だ不十分である。例えば、自動車における高速走行や空調利用などSN比が極めて低い条件下や、音楽や雑踏などの非定常な雑音環境下での認識率は大変低いことが知られている。雑音環境での音声認識を改善するためにこれまで多くの手法が検討されており、その１つに、雑音に強い特徴量の利用がある。

従来の音声認識では、ケプストラムなど音声の持つスペクトル強度に由来する特徴量が主に使用されてきた。その際音声信号に含まれる「位相」の情報は捨てられてきた。

非特許文献１は、そのように従来捨てられてきた位相情報を音声認識で利用する方法を開示する。より具体的には、非特許文献１は、位相情報を長時間分析することにより得られる位相スペクトルを特徴量として利用することにより、音声認識の性能の向上を図る技術を開示する。

また、特許文献１は、音響特徴量の持続性を評価することにより音声区間の決定を行う技術を開示する。より具体的には、特許文献１は、調波構造の持続性を、フレーム間のスペクトル強度外形の相関値により評価して音声区間の決定を行う手法を開示する。

特許第３７４４９３４号公報

末吉英一、外２名、「長時間位相スペクトルの音声認識への利用」、日本音響学会講演論文集、２００９年３月、P.１６１−１６４

非特許文献１は、その提案する位相スペクトルに音声認識能力があることを実験により示す。しかしながら非特許文献１は、雑音環境下の話者認識については、提案する位相スペクトルの特徴量は、MFCCと組み合わせてみても20dBというSNRが高めの条件下において僅かに効果を得ることができることを示すのみである。

一方、特許文献１では、時間的に連続するフレームにおいて調波構造が連続しているという性質を、音声認識に利用することを開示する。しかしながらこの性質の利用について特許文献１が開示するのは、調波構造のみを残したパワースペクトル成分のフレーム間での相関性を評価することにより、母音の区間であるか否かを評価して精度よく有声区間を抽出する技術に留まる。調波構造のみを残したパワースペクトルは、位相情報を含まず、また、パワースペクトル成分の微細な形状は一般に雑音の影響を受けやすいという問題がある。

この発明は、上記の問題点を解決するためになされたものであって、音声信号に含まれる位相情報を利用して、SN比が極めて低い条件下においても音声認識の精度を高めることが可能な雑音に強い特徴量を抽出する技術を提供することを目的とする。

音声信号に含まれる位相については、時間―周波数空間において、母音（有声音）部分は位相が安定しているという性質がある。そこで、本願発明者は、上記課題を解決するために、非特許文献１に開示されるように位相情報をそのまま利用するのではなく、位相の安定性を特徴量として利用するというアイデアに想到した。

即ち、上記課題を解決するために、本発明の第１の態様においては、入力された音声信号を、隣接するフレームのペアが前記音声信号の１周期以上のフレーム・シフト幅を有しかつ一定以上のオーバーラップ部分を有するように、フレーム単位に分割するフレーム分割手段と、前記フレーム毎に離散フーリエ変換を行って前記音声信号のスペクトルを出力する離散フーリエ変換手段と、前記隣接するフレームのペア毎に、該ペアのスペクトルのCross−Power SpectrumPhase（CSP)係数を算出するCSP係数算出手段と、前記隣接するフレームのペア毎に、音声の波が一周期以上ずれる所定の探索範囲内で前記CSP係数の最大値を探索して取得する位相情報取得部と、前記フレームの順に従って並べた前記CSP係数の最大値の時系列データを、音声特徴量として生成する時系列データ生成部とを含む音声処理システムを提供する。

好ましくは、前記所定の探索範囲は、前記隣接するフレームのペアのうち時間的に後のフレームのフレーム始まり位置を基準としてその前後L/2の範囲であり、Lは、想定される人の音声の波のうち最小の基本周波数100Hzを有する波の周期である。

また好ましくは、前記フレーム・シフト幅は、想定される人の音声の波のうち最小の基本周波数100Hzを有する波が入る幅である10msecである。

また好ましくは、上記音声処理システムは、前記隣接するフレームのペア毎に、該ペアに対して求められた前記CSP係数を前記所定の探索範囲内で最大にするインデックスの値に基づいて、前記ペアの両スペクトルを、位相を揃えて加算する母音強調処理手段と、前記母音強調処理手段の出力を入力として受け取り、該入力から音声特徴量を抽出し、該音声特徴量を前記CSP係数の最大値の時系列データと共に音声特徴ベクトルとして出力する特徴ベクト算出手段とを更に含む。

また好ましくは、上記音声処理システムは、前記隣接するフレームのペア毎に、該ペアに対して求められた前記CSP係数を前記所定の探索範囲内で最大にするインデックスの値に基づいて、前記ペアの両スペクトルの位相のずれを最小にする位置において比較した場合に両スペクトルの符号が一致しない周波数binのスペクトルを弱めるマスカーを算出し、該マスカーを前記ペアの一方のスペクトルに適用するマスク処理手段と、前記マスク処理手段の出力を入力として受け取り、該入力から音声特徴量を抽出し、該音声特徴量を前記CSP係数の最大値の時系列データと共に音声特徴ベクトルとして出力する特徴ベクトル算出手段とを更に含む。

なお、母音強調処理手段又はマスク処理手段からの出力を入力として受け取る特徴ベクトル算出手段は、該入力から、その算出方法が既知である、例えば、MFCCなどのケプストラム係数やそのデルタ（１次変化量）及びデルタデルタ（２次変化量）の組み合わせ、またそれらの線形変換であるLDA(Linear Discriminant Analysis)など、任意の特徴量を抽出してよい。

以上、音声処理システムとして本発明を説明したが、本発明は、プロセッサと記憶領域を備えたコンピュータの計算処理によって音声特徴量を抽出するための音声信号処理方法、及びプロセッサと記憶領域を備えたコンピュータにおいて実行される、音声特徴量を抽出するための音声信号処理プログラムとして把握することもできる。

本発明によれば、音声信号に含まれる母音部分の位相の安定性を特徴量として利用するので、該特徴量を利用した音声認識処理システムにおいて、SN比が極めて低い条件下においても音声認識の精度を高めることが可能となる。本発明のその他の効果については、各実施の形態の記載から理解される。

図１は、本発明の実施の形態による音声信号処理システムを実現するのに好適なコンピュータのハードウェア構成の一例を示した図である。図２は、一般的な音声認識装置の構成の一例を示す。図３は、本発明の実施形態に係る音声信号処理システム３００の機能構成を示す。図４は、フレームの分割方法を説明する図である。図５（ａ）は、CSP係数の最大値の探索範囲を説明する図である。図５（ｂ）は、CSP係数を最大とするインデックスを、隣接するフレームのペア２組について比較した図である。図６（ａ）は、本発明の実施形態に係る音声信号処理システム３００に入力するサンプル音声を示す図である。図６（ｂ）は、図６（ａ）に示すサンプル音声を入力とした場合に、本発明の実施形態に係る音声信号処理システム３００により得られるCSP係数の最大値の時系列データである。図７（ａ）は、本発明の実施形態に係る音声信号処理システム３００により得られるCSP係数の最大値の時系列データの一例である。図７（ｂ）は、調波と非長波のパワー比の時系列データの一例である。図７（ｃ）は、ケプストラムの最大値の時系列データの一例である。図８は、雑音環境における本発明の評価実験結果の一例を示す表である。

以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、本発明を実施するためのコンピュータ１００の例示的なハードウェア構成を示す。図１においてマイク１０５付近で発生した音は、マイク１０５によってアナログ信号としてＡ／Ｄ変換器１１０に入力され、そこでＣＰＵ１２５が処理可能なディジタル信号に変換される。

マイク１０５が拾う音は、例えばカーナビの場合、運転者の話声、同乗者の話声だけでなく、エアコンの送風音、エンジン音、クラクションの音などが含まれる。更に車の窓が開いている場合には、対向車からの騒音、通行人の話声なども含まれる。

外部記憶装置１１５やＲＯＭ１２０は、オペレーティング・システムと協働してＣＰＵ１２５に命令を与え、本発明を実施するための音声信号処理プログラム・モジュールを含む複数のコンピュータ・プログラムのコードや各種データを記録することができる。そして外部記憶装置１１５やＲＯＭ１２０に格納された複数のコンピュータ・プログラムは各々ＲＡＭ１３０にロードされることによってＣＰＵ１２５により実行される。なお、外部記憶装置１１５は、ＳＣＳＩコントローラなどのコントローラ（図示しない）を経由してバス１４５へ接続されている。

コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。なお、ＣＰＵ１２５が、Ａ／Ｄ変換器１１０から渡されるディジタル信号に対して、音声信号処理プログラムにより行う処理の詳細は後述する。

コンピュータ１００はまた、視覚データをユーザに提示するための表示装置１３５を含む。表示装置１３５は、グラフィックスコントローラ（図示しない）を経由してバス１４５へ接続されている。コンピュータ１００は、通信インタフェース１４０を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。

なお、上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。同様に本発明を実施するためのコンピュータ１００は、キーボードやマウスのような入力デバイス、スピーカー等の他の構成要素を含むことも可能であることは言うまでもない。

図２は、一般的な従来の音声認識装置２００の構成を示す。前処理部２０５は、ディジタル信号に変換された音声信号を入力し、これをハニング窓、ハミング窓などの適当な方法でフレーム化した後、離散フーリエ変換して音声信号のスペクトルを出力する。オプションとして前処理部２０５は更に、雑音に対処するための処理を行ってもよい。例えば前処理部２０５は、マイクロフォンアレーにより特定の方向から到来する目的の音声信号のみを強調することで雑音を相対的に弱めたり、また、目的とする音声信号だけをスペクトルサブトラクション法等によりスペクトルから雑音を除去したりしてもよい。

特徴量抽出部２１０は、音声信号のスペクトル（または雑音が除去された後の音声信号のスペクトル）を入力し、静的特徴量や動的特徴量を抽出して出力する。従来はＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ：メル周波数ケプストラム係数）とそのデルタ（１次変化量）及びデルタデルタ（２次変化量）の組み合わせ、またはそれらの線形変換が利用されることが多く、これらがそれぞれ静的特徴量、動的特徴量として抽出されていた。

スイッチ２１５は、学習時においては学習部２２５側へ倒され、学習部２２５は、学習データとしての音声信号から特徴量抽出部２１０が抽出した特徴量と、学習データとしての音声信号に対応する入力テキストとを入力し、これらデータから音響モデル２２０を構築する。なお、学習処理自体は本発明の要旨ではないので、これ以上の説明は省略する。

またスイッチ２１５は、認識時においては音声認識部２３５側へ倒され、音声認識部２３５は、認識データとしての音声信号から特徴量抽出部２１０が抽出した特徴量と、音響モデル２２０及び言語モデル２３０からのデータとを入力し、これらデータから音声信号を認識して認識結果のテキストを出力する。なお、音声認識処理自体は本発明の要旨ではないので、これ以上の説明は省略する。

このように音声認識装置２００は、学習時には、音声信号と入力テキストから音響モデル２２０を構築し、認識時には、入力信号と、音響モデル２２０と、言語モデル２３０とから認識結果のテキストを出力する。本発明は、図２に示す点線の矩形２４０で囲まれた従来の特徴量抽出部２１０と前処理部２０５の部分を、従来の音声認識では捨てられていた音声信号に含まれる位相情報を利用して、それぞれ改良するものである。以下、図３を参照して、図２に示す矩形２４０に対応する、本願発明の実施形態に係る音声信号処理システム３００を説明する。

図３は、本発明の実施形態に係る音声信号処理システム３００の機能構成を示す。本発明の実施形態に係る音声信号処理システム３００は、フレーム分割部３０５と、離散フーリエ変換部３１０と、CSP係数算出部３１５と、位相情報取得部３２０と、特徴量抽出部３２５と、母音強調処理部３４０と、マスク処理部３４５とを含む。特徴量抽出部３２５は、時系列データ生成部３３０と、特徴ベクトル算出部３３５とを含む。

フレーム分割部３０５は、入力された音声信号を、隣接するフレームのペアが音声信号の１周期以上のフレーム・シフト幅を有しかつ一定以上のオーバーラップ部分を有するように、フレーム単位に分割する。これを、図４を参照して説明する。

図４において、参照番号４００は入力される音声信号を示し、矢印で示されるフレーム１とフレーム２が、隣接するフレームのペアである。すると、フレーム分割部３０５は、フレーム１とフレーム２のずれ幅４０５であるフレーム・シフト幅が音声信号の１周期以上であって、かつ、フレーム１とフレーム２が一定以上のオーバーラップ部分４１０を有するように、音声信号をフレーム単位に分割する。なお、フレーム化の方法自体は、従来通りハニング窓、ハミング窓など公知の方法を利用してよい。

このようにフレームを分割するのは、次のような理由による。即ち、本願発明では、母音部分における位相の安定性を特徴量として利用するために、後述するCSP係数算出部３１５において隣接するフレームのペアのCSP係数を算出する。このとき、母音部分の相関を強くすべく短いフレーム・シフト幅を使用すると、１周期遅れた音声の相関でなく遅れのない波の相関をとる危険性が高くなる。一方、長いフレーム・シフト幅を採用すると、今度は隣接するフレーム同士が重なる部分が短くなり、母音部分において強い相関が得られなくなる。そこで、フレーム分割部３０５は、隣接するフレームのペアが音声信号の１周期以上のフレーム・シフト幅を有しかつ一定以上のオーバーラップ部分を有するように、音声信号をフレーム単位に分割する。

なお、人の音声の基本周波数は、一般におよそ100Hz-400Hzの範囲とされる。従って、シフト幅は、最も波長の長い100Hzの波が入る幅、即ち10msec以上必要であるが、上述したように、オーバーラップ部分を長くするためにはなるべく短いほうがよい。以上より、フレーム・シフト幅は、想定される人の音声の波のうち最小の基本周波数100Hzを有する波が入る幅である10msecとするのが好ましい。

離散フーリエ変換部３１０は、フレーム分割部３０５の出力を入力とし、フレーム毎に高速フーリエ変換（FFT：Fast FourierTransform）等により離散フーリエ変換を行って、音声信号のスペクトルを出力する。

CSP係数算出部３１５は、離散フーリエ変換部３１０の出力を入力とし、隣接するフレームのペア毎に、該ペアのスペクトルのCSP係数を算出する。CSP係数の算出は次式により行う。

ここで、S_T-1とS_Tは、T-1フレーム目とTフレーム目の音声信号をそれぞれ表し、記号DFTとIDFTは、離散フーリエ変換とその逆変換をそれぞれ表す。また、CSP_T(k)は、Tフレーム目のCSP係数を表し、kはインデックス（位相指標）を表す。＊は共役複素数を表す。

位相情報取得部３２０は、CSP係数算出部３１５の出力を入力とし、隣接するフレームのペア毎に、音声の波が一周期以上ずれるような所定の探索範囲内でそのCSP係数の最大値を探索し、CSP係数を最大にするインデックスとCSP係数の最大値とを取得する。このようにCSP係数の最大値を探索する範囲を一定の範囲に制限するのは、次のような理由による。

CSP係数算出部３１５においてCSP係数は、隣接するフレームのペア毎に、離散フーリエ変換の幅（標本点数、多くの設定では512）に等しいベクトルサイズで得られる。しかしこの512の標本点全てを探索範囲としてCSP係数の最大値をサーチすると、隣接するT-1フレームとTフレームのシフト幅が256標本点以下であるような場合に、サーチ範囲に周期遅れのない自身の波との相関を求めるケースが含まれ、当然ながらそのケースでは最大の相関、即ち１を常にとる。そこで本願発明では、位相情報取得部３２０は、音声の波が一周期以上ずれる所定の探索範囲内でそのCSP係数の最大値を探索する。

そのような所定の探索範囲を、図５（ａ）の音声信号５００を参照して説明する。即ち、上記所定の探索範囲は、矢印で示される隣接するフレーム１とフレーム２において、時間的に後のフレーム２のフレーム始まり位置５０５を基準としてその前後L/2の範囲５１５であってよい。但しLは、想定される人の音声の波のうち、最小の基本周波数100Hzを有する波５１０の周期であり、ｆをサンプリング周波数とするとL=f/100により求められる。このように探索範囲を一定の領域に制限してCSP係数の最大値を求めた場合、CSP係数を最大にするインデックスKは次式により表される。

なお、図５に示す音声信号５００の例では、上記基準位置５０５からマイナスの方向に進んだ矢印５２０が示す位置においてCSP係数の最大値が求められた。

時系列データ生成部３３０は、位相情報取得部３２０の出力を入力とし、隣接するフレームのペア毎のCSP係数の最大値を、フレームの順に従って並べて、CSP係数の最大値の時系列データを生成する。そして時系列データ生成部３３０は、生成した時系列データを、音声特徴量として出力する。

図５（ｂ）は、CSP係数を最大とするインデックスの値を、隣接するフレームのペア２組について比較した図である。図５（ｂ）において、矢印５４０は、フレーム２とフレーム３のCSP係数の最大値を指し、矢印５４５は、フレーム１とフレーム２のCSP係数の最大値を指している。このように、ＣＳＰ係数を最大とするインデックスの値はフレームごとに異なり、ＣＳＰ係数を最大とするインデックスはフレームごと独立である。

このように、隣接するフレームのペア毎に得られるCSP係数の最大値を、フレーム順に従って並べると、母音の位置で値が高くなる時系列データが得られる。図６に、本発明の実施形態に係る音声信号処理システム３００によって音声特徴量として出力される、CSP係数の最大値の時系列データを示す。図６（ａ）は、音声信号処理システム３００に入力されたサンプル音声を示す。図６（ｂ）は、図６（ａ）に示すサンプル音声を入力として得られたCSP係数の最大値の時系列データを示す。

図６（ａ）と（ｂ）を比較すると分かるように、CSP係数の最大値の時系列データは、母音の位置で値が高くなっている。このことは、CSP係数の最大値の時系列データによって、背景雑音が非定常であっても、母音部分のみを識別できることを意味する。そこで比較のため、図７に本発明が提案する特徴量と従来の特微量とを示す。図７（ａ）は、本発明の実施形態に係る音声信号処理システム３００によって出力されるCSP係数の最大値の時系列データ、図７（ｂ）は、ケプストラムの最大値の時系列データ、図（ｃ）は、調波と非調波のパワー比の時系列データである。いずれも図６（ａ）に示すサンプル音声を入力として計算されたデータである。

３つの時系列データを比較すると、図７（ａ）に示す時系列データでは、山の部分とそれ以外とがはっきりと識別できるのに対し、図７（ｂ）と（ｃ）に示す従来の時系列データでは、母音の位置以外でも、低くはあるが山が存在しており、また、非母音部での変動（バラツキ）が多いことが分かる。

このように、本発明の実施形態に係る音声信号処理システム３００によって音声特徴量として出力されるCSP係数の最大値の時系列データは、白色化の効果により、スペクトル包絡に影響されにくい安定した指標であるといえる。従って、CSP係数の最大値の時系列データを音声認識の特徴量の１つとして追加することにより、SN比が極めて低い条件下においても音声認識の精度を高めることが可能となる。

次に図３に戻って、母音強調処理部３４０と、マスク処理部３４５と、特徴ベクトル算出部３３５とを説明する。母音強調処理部３４０は、離散フーリエ変換部３１０の出力と、位相情報取得部３２０の出力とを入力とし、隣接するフレームのペア毎に、そのCSP係数を最大にする、数式２により表されるインデックスKに基づいて、上記ペアの両スペクトルの位相を揃えて加算する。

位相情報取得部３２０により求められる、隣接するフレームのペア毎のCSP係数を最大にするインデックスKは、両フレームの位相のずれに相当する。そのため、インデックスKに基づいて片方のフレームの位相を補正して両フレームの位相を揃えることができる。位相を揃えた後両フレームのスペクトルを足し合わせれば、該位相を有する音声（多くは母音）を強調することができ、従って、雑音を相対的に弱めることが可能となる。

なお、数式２で表されるインデックスKは、両フレームのスペクトルの位相のずれを時間レベル（標本点数）で表したものである。そこで母音強調処理部３４０はまず、この時間遅れを示すインデックスKを次式により両フレームの位相のずれに変換する。

ここでτは補正すべき位相量、Kは数式２により表される、CSP係数を最大にするインデックス、jは離散フーリエ変換の周波数bin番号、mは離散フーリエ変換の幅（標本点数）をそれぞれ表す。なお、周波数bin番号のjは、fをサンプリング周波数、wを周波数とすると、j=w・m/fにより求められる。

続いて母音強調処理部３４０は、インデックスKがT-1フレーム目とTフレーム目のCSP係数を最大にするインデックスであるとすると、τを用いてT-1フレーム目のスペクトルの位相を補正し、その後Tフレーム目のスペクトルに加算する。なお、T-1フレーム目のスペクトルをS_T-1(j)とすると、位相を補正した後のスペクトルS’_T-1(j)は、τを用いて次式により求められる。

ここでiは虚数である（以下、同様）。

特徴ベクトル算出部３３５は、母音強調処理部３４０の出力を入力として受け取り、該入力から音声特徴量を抽出する。そして特徴ベクトル算出部３３５は、抽出した音声特徴量を、時系列データ生成部３３０の出力であるCSP係数の最大値の時系列データと共に、音声特徴ベクトルとして出力する。ここで、特徴ベクトル算出部３３５が母音強調処理部３４０から出力された母音部分が強調されたスペクトルを入力として抽出する特徴量は、その算出方法が既知である、例えば、MFCCなどのケプストラム係数やそのデルタ（１次変化量）及びデルタデルタ（２次変化量）の組み合わせ、またそれらの線形変換LDA(Linear Discriminant Analysis)など、任意の特徴量であってよい。

マスク処理部３４５は、離散フーリエ変換部３１０の出力と、位相情報取得部３２０の出力とを入力とし、隣接するフレームのペア毎に、対応するCSP係数を最大にする、数式２により表されるインデックスKに基づいて、上記ペアの両スペクトルの位相のずれを最小にする位置において比較した場合に両スペクトルの符号が一致しない周波数binのスペクトルを弱めるマスカーを算出し、該マスカーを上記ペアの一方のスペクトルに適用する。

そのようなマスカーg(j)は複数考え得るが、一例として次式により求めることができる。

ここで、S_T(j)はTフレーム目のスペクトルであり、θ_T(j)はその位相を表す。また、S’_T-1(j)は数式４で示されるT-1フレーム目の位相補正後のスペクトルであり、θ’_T-1(j)はその位相を表す。また、jは離散フーリエ変換の周波数bin番号である。Tフレーム目のスペクトルS_T(j)にマスカーg(j)を適用した後のスペクトルS’’_T(j)は次式により表される。

マスカーg(j)は、その両スペクトルの位相のずれを最小にする位置において隣接するフレームのペアを比較した場合に両スペクトルの符号が一致しない周波数binのスペクトルを弱める。そのため、マスカーg(j)は、母音部で調波構造以外からの音声を弱める効果を有し、結果、雑音を相対的に弱めることができる。

特徴ベクトル算出部３３５は、マスク処理部３４５の出力を入力として受け取り、該入力から音声特徴量を抽出する。そして特徴ベクトル算出部３３５は、抽出した音声特徴量を、時系列データ生成部３３０の出力であるCSP係数の最大値の時系列データと共に、音声特徴ベクトルとして出力する。ここで、特徴ベクトル算出部３３５がマスク処理部３４５から出力されたが調波構造以外からの音声を弱められたスペクトルを入力として抽出する特徴量は、その算出方法が既知である、例えば、MFCCなどのケプストラム係数やそのデルタ（１次変化量）及びデルタデルタ（２次変化量）の組み合わせ、またそれらの線形変換LDA(Linear Discriminant Analysis)など、任意の特徴量であってよい。

次に図８を参照して、本発明が提案する特徴量を利用した音声認識の評価実験について述べる。図８を参照して説明する評価実験には、情報処理学会（ＩＰＳＪ）ＳＩＧ−ＳＬＰ雑音下音声認識評価ワーキンググループの、自動車内音声認識の評価データベースＣＥＮＳＲＥＣ−２（ＣｏｒｐｕｓａｎｄＥｎｖｉｒｏｎｍｅｎｔｆｏｒＮｏｉｓｙＳｐｅｅｃｈＲＥＣｏｇｎｉｓｈｏｎ）を使用した。

評価実験は、３種類の走行速度（アイドリング、低速走行、高速走行）と、２種類の車内環境（通常走行、エアコンＯｎ）を組み合わせた６種類の環境下について行った。また表中、ベースラインとして規定されている特徴量は、静的特徴量としてＭＦＣＣ１２次元、デルタ特徴量としてデルタＭＦＣＣ１２次元、デルタデルタ特徴量としてデルタデルタＭＦＣＣ１２次元、更に音声の対数パワーとそのデルタ及びデルタデルタの３次元を合わせた、合計３９次元のベクトルである。

第１の評価実験では、上記３９次元に、本願発明が提案するCSP係数の最大値の時系列データを追加して４０次元の特徴ベクトルとし、該特徴ベクトルを利用して音声認識を行った結果（図８に示す表のInter-frame CSP feature の列）を、３９次元の特徴ベクトルを利用した場合の音声認識の結果（図８に示す表のBaselineの列）と比較した。いずれの環境下でも本願発明により単語認識率は改善されている。特に、高速走行時（ノーマル）では、単語認識率は、従来のベースラインの７９．２９％から８６．１２％に改善しており、高速走行時（ファン）では、単語認識率は、従来のベースラインの７９．６５％から８３．４４％に改善している。このように、本願発明が提案するCSP係数の最大値の時系列データの特徴量は、SN比が極めて低い条件下において音声認識率を大幅に改善し、上記評価実験によりその残響環境における特徴量としての有効性が示された。

また、第２の評価実験では、本願発明が提案する母音強調処理の前処理を行ったスペクトルから抽出した上記３９次元の特徴量を利用して音声認識を行った結果（図８に示す表のInter-frameDSの列）と、そのような前処理を行わないスペクトルから抽出した３９次元の特徴ベクトルを利用した場合の音声認識の結果（図８に示す表のBaselineの列）と比較した。第２の評価実験では、高速走行時（ノーマル）において、単語認識率は、従来のベースラインの７９．２９％から８５．８２％に改善しており、高速走行時（ファン）では、単語認識率は、従来のベースラインの７９．６５％から８２．２１％に改善している。

また、第３の評価実験では、本願発明が提案するマスク処理の前処理を行ったスペクトルから抽出した上記３９次元の特徴量を利用して音声認識を行った結果（図８に示す表のSoftmaskの列）と、そのような前処理を行わないスペクトルから抽出した３９次元の特徴ベクトルを利用した場合の音声認識の結果（図８に示す表のBaselineの列）と比較した。第３の評価実験では、高速走行時（ノーマル）において、単語認識率は、従来のベースラインの７９．２９％から８５．５１％に改善しており、高速走行時（ファン）では、単語認識率は、従来のベースラインの７９．６５％から８２．７２％に改善している。

このように、本願発明が提案する母音強調処理とマスク処理の両前処理は、いずれもSN比が極めて低い条件下において音声認識率を改善し、上記評価実験によりその残響環境における雑音の影響を除去する前処理としての有効性が示された。

以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更または改良を加えることが可能であることが当業者に明らかである。従って、そのような変更または改良を加えた形態も当然に本発明の技術的範囲に含まれる。

Claims

音声特徴量を出力する音声信号処理システムであって、
入力された音声信号を、隣接するフレームのペアが前記音声信号の１周期以上のフレーム・シフト幅を有しかつ一定以上の長さのオーバーラップ部分を有するように、フレームに分割するフレーム分割部と、
前記フレーム毎に離散フーリエ変換を行って前記音声信号のスペクトルを出力する離散フーリエ変換部と、
前記隣接するフレームのペア毎に、該ペアのスペクトルのCross−Power Spectrum Phase（CSP)係数を算出するCSP係数算出部と、
前記隣接するフレームのペア毎に、音声の波が一周期以上ずれる所定の探索範囲内で前記CSP係数の最大値を探索して取得する位相情報取得部と、
前記フレームの順に並べた前記CSP係数の最大値の時系列データを、音声特徴量として生成する時系列データ生成部と、
を含む音声信号処理システム。
前記所定の探索範囲は、前記隣接するフレームのペアのうち時間的に後のフレームのフレーム始まり位置を基準としてその前後L/2の範囲であり、ここでLは、想定される人の音声の波のうち最小の基本周波数100Hzを有する波の周期である、請求項１に記載の音声信号処理システム。
前記フレーム・シフト幅を、想定される人の音声の波のうち最小の基本周波数100Hzを有する波が入る幅である10msecとする、請求項２に記載の音声信号処理システム。
前記隣接するフレームのペア毎に、該ペアに対して求められた前記CSP係数を前記所定の探索範囲内で最大にするインデックスの値に基づいて、前記ペアの両スペクトルを、位相を揃えて加算する母音強調処理部と、
前記母音強調処理部の出力を入力として受け取り、該入力から音声特徴量を抽出し、該音声特徴量を前記CSP係数の最大値の時系列データと共に音声特徴ベクトルとして出力する特徴ベクトル算出部とを更に含む、請求項１に記載の音声信号処理システム。
前記隣接するフレームのペア毎に、該ペアに対して求められた前記CSP係数を前記所定の探索範囲内で最大にするインデックスの値に基づいて、前記ペアの両スペクトルの位相のずれを最小にする位置において比較した場合に両スペクトルの符号が一致しない周波数binのスペクトルを弱めるマスカーを算出し、該マスカーを前記ペアの一方のスペクトルに適用するマスク処理部と、
前記マスク処理部の出力を入力として受け取り、該入力から音声特徴量を抽出し、該音声特徴量を前記CSP係数の最大値の時系列データと共に音声特徴ベクトルとして出力する特徴ベクトル算出部とを更に含む、請求項１に記載の音声信号処理システム。
プロセッサと記憶部を備えたコンピュータにおいて実行される、音声特徴量を出力するための音声信号処理方法であって、
前記プロセッサが、入力された音声信号を、隣接するフレームのペアが前記音声信号の１周期以上のフレーム・シフト幅を有しかつ一定以上の長さのオーバーラップ部分を有するように、フレームに分割し、前記記憶部に記憶するステップと、
前記プロセッサが、前記フレーム毎に離散フーリエ変換を行って前記音声信号のスペクトルを出力し、前記記憶部に記憶するステップと、
前記プロセッサが、前記隣接するフレームのペア毎に、該ペアのスペクトルのCross−Power SpectrumPhase（CSP)係数を算出し、前記記憶部に記憶するステップと、
前記プロセッサが、前記隣接するフレームのペア毎に、音声の波が一周期以上ずれる所定の探索範囲内で前記CSP係数の最大値を探索して取得し、前記記憶部に記憶するステップと、
前記プロセッサが、前記フレームの順に並べた前記CSP係数の最大値の時系列データを、音声特徴量として生成するステップと
を含む音声信号処理方法。
記憶部を備えたコンピュータにおいて実行される、音声特徴量を出力するための音声信号処理プログラムであって、該音声信号処理プログラムは、前記コンピュータに、
入力された音声信号を、隣接するフレームのペアが前記音声信号の１周期以上のフレーム・シフト幅を有しかつ一定以上の長さのオーバーラップ部分を有するように、フレームに分割し、前記記憶部に記憶するステップと、
前記フレーム毎に離散フーリエ変換を行って前記音声信号のスペクトルを出力し、前記記憶部に記憶するステップと、
前記隣接するフレームのペア毎に、該ペアのスペクトルのCross−Power SpectrumPhase（CSP)係数を算出し、前記記憶部に記憶するステップと、
前記隣接するフレームのペア毎に、音声の波が一周期以上ずれる所定の探索範囲内で前記CSP係数の最大値を探索して取得し、前記記憶部に記憶するステップと、
前記フレームの順に従って並べた前記CSP係数の最大値の時系列データを、音声特徴量として生成するステップと
を実行させる、前記音声信号処理プログラム。