JP3962445B2

JP3962445B2 - 音声処理方法及び装置

Info

Publication number: JP3962445B2
Application number: JP05916197A
Authority: JP
Inventors: 哲夫小坂; 康弘小森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1997-03-13
Filing date: 1997-03-13
Publication date: 2007-08-22
Anticipated expiration: 2017-03-13
Also published as: EP0865033A2; JPH10254492A; US6236962B1; EP0865033A3; EP0865033B1; DE69824063D1; DE69824063T2

Description

【０００１】
【発明の属する技術分野】
本発明は、例えばケプストラムなどの音声時系列の特徴を用いて音声認識を行なう、音声処理方法及び装置に関するものである。
【０００２】
本発明は、乗算性雑音に対する即時／逐次適応を可能とする音声処理方法及び装置に関するものである。
【０００３】
【従来の技術】
実環境において音声認識を行なう場合、特に問題となるのはマイクや電話回線特性などの影響による回線特性の歪みによる乗算性雑音と、内部雑音などの加算性雑音である。このうち回線特性の歪みに対処する方法として、Cepstrum Mean Subtraction (CMS)法が提案されている。CMS法は「Rahim, et al.: Signal Bias Removal for Robust Telephone Based Speech Recognition in Adverse Environments, Proc. of ICASSP'94, (1994)。」などに詳しい。
【０００４】
CMS法は回線特性の歪みを補償するための一手法である。この方法では入力音声から抽出される情報をもとに、回線歪みを入力時系列側またはHMMなどのモデル側で修正し入力環境に適応させる。これによって回線特性が変動した場合でも、柔軟に対処できる。
【０００５】
CMS法はインパルス応答の畳み込みで作用する乗算性雑音(回線歪み)を補償する方法である。入力音声の長時間スペクトルを入力音声から差し引き、またモデル作成に用いた音声の長時間スペクトルをモデルから差し引くことにより回線特性の差を正規化する。正規化処理は対数スペクトル領域やケプストラム領域で行なうのが一般的である。乗算性雑音はこの二者の領域では加法性歪みとしてあらわれるので、引き算により乗算性雑音の補償が可能となる。このうちケプストラム領域で行なう方法がCMSと呼ばれている。
【０００６】
【発明が解決しようとする課題】
以上述べたようにCMS法を用いることにより、マイクや電話回線特性などの影響による回線特性の歪みに対処することができる。しかしこのＣＭＳ法を用いる場合、認識対象として入力された音声からケプストラム長時間平均（ＣＭ）を計算する為には、認識対象の音声の入力の完了を待たなければならず、認識処理はＣＭが求められた後の、即ち音声入力終了後に行なわれていた。よって音声が入力されるのに同期して認識アルゴリズムを動作させることはできない。このため従来の方法ではリアルタイム処理が不可能であった。
【０００７】
【課題を解決するための手段】
上記従来技術の課題を解決するために、本発明にかかる音声処理方法は、特徴パラメータを順次取得する取得工程と、前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新工程と、前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化工程と、前記第一の正規化工程で正規化されたパラメータを用いて探索して候補を選択する第一の探索工程と、前記更新工程において、最後に更新されたパラメータの長時間平均により、取得した特徴パラメータ全体を再度正規化する第二の正規化工程と、前記第二の正規化工程で正規化された特徴パラメータを用いて前記第一の探索工程で選択された候補の探索を行う第二の探索工程とを備えることを特徴とする。
【０００８】
また上記従来技術の課題を解決するために、本発明にかかる音声処理方法は、特徴パラメータを順次取得する取得工程と、前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新工程と、前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化工程と、前記第一の正規化工程で正規化された特徴パラメータを用いて探索して候補を選択する第一の探索工程と、取得した特徴パラメータ全体から求めたパラメータの長時間平均により、取得した特徴パラメータを正規化する第二の正規化工程と、前記第二の正規化工程で正規化された特徴パラメータを用いて前記第一の探索工程で選択された候補の探索を行う第二の探索工程とを備えることを特徴とする。
【０００９】
また上記従来技術の課題を解決するために、本発明にかかる音声処理装置は、特徴パラメータを順次取得する取得手段と、前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新手段と、前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化手段と、前記第一の正規化手段で正規化されたパラメータを用いて探索して候補を選択する選択手段と、前記更新手段において、最後に更新されたパラメータの長時間平均により、取得した特徴パラメータ全体を再度正規化する第二の正規化手段と、前記第二の正規化手段で正規化された特徴パラメータを用いて前記選択手段で選択された候補の探索を行う探索手段とを備えたことを特徴とする。
【００１０】
また上記従来技術の課題を解決するために、本発明にかかる音声処理装置は、特徴パラメータを順次取得する取得手段と、前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新手段と、前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化手段と、前記第一の正規化手段で正規化された特徴パラメータを用いて探索して候補を選択する選択手段と、取得した特徴パラメータ全体から求めたパラメータの長時間平均により、取得した特徴パラメータを正規化する第二の正規化手段と、前記第二の正規化手段で正規化された特徴パラメータを用いて前記選択手段で選択された候補の探索を行う探索手段とを備えたことを特徴とする。
【００２３】
【発明の実施の形態】
以下、添付図面に従って本発明の実施の形態を詳細に説明する。
【００２４】
図６は本発明に係る音声認識装置の構成を表わすブロック図である。１０１はＣＲＴや液晶表示器等の表示部であり、音声認識の結果得られる文字列を表示する。１０２はＬＢＰやインクジェットプリンタ等の印字部であり、音声認識の結果得られる文字列を印字する。１０３はマイクロフォン等の音声入力部であり、公衆回線等やＬＡＮを介して入力するものであっても良い。１０４はＣＰＵであり、記憶部１０５やＣＤＲＯＭ等の着脱可能な記憶媒体１０７に記憶されている制御プログラムに従って以下説明する各種処理を実行するよう制御する。ＣＰＵ１０４は後述する処理の他、様々なアプリケーションの実行も制御するが、本発明の方法により認識された音声に対応するコマンドに従い、アプリケーションに係る各種処理を実行すべく、制御も行う。（例えば、「プリント」や「終了」など）１０５は装置内に備える記憶部であって、ＣＰＵ１０４が実行する後述の各種処理の為の制御プログラムやその為に必要な各種パラメータ（例えば音声認識に用いる辞書に相当するデータ等）、認識する音声データ等を記憶する。この記憶部１０５に記憶される制御プログラムや各種パラメータは、記憶媒体１０７から、或は通信回線を介して入力し、記憶したものであっても良い。１０６は通信Ｉ／Ｆであって、公衆回線やＬＡＮ等の通信手段を介してデータの授受を行うべく通信の制御を行う。この通信Ｉ／Ｆにより、他の装置で入力された音声や、他の装置が記憶している制御プログラムや各種パラメータを本装置にとり込み、記憶部１０５に記憶させた後、以下説明する各処理を開始するようにしても良い。１０７は例えばＣＤＲＯＭ、ＦＤ等の本体に着脱可能な記憶媒体であって、記憶部１０５に記憶されているとして先に説明した制御プログラム、各種パラメータ、音声データを記憶することの可能な本体に着脱可能な記憶媒体であって、以下説明する各処理を開始する前にこの記憶媒体１０７から記憶部１０５にデータをダウンロードしても良いし、或いはＣＰＵ１０４が直接記憶媒体１０７にアクセスしても良い。図３は記憶部１０５或いは記憶媒体１０７に記憶されているデータのメモリマップであり、４０１〜４０３に示すような各処理の制御プログラムが格納されている。また、図３には図示していないが、この他にパラメータ格納部、音声データ格納部、ワーキングエリア等も備える。
【００２５】
図１は本発明の実施の形態における音声認識装置の機能的ブロック構成図である。図において、１は音声を入力するためのマイクであって、図６の音声入力部１０３により実現する。２は入力した音声を特徴パラメータ時系列に変換するための音声分析部、３は特徴パラメータ、文法および音素モデルの情報を用いて正解認識系列を探索する探索部であって、図６のＣＰＵ１０４により実現する。４は認識用文法、５は音声認識用音素モデルであって、図６の記憶部１０５或は記憶媒体１０７に記憶されているデータを用いる。
【００２６】
まず
１）入力長の重みつき処理によるケプストラム長時間平均（CM）計算について説明する。
【００２７】
この方法は入力音声の1フレームごとにCMの推定値を更新し、それを入力音声の1フレームごと差し引く方法である。しかし発話開始直後ではCMの推定値は誤差を多く含むため、認識性能の低下を招く恐れがある。そこで入力フレーム数の重みをつけ、入力フレームが少ないうちは重みを小さくして、差し引くCMの量を減らす。また入力が多くなれば重みを大きくして、差し引くCMの量を多くする。重みは0〜1の間でフレーム数（入力時間長）に応じて増減させる。
【００２８】
音声分析部２ではマイク１より入力した音声の一般的なケプストラム分析を行なう。分析後切り出された１入力音声におけるｎフレーム目のパラメータｘ_nの正規化を以下の式（１）により行ない、正規化されたｎフレーム目のパラメータ（ｘ_n）′を求める。
【００２９】
【外１】

【００３０】
ここでμ_dはデータベースのCM，τは定数である。２項目のフレーム数による重みn/(n+τ）はこの式に限らず、nが増加するに従い値が0から1をとる関数で代用できる。以上のようにして正規化して得られた（ｘ_n）′を特徴パラメータとして認識を行なう。
【００３１】
次に、
２）マルチパスサーチを利用したCMの差し引き処理について説明する。
【００３２】
マルチパス方式は探索を複数回（少なくとも２回）繰り返すことによって、正解候補を絞っていく方法である。１回目の探索時は入力音声のCMを計算しながら探索を行なう。この１回目の探索時は入力音声のCMは音声認識には反映しない。２回目の探索時に、既に音声の入力が完了し、計算が終っている入力音声全体のCMを、入力音声ケプストラムから差し引くことによって、回線特性の変動である乗算性雑音を除去する。
【００３３】
図１の探索処理部３はマルチパスサーチを用いる。マルチパスサーチによる認識法は、Tree-trellis based searchや、Forward-backward searchがある。Tree-trellis based searchは文献、''F.K.Soong, and E.F.Huang: A Tree-Trellis Based Fast Search for Finding the N Best Sentence Hypoteses in Continuous Speech Recognition, Proc. of ICASSP91, pp.705-708 (1991.5)''に詳しい。またForward-backward searchについては文献、''S.Austin, R.Schwartz and P.Placeway: The Forward-Backward Search Algorithm, Proc. of ICASSP91, pp.697-700 (1991.5)''に詳しい。本実施の形態ではTree-trellis based searchを用いて説明するが、探索部３の探索の方法は、これに限るものではない。このTree-trellis based search方法は厳密なN-best探索を実現するアルゴリズムであり、前向き探索と後向き探索の２段階の提案で構成する。前向き探索（１回目の探索）ではフレーム同期のViterbi探索を行ない、前向き探索結果の上位の所定個を入力音声の認識候補として選択する。後向き探索（２回目の探索）では前向き探索の結果をヒューリスティックとするＡ^*探索を各候補について行なう。
【００３４】
この２段階の探索のうち、前向き探索時に探索と並行して入力音声全体のCMを計算し、後向き探索時にその求められたCMを差し引いて探索処理を行うことにより、回線特性の正規化を行なう。後向き探索時における正規化は以下の（２）或は（３）式のいずれかの式により行なう。
【００３５】
【外２】

または、
【００３６】
【外３】

【００３７】
ここでＮは入力音声のフレーム長である。（２）式は特に入力音声のフレーム長が短い場合に差し引くＣＭの量を減らすので、入力時間長が、短いことによるＣＭの誤差を軽減することができ、認識性能の向上に有効である。
【００３８】
以上のように前向き探索と後向き探索で入力音声の正規化法を変更すると、Ａ^*探索の条件を満たさなくなるが、N-bestのスタックを十分大きくし、認識結果を尤度順にソートすることにより、十分な精度を保つことができる。
【００３９】
さらに1)と2)を組合せ、前向き探索では1)の方法により、入力長の重みつき処理によって求めたCMにより正規化を行ないながら探索し、後向き探索では2)の方法により正規化を行なう。
【００４０】
以上の計算の流れ図を図２〜図４のフローチャートに示す。図２は1)の入力長の重みつき処理によるCMの計算法を利用した音声認識手法の流れ図である。ここでは(1)式により前向き探索時（２３）前に入力パラメータの正規化を行なう（２２）。後向き探索時には前向き探索時（２４）に計算した各パラメータごとの対数尤度をそのまま用いて、加算する。図３は2)のマルチパスサーチを利用した後向き探索時のCM計算法を利用した音声認識手法の流れ図である。この方法では前向き探索時（３２）は、正規化していない通常の音声分析によるケプストラムパラメータを用いた探索を行い、音声入力終了後３３に前向き探索により選択された各候補を(2)または(3)式による入力パラメータの正規化を行なって、探索を行う（３４）。この結果前向き探索時と後向き探索時に、尤度が異なりＡ^*条件を満たさなくなるので認識結果を尤度によりソートして（３５）結果を出力する（３６）。図４は1)と2)の組合せ手法である。前向き探索時（４３）には(1)式による正規化を行なったパラメータを用いて探索を行い（４２）、後向き探索時（４５）には(2)または(3)式による正規化を行なったパラメータ（４４）を用いて探索を行なう。この場合も当然前向きと後向き探索時には尤度が異なるため、認識結果を尤度によりソートして（４６）認識結果を出力する（４７）。以上の処理を１音声入力ごとに行なう。
【００４１】
また、上記説明では１音声入力ごとに回線特性の正規化を行なう例について説明したが、回線特性の変動がないと判断される場合には、複数の音声入力に渡って回線特性の正規化を行なうことにより、より安定した回線特性の正規化が行なえる。上記説明では(1)式のｎや(2)、(3)式のＮを入力音声が変わるごとに毎回クリアするが、この複数の入力音声に渡り正規化を行う方法では毎回クリアせず、複数の音声入力に渡って値を保持し正規化を行なう。
【００４２】
また、上記説明ではパラメータとしてケプストラムを想定した例について説明したが、ケプストラムの代わりに対数スペクトルを用いても良い。
【００４３】
図５は本発明の効果を表す図であり、各手法の認識処理時間を示している。
【００４４】
実験条件は以下の通りである。まず評価は不特定話者文認識で行ない、単語数1,004、単語perplexity 30.2、分析条件は8kHzサンプリング、フレーム周期10msec、窓幅25.6msec、プリエンファシス0.97である。特徴量はLPCメルケプストラム12次、ΔLPCメルケプストラム12次、Δ対数パワーを使用した。音声認識はHMMをベースとした認識系でHMMは３状態６混合、対角化共分散行列で２４３種類の右環境依存音素HMMを使用した。認識対象は話者１０名の発声した５０文であり、300〜3,200Hzのバンドパスフィルタをかけることにより、回線特性の歪みを与えた。従来法では音声発声が終了した時点でなければ正規化処理ができないため、発声終了後１sec以上の認識時間がかかる。これに対し本発明によればいずれの場合も発声終了後0.05sec程度から0.26sec程度で認識が終了する。また図の下の数字はτを調整した場合の各手法の認識率である。比較として回線特性の正規化を行なわない場合の認識率は65.0%であった。1)+2)の手法は認識率の低減がごく僅かで大幅な計算量の削減ができることが分かる。以上のように本手法は回線特性の歪みの正規化を音声入力と同期して処理することにより、高速な回線特性正規化が可能となる。
【００４５】
【発明の効果】
以上説明したように、本発明によれば、変動し得る回線特性の歪み補償が高速化でき、準リアルタイムに行うことができるので、回線特性正規化を行った上でのリアルタイムかつ高精度な音声認識が可能となる。
【図面の簡単な説明】
【図１】本発明に係る装置の機能的ブロック構成図
【図２】入力長の重みつき処理によるCMの計算法を利用した音声認識手法の流れ図
【図３】マルチパスサーチを利用した後向き探索時のCM計算法を利用した音声認識手法の流れ図
【図４】前向き探索時には入力長の重みつき処理によるＣＭ計算法を利用し、さらに後向き探索時にＣＭの再計算を行なう音声認識手法の流れ図
【図５】各手法の認識処理時間の比較の図
【図６】本発明に係る装置のブロック構成図

Claims

特徴パラメータを順次取得する取得工程と、
前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新工程と、
前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化工程と、
前記第一の正規化工程で正規化されたパラメータを用いて探索して候補を選択する第一の探索工程と、
前記更新工程において、最後に更新されたパラメータの長時間平均により、取得した特徴パラメータ全体を再度正規化する第二の正規化工程と、
前記第二の正規化工程で正規化された特徴パラメータを用いて前記第一の探索工程で選択された候補の探索を行う第二の探索工程とを備えることを特徴とする音声処理方法。
特徴パラメータを順次取得する取得工程と、
前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新工程と、
前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化工程と、
前記第一の正規化工程で正規化された特徴パラメータを用いて探索して候補を選択する第一の探索工程と、
取得した特徴パラメータ全体から求めたパラメータの長時間平均により、取得した特徴パラメータを正規化する第二の正規化工程と、
前記第二の正規化工程で正規化された特徴パラメータを用いて前記第一の探索工程で選択された候補の探索を行う第二の探索工程とを備えることを特徴とする音声処理方法。
前記特徴パラメータの正規化は、前記長時間平均に取得済み特徴パラメータのフレーム数による重みをつけた値で行うことを特徴とする請求項１又は２に記載の音声処理方法。
前記パラメータはケプストラムを用いることを特徴とする請求項１又は２に記載の音声処理方法。
前記パラメータは対数スペクトル時系列を用いることを特徴とする請求項１又は２に記載の音声処理方法。
前記重みは、パラメータのフレーム数が多いほど大きくすることを特徴とする請求項３に記載の音声処理方法。
前記パラメータの正規化は、前記取得した特徴パラメータから前記求めたパラメータの長期間平均を差し引くものとすることを特徴とする請求項１又は２に記載の音声処理方法。
前記パラメータの正規化は、回線特性の補償処理とすることを特徴とする請求項１又は２に記載の音声処理方法。
入力された音声から、音声区間を切り出し、
前記切り出した音声区間内で継続した前記パラメータの長時間平均を求めることを特徴とする請求項１又は２に記載の音声処理方法。
マイクロフォンより入力された音声を解析して前記特徴パラメータを取得することを特徴とする請求項１又は２に記載の音声処理方法。
特徴パラメータを順次取得する取得手段と、
前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新手段と、前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化手段と、
前記第一の正規化手段で正規化されたパラメータを用いて探索して候補を選択する選択手段と、
前記更新手段において、最後に更新されたパラメータの長時間平均により、取得した特徴パラメータ全体を再度正規化する第二の正規化手段と、
前記第二の正規化手段で正規化された特徴パラメータを用いて前記選択手段で選択された候補の探索を行う探索手段とを備えたことを特徴とする音声処理装置。
特徴パラメータを順次取得する取得手段と、
前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新手段と、前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化手段と、
前記第一の正規化手段で正規化された特徴パラメータを用いて探索して候補を選択する選択手段と、
取得した特徴パラメータ全体から求めたパラメータの長時間平均により、取得した特徴パラメータを正規化する第二の正規化手段と、
前記第二の正規化手段で正規化された特徴パラメータを用いて前記選択手段で選択された候補の探索を行う探索手段とを備えたことを特徴とする音声処理装置。
コンピュータにより読取可能な記憶媒体であって、
特徴パラメータを順次取得する取得工程のプログラムコードと、
前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新工程のプログラムコードと、
前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化工程のプログラムコードと、
前記第一の正規化工程で正規化されたパラメータを用いて探索して候補を選択する選択工程のプログラムコードと、
前記更新工程において、最後に更新されたパラメータの長時間平均により、取得した特徴パラメータ全体を再度正規化する第二の正規化工程のプログラムコードと、
前記第二の正規化工程で正規化された特徴パラメータを用いて前記選択工程で選択された候補の探索を行う探索工程のプログラムコードを記憶した記憶媒体。
コンピュータにより読取可能な記憶媒体であって、
特徴パラメータを順次取得する取得工程のプログラムコードと、
前記特徴パラメータを取得するごとにパラメータの長時間平均を更新する更新工程プログラムコードと、
前記更新されたパラメータの長時間平均により前記特徴パラメータを正規化する第一の正規化工程のプログラムコードと、
前記第一の正規化工程で正規化された特徴パラメータを用いて探索して候補を選択する選択工程のプログラムコードと、
取得した特徴パラメータ全体から求めたパラメータの長時間平均により、取得した特徴パラメータを正規化する第二の正規化工程のプログラムコードと、
前記第二の正規化工程で正規化された特徴パラメータを用いて前記選択工程で選択された候補の探索を行う探索工程のプログラムコードを記憶した記憶媒体。