JPS62232000A

JPS62232000A - 音声認識装置

Info

Publication number: JPS62232000A
Application number: JP61065028A
Authority: JP
Inventors: 金子　豊久; 綿貫　理明
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1986-03-25
Filing date: 1986-03-25
Publication date: 1987-10-12
Also published as: JPH0372997B2; US4876720A; EP0241183A1; DE3774605D1; EP0241183B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野この発明は確率的な手法を利用する音声認識装置に関し
、とくに認識精度を劣下させることなく簡易に音声の認
識を行えるようにしたものである。

Ｂ、従来の技術確率的に音声を認識する手法としては、マルコフ・モデ
ルに基づくものが知られている。マルコフ・モデルに基
づく音声認識では、複数の状態と、状態の間の遷移と、
これら遷移の各々が生起する確率と、遷移の各々でラベ
ルの各々が出力される確率とを有する確率モデルを利用
する。たとえば単語ごとにこのような確率モデルを設け
、それぞれの確率パラメータを学習により確定する。認
識時には、未知入力音声から得たラベル系列を確率モデ
ルの各々にマツチングさせて、そのラベル系列の生起す
る蓋然性の最も高い確率モデルの単語を認識結果とする
。このような手法についてはたとえばＩＥＥＥ会報第６
４巻（１９７６年）５３２〜５５６頁所載のエフ・ジエ
リネクの論文パ統計的方法による連続音声認識”　　（
Ｆ、　Ｊｅｌｉｎｅｋ。

Ｃｏｎｔｉｎｕｏｕｓ　　５ｐｅｅｃｈ　　Ｒｅｃｏｇ
ｎｉｔｉｏｎ　　ｂｙ　　ＳｔａｔｉｓｔｉｃａｌＭｅ
ｔｈｏｄｓ”、　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈ
ｅ　ＩＥＥＥ、　Ｖｏｌ、　６４゜１９７６、ｐｐ、　
５３２−５５６）に記載されている。

ところでマルコフ・モデルに基づく音声認識では確率パ
ラメータを学習により確定する際に多くの学習用データ
を必要とするとともに、学習に要する計算時間も無視で
きないものである。

なおこの発明の他の先行技術としては。

（１）　Ｅ１本音響学会昭和５８年度春期研究発表会講
演論文集（昭和５８年３月）１５１〜１５２頁所載の金
子等の論文″リニア・マツチングとＤＰマツチングを組
み合わせた大語常認識法″（２）ＡＳＳＰに関するＩＥ
ＥＥ会報、ＡＳＳＰ−３１巻、５号（１９８３年１０月
）所載の金子等の論文パ大３６％孤立発声認識への階層
的決定アプローチ”　　（Ｔ、　Ｋａｎｅｋｏ　ｅｔ、
　ａｌ、　”Ａ１１ｊｅｒａｒｃｈｉｃａｌ　　Ｄｅｃ
ｉｓｉｏｎ　　Ａｐｐｒｏａｃｈ　　ｔｏ　　Ｌａｒｇ
ｅ−Ｖｏｃａｂｕｌａｒｙ　　Ｄｅｓｃｒｅｔｅ　　Ｕ
ｔｔｆ！ｒａｎｃｅ　　Ｒｅｃｏｇｎｉｊｉｏｎ”。

ＴＨＦＥ　Ｔｒａｒ＋５ａｃｔｊｏｎｓ　ｏｎ　ＡＳＳ
Ｐ、　Ｖｏｌ、　ＡＳＳＰ−３１゜Ｎｏ、　　５．　０
ｃｔｏｂｅｒ　　１９８３）に３）日本音響学会研究会
資料５８０−１９　（昭和５５年６月）１４８〜１５５
頁所載の藤崎等の論文パ単語音声認識における処理の高
速化と話者適応″ （４）ＩＣＡＳＳＰ８３．１０２１−１０２４頁所載の
ディ・ケー・バートン等の論文″ベクトル量子化を用い
た孤立単語認識の一般化”　　（Ｄ、　Ｋ。

Ｒｕｒｔｏｎ　ｅｔ、　ａｌ、、“Ａ　Ｇｅｎｅｒａｌ
ｉｇａｔｉｏｎ　ｏｆＩｓｏｌａｔｅｄ　Ｗｏｒｄ　Ｒ
ｅｃｏｇｎｉｔｉｏｎ　Ｕｓｉｎ）ＨＶｅｃｔｏｒＱｕ
ａｎｔｉｚａｔｉｏｎ”、　１ｃＡｓｓＰ　８３．　ｐ
ｐ、　１０２１−１０２４）がある。これらは単語を時
間軸に沿って分割することを示している。しかし、これ
らには、分割したブロックごとにラベル出力確率を得、
ブロックごとのラベル出力確率に基づいて確率的に音声
認識を行うことについては何ら記載がない。

Ｃ９発明が解決しようとする問題点この発明は以上の事情を考慮してなされたものであり、
確率的な手法に基づく音声認識装置でありながら、簡易
に学習を行え、また認識に要する計算時間も少なくてす
むものを提供することを目的としている。

Ｄ０問題点を解決するための手段この発明では以上の目的を達成するために認識単位たと
えば認識語党中の単語の各々のＮ個のブロック（第１小
部分）ごとに、ラベルの各々が生じる確率が推定される
。この推定は、学習用データ中のラベルのヒストグラム
を認識単位の各々のＮ個のブロック別に生成し、このヒ
ストグラムを正規化して得る。未知入力単位もＮ個のブ
ロック（第２小部分）に分割され、これらＮ個のブロッ
クが認識単位の各々のＮ個のブロックとそれぞれ線型に
マツチングさせられる。マツチングさせられた未知入力
単位のブロックと所定の認識単位のブロックとの間では
、その認識単位のブロックに関して推定されている確率
に基づいてゆう度が計算される。すなわち未知入力単位
の当該ブロック中のラベルごとに、当該認識単位のブロ
ックの推定確率値を参照して、そのラベルが当該認識単
位のブロックで発生する確率を決定する。このような確
率を未知入力単位の当該ブロックにわたって求め、ブロ
ック単位のゆう度を求め、さらにこのブロック単位のゆ
う度を１認識単位にわたって総合してその認識単位に関
する全体のゆう度とする。

そして全体のゆう度の一番大きな認識単位を認識結果と
する。

この発明ではラベルの出力される確率の記述が極めて単
純であるため、それを学習により求めるのも簡単である
し、認識時の計算も簡単である。

マツチングは基本的には線型であるけれど１時間的なゆ
らぎを確率的な表現の採用による吸収することができ、
時間的なゆらぎに起因する誤認識を抑えることができる
。

Ｅ、実施例以下、この発明を不特定計者の孤立発生単語音声認識シ
ステムに適用した一実施例について図面を参照しながら
説明しよう。

第１図はこの一実施例を全体として示しており、この第
１図において、音声データがマイクロホン１および増幅
器２を介してアナログ・デジタル（Ａ／Ｄ）変換器３に
供給される。音声データとしては学習用データと未知単
語データとがある。

Ａ／Ｄ変換器３は音声データを８ＫＨｚでサンプリング
してデジタル・データに変換する。このデジタル・デー
タは特徴量抽出装置４に供給され、ＬＰＧ分析により特
徴量に変換される。この特徴量は１４ｎ秒ごとに生成さ
れてラベル付装置５に供給される。ラベル付装置５はプ
ロトタイプ辞書６を参照してラベル付けを行っていく。

すなわちプロトタイプ辞書６にはラベル・アルファベッ
ト（ｆ□）とこれに対応する特徴量のプロトタイプとが
表示されており、入力待微量と最も近いプロトタイプを
有するラベルｆ１が判別されて出力されていく。なお、
ラベル・アルファベットの要素数はたとえば３２であり
、ラベルのプロトタイプは２０秒の発声中の特徴量をラ
ンダムにサンプリングして得る。

ラベル付装に５からのラベルｆ工は切替手段７を介して
学習装ｒＩ１８または認識装に９に供給される。切替手
段７の入力端７Ｃは学習時には学習装置８がわの切替端
子７ａに接続され、認識時には認識装置９がわの切替端
子７ｂに接続されるようになっている。学習装置８は学
習用データから得たラベル系列を処理して予備選択テー
ブル１ｏおよび確率テーブル１１をそれぞれ確定する。

予備選択テーブル１０は？ｌ識対象語受中の東語Ｗｊを
時間軸に沿って等分して得たブロックｂｊｋにおいてラ
ベルｆｉの各々が出力される確率ｐ　（ｉ、ｊ。

ｋ）を表示するものである。なお、実際には計算の便宜
上確率テーブル１１には確率ｐにかえてＱｏｇｐが表示
されている。

認識装置９は予備選択テーブル１０および確率テーブル
１１を参照しながら未知単語の発声から得られたラベル
系列を処理し、後に詳述する２段階の認識動作を実行し
て認識結果を得る。この認識結果はたとえば陰極線管１
２上に表示される。

なお、一点鎖線のブロック１３で囲まれた部分は実際に
はパーソナル・コンピュータたとえばｒＢＭ社製のＰＣ
ＸＴ上にソフトウェアとして実現されている。ハードウ
ェアで実現する場合には、一点鎖線のブロック１３中の
実線のブロックからなる構成を採用すればよい。これら
ブロックはソフトウェアの機能の各々に対応するもので
あり、それぞれの詳細な説明は第２Ａ図、第２Ｂ図また
は第３図の対応するステップの説明に譲ることとする。

なお、理解を容易にするために、実線のブロックには第
２Ａ図、第２Ｂ図または第３図の対応するステップと同
一の番号を付した。

また一点鎖線のブロック１４で囲まれた部分はパーソナ
ル・コンピュータに付加される信号処理ボードにより構
成することができる。

つぎにこのシステムの学習について第２Ａ図および第２
Ｂ図を参照しながら説明しよう。なお、このシステムは
不特定話者用であるので、複数人たとえば１０人〜数１
０人の学習話者の発声に基づいて学習を行う。各話者は
順番に学習用データを人力していく。具体的な態様では
話者は認識対象語量中の単ｇ！ｗｊの各々について一度
に複数個たとえば３つの発声を行っていく。

学習では、まず単語Ｗｊのブロックｂｊｋ別に学習用デ
ータにおけるラベルｆ、のヒストグラムｈ（ｉ、　ｊ、
ｋ）を求める。第２Ａ図はこのヒストグラムｈ　（ｉ、
ｊ、ｋ）の生成手順を示す。第２Ａ図において、最初↓
こすべでの単語ｗｊの最大発声長Ｌ　（ｊ）　、最小発
声長Ｑ　（ｊ）およびｊの初期設定が行われる（ステッ
プ１５）。すなわちＬ（ｊ）ニーω、　　Ｑ　　（ｊ）
　＝＋ω、ｊ＝０とされる。

つぎに単語ｗＪを３度発声するように陰極線管１２（第
１図）上に表示がなされ（ステップ１６）、これに応じ
て話者が発声を行う。この発声に対し、順次Ａ／Ｄ変換
、特徴量抽出およびラベル付処理が行われる（ステップ
１７〜１９）。こののち必要であれば最大発声長Ｌ　（
ｊ）および最小発声長１２（ｊ）の更新が行われる（ス
テップ２０）。すなわち今回の３個の発声のうち最長の
ものが最大発声長Ｌ　（ｊ）より長ければ、その値を新
しい最大発声長Ｌ　（ｊ）とする、同様に今回の３個の
発声のうち最小のものが最小発声長Ω　（ｊ）より短か
ければ、その値を新しい最小発声長Ｑ　　（ｊ）とする
のである。

つぎに発声長の正規化およびブロック・セグメンテーシ
ョンを各発声について行う（ステップ２１および２２）
、発声長の正規化は１個の発声に含まれるラベルの個数
を所定の数Ｎｆ（＝＝−ＮｏＸＮｂ、Ｎｏは正の整数、
Ｎｂはブロックｂｊｋの個数）にし、単純にブロック・
セグメンテーションを行えるようにするものである。も
ちろん、ラベルの単位でなく、それより小さな単位でセ
グメンテーションを行ってもよいけれども、そのように
するとヒストグラムの計算が複雑になるきらいがある。

具体的な例では、ブロックの個数Ｎｂを８とし、正の整
数ＮＯを１０とし、１個の発声が８０個のラベルを含む
ように正規化を行っている。

これを第４図に示す。第４図の例は発声長正規化前の発
声が９０個のラベルを含む場合を示している。第４図か
ら理解されるように正規化前のラベルはスキップされる
ことがある。具体的な例では、正規化後の時刻ｔ　（＝
０〜７９、時間の単位はラベルの発生する間隔である）
のラベルｆ　（ｔ）は。

Ｔ＝Ｌ　（ｔ、ｘ９０／８０＋０．５Ｊとして、正規化
前の時刻Ｔのラベルｆ　（Ｔ）となっている。ここでＬ
α」はαの小数点以下を切り捨てることを示す。上の式
を模式的に示せば第５図に示すようになる。上の式は一
般化してＴ＝１　（ｔｘＮｒ）／　Ｎ　１　＋　Ｏ１５
」で表わされる。ただし、Ｎｒは正規化後のラベル数、
Ｎ、は正規化前のラベル数である。なお第４図はＮ、＝
９０であり、Ｎ（＞Ｎｔであるけれど、Ｎ、≦Ｎ、でも
よい。

ブロック・セグメンテーションは第６図に示すように正
規化後の発声をブロックｂＪｋに等分することである。

以上のステップ１６〜２３は認識対象語穴中のすべての
単語Ｗｊについて°実行される（ステップ２４および２
５）。第２Ａ図のヒストグラム生成の手順は一人の話者
に関して示されている。この手順を複数の話者に対して
実行することにより。

特定の話者に傾よることのないヒストグラムｈ（ｉ、ｊ
、ｋ）を生成することができる。

このようにして特定話者に傾ることがないヒストグラム
ｈ　（ｉ、ｊ、ｋ）を作成したのちこれを正規化して単
語Ｗｊのブロックｂｊｋでラベルｆｉを出力する確率ｐ
　（ｉ、ｊ、ｋ）を第２Ｂ図に示すように計算する（ス
テップ２６）。確率ｐ　（ｉ。

により求める。

なお、第２Ａ図のブロック・セグメンテーションおよび
ヒス１−グラム計算のステップ２２および２３はたとえ
ば第７図に示すように行うことかできる。第７図はブロ
ック１）ｊｋの個数を８、ブロックＥ）ｊｋ内のラベル
ｆ□の個数を１０とした場合を示している。第７図にお
いてＣ□およびｃ２はカウンタの値を示し、当初ゼロに
されている（ステップ２７）。ｃｌはラベルが到来する
都度＋１増分され（ステップ２９）、１０に達するとゼ
ロにリセツｉ〜される（ステップ３１）。ｃ２はｃｌが
リセットされる都度＋１増分される（ステップ３１）。

ステップ３０および３２でそれぞれブロックｂｊｋの区
切りおよび発声の終端を判別しながら、時刻ｔ＝ＬＯｃ
、＋ｃ工ごとにヒストグラムｈ　（ｉ　　（ｘｏｃｚ＋
ｃｔ）−ｊ、Ｑ２）を＋１増分する。なお、ｉ　　（ｔ
）は時刻ｔ　　（ｔ＝Ｑ〜７９、時間の単位はラベルの
発生する間隔である）におけるラベル番号を示す。

つぎに未知入力の認識について第３図を参照しながら説
明しよう。

第３図において未知単語Ｘのデータが入力されるとくス
テップ３３）、このデータが順次Ａ／Ｄ変換、特微量徴
出およびラベル付は処理を施される（ステップ３４．３
５および３６）。こののち未知単語Ｘの発声長が判別さ
れ（ステップ３７）、後段の予備選択ステップ３９で用
いられる。また未知単語Ｘの発声長は第２Ａ図のステッ
プ２１と同様の手法で正規化される（ステップ３８）。

予備選択ステップ４０では具体的には未知単語の発声長
Ｌｅｎｇｔｈ　（ｘ）に対し単語ＷｊがＱ　（ｊ）（１
−Δ）＜Ｌｅｎｇｔｈ（ｘ）　＜直ｊ）（１＋Δ）を満
たすかどうかを予備選択テーブル１０（第１図）を参照
して判別する。なおΔは小さな値であり、たとえば０．
２である。もし、この条件が満たされない場合には単語
Ｗｊを認識結果の候補から外すように、ゆう度を−ωと
する（ステップ４３）。条件を満たす場合には未知単語
Ｘの発声を第２Ａ図のステップ２２と同様にブロックｂ
ｊｋに分割しくステップ４１）、こののちゆう度計算を
行う（ステップ４２）。未知単語Ｘに対する単語Ｗｊの
ゆう度ｒ、ｉ−ｉ　（ｊ）はで求められる。

以上のステップ４０〜４３はすべての単語Ｗｊについて
実行され（ステップ３９．４４および４５）、すべての
単語Ｗｊのゆう度ＬＨ（ｊ）が求まる。こののち最大の
ゆう度ＬＩＩ（ｊ＞を有する単語が認識結果として出力
される（ステップ４６）。

なお、この発明は上述実施例に限定されるものでなくそ
の趣旨を逸脱しない範囲で種々の変更が可能である。た
とえば上述実施例はパーソナル・コンピュータ上にソフ
トウェアとして実現されているけれども、ハードウェア
により実現するようにできることはもちろんである。

また、上述実施例はバンキング・システムや地下鉄案内
システム等を念頭においた不特定話者の音声認識である
けれども、特定話者用のシステムとしてもよいことはも
ちろんである。

また認識精度を向上させるためにスムージング処理を施
こすようにしてもよい。たとえばラベルの出力確率がゼ
ロの場合にはε＝１０−７程度の値で置き換えたり、ラ
ベル間のコンフユージヨンを考慮してヒストグラムを計
算しなおすようにしてもよい。

Ｆ１発明の詳細な説明したように、この発明によれば、ラベルの出力確
率を極めて単純に表現しているので、その学習を簡易に
行え、また認識時の計算量も小さく抑えることができる
。また時間的なゆらぎに起因するエラーを確率的な表現
の採用により吸収することができるので誤認識を抑える
ことができる。

【図面の簡単な説明】

第１図はこの発明の一実施例を全体として示すブロック
図、第２Ａ図および第２Ｂ図は第１図の学習装置８を説
明するためのフローチャート、第３図は第１図の認識装
置９を説明するためのフローチャート、第４図、第５図
、第６図および第７図は第２Ａ図の要部を説明する図で
ある。５・・・・ラベル付装置、１０・・・・予備選択テープ
取、１１・・・・確率ラベル、４１・・・・ブロック・
セグメンテーションのブロック、４２・・・・ゆう度計
算のブロック。Ｌ　！　Ｌ　Ｌ　Ｉｌｌ、◇７ｂ７０第４図第６肉正規化後力時刻ｔ（Ｏ〜７９）第５図

Claims

【特許請求の範囲】

（１）複数個の認識単位の各々の複数個の第１小部分に
おいてラベルの各々が生じる確率を記憶する記憶手段と
、未知入力単位からラベル系列を生成する手段と、上記ラ
ベル系列を上記第１小部分に対応する第２小部分に分割
する手段と、上記ラベル系列中のラベルごとに、その表示とそのラベ
ルが属する上記第２小部分の表示とに基づいて、任意の
上記認識単位に関する確率であつて当該ラベルに対応す
るものを上記記憶手段から取り出して、上記任意の認識
単位および未知入力単位の間のゆう度を計算するゆう度
計算手段と、上記ゆう度計算手段の出力に応じて当該ゆ
う度の最大となる上記認識単位を認識結果とする手段と
を有することを特徴とする音声認識装置。
（２）上記未知入力単位の長さに応じて上記認識結果の
候補を予備選択する予備選択手段を有する特許請求の範
囲第（１）項記載の音声認識装置。
（３）上記ゆう度計算手段は上記任意の認識単位に関し
て取り出された確率値の対数の和を計算して上記ゆう度
を得る特許請求の範囲第（１）項記載の音声認識装置。