JPS63316097A

JPS63316097A - 連続音声認識装置

Info

Publication number: JPS63316097A
Application number: JP62152520A
Authority: JP
Inventors: 羽金　廣
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1987-06-19
Filing date: 1987-06-19
Publication date: 1988-12-23

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、連続的に発声された音声を認識する音声認識
装置に関する。

（従来の技術）従来、この種の連続音声認識装置では、登録（特定話者
用の音声認識装置で行なう処理）や認識処理を行なう前
に、マイクロホンからの音声信号を増幅するための増幅
器の増幅度を発声者自身がボリューム等で設定したり、
あるいは発声者のテスト発声のレベルに従って音声認識
装置が自動的に増幅度を設定して（以後このレベルを設
定する処理をレベル設定と呼ぶ）、その増幅度で増幅さ
れた音声信号に対して連続音声認識処理を行なっていた
。

（発明が解決しようとする問題点）上述した従来の連続音声認識装置では、レベル設定後に
登録や認識が行なわれ、レベル設定で決定された増幅度
は、その登録や認識処理中は変更きれることなく一定の
増幅度でマイクロホンからの音声信号を増幅して処理し
ている。このようにして増幅度を設定する従来の連続音
声認識装置では、発声者の音量が変化した場合には最適
な増幅度の音声信号が得られない場合があった。万一増
幅度が最適となった場合でも連続的に発声された音声で
は音量が大きい認識対象区間に対して最適になるように
増幅度が決められるから、連続的に発声された音声中に
音量が小きい認識対象区間が存在した場合、その区間で
は増幅度が小さい。

（音量が大きい部分に比べてＡ／Ｄ変換後の量子化の精
度が粗い）音声信号を処理して音声認識を行なわざるを
えない欠点があった。具体的な例を第２図で説明する。

第２図は、発声者が「５２」を発声したときのマイクか
らの音声信号パワー（音量）の変化を示す図である。一
般的に「５２」の発声の中で、“５”の発声区間は“２
″の発声区間に比べてパワーが大きい、“５″の発声区
間に最適な増幅度をもった音声信号が万−得られた場合
でもダイナミックレンジ（第２＠のレベルＤ）に占める
“２”の音量のレベルの割合が小さいから、Ａ／Ｄ変換
後に十分な分解能が得られず、“２″の発声区間の量子
化の精度が“５”のそれに比較して粗くなる欠点があっ
た。

（問題点を解決するための手段）前述の問題点を解決するために本発明が提供する手段は
、連続的に発声された音声を認識する連続音声認識装置
であって、入力音声信号を互いに異なる増幅度でそれぞ
れ増幅する複数の増幅器と、前記入力音声信号の始端を
検出する始端検出部と、前記入力音声信号の終端を検出
する終端検出部と、前記始端から前記終端までの期間に
おける複数の前記増幅器の出力をそれぞれ一時記憶する
複数の記憶部と、前記始端から前記終端に到るまでの期
間を複数のセグメントに分割する手段と、各前記セグメ
ントごとに当該セグメントにおける最適な増幅度に対応
する前記記憶部から音声信号を読み出して認識処理を行
なう認識部とを有してなる。

（実施例）次に本発明の実施例について図面を参照して説明する。

第１図は本発明の連続音声認識装置の一実施例を示す構
成図である。

本実施例において、増幅器Ａｔ　＊　ｋｌ　ｖ・・・、
Ａ、はそれぞれ異なる増幅度をもっており、マイクロホ
ンＭＣから入力した音声信号をそれぞれ増幅する。

始端検出部ＳＤ、終端検出部ＥＤは音声信号の始めと終
わりを検出しそれぞれ始端検出信号Ｓｌｙ終端検出信号
Ｓ、を出力する。Ａ／Ｄ変換器ＣＩ　＋　Ｃｍ　＋・・
・＋ＣＭは増幅器ａｔ　＃　Ａｘ　Ｉ・・・？ＡＩの出
力をそれぞれディジタルな音声信号に変換する。記憶部
Ｍ１＋１、・・・＋　Ｍ’Ｉはそれぞれ始端検出信号Ｓ
Ｉを入力してから終端検出信号Ｓ、を入力するまでＡ／
Ｄ変換器Ｃ１ｔ　ａｔ　Ｉ・・・＋ＣＩからの音声信号
を記憶する。連続音声認識部（以後認識部と呼ぶ）ＲＣ
は、終端検出信号Ｓ、を受信した時点で、連続音声認識
処理を開始する。

認識部ＲＣの処理を第３＠の例を使って説明する。第３
図は連続的に発声されたある音声の音量の変化を示した
図である。認識部ＲＣは連続的に発声された音声に仮区
分点Ｐ、Ｑを設定して３つのセグメントＡ、Ｂ、Ｃに分
割する。認識部ＲＣはセグメントＡの始点ａ、をセグメ
ント始点信号Ｓ１、終点ａ、をセグメント終点信号Ｓ４
として増幅度選択部ＳＥへ送る。増幅度選択部ＳＥは、
始点ａ。

と終点ａ、で示されるセグメントΔの区間に対して最適
な増幅度で記憶きれている音声信号を記憶部Ｍ、〜Ｈ１
の中から選び、セグメント音声信号Ｖとして認識部ＲＣ
へ送る。認識部ＲＣは送られてきたセグメントＡの音声
信号から特徴を抽出して、その特徴からセグメントＡの
認識結果Ａを得る。具体的には、バンドパスフィルター
の出力を特徴として、標準バタンと未知バタン（セグメ
ントＡの特徴から得られたバタン）の一致の度合（類似
度）を調べてその類似度が最も大きい標準バタンのカテ
ゴリ（属′性）を認識結果とするバタンマツチング法で
音声認識が実現できる。第３図のセグメントＢ、Ｃにつ
いても同様の処理を行なって認識結果Ｂ、Ｃを得る。

ここで得られた認識結果Ａ、Ｂ、Ｃは、連続的に発声さ
れた音声を仮の区分点Ｐ、Ｑで３分割した場合の結果で
あり最終的な認識結果を得るための候補となる。認識部
ＲＣは、連続音声のセグメント（分割）数とそれに伴う
区分点の位置を変数としてこのすべての変数の組合せに
対して第３図の例で説明した処理をくり返し行ない、各
々の組合せ毎に認識結果の候補を得て、その候補の中か
ら最も類似度の大きい候補を最終的な連続音声の認識結
果Ｔとして出力する。

具体的には、認識部ＲＣの連続認識の処理は前述したバ
タンマツチング法とＤＰ法（ＤＹＮＡＭＩＣＰＲＯＧＲ
ＡＭＩＮＧ法）を用いて実現できる。

以上、認識部ＲＣの一実施例としてバタンマツチング法
、ＤＰ法をあげたが、他のいかなる認識方式についても
本発明が適用できることは明らかである。また本実施例
では増幅度の段階を５レベルとして説明したが、本発明
は５レベルに限定されるものではない。

（発明の効果）以上説明したように本発明では、連続音声を複数のセグ
メントに分割して各々のセグメントの認識処理を行なう
場合、各セグメント毎にそのセグメントの区間にとって
最適な増幅度をもった音声信号を記憶部より選択するの
で、発声レベルが低い連続音声の部分に対しても最適な
増幅度で増幅された音声信号の処理が可能である。そこ
で、本発明の連続音声認識装置によれば、従来発声レベ
ルが低いために特徴量が十分に抽出されないことが原因
となって発生したエラーやりジェツトを削減できる。

【図面の簡単な説明】

第１図は本発明の連続音声認識装置の一実施例を示す構
成図、第２図は発声者が「５２」を発声したときのマイ
クからの音声信号の音量の変化を示す図、第３図は連続
的にある音声を発声したときのマイクからの音声信号の
音量の変化を示す区である。ＭＣはマイクロホン、ＡＩ　＋　Ａｔ　＋・・・＋ＡＩ
は増幅器、Ｃ，、Ｃ，、・・・、ＣａはＡ／Ｄ変換器、
ＭＩ　ＨＭｔ　ｒ・・・＋Ｍ６は記憶部、ＳＥは増幅度
選択部、ＲＣは連続音声認識部、ＳＤは始端検出部、Ｅ
Ｄは終端検出部、Ｓｌは始端検出信号、Ｓ、は終端検出
信号、Ｖはセグメント音声信号、Ｓ、はセグメント始点
信号、Ｓ４はセグメント終点信号、Ｔは連続音声認識結
果である。

Claims

【特許請求の範囲】

連続的に発声された音声を認識する連続音声認識装置に
おいて、入力音声信号を互いに異なる増幅度でそれぞれ
増幅する複数の増幅器と、前記入力音声信号の始端を検
出する始端検出部と、前記入力音声信号の終端を検出す
る終端検出部と、前記始端から前記終端までの期間にお
ける複数の前記増幅器の出力をそれぞれ一時記憶する複
数の記憶部と、前記始端から前記終端に到るまでの期間
を複数のセグメントに分割する手段と、各前記セグメン
トごとに当該セグメントにおける最適な増幅度に対応す
る前記記憶部から音声信号を読み出して認識処理を行な
う認識部とを有する連続音声認識装置。