JP3125928B2

JP3125928B2 - 音声認識装置

Info

Publication number: JP3125928B2
Application number: JP01026078A
Authority: JP
Inventors: 潤一郎藤本; 晴剛安田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-02-03
Filing date: 1989-02-03
Publication date: 2001-01-22
Anticipated expiration: 2016-01-22
Also published as: JPH02205898A

Description

【発明の詳細な説明】技術分野本発明は、音声認識装置に関する。

従来技術音声認識装置の研究が活発に行なわれており、特定話
者や不特定話者等の方式がある。いずれの方式にして
も、音声区間が正しく切り出せることが正しい認識のた
めの必須の条件である。音声区間の切り出し方は、特公
昭62−50837号公報に記載のものが知られている。これ
は、閾値Ａの決め方が重要で、低く設定すると雑音によ
って信号のエネルギーが閾値を越え、音声区間切り出し
部で音声検出信号を出してしまう。一方、閾値Ａを高く
設定すると、音声の冒頭が欠落してしまうことになる。
これを防ぐために、例えば、特開昭57−177197号公報や
58−076899号公報等があり、これは周囲の雑音のレベル
によって閾値Ａをどのように設定するかを示しているも
ので、前記の様な不具合が発生しにくい閾値Ａを決める
訳であるが、雑音のレベルは時々刻々と変化しているも
のであり、場合によっては雑音レベルが変わらなくとも
発声者の声の大きさが小さくなってしまえば正確な切り
出しが出来なくなってしまう欠点がある。

又、他の方法として、特開昭57−148799号公報のよう
に、音声のエネルギーだけでなく音韻系列を分析して正
確な区間を切り出すものもあるが、音韻の分類という厄
介な演算をしなければならない。更に、特開昭56−5658
8号公報に示されているように、上記方法で音声区間の
始端を検出後、始点よりも50m秒前へもどす方法があ
る。これは声が小さく閾値が高い時に欠落しやすい部分
を補うものであるが、この50m秒の中には、必ずしも音
声が含まれているとは限らない。ここに音声が含まれて
いない場合又は雑音が入っている場合には認識精度を落
とす欠点がある。

また、上記閾値Ａを用いた場合の欠点を補うものとし
て、第10図のようなものがある（特開昭60−23899号公
報）。これは音声区間内のエネルギーを積分し、それを
音声区間の時間長によって正規化した結果がある値より
大きければ良く、小さければ使用者に声を大きく発声す
るように指示するものである。しかしながら、第11図
（ａ）のようなエネルギーの小さい部分を持つ言葉と、
そうでない第11図（ｂ）のような言葉ではエネルギーの
時間平均だけでは扱いにくいという問題があった。例え
ば第11図（ａ）は「ストップ」のような単語では促音が
含まれるため、大きい声でしゃべっているのに声を大き
くせよという指示が出たり、一方、「目」のような単語
では第11図（ｂ）のようなタイプで、声が小さくて子音
の/m/が検出できなくても母音/e/は/m/に比べて大きな
エネルギーを持っているため音声区間の平均は閾値Ａを
下らないことが多く、そのため検出エラーを生じやすい
という欠点があった。

目的本発明は、上述のごとき実情に鑑みてなされたもの
で、音声の始端が発声者の声の大小にかかわらず正確に
検出されるようにしたもので、また、正しい音声区間の
検出を可能にするもので、その結果、認識精度の高い音
声認識装置を提供することを目的としてなされたもので
ある。

構成本発明は、上記目的を達成するために、音声を電気信
号に変換する音響−電気変換機と、変換された信号から
音声に係る部分を抽出するための音声区間検出部と、検
出された信号を用いて音声を認識する認識部とを有する
音声認識装置において、音声区間検出部で検出された音
声の始点候補より時間的に前に連続して存在する電気信
号を分析し、その分析結果に応じて使用者の発声の仕方
を指示するようにしたことを特徴としたものである。以
下、本発明の実施例に基づいて説明する。

まず、第５図は、通常のパターンマッチングを利用し
た音声認識装置のブロック図で、マイク12からの信号
は、音声区間検出部13でその音声区間が検出され、マイ
クからの音声パターンと標準パターン15とが認識部14に
おいて認識される。

第１図は、本発明による音声認識装置の一実施例を説
明するための構成図で、同図は、第５図における音声区
間検出部の構成を示したもので、図中、１はマイク、２
はA/D変換部、３は第１のメモリー、４はエネルギー検
出部、５はレジスター、６は比較器、７は閾値Ａ、８は
エネルギー検出部、９は比較器、10は閾値Ｂ、11は結合
部である。最初に音声を電気信号に変換する音響−電気
変換器により変換された信号から音声に係る部分を抽出
する音声区間検出部と、検出された信号を用いて音声を
認識する認識部とを有する音声認識装置において、音声
区間の始点が検出された時点より前へ音声の始点をずら
すようにした点について以下に説明する。

マイク１からの信号をA/D変換器２でA/D変換して順に
第１のメモリー３に書き込んで行く。この時あらかじめ
特徴量に変換してから書き込んでも良いし、書き込んだ
ものを読み出して変換しても良い。ここで言う特徴量と
はスペクトルやLPC等の分析結果を指しており、その種
類は特に限定するものではない。第１のメモリー３には
時間の経過に従って順にずらしながら書き込み、端まで
一杯になった時に再度先頭へ戻るようなものである。メ
モリーに書き込むと同時にその信号のエネルギーを検出
して音声区間の検出を行なう。

音声区間の検出方法は、第６図に示すような音声のエ
ネルギーの大きさから周囲のバックグラウンドノイズと
分けるものが一般的である。この方法では音声が入力さ
れるまえにノイズレベルのエネルギー閾値Ａを決めてお
き、その閾値Ａよりも大きな音が入力された時点から閾
値Ａより下がるまでを音声区間とするものである。これ
が考え方の基本であるが、雑音と区別するためいろいろ
の改良がなされている。また、特徴量としては特定のも
のを利用する必要はなく、もっとも一般的なパワースペ
クトルやLPC、更にはケプストラムなど、どれを用いて
も良い。この中からパワースペクトルを例にあげると、
入力された音声をバンドパスフィルタ群に印加せしめれ
ば実現出来、バンドパスフィルタの特性をどのように選
ぶかで自由に分析のしかたが変えられる。

次に、第７図の波形に従って説明する。図示した音声
波形が入力された時、まずエネルギーが計算され、閾値
Ａと比較してこれより大きい時に音声区間が始ったとし
てレジスターに検出された音声が格納される、仮りに、
第１のメモリーに100m秒分のデータが格納されるとする
と、第７図のａからｄまでのデータを持っていることに
なる。そこでｃにあった音声の始点をａ〜ｃの間ずらす
ようにする。ただし、ａに移動すると、ａ〜ｂ間の余分
が音声の冒頭に添付してしまう。特に、第８図の母音の
ようなエネルギー波形にこの100m秒をつぎ足すと、その
100m秒の中は殆ど不要なデータになってしまう。そこ
で、始点をずらした後に、音声区間検出部が検出した始
点（前の始点）と、ずらして作った始点（後の始点）の
間の信号を分析し、その分析結果に応じて後の始点を移
動させるようにした。この分析の例としてａ〜ｃのエネ
ルギーを着目するようにしたのが第１図の実施例であ
る。第１のメモリー３に保持されているａ〜ｃのデータ
のエネルギーを検出し、閾値Ｂと比較する。閾値Ｂは言
うまでもなく閾値Ａ＞閾値Ｂでなければならない。閾値
Ｂは０であっても良い。比較器９で閾値Ｂを越えた時点
へ音声の始端を移動すると、第７図ではｂ〜ｄまでの正
しい音声区間を検出することができる上に、第８図のよ
うな波形であっても正しく検出できる。当然ながらこの
方法を音声の終端に適用しても良い。又、100m秒のバッ
ファも限定したものではなく更に短くても良い。第７図
でいうならこのように検出したｂ〜ｃの部分を通常の方
法で検出したｃ〜ｄの部分に結合することによってｂ〜
ｄの正しい音声となる。これを認識部へ転送し認識を行
なう。認識方法は特に限定するものではなくDPマッチン
グ等の周知の方法を用いれば良い。また、第１図は実質
上、エネルギー検出部を二つに分けて示したが、一つで
両方を兼ねることも可能であるし、閾値も両値を持たず
に、例えば、Ｂ＝A/5のように決めても良い。更に、こ
こではａ〜ｃのデータの分析の方法としてエネルギーを
示したが、パワースペクトルの差分を取るなど他の方法
を利用することによっても実行可能である。

次に、本発明の他の実施例について、第２図に基づい
て説明する。図中、16は第２のメモリ、17はクリア部、
その他第１図の場合と同様の作用をする部分１〜11は、
第１図の場合と同一の参照番号が付してある。

第２図は、音声を電気信号に変換する音響−電気変換
器により変換された信号から音声に係る部分を抽出する
音声区間検出部と、検出された信号を用いて音声を認識
する認識部とを有する音声認識装置において、音声区間
検出部が検出した音声の始点より一定時間前へ始点をず
らし、該ずらした区間内を分析しその区間の始点以外の
部分に無音部が検出された時、音声の始点をこの無音部
の最後尾へ移動させるようにしたものである。マイク１
から入力された音声信号或いは音声信号を特徴量に変換
したものを第１のメモリー３へ記録して行く。第１のメ
モリー３では、各タイミングに出力される１個又は複数
のデータを順に記録できるようなもので、例えば100m秒
分のデータが一時的に格納できるものであれば良い。10
0m秒分書き込み終ると再び先頭からその上へ次のデータ
を書き込み直す。又、第１のメモリー３に書くと同時に
各タイミングのエネルギーを求め、それが閾値Ａより大
きいかどうかを第１の比較器６で比較し、大きいと音声
スタートの信号をレジスタ５へ送ってA/D変換したデー
タをとり込み始める。次に、第１のメモリー３の中に格
納されている100m秒のデータの冒頭からエネルギーを求
め閾値Ｂと第２の比較器９で比較し、閾値Ｂより小さけ
れば無視し大きければ第２のメモリー16を書き込む。こ
こでその後、閾値Ｂより小さなエネルギーの部分がある
とクリア機能17で第２のメモリー16の内容を全てクリア
し、以下同様のくり返しとなる。100m秒のデータをチェ
ックし終った後、第２のメモリー16にデータがあれば、
これをレジスタ５内に格納されているデータの冒頭に結
合して音声データとし、認識部へ転送する。これを波形
で説明すると、第９図のようになる。通常の方法で検出
される音声区間では先頭の音韻が欠落する。そこで先頭
100m秒前のデータまでとったとすると、***の開閉音等
のノイズが一緒に音声として含まれてしまうことがあ
る。そこでこの100m秒分のエネルギーを再度チェック
し、先にみつかっている音声区間と連続している部分を
残して他を捨てる。これにより、正しい音声区間を検出
できる。この効果を得るためには当然閾値Ａ＞閾値Ｂで
なければならない。

この方法は、音声の冒頭で説明したが、音声の終端に
適用することもできる。また、100m秒のメモリーも限定
するものではなく、更に短くしても良い。また認識方法
は特に限定するものではなく、前述したDPマッチング等
の周知の方法を用いれば良い。このような技術内容は、
例えば「音声認識」（新美著、共立出版）等に詳しく記
載されている。

また、第２図は第１図の場合と同様に便宜上、エネル
ギー検出部を二つに分けて示したが、一つで両方を兼ね
ることも可能であるし、閾値も両値を持たずに、例えば
Ｂ＝A/5のように決めても良い。更に、ここでは、ａ〜
ｃのデータの分析の方法としてエネルギーを示したが、
パワースペクトルの差分を取るなど他の方法を利用する
ことによっても実行可能である。

更に、本発明による他の実施例を第３図に基づいて説
明する。図中、18は表示部で、その他第１図の場合と同
様の作用をする部分１〜10は、第１図の場合と同一の参
照番号が付してある。この実施例では、音声の立ち上り
があまり急峻ではなく、特に先頭音が子音である場合は
なだらかな立ち上りをするため、この部分が正確に検出
できないことに着目してなされている。音声を電気信号
に変換する音響−電気変換器により変換された信号から
音声に係る部分を抽出する音声区間検出部と、検出され
た信号を用いて音声を認識する認識部とを有する音声認
識装置において、音声区間検出部で検出された音声始点
より前のデータを分析し、その分析結果に応じて使用者
の発声の仕方を指示するようにした。

マイク１からの音声はA/D変換器２でデジタル信号に
変換されている。この場合、あからじめ特徴量に変換し
ておいてA/D変換するのが望ましい。このデータは第１
のメモリー３にサンプル時間毎に順に記録されるととも
にエネルギーの検出が行なわれる。このエネルギーは閾
値Ａと第１の比較器６で比較され、これより大なる時点
で音声のスタートとみなされる。つまり、この部分は第
６図に示す音声区間の検出を行なっている訳であるが、
閾値Ａよりもエネルギーが大きくなった時点で、その少
し前のデータまで第１のメモリー３の中に記憶されてい
ることになる。第１のメモリー３に0.1秒分のデータが
記録できるとすると、音声の立ち上りの瞬間にはその0.
1秒前のデータまで持っていることになる。そこで、こ
の0.1秒分のエネルギーを分析し、決められた閾値Ｂよ
りも大きければ、本来音声区間として検出すべきものが
声が小さくエネルギーが小さくなったため、検出誤りを
引き起こしていると考え、「声を大きく」とのメッセー
ジを表示部18で表示するようにする。又、閾値Ｂよりも
小さいと、正確に立ち上りを検出しているとして、何も
表示しない。或いは「良好」の旨を表示する。ここで、
閾値Ｂの決め方であるが、0.1秒分全体を比較する場合
なら、A/2の0.1秒分のエネルギー程度に設定すれば良い
し、各時点毎の比較ならばA/2程度の値にすれば良い。
これを第５図の音声区間検出部に組み入れることで、本
発明の認識装置は動作する。この場合の認識部の方式は
特に限定するものではない。又、標準パターンは特定話
者方式の時には登録するルーチンが必要である。第５図
図では、不特定話者等を考えて省略してある。

更に、本発明による他の実施例を第４図に基づいて説
明する。19は特徴抽出部、20はレジスタ群（レジスタ制
御部）、21は内容チェック部、22はリングカウンタ、23
はデータ転送制御部、24は始端検出部、25は始端補正
部、26は入力データバッファ、27はパターン照合部、28
は辞書テンプレート、29は結果出力部である。まず第７
図に示す様に、音声区間を求める場合に音声の特徴量、
例えばパワースペクトラムやLPCケプストラム等に基づ
いてある閾値Ａと比較して、それより大なる部分を音声
区間として検出する。しかしながら、閾値Ａは音声の大
きさや周囲騒音に対して一定であると検出が難しくなる
ため、一般には、可変に設定する場合が多い。従って、
語頭の子音部などは、声の小さい場合や周囲騒音が大き
い場合には閾値Ａの影響で検出できない。そのため、始
端をｂ点に動かす事によりその影響を小さくする。又、
音声認識装置においては、一般に音声発声終了までデー
タを取り込み、その後に照合を行うものより、データ入
力と並行して照合演算を行う（例えば、DPマッチングや
BTSP方式における予備選択）ものが多く、音声区間の検
出も実時間で行う必要がある。しかしながら、時間的に
過去へ逆上ることは難かしく、実際にはレジスタ群を用
いて過去のデータを蓄積する。

あるサンプル周期で（例えば、10ms,20ms）入力され
る未知音声の特徴量が特徴抽出部19で求められ、音声の
始端が検出されるまでは、特徴データは逐次レジスタ群
20に蓄積される。レジスタ群20は定められたｎフレーム
長の長さで、その入力にはリングカウンタ22の値をポイ
ンタとして0,1,2,…,n,0,1,2,…,n−1,n,0,…とデータ
をレジスタ制御部20により制御される。一方、始端検出
部24において始端が検出された時点で、同様にリングカ
ウンタ22の指す位置から指定されたｍフレームの位置か
ら過去ｎフレームを構成することにより、始端検出と同
時に補正がかかり、ほぼ実時間で照合可能となる。

次に、始端の補正は、そのリングカウンタ22によって
示されたレジスタ群20の値を逆方向に検索し、０データ
となる直前のフレームが真の始端になる。この様にして
得られたポインタに従って、入力バッファに真の始端か
ら現在のポインタまでを入力バッファに転送し、その後
は再びサンプル周期に従ったデータ入力を実時間で処理
する。

効果以上の説明から明らかなように、本発明によると、発
声者の音声の大小にかかわらず正しい音声区間の検出が
可能となったため、音声認識装置の認識率を向上させる
ことができ、その補正を実時間で行える。

また、音声のレベルの大小にかかわらず、正確に区間
の検出が出来るようになった。特に本発明は声が小さく
唇の開閉音を発声しやすいような人に対し有効で高い認
識精度が実現できるようになった。

また、小さい声でしゃべった時には、発声された言葉
によらず正確にそれ以後の発声を大きくするよう指示す
ることが出来る。又、周辺の騒音と共に閾値Ａが変動す
るような場合には、騒音が大きく、閾値Ａが上昇すると
更に大きな声で発声する様、指示が出されることにな
る。これによって、音声の始端、終端は正確に検出され
るようになり、その結果、認識精度を良くすることがで
きる。

【図面の簡単な説明】

第１図は、本発明による音声認識装置の一実施例を説明
するための構成図、第２図は、他の実施例を示す構成
図、第３図は、更に他の実施例を示す構成図、第４図
は、更に他の実施例を示す構成図、第５図は、通常のパ
ターンマッチングを利用した音声認識装置のブロック
図、第６図は、音声区間の検出方法を説明するための
図、第７図〜第９図は、音声波形に対する閾値と音声区
間を示す図、第10図は、音声区間の検出方法の従来例を
示す図、第11図（ａ）、（ｂ）は、エネルギー分布の異
なる音声に対する音声区間の検出方法の従来例を示す図
である。１……マイク、２……A/D変換部、３……第１のメモ
リ、4,8……エネルギー検出部、５……レジスター、6,9
……比較器、７……閾値Ａ、10……閾値Ｂ、11……結合
部、16……第２のメモリ、17……クリアブ、18……表示
部。

フロントページの続き (56)参考文献特開昭62−191895（ＪＰ，Ａ) 特開昭63−77097（ＪＰ，Ａ) 特開昭60−23899（ＪＰ，Ａ) 特開昭60−101598（ＪＰ，Ａ) 特開昭59−152498（ＪＰ，Ａ) 特開昭58−76899（ＪＰ，Ａ) 特公昭62−50837（ＪＰ，Ｂ２)

Claims

(57)【特許請求の範囲】

【請求項１】音声を電気信号に変換する音響−電気変換
機と、変換された信号から音声に係る部分を抽出するた
めの音声区間検出部と、検出された信号を用いて音声を
認識する認識部とを有する音声認識装置において、音声
区間検出部で検出された音声の始点候補より時間的に前
に連続して存在する電気信号を分析し、その分析結果に
応じて使用者の発声の仕方を指示するようにしたことを
特徴とする音声認識装置。