JP3125928B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3125928B2
JP3125928B2 JP01026078A JP2607889A JP3125928B2 JP 3125928 B2 JP3125928 B2 JP 3125928B2 JP 01026078 A JP01026078 A JP 01026078A JP 2607889 A JP2607889 A JP 2607889A JP 3125928 B2 JP3125928 B2 JP 3125928B2
Authority
JP
Japan
Prior art keywords
voice
detected
speech
data
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP01026078A
Other languages
English (en)
Other versions
JPH02205898A (ja
Inventor
潤一郎 藤本
晴剛 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP01026078A priority Critical patent/JP3125928B2/ja
Publication of JPH02205898A publication Critical patent/JPH02205898A/ja
Application granted granted Critical
Publication of JP3125928B2 publication Critical patent/JP3125928B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 技術分野 本発明は、音声認識装置に関する。
従来技術 音声認識装置の研究が活発に行なわれており、特定話
者や不特定話者等の方式がある。いずれの方式にして
も、音声区間が正しく切り出せることが正しい認識のた
めの必須の条件である。音声区間の切り出し方は、特公
昭62−50837号公報に記載のものが知られている。これ
は、閾値Aの決め方が重要で、低く設定すると雑音によ
って信号のエネルギーが閾値を越え、音声区間切り出し
部で音声検出信号を出してしまう。一方、閾値Aを高く
設定すると、音声の冒頭が欠落してしまうことになる。
これを防ぐために、例えば、特開昭57−177197号公報や
58−076899号公報等があり、これは周囲の雑音のレベル
によって閾値Aをどのように設定するかを示しているも
ので、前記の様な不具合が発生しにくい閾値Aを決める
訳であるが、雑音のレベルは時々刻々と変化しているも
のであり、場合によっては雑音レベルが変わらなくとも
発声者の声の大きさが小さくなってしまえば正確な切り
出しが出来なくなってしまう欠点がある。
又、他の方法として、特開昭57−148799号公報のよう
に、音声のエネルギーだけでなく音韻系列を分析して正
確な区間を切り出すものもあるが、音韻の分類という厄
介な演算をしなければならない。更に、特開昭56−5658
8号公報に示されているように、上記方法で音声区間の
始端を検出後、始点よりも50m秒前へもどす方法があ
る。これは声が小さく閾値が高い時に欠落しやすい部分
を補うものであるが、この50m秒の中には、必ずしも音
声が含まれているとは限らない。ここに音声が含まれて
いない場合又は雑音が入っている場合には認識精度を落
とす欠点がある。
また、上記閾値Aを用いた場合の欠点を補うものとし
て、第10図のようなものがある(特開昭60−23899号公
報)。これは音声区間内のエネルギーを積分し、それを
音声区間の時間長によって正規化した結果がある値より
大きければ良く、小さければ使用者に声を大きく発声す
るように指示するものである。しかしながら、第11図
(a)のようなエネルギーの小さい部分を持つ言葉と、
そうでない第11図(b)のような言葉ではエネルギーの
時間平均だけでは扱いにくいという問題があった。例え
ば第11図(a)は「ストップ」のような単語では促音が
含まれるため、大きい声でしゃべっているのに声を大き
くせよという指示が出たり、一方、「目」のような単語
では第11図(b)のようなタイプで、声が小さくて子音
の/m/が検出できなくても母音/e/は/m/に比べて大きな
エネルギーを持っているため音声区間の平均は閾値Aを
下らないことが多く、そのため検出エラーを生じやすい
という欠点があった。
目的 本発明は、上述のごとき実情に鑑みてなされたもの
で、音声の始端が発声者の声の大小にかかわらず正確に
検出されるようにしたもので、また、正しい音声区間の
検出を可能にするもので、その結果、認識精度の高い音
声認識装置を提供することを目的としてなされたもので
ある。
構成 本発明は、上記目的を達成するために、音声を電気信
号に変換する音響−電気変換機と、変換された信号から
音声に係る部分を抽出するための音声区間検出部と、検
出された信号を用いて音声を認識する認識部とを有する
音声認識装置において、音声区間検出部で検出された音
声の始点候補より時間的に前に連続して存在する電気信
号を分析し、その分析結果に応じて使用者の発声の仕方
を指示するようにしたことを特徴としたものである。以
下、本発明の実施例に基づいて説明する。
まず、第5図は、通常のパターンマッチングを利用し
た音声認識装置のブロック図で、マイク12からの信号
は、音声区間検出部13でその音声区間が検出され、マイ
クからの音声パターンと標準パターン15とが認識部14に
おいて認識される。
第1図は、本発明による音声認識装置の一実施例を説
明するための構成図で、同図は、第5図における音声区
間検出部の構成を示したもので、図中、1はマイク、2
はA/D変換部、3は第1のメモリー、4はエネルギー検
出部、5はレジスター、6は比較器、7は閾値A、8は
エネルギー検出部、9は比較器、10は閾値B、11は結合
部である。最初に音声を電気信号に変換する音響−電気
変換器により変換された信号から音声に係る部分を抽出
する音声区間検出部と、検出された信号を用いて音声を
認識する認識部とを有する音声認識装置において、音声
区間の始点が検出された時点より前へ音声の始点をずら
すようにした点について以下に説明する。
マイク1からの信号をA/D変換器2でA/D変換して順に
第1のメモリー3に書き込んで行く。この時あらかじめ
特徴量に変換してから書き込んでも良いし、書き込んだ
ものを読み出して変換しても良い。ここで言う特徴量と
はスペクトルやLPC等の分析結果を指しており、その種
類は特に限定するものではない。第1のメモリー3には
時間の経過に従って順にずらしながら書き込み、端まで
一杯になった時に再度先頭へ戻るようなものである。メ
モリーに書き込むと同時にその信号のエネルギーを検出
して音声区間の検出を行なう。
音声区間の検出方法は、第6図に示すような音声のエ
ネルギーの大きさから周囲のバックグラウンドノイズと
分けるものが一般的である。この方法では音声が入力さ
れるまえにノイズレベルのエネルギー閾値Aを決めてお
き、その閾値Aよりも大きな音が入力された時点から閾
値Aより下がるまでを音声区間とするものである。これ
が考え方の基本であるが、雑音と区別するためいろいろ
の改良がなされている。また、特徴量としては特定のも
のを利用する必要はなく、もっとも一般的なパワースペ
クトルやLPC、更にはケプストラムなど、どれを用いて
も良い。この中からパワースペクトルを例にあげると、
入力された音声をバンドパスフィルタ群に印加せしめれ
ば実現出来、バンドパスフィルタの特性をどのように選
ぶかで自由に分析のしかたが変えられる。
次に、第7図の波形に従って説明する。図示した音声
波形が入力された時、まずエネルギーが計算され、閾値
Aと比較してこれより大きい時に音声区間が始ったとし
てレジスターに検出された音声が格納される、仮りに、
第1のメモリーに100m秒分のデータが格納されるとする
と、第7図のaからdまでのデータを持っていることに
なる。そこでcにあった音声の始点をa〜cの間ずらす
ようにする。ただし、aに移動すると、a〜b間の余分
が音声の冒頭に添付してしまう。特に、第8図の母音の
ようなエネルギー波形にこの100m秒をつぎ足すと、その
100m秒の中は殆ど不要なデータになってしまう。そこ
で、始点をずらした後に、音声区間検出部が検出した始
点(前の始点)と、ずらして作った始点(後の始点)の
間の信号を分析し、その分析結果に応じて後の始点を移
動させるようにした。この分析の例としてa〜cのエネ
ルギーを着目するようにしたのが第1図の実施例であ
る。第1のメモリー3に保持されているa〜cのデータ
のエネルギーを検出し、閾値Bと比較する。閾値Bは言
うまでもなく閾値A>閾値Bでなければならない。閾値
Bは0であっても良い。比較器9で閾値Bを越えた時点
へ音声の始端を移動すると、第7図ではb〜dまでの正
しい音声区間を検出することができる上に、第8図のよ
うな波形であっても正しく検出できる。当然ながらこの
方法を音声の終端に適用しても良い。又、100m秒のバッ
ファも限定したものではなく更に短くても良い。第7図
でいうならこのように検出したb〜cの部分を通常の方
法で検出したc〜dの部分に結合することによってb〜
dの正しい音声となる。これを認識部へ転送し認識を行
なう。認識方法は特に限定するものではなくDPマッチン
グ等の周知の方法を用いれば良い。また、第1図は実質
上、エネルギー検出部を二つに分けて示したが、一つで
両方を兼ねることも可能であるし、閾値も両値を持たず
に、例えば、B=A/5のように決めても良い。更に、こ
こではa〜cのデータの分析の方法としてエネルギーを
示したが、パワースペクトルの差分を取るなど他の方法
を利用することによっても実行可能である。
次に、本発明の他の実施例について、第2図に基づい
て説明する。図中、16は第2のメモリ、17はクリア部、
その他第1図の場合と同様の作用をする部分1〜11は、
第1図の場合と同一の参照番号が付してある。
第2図は、音声を電気信号に変換する音響−電気変換
器により変換された信号から音声に係る部分を抽出する
音声区間検出部と、検出された信号を用いて音声を認識
する認識部とを有する音声認識装置において、音声区間
検出部が検出した音声の始点より一定時間前へ始点をず
らし、該ずらした区間内を分析しその区間の始点以外の
部分に無音部が検出された時、音声の始点をこの無音部
の最後尾へ移動させるようにしたものである。マイク1
から入力された音声信号或いは音声信号を特徴量に変換
したものを第1のメモリー3へ記録して行く。第1のメ
モリー3では、各タイミングに出力される1個又は複数
のデータを順に記録できるようなもので、例えば100m秒
分のデータが一時的に格納できるものであれば良い。10
0m秒分書き込み終ると再び先頭からその上へ次のデータ
を書き込み直す。又、第1のメモリー3に書くと同時に
各タイミングのエネルギーを求め、それが閾値Aより大
きいかどうかを第1の比較器6で比較し、大きいと音声
スタートの信号をレジスタ5へ送ってA/D変換したデー
タをとり込み始める。次に、第1のメモリー3の中に格
納されている100m秒のデータの冒頭からエネルギーを求
め閾値Bと第2の比較器9で比較し、閾値Bより小さけ
れば無視し大きければ第2のメモリー16を書き込む。こ
こでその後、閾値Bより小さなエネルギーの部分がある
とクリア機能17で第2のメモリー16の内容を全てクリア
し、以下同様のくり返しとなる。100m秒のデータをチェ
ックし終った後、第2のメモリー16にデータがあれば、
これをレジスタ5内に格納されているデータの冒頭に結
合して音声データとし、認識部へ転送する。これを波形
で説明すると、第9図のようになる。通常の方法で検出
される音声区間では先頭の音韻が欠落する。そこで先頭
100m秒前のデータまでとったとすると、***の開閉音等
のノイズが一緒に音声として含まれてしまうことがあ
る。そこでこの100m秒分のエネルギーを再度チェック
し、先にみつかっている音声区間と連続している部分を
残して他を捨てる。これにより、正しい音声区間を検出
できる。この効果を得るためには当然閾値A>閾値Bで
なければならない。
この方法は、音声の冒頭で説明したが、音声の終端に
適用することもできる。また、100m秒のメモリーも限定
するものではなく、更に短くしても良い。また認識方法
は特に限定するものではなく、前述したDPマッチング等
の周知の方法を用いれば良い。このような技術内容は、
例えば「音声認識」(新美著、共立出版)等に詳しく記
載されている。
また、第2図は第1図の場合と同様に便宜上、エネル
ギー検出部を二つに分けて示したが、一つで両方を兼ね
ることも可能であるし、閾値も両値を持たずに、例えば
B=A/5のように決めても良い。更に、ここでは、a〜
cのデータの分析の方法としてエネルギーを示したが、
パワースペクトルの差分を取るなど他の方法を利用する
ことによっても実行可能である。
更に、本発明による他の実施例を第3図に基づいて説
明する。図中、18は表示部で、その他第1図の場合と同
様の作用をする部分1〜10は、第1図の場合と同一の参
照番号が付してある。この実施例では、音声の立ち上り
があまり急峻ではなく、特に先頭音が子音である場合は
なだらかな立ち上りをするため、この部分が正確に検出
できないことに着目してなされている。音声を電気信号
に変換する音響−電気変換器により変換された信号から
音声に係る部分を抽出する音声区間検出部と、検出され
た信号を用いて音声を認識する認識部とを有する音声認
識装置において、音声区間検出部で検出された音声始点
より前のデータを分析し、その分析結果に応じて使用者
の発声の仕方を指示するようにした。
マイク1からの音声はA/D変換器2でデジタル信号に
変換されている。この場合、あからじめ特徴量に変換し
ておいてA/D変換するのが望ましい。このデータは第1
のメモリー3にサンプル時間毎に順に記録されるととも
にエネルギーの検出が行なわれる。このエネルギーは閾
値Aと第1の比較器6で比較され、これより大なる時点
で音声のスタートとみなされる。つまり、この部分は第
6図に示す音声区間の検出を行なっている訳であるが、
閾値Aよりもエネルギーが大きくなった時点で、その少
し前のデータまで第1のメモリー3の中に記憶されてい
ることになる。第1のメモリー3に0.1秒分のデータが
記録できるとすると、音声の立ち上りの瞬間にはその0.
1秒前のデータまで持っていることになる。そこで、こ
の0.1秒分のエネルギーを分析し、決められた閾値Bよ
りも大きければ、本来音声区間として検出すべきものが
声が小さくエネルギーが小さくなったため、検出誤りを
引き起こしていると考え、「声を大きく」とのメッセー
ジを表示部18で表示するようにする。又、閾値Bよりも
小さいと、正確に立ち上りを検出しているとして、何も
表示しない。或いは「良好」の旨を表示する。ここで、
閾値Bの決め方であるが、0.1秒分全体を比較する場合
なら、A/2の0.1秒分のエネルギー程度に設定すれば良い
し、各時点毎の比較ならばA/2程度の値にすれば良い。
これを第5図の音声区間検出部に組み入れることで、本
発明の認識装置は動作する。この場合の認識部の方式は
特に限定するものではない。又、標準パターンは特定話
者方式の時には登録するルーチンが必要である。第5図
図では、不特定話者等を考えて省略してある。
更に、本発明による他の実施例を第4図に基づいて説
明する。19は特徴抽出部、20はレジスタ群(レジスタ制
御部)、21は内容チェック部、22はリングカウンタ、23
はデータ転送制御部、24は始端検出部、25は始端補正
部、26は入力データバッファ、27はパターン照合部、28
は辞書テンプレート、29は結果出力部である。まず第7
図に示す様に、音声区間を求める場合に音声の特徴量、
例えばパワースペクトラムやLPCケプストラム等に基づ
いてある閾値Aと比較して、それより大なる部分を音声
区間として検出する。しかしながら、閾値Aは音声の大
きさや周囲騒音に対して一定であると検出が難しくなる
ため、一般には、可変に設定する場合が多い。従って、
語頭の子音部などは、声の小さい場合や周囲騒音が大き
い場合には閾値Aの影響で検出できない。そのため、始
端をb点に動かす事によりその影響を小さくする。又、
音声認識装置においては、一般に音声発声終了までデー
タを取り込み、その後に照合を行うものより、データ入
力と並行して照合演算を行う(例えば、DPマッチングや
BTSP方式における予備選択)ものが多く、音声区間の検
出も実時間で行う必要がある。しかしながら、時間的に
過去へ逆上ることは難かしく、実際にはレジスタ群を用
いて過去のデータを蓄積する。
あるサンプル周期で(例えば、10ms,20ms)入力され
る未知音声の特徴量が特徴抽出部19で求められ、音声の
始端が検出されるまでは、特徴データは逐次レジスタ群
20に蓄積される。レジスタ群20は定められたnフレーム
長の長さで、その入力にはリングカウンタ22の値をポイ
ンタとして0,1,2,…,n,0,1,2,…,n−1,n,0,…とデータ
をレジスタ制御部20により制御される。一方、始端検出
部24において始端が検出された時点で、同様にリングカ
ウンタ22の指す位置から指定されたmフレームの位置か
ら過去nフレームを構成することにより、始端検出と同
時に補正がかかり、ほぼ実時間で照合可能となる。
次に、始端の補正は、そのリングカウンタ22によって
示されたレジスタ群20の値を逆方向に検索し、0データ
となる直前のフレームが真の始端になる。この様にして
得られたポインタに従って、入力バッファに真の始端か
ら現在のポインタまでを入力バッファに転送し、その後
は再びサンプル周期に従ったデータ入力を実時間で処理
する。
効果 以上の説明から明らかなように、本発明によると、発
声者の音声の大小にかかわらず正しい音声区間の検出が
可能となったため、音声認識装置の認識率を向上させる
ことができ、その補正を実時間で行える。
また、音声のレベルの大小にかかわらず、正確に区間
の検出が出来るようになった。特に本発明は声が小さく
唇の開閉音を発声しやすいような人に対し有効で高い認
識精度が実現できるようになった。
また、小さい声でしゃべった時には、発声された言葉
によらず正確にそれ以後の発声を大きくするよう指示す
ることが出来る。又、周辺の騒音と共に閾値Aが変動す
るような場合には、騒音が大きく、閾値Aが上昇すると
更に大きな声で発声する様、指示が出されることにな
る。これによって、音声の始端、終端は正確に検出され
るようになり、その結果、認識精度を良くすることがで
きる。
【図面の簡単な説明】
第1図は、本発明による音声認識装置の一実施例を説明
するための構成図、第2図は、他の実施例を示す構成
図、第3図は、更に他の実施例を示す構成図、第4図
は、更に他の実施例を示す構成図、第5図は、通常のパ
ターンマッチングを利用した音声認識装置のブロック
図、第6図は、音声区間の検出方法を説明するための
図、第7図〜第9図は、音声波形に対する閾値と音声区
間を示す図、第10図は、音声区間の検出方法の従来例を
示す図、第11図(a)、(b)は、エネルギー分布の異
なる音声に対する音声区間の検出方法の従来例を示す図
である。 1……マイク、2……A/D変換部、3……第1のメモ
リ、4,8……エネルギー検出部、5……レジスター、6,9
……比較器、7……閾値A、10……閾値B、11……結合
部、16……第2のメモリ、17……クリアブ、18……表示
部。
フロントページの続き (56)参考文献 特開 昭62−191895(JP,A) 特開 昭63−77097(JP,A) 特開 昭60−23899(JP,A) 特開 昭60−101598(JP,A) 特開 昭59−152498(JP,A) 特開 昭58−76899(JP,A) 特公 昭62−50837(JP,B2)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】音声を電気信号に変換する音響−電気変換
    機と、変換された信号から音声に係る部分を抽出するた
    めの音声区間検出部と、検出された信号を用いて音声を
    認識する認識部とを有する音声認識装置において、音声
    区間検出部で検出された音声の始点候補より時間的に前
    に連続して存在する電気信号を分析し、その分析結果に
    応じて使用者の発声の仕方を指示するようにしたことを
    特徴とする音声認識装置。
JP01026078A 1989-02-03 1989-02-03 音声認識装置 Expired - Lifetime JP3125928B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01026078A JP3125928B2 (ja) 1989-02-03 1989-02-03 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01026078A JP3125928B2 (ja) 1989-02-03 1989-02-03 音声認識装置

Publications (2)

Publication Number Publication Date
JPH02205898A JPH02205898A (ja) 1990-08-15
JP3125928B2 true JP3125928B2 (ja) 2001-01-22

Family

ID=12183607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01026078A Expired - Lifetime JP3125928B2 (ja) 1989-02-03 1989-02-03 音声認識装置

Country Status (1)

Country Link
JP (1) JP3125928B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal

Also Published As

Publication number Publication date
JPH02205898A (ja) 1990-08-15

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
EP0077194B1 (en) Speech recognition system
JP4237713B2 (ja) 音声処理装置
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JPH11175082A (ja) 音声対話装置及び音声対話用音声合成方法
JP3069531B2 (ja) 音声認識方法
JPH0222960B2 (ja)
JP3125928B2 (ja) 音声認識装置
JPS6138479B2 (ja)
US20020111802A1 (en) Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP2001042889A (ja) 音声認識入力音声の音程正規化装置
JPH03114100A (ja) 音声区間検出装置
JPS60129796A (ja) 音声入力装置
Li et al. A detection method of lip-smack in spontaneous speech
JP3110025B2 (ja) 発声変形検出装置
JPS59224900A (ja) 音声認識方法
JP3049711B2 (ja) 音声処理装置
JP2578771B2 (ja) 音声認識装置
JPH0635498A (ja) 音声認識装置及び方法
JPS61260299A (ja) 音声認識装置
JPS63217399A (ja) 音声区間検出装置
JPS6227798A (ja) 音声認識装置
JPS6027000A (ja) パタンマツチング方法
JPS59170894A (ja) 音声区間の切り出し方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071102

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081102

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081102

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091102

Year of fee payment: 9

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091102

Year of fee payment: 9