JPH0713591A

JPH0713591A - 音声認識装置および音声認識方法

Info

Publication number: JPH0713591A
Application number: JP5150712A
Authority: JP
Inventors: Hiroaki Kokubo; 浩明小窪; Akio Amano; 明雄天野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-06-22
Filing date: 1993-06-22
Publication date: 1995-01-17

Abstract

(57)【要約】（修正有）【構成】音声入力部１０１と、該音声入力部より得ら
れた入力音声を量子化するＡ／Ｄ変換部１０２と、入力
音声の特徴成分を求める分析部１０３と、予め登録した
認識対象語彙の特徴ベクトルの標準パタン格納部１０４
と、該特徴ベクトルと分析部で求めた特徴ベクトルとの
類似度を求めることで入力音声の認識をおこなう照合部
１０５と、騒音状態検出部と、照合部で照合する認識対
象語彙数を予め登録しておいた認識対象語彙数よりも少
なくする認識語彙制限部１０７とを備え、認識語彙制限
部は、騒音状態検出部で検出された騒音状態に応じて認
識対象語彙を制限する。【効果】騒音が少ない環境では、予め登録しておいた
認識対象語彙全てを認識対象として使用し、騒音の多い
環境では予め登録しておいた認識語彙のうちその一部の
語彙を認識対象から外して認識することにより、多くの
語彙を登録している場合でも騒音環境下の認識性能の向
上が可能となる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置に係り、
特に環境により異なる騒音条件下でも安定に動作する携
帯型音声認識装置に関する。

【０００２】

【従来の技術】携帯電話に代表される小型携帯端末で
は、小型故に操作ボタンの数や大きさは限定されてく
る。従って、このような装置にはボタンにより操作する
よりも、手書き文字や音声等を用いた操作が望まれてい
る。

【０００３】音声認識の問題点は、騒音環境下で使用す
ると周囲雑音のため認識性能が大幅に劣化してしまう点
である。しかも、大語彙の認識、類似単語の多い認識の
場合には特に認識誤りが生じやすい。したがって、音声
認識装置を実用化するためには騒音下で発声した音声で
も正しく認識出来るような耐雑音化の技術も不可欠であ
る。

【０００４】

【発明が解決しようとする課題】騒音環境下で発声した
音声を正しく認識させる手段としては、前処理によって
雑音が重畳した音声から雑音を除去する手法、あるいは
雑音が重畳された音声でも正しく認識できる認識手法が
必要である。前者には、適応フィルタを用いて雑音を除
去するもの、音声に混入した雑音スペクトルを推定し、
入力スペクトルから差し引くスペクトルサブトラクショ
ン法などがある。後者には、雑音の影響を受けにくいパ
ラメータや距離尺度を用いる手法、および雑音を予め標
準パタンに重畳しておく雑音重畳法などがある。しかし
ながら、数多くの雑音処理手法が提案されているもの
の、依然、静かな環境下での認識性能と比較すると十分
とは言えない。

【０００５】本発明の目的は、騒音環境下での音声認識
精度を向上させることができる音声認識装置を提供する
ことにある。

【０００６】

【課題を解決するための手段】上記課題を解決するため
に、本発明による音声認識装置は、認識対象となる音声
を入力する音声入力部と、該音声入力部より得られた入
力音声を量子化するＡ／Ｄ変換部と、前記入力音声の特
徴成分を求める分析部と、予め登録しておいた認識対象
語彙の特徴ベクトルを格納した標準パタン格納部と、該
標準パタンに格納されている特徴ベクトルと前記分析部
で求めた特徴ベクトルとの類似度を求めることで前記入
力音声の認識をおこなう照合部と、認識時の騒音状態を
検出する騒音状態検出部と、前記照合部で照合する認識
対象語彙数を予め登録しておいた認識対象語彙数よりも
少なくする認識語彙制限部とを備え、前記認識語彙制限
部は、前記騒音状態検出部で検出された騒音状態に応じ
て認識対象語彙を制限するようにしたものである。

【０００７】また、本発明による音声認識方法は、予め
登録された複数の語彙と入力音声とを照合して、音声認
識を行う音声認識装置における音声認識方法であって、
音声認識時の周囲の騒音状態を検出し、該検出された騒
音の大小を判断し、該騒音が小さいと判断されたとき、
前記登録されたすべての語彙を認識対象として用いて音
声認識を行い、前記騒音が大きいと判断されたとき、前
記登録された語彙の一部のみを認識対象として用いて音
声認識を行うことを特徴とする。

【０００８】

【作用】音声認識装置には認識可能な語彙を予め登録し
ておく。この登録できる語彙の数は、使用者側の立場で
は、なるべく多いことが望ましい。ところが、一般に音
声認識装置は認識対象語彙が多いほど、また類似単語の
多いほど認識性能は低下する。特に、騒音環境下では類
似単語による性能劣化の程度は大きい。したがって、登
録可能な語彙数を大きく設定すると騒音のない環境では
充分な認識性能が得られるものの、騒音環境下では認識
誤りが多く、充分な認識性能は期待できない。

【０００９】そこで、本発明では、騒音が少ない環境で
使用する場合には予め登録しておいた認識語彙全てを認
識対象として使用し、騒音の多い環境では騒音状態検出
部、認識語彙制限部により、予め登録しておいた認識語
彙のうち一部を除外して（例えば使用頻度の低い語彙あ
るいは類似語を認識対象から外して）認識をおこなう。

【００１０】以上の動作により、多くの語彙を登録する
場合であっても騒音環境下の認識性能を向上させること
が可能になった。

【００１１】

【実施例】以下、本発明の実施例を説明する。本実施例
では、音声認識機能を有する携帯型端末装置に本発明を
適用した例を説明する。

【００１２】図１５に、携帯型端末装置の外観を示す。
同図において、１０１は音声入力部、１１０は音声出力
部、１１１は表示部、１１２は選択ボタン、５０６はセ
ンサ部である。これらの各部の機能については後述す
る。

【００１３】図１は、本発明の音声認識装置のシステム
構成の一実施例を示すブロック図である。図１におい
て、１０１は音声入力部、１０２はＡ／Ｄ変換部、１０
３は分析部、１０４は標準パタン格納部、１０５は照合
部、１０６は騒音状態検出部、１０７は認識語彙制限
部、１０８は音声区間検出部、１０９はコマンド実行部
である。音声入力部１０１は音声コマンド等の音声を入
力する部分である。音声入力部１０１より入力した音声
信号はＡ／Ｄ変換部１０２により量子化され、音声区間
検出部１０８で音声区間が検出される。音声区間検出に
ついては、古井“ディジタル音声処理”東海大学出版会
などに詳しい。例えば、入力信号の短時間パワーを一定
時間毎に抽出していき、閾値以上の短時間パワーが一定
時間以上継続された否かによって音声区間を判定する手
法がよく用いられるものとして挙げられる。音声区間検
出部２０１で検出された音声区間以外の部分は騒音のみ
の区間と考えてほぼ間違いない。音声区間の量子化され
た音声信号は、分析部１０３に入る。分析部１０３では
ＬＰＣ分析等の分析手法を用いて認識の判定に用いる音
声の特徴ベクトルを抽出する。音声の特長抽出法につい
ては、前述の古井“ディジタル音声処理”などに詳し
い。音声の特徴ベクトルとして、例えばＬＰＣケプスト
ラムなどがよく用いられる。標準パタン格納部１０４
は、予め登録しておいた語彙の特徴ベクトル（標準パタ
ン）を格納しておく。照合部１０５は、分析部１０３で
特徴ベクトルに変換された入力音声と、標準パタン格納
部１０４に格納されている標準パタンとの間で類似度計
算をおこない、いちばん大きい類似度の登録語彙を認識
結果として出力する。騒音状態検出部１０６は、認識性
能が劣化する大きな要因のひとつである騒音の状態を検
出する部分である。認識語彙制限部１０７は、騒音状態
検出部１０６で得られた騒音状態の程度により認識対象
語彙を制限する。勿論、騒音状態の程度が充分小さい場
合には認識語彙制限部１０７はなにもしない。

【００１４】図１２により、図１のシステムのシステム
処理フローを説明する。まず、使用者が音声コマンドを
起動すると、Ａ／Ｄ変換部１０２が起動され、音声の取
込を開始する（Ｓ１０）。そこで、入力音声信号の音声
区間を検出するとともに（Ｓ１１）、騒音状態の検出を
行う（Ｓ１２）。この騒音状態を予め定めた閾値と比較
し（Ｓ１３）、騒音が小さいと判定されればステップＳ
１５に進む。騒音が大きいと判定されれば、認識対象語
彙数を制限する（Ｓ１４）。この認識対象語彙の制限
は、例えば、標準パタン格納部１０４に格納されている
登録語彙の特徴ベクトル（標準パタン）に使用頻度情報
を持たせ、使用頻度の高いもののみを認識対象語彙とす
る。そこで、この制限された語彙の標準パタンと入力音
声との照合を行い（Ｓ１５）、認識結果の提示を行い
（Ｓ１６）、使用者の確認を求める。この提示は、図１
５に示した表示部１１１または音声出力部（音声合成部
を含む）１１０により行う。使用者が、確認ボタンを押
すなどにより認識結果が正しい旨入力した場合、その認
識結果が表わすコマンドを実行する（Ｓ１８）。認識結
果が誤っている場合には、使用者が再度音声指示を行う
等によりステップＳ１０からの処理が再度行われる。認
識結果が正しい旨、使用者が指示した場合、さらに、使
用頻度情報の更新を行う（Ｓ１９）。

【００１５】図１３により、音声ダイヤルを例にとっ
て、本システムの入出力シーケンスを説明する。まず、
音声コマンドを起動すると、システムからコマンドを要
求するガイダンスが出力される（２００１）。システム
からの出力は、この例では「コマンドを入力してくださ
い。」という音声を示しているが、音声でなく液晶等に
よる画面表示であってもよく、あるいは、両者を併用し
てもよい。使用者は、ガイダンスに従い、音声コマンド
を入力する（２００２）。この例では、ダイヤリングし
たい相手の名前「いちかわ」を発声している。音声コマ
ンドが入力されると、システムは入力した音声コマンド
の認識結果を使用者に返し（２００３）、使用者に確認
を求める。ここでは、「いちかわ」を「いしかわ」と誤
って認識した例を示している。使用者は、認識結果が誤
っていると判断すると音声コマンド（「いちかわ」）を
再入力する（２００４）。システムは音声コマンドが再
入力された音声コマンドを再度認識し、その認識結果
（この例では「いちかわ」）を返す（２００５）。そこ
で、使用者は認識結果が正しいことを確認ボタンの押下
等によりシステムに通知する（２００６）。その結果、
システムは、認識したコマンドを実行し、ダイヤリング
を開始する（２００７）。

【００１６】次に、騒音状態検出部１０６についてその
詳細を述べる。図２に、騒音状態検出部１０６の構成例
を示す。

【００１７】図２において、２０２はパワー算出部であ
る。パワー算出部２０２は、音声区間検出部２０１か
ら、音声区間以外の信号を騒音区間信号を受けて、信号
の短時間パワーを算出することにより、周囲騒音のパワ
ーを求める。この求められた周囲騒音のパワーは、認識
時の騒音状態情報として認識語彙制限部１０７に出力さ
れる。勿論、音声区間検出部１０８において短時間パワ
ーを算出する場合にはパワー算出部２０２は必要ない。

【００１８】図３は、騒音状態検出部１０６の他の構成
例を説明するための図である。

【００１９】図３において、３０２、３０２’は図２の
パワー算出部２０２と同一構成のパワー算出部、３０３
は音声対雑音比（Ｓ／Ｎ）算出部である。図２の場合と
同様、Ａ／Ｄ変換部１０２により量子化された入力音声
が音声区間検出部１０８において音声が存在する区間と
それ以外の区間とに分離される。パワー算出部３０２、
３０２’は、それぞれ音声区間信号の短時間パワー、お
よび騒音区間信号の短時間パワーを計算する。勿論、音
声区間検出部１０８において短時間パワーを算出する場
合にはパワー算出部３０２、３０２’は必要ない。Ｓ／
Ｎ算出部３０３は音声区間信号の短時間パワー、および
騒音区間信号の短時間パワーに基づき入力音声のＳ／Ｎ
を計算し、認識時の騒音状態情報として認識語彙制限部
１０７に出力する。

【００２０】図４は、さらに他の構成の騒音状態検出部
４０８を有する本発明の他の実施例のシステム構成を示
す。

【００２１】図４において、図１の実施例と同様、１０
１は音声入力部、１０２はＡ／Ｄ変換部、１０３は分析
部、１０４は標準パタン格納部、１０５は照合部、４０
６は認識結果確認部、１０７は認識語彙制限部、１０８
は音声区間検出部、１０９はコマンド実行部であり、さ
らに４０８は騒音状態検出部である。図１の実施例と同
様に、音声入力部１０１より入力した音声信号は、Ａ／
Ｄ変換部１０２で量子化され、分析部１０３で特徴ベク
トルに変換される。照合部１０５は分析部１０３より出
力された特徴ベクトルと標準パタン格納部１０４に格納
されている標準パタンとの距離計算をおこない、認識結
果を認識結果確認部４０６に出力する。認識結果確認部
４０６は、照合部１０５で認識された結果を音声や文字
などの情報として出力し、使用者に認識結果の確認を求
める。認識結果の確認方法は「確認」、「キャンセル」
等の選択ボタン１１２（図１５）の操作や、音声による
確認、言い直しなどが考えられる。認識結果確認部４０
６は、認識結果が正しいと確認すると認識結果をコマン
ド実行部１０９に出力し、音声コマンドの実行を依頼す
る。また、認識結果確認部４０６は、認識結果が正しく
ないと判断すると、騒音状態検出部４０８に認識誤りが
生じたことを出力すると共に、新たな認識結果を受け付
ける。騒音状態検出部４０８は、認識誤りが生じたこと
を検出すると、認識誤りの頻度を騒音状態情報として認
識対象制限部１０７に出力する。認識語彙制限部１０７
は、騒音状態検出部４０８で得られた騒音状態の程度に
より認識対象語彙を制限する。

【００２２】図５は、騒音状態検出部１０６の第３の実
施例を説明するための図である。

【００２３】図５において、１０１は音声入力部、１０
２はＡ／Ｄ変換部、１０３は分析部、１０４は標準パタ
ン格納部、１０５は照合部、１０７は認識語彙制限部、
１０８は音声区間検出部であり、５０６はセンサ部、５
０７は騒音状態検出部である。図１の実施例と同様に、
音声入力部１０１より入力した音声信号は、Ａ／Ｄ変換
部１０２で量子化され、分析部１０３で特徴ベクトルに
変換される。照合部１０５は、分析部１０３より出力さ
れた特徴ベクトルと標準パタン格納部１０４に格納され
ている標準パタンとの距離計算をおこない、認識結果を
得る。センサ部５０６は、例えば認識装置と使用者（の
口元）と間の距離を測定し、騒音状態検出部５０７に出
力する。距離の測定については、赤外線センサや超音波
センサ等の距離センサを使用することで実現可能であ
る。騒音状態検出部５０７は、音声入力部１０１と使用
者の距離大きいほど入力音声のＳ／Ｎが悪いと想定し、
センサー部５０６で得られた距離情報を騒音状態情報と
して認識対象制限部１０７に出力する。認識語彙制限部
１０７は、騒音状態検出部５０７で得られた騒音状態の
程度により認識対象語彙を制限する。ここで、認識装置
に認識条件を選択するためのスイッチを設け、センサ部
５０６で距離を測定するかわりにスイッチの状態を検出
し、騒音状態検出部５０７はスイッチの状態を認識時の
騒音状態情報として認識語彙制限部１０７に出力する変
形も実現可能である。スイッチは「通常モード」、「騒
音モード」等の切替スイッチでもよいし、使用環境毎に
多段階に切り替えられるものでもよい。

【００２４】これまでに説明した騒音状態検出のための
構成は例示に過ぎず、他にも同様な効果を得ることがで
きれば他の構成でも構わない。また、上述した構成を複
数併用することも可能である。

【００２５】次に、認識語彙制限部１０７について詳細
に述べる。図６に、認識語彙制限部１０７の構成例を示
す。

【００２６】図６において、１０４は標準パタン格納
部、６０２は重要語彙記憶部、６０３は認識語彙制限部
である。重要語彙記憶部６０２は、標準パタン格納部１
０４に格納されている登録語彙のうち、使用者が頻繁に
使用する語彙や重要語彙として予め指定したものを記憶
する部分である。重要語彙の指定は語彙登録時でも登録
後でもどちらでもよい。認識語彙制限部６０３は、騒音
状態検出部１０６から入力した騒音情報の値が予め定め
たが閾値よりも大きい場合、標準パタン格納部１０４に
格納されている登録語彙のうち重要語彙記憶部６０２に
登録されている語彙のみを認識対象語彙として照合部１
０５に出力する。この構成例によれば、使用者自ら指定
した語彙は騒音環境下で認識対象語彙を制限した場合で
も認識対象外となることはなく、騒音下で重要語彙が認
識できないことによる不利益を心配する必要はなくな
る。

【００２７】認識語彙制限部１０７の他の構成例とし
て、認識騒音状態に応じて認識対象語彙数を決め、標準
パタン格納部１０４に登録された語彙のうち優先度の高
いものから、限られた語彙として選択する手法について
説明する。ここでは、騒音状態検出部１０６が入力音声
のＳ／Ｎ値を出力する場合について説明するが、騒音状
態検出部１０６が他の場合でも同様に考えることができ
る。

【００２８】このような構成を実現する手段として、図
７に、認識語彙制限部１０７において、認識対象語彙数
を制限するために使用する認識対象語彙数制限テーブル
７００を示す。図７において、７０１は騒音状態検出部
１０６より入力した音声のＳ／Ｎの値、７０２は対象Ｓ
／Ｎ時の認識対象語彙数を示す。認識語彙制限部１０７
は、図７のテーブル７００を参照することによって、騒
音状態検出部１０６より入力したＳ／Ｎに応じた認識対
象語彙数を得ることができる。認識語彙制限部１０７
は、認識対象語彙数に応じて標準パタン格納部１０４よ
り優先度の高い順にその語彙数分の標準パタンを選択す
る。

【００２９】優先度の高い順に認識対象語彙を選択する
方法は、前述のように、標準パタン格納部１０４に格納
している各登録語彙に対して使用頻度情報を付与し、使
用頻度の高い順に認識対象語彙として選択していくこと
で実現できる。このように、認識対象語彙の制限に使用
頻度情報を利用すれば、入力音声が認識対象語彙から外
れる確率を大幅に少なくすることが可能である。

【００３０】認識語彙制限部１０７の第３の構成例とし
て、標準パタン格納部１０４に格納している各登録語彙
に対し、類似語情報を付与する方法について説明する。
この方法を実現する手段として、図８に、標準パタン格
納部１０４に格納してある登録語彙の類似語テーブル８
００を示す。

【００３１】図８において、８０１は登録語彙、８０２
は各登録語彙に対する類似登録語彙、８０３は登録語彙
と類似登録語彙との類似度を示す。本構成例において、
標準パタン格納部１０４に新たに語彙が登録されると、
元から登録されていた語彙と新たに登録された語彙との
間で類似度が計算され、いちばん類似度の高い登録語彙
を類似登録語彙として、そのときの類似度と共に類似語
テーブル８００に登録する。認識語彙制限部１０７は、
類似語テーブル８００を参照し、類似度がある値以上の
登録語彙のペアのうち一方の語彙を認識対象から外す。
このとき、類似度の閾値は図７と同様に騒音状態検出部
１０６の出力と類似度閾値との対応テーブルを予め用意
しておく。また、類似語ペアのうちどちらの語彙を認識
対象として選択するかの判断は、使用頻度の高い語彙や
使用者が重要語彙として登録した語彙を優先することに
より実現できる。

【００３２】図８の構成例によれば、騒音が少ない環境
で使用する場合には予め登録しておいた認識語彙全てを
認識対象として使用し、騒音の多い環境では騒音状態検
出部、認識語彙制限部により、予め登録しておいた認識
語彙のうち使用頻度の低い語彙および類似語を認識対象
から外して認識をおこなう。その結果、多くの語彙を登
録している場合であっても、騒音環境下の認識性能を向
上させることが可能となる。また、図５で説明した選択
スイッチを設ける場合を除けば、騒音状態に応じて認識
対象語彙が自動的に制限されるため、使用者が使用環境
を意識しなくともよいといった利点もある。

【００３３】以上説明した実施例では、認識対象語彙の
制限により認識対象外となった語彙を認識させることは
できない。そこで、本実施例の変形として、認識対象語
彙の制限をおこなった結果正しく認識できなかった場合
には、認識対象語彙を入れ替える方法について説明す
る。認識した結果を確認する方法については図４の認識
結果確認部４０６ですでに説明した。

【００３４】図９は、２回の認識をおこなったときの認
識対象語彙の集合を摸式的に示したものである。図９に
おいて９０１は登録した全語彙の集合、９０２は認識語
彙制限部１０７により選択された第１回目の認識対象語
彙の集合、９０３は第２回目の認識対象語彙の集合であ
る。

【００３５】図１４の処理フローに示すように、騒音下
での第１回目の認識（Ｓ２０）では、語彙群９０２を対
象とした認識がおこなわれる（Ｓ２１，Ｓ２３）。した
がって、入力された語彙が認識対象語彙群９０２に存在
しない場合には（Ｓ２４，Ｓ２５）、正しい認識結果を
得ることはできない。そこで、第１回目の認識が正しく
ない場合、認識語彙制限部１０７は全登録語彙９０１か
ら第１回目の認識対象語彙９０２を除外した語彙を対象
として再び認識対象語彙を制限をおこなう（Ｓ２２）。
なお、図９の例では、全登録語彙９０１から第１回目の
認識対象語彙の集合９０２を除外した語彙数が認識語彙
制限部１０７で制限される認識語彙数よりも大きい場合
を示しているが、逆に認識語彙制限部１０７で制限され
る認識語彙数よりも小さい場合もありうる。この場合
は、第２回目の認識には全登録語彙９０１から第１回目
の認識対象語彙の集合９０２を除外した語彙全てを用い
ることも可能であるし、第１回目の認識対象語彙のうち
使用頻度の高い語彙および、重要語彙として登録してあ
る語彙については第２回目の認識対象語彙として除外し
ないといった変形も可能である。以上の実施例の変形に
よれば、認識対象語彙の制限により認識対象外となった
語彙に対しても２回目以降の認識では正しく認識させる
ことができる。なお、２回目には語彙数の制限自体をな
くし、すべての語彙を認識対象とすることも考えられ
る。

【００３６】つぎに、認識対象語彙の制限により認識対
象外となった語彙を認識させるための第２の例として、
類似語情報を用いて認識対象語彙を制限する場合には認
識結果を複数提示する本発明の第４の実施例について説
明する。図１０は本実施例を説明するためのシステム構
成図であり、図１１は認識対象語彙の摸式図である。

【００３７】図１０において、１０１は音声入力部、１
０２はＡ／Ｄ変換部、１０３は分析部、１０４は標準パ
タン格納部、１０５は照合部、１０６は騒音状態検出
部、１０８は音声区間検出部、１００７は認識語彙制限
部、８００は類似語テーブル、１００９は認識結果確認
部、１０９はコマンド実行部である。図１、図４の実施
例と同様に、音声入力部１０１より入力した音声信号
は、Ａ／Ｄ変換部１０２で量子化され、分析部１０３で
特徴ベクトルに変換される。照合部１０５は分析部１０
３より出力された特徴ベクトルと標準パタン格納部１０
４に格納されている標準パタンとの距離計算をおこな
う。このとき騒音状態検出部１０６で検出した騒音状態
によって、認識語彙制限部１００９は、類似語テーブル
８００の情報を元に認識対象語彙の制限をおこなう。類
似語テーブル８００には図８で説明したように、登録語
彙とその類似語彙がペアで記憶されている。認識結果確
認部１００９は、照合部１０５で認識された結果を音声
や文字などの情報として出力し、使用者に認識結果の確
認を求める。

【００３８】図１１において、１１０１は登録した全語
彙の集合、１１０２は図１０の類似語テーブル８００に
記憶されている類似語ペアの一例、１１０３は認識制限
部１００７によって選択された認識対象語彙語彙の集合
である。図１１の例では類似語のペア「いちかわ」、
「いしかわ」のうち「いちかわ」が認識対象語彙となっ
ているため、音声入力部１０１からの入力が「いしか
わ」の場合であっても照合部１０５では「いちかわ」が
認識される。そこで、認識確認部１００９では認識候補
として照合部１０５で認識された語彙(「いちかわ」)と
その類似ペアの語彙(「いしかわ」)の両方を表示部１１
１（図１５）または音声出力部１１０（図１５）に提示
し、使用者に認識候補の選択を施す。このとき両者の違
いを強調するために同一でない部分「ち」、「し」を強
調して提示してもよい。認識候補の選択は、ボタンやタ
ッチパネル等で選択することも可能であるし、再び音声
で入力することも可能である。また、認識確認部１００
９は、照合部１０５で認識された語彙の類似語ペアの類
似度が低い場合には認識候補として類似語を出力しない
といった変形も可能である。認識結果確認部１００９で
認識結果が確定すると認識結果をコマンド実行部１０９
に出力し、音声コマンドの実行を依頼する。ここで、各
構成要素は既に説明した実施例の何れの実現方法を用い
てもよいことはいうまでもない。

【００３９】以上説明した図１０の実施例によれば、類
似語情報を用いて認識対象語彙を制限する場合には認識
結果を複数提示することで、認識対象語彙の制限により
認識対象外となった語彙に対しても認識候補とすること
が可能となる。

【００４０】

【発明の効果】本発明によれば、騒音が少ない環境で使
用する場合には、予め登録しておいた認識対象語彙全て
を認識対象として使用し、騒音の多い環境では予め登録
しておいた認識語彙のうちその一部の語彙を認識対象か
ら外して認識をおこなうことにより、多くの語彙を登録
している場合であっても騒音環境下の認識性能を向上さ
せることが可能となる。

【図面の簡単な説明】

【図１】本発明の一実施例のシステム構成を示すブロッ
ク図である。

【図２】図１の騒音状態検出部の構成例を示すブロック
図である。

【図３】図１の騒音状態検出部の他の構成例を示すブロ
ック図である。

【図４】本発明の第２の実施例のシステム構成を示すブ
ロック図である。

【図５】本発明の第３の実施例のシステム構成を示すブ
ロック図である。

【図６】図１の認識対象語彙数制限部の構成例を示すブ
ロック図である。

【図７】図１の認識対象語彙数制限部の他の構成例を示
す認識対象語彙数制限テーブルの説明図である。

【図８】図１０の実施例に用いうる類似語テーブルの説
明図である。

【図９】図１の実施例等における認識対象語彙の説明図
である。

【図１０】本発明の第４の実施例のシステム構成を示す
ブロック図である。

【図１１】図１０の実施例において認識対象語彙を説明
するための説明図である。

【図１２】図１の実施例のシステム処理を表わすフロー
チャートである。

【図１３】図１の実施例における入出力シーケンス例の
説明図である。

【図１４】図９の説明に対応するシステム処理のフロー
チャートである。

【図１５】本発明が適用される携帯型端末装置の外観図
である。

【符号の説明】

１０１…音声入力部、１０２…Ａ／Ｄ変換部、１０３…
分析部、１０４…標準パタン格納部、１０５…照合部、
１０６…騒音状態検出部、１０７…認識語彙制限部、１
０８…音声区間検出部、１０９…コマンド実行部

Claims

【特許請求の範囲】

【請求項１】認識対象となる音声を入力する音声入力部
と、該音声入力部より得られた入力音声を量子化するＡ／Ｄ
変換部と、前記入力音声の特徴成分を求める分析部と、予め登録しておいた認識対象語彙の特徴ベクトルを格納
した標準パタン格納部と、該標準パタンに格納されている特徴ベクトルと前記分析
部で求めた特徴ベクトルとの類似度を求めることで前記
入力音声の認識をおこなう照合部と、認識時の騒音状態を検出する騒音状態検出部と、前記照合部で照合する認識対象語彙数を予め登録してお
いた認識対象語彙数よりも少なくする認識語彙制限部と
を備え、前記認識語彙制限部は、前記騒音状態検出部で検出され
た騒音状態に応じて認識対象語彙を制限することを特徴
とする音声認識装置。
【請求項２】前記騒音状態検出部は、該音声認識装置使
用時の騒音レベルを検出することを特徴とする請求項１
記載の音声認識装置。
【請求項３】前記騒音状態検出部は、該音声入力部より
入力した音声の音声対雑音比を検出することにより騒音
状態を検出することを特徴とする請求項１記載の音声認
識装置。
【請求項４】前記騒音状態検出部は、該音声入力部と使
用者の口元との距離を検出し、該検出された距離に基づ
いて騒音状態を検出することを特徴とする請求項１記載
の音声認識装置。
【請求項５】使用者が使用条件を選択するための条件選
択部を有し、前記騒音状態検出部は条件選択部の状態に
基づいて騒音状態を検出することを特徴とする請求項１
記載の音声認識装置。
【請求項６】該音声入力部より入力した音声が正しく認
識されなかったことを判定する誤認識判定部を有し、前
記騒音状態検出部は、前記誤認識判定部の状態に基づい
て騒音状態を検出することを特徴とする請求項１記載の
音声認識装置。
【請求項７】前記標準パタン格納部に登録されている語
彙の中から使用者が指定する語彙を記憶する指定語彙記
憶部を有し、前記認識語彙制限部は、前記指定語彙記憶
部に記憶されている語彙情報を基に認識対象語彙を制限
することを特徴とする請求項１から６のいずれかに記載
の音声認識装置。
【請求項８】前記標準パタン格納部に登録されている語
彙に対し、類似語彙の関係を記憶する類似語彙記憶部を
有し、前記認識語彙制限部は、前記類似語彙記憶部の類
似語彙情報をもとに認識対象語彙を制限することを特徴
とする請求項１から６のいずれかに記載の音声認識装
置。
【請求項９】前記標準パタン格納部に登録されている語
彙に対し、過去の使用頻度を記憶する使用頻度記憶部を
有し、前記認識語彙制限部は、前記使用頻度記憶部の頻
度情報をもとに認識対象語彙を制限することを特徴とす
る請求項１から６のいずれかに記載の音声認識装置。
【請求項１０】前記標準パタン格納部に登録されている
語彙に対し類似語彙の関係を記憶する類似語彙記憶部
と、前記標準パタン格納部に登録されている語彙に対し
過去の使用頻度を記憶する使用頻度記憶部とを有し、前
記認識語彙制限部は、前記類似語彙記憶部の類似語彙情
報と前記語彙頻度記憶部の頻度情報をもとに認識対象語
彙を制限することを特徴とする請求項１から６のいずれ
かに記載の音声認識装置。
【請求項１１】前記音声入力部より入力した音声が正し
く認識されなかったことを判定する誤認識判定部を有
し、前記認識語彙制限部で認識対象語彙を制限した認識
の認識結果が誤りであった場合、前記認識対象語彙部の
制限を外し、前記標準パタン格納部に登録されている全
語彙を認識対象として認識をおこなうことを特徴とする
請求項１から１０のいずれかに記載の音声認識装置。
【請求項１２】前記音声入力部より入力した音声が正し
く認識されなかったことを判定する誤認識判定部を有
し、前記認識語彙制限部で認識対象語彙を制限した認識
の認識結果が誤りであった場合、前記標準パタン格納部
に登録されている全語彙のうち前記認識対象語彙部で選
択された認識対象語彙を外した残りの語彙を認識対象と
して認識をおこなうことを特徴とする請求項１から１０
のいずれかに記載の音声認識装置。
【請求項１３】前記音声入力部より入力した音声が正し
く認識されなかったことを判定する誤認識判定部を有
し、前記認識語彙制限部で認識対象語彙を制限した認識
の認識結果が誤りであった場合、前記標準パタン格納部
に登録されている全語彙のうち前記認識対象語彙部で選
択された認識対象語彙を外した残りの語彙の一部を認識
対象として認識をおこなうことを特徴とする請求項１か
ら１０のいずれかに記載の音声認識装置。
【請求項１４】認識した結果を使用者に提示するための
提示部を有し、前記認識語彙制限部で認識語彙を制限し
た認識をおこなう場合、前記提示部は、認識された語彙
と共に、前記類似語彙記憶部に記憶されている前記認識
語彙の類似語を認識候補として提示することを特徴とす
る請求項８または１０記載の音声認識装置。
【請求項１５】認識した結果を使用者に提示するための
提示部を有し、前記認識語彙制限部で認識語彙を制限し
た認識をおこなう場合、前記類似語彙記憶部に記憶され
ている前記認識語彙の類似語との類似度が高い場合の
み、前記提示部は、前記認識された語彙と前記類似語と
を認識候補として提示することを特徴とする請求項８ま
たは１０記載の音声認識装置。
【請求項１６】前記提示部は、前記認識された語彙と前
記類似語を前記提示部に提示する際に、提示語彙の同一
でない部分を強調して提示することを特徴とする請求項
１４または１５記載の音声認識装置。
【請求項１７】予め登録された複数の語彙と入力音声と
を照合して、音声認識を行う音声認識装置における音声
認識方法であって、音声認識時の周囲の騒音状態を検出し、該検出された騒音の大小を判断し、該騒音が小さいと判断されたとき、前記登録されたすべ
ての語彙を認識対象として用いて音声認識を行い、前記騒音が大きいと判断されたとき、前記登録された語
彙の一部のみを認識対象として用いて音声認識を行うこ
とを特徴とする音声認識方法。