JPH0713591A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法

Info

Publication number
JPH0713591A
JPH0713591A JP5150712A JP15071293A JPH0713591A JP H0713591 A JPH0713591 A JP H0713591A JP 5150712 A JP5150712 A JP 5150712A JP 15071293 A JP15071293 A JP 15071293A JP H0713591 A JPH0713591 A JP H0713591A
Authority
JP
Japan
Prior art keywords
recognition
vocabulary
unit
voice
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5150712A
Other languages
English (en)
Inventor
Hiroaki Kokubo
浩明 小窪
Akio Amano
明雄 天野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5150712A priority Critical patent/JPH0713591A/ja
Publication of JPH0713591A publication Critical patent/JPH0713591A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【構成】 音声入力部101と、該音声入力部より得ら
れた入力音声を量子化するA/D変換部102と、入力
音声の特徴成分を求める分析部103と、予め登録した
認識対象語彙の特徴ベクトルの標準パタン格納部104
と、該特徴ベクトルと分析部で求めた特徴ベクトルとの
類似度を求めることで入力音声の認識をおこなう照合部
105と、騒音状態検出部と、照合部で照合する認識対
象語彙数を予め登録しておいた認識対象語彙数よりも少
なくする認識語彙制限部107とを備え、認識語彙制限
部は、騒音状態検出部で検出された騒音状態に応じて認
識対象語彙を制限する。 【効果】 騒音が少ない環境では、予め登録しておいた
認識対象語彙全てを認識対象として使用し、騒音の多い
環境では予め登録しておいた認識語彙のうちその一部の
語彙を認識対象から外して認識することにより、多くの
語彙を登録している場合でも騒音環境下の認識性能の向
上が可能となる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識装置に係り、
特に環境により異なる騒音条件下でも安定に動作する携
帯型音声認識装置に関する。
【0002】
【従来の技術】携帯電話に代表される小型携帯端末で
は、小型故に操作ボタンの数や大きさは限定されてく
る。従って、このような装置にはボタンにより操作する
よりも、手書き文字や音声等を用いた操作が望まれてい
る。
【0003】音声認識の問題点は、騒音環境下で使用す
ると周囲雑音のため認識性能が大幅に劣化してしまう点
である。しかも、大語彙の認識、類似単語の多い認識の
場合には特に認識誤りが生じやすい。したがって、音声
認識装置を実用化するためには騒音下で発声した音声で
も正しく認識出来るような耐雑音化の技術も不可欠であ
る。
【0004】
【発明が解決しようとする課題】騒音環境下で発声した
音声を正しく認識させる手段としては、前処理によって
雑音が重畳した音声から雑音を除去する手法、あるいは
雑音が重畳された音声でも正しく認識できる認識手法が
必要である。前者には、適応フィルタを用いて雑音を除
去するもの、音声に混入した雑音スペクトルを推定し、
入力スペクトルから差し引くスペクトルサブトラクショ
ン法などがある。後者には、雑音の影響を受けにくいパ
ラメータや距離尺度を用いる手法、および雑音を予め標
準パタンに重畳しておく雑音重畳法などがある。しかし
ながら、数多くの雑音処理手法が提案されているもの
の、依然、静かな環境下での認識性能と比較すると十分
とは言えない。
【0005】本発明の目的は、騒音環境下での音声認識
精度を向上させることができる音声認識装置を提供する
ことにある。
【0006】
【課題を解決するための手段】上記課題を解決するため
に、本発明による音声認識装置は、認識対象となる音声
を入力する音声入力部と、該音声入力部より得られた入
力音声を量子化するA/D変換部と、前記入力音声の特
徴成分を求める分析部と、予め登録しておいた認識対象
語彙の特徴ベクトルを格納した標準パタン格納部と、該
標準パタンに格納されている特徴ベクトルと前記分析部
で求めた特徴ベクトルとの類似度を求めることで前記入
力音声の認識をおこなう照合部と、認識時の騒音状態を
検出する騒音状態検出部と、前記照合部で照合する認識
対象語彙数を予め登録しておいた認識対象語彙数よりも
少なくする認識語彙制限部とを備え、前記認識語彙制限
部は、前記騒音状態検出部で検出された騒音状態に応じ
て認識対象語彙を制限するようにしたものである。
【0007】また、本発明による音声認識方法は、予め
登録された複数の語彙と入力音声とを照合して、音声認
識を行う音声認識装置における音声認識方法であって、
音声認識時の周囲の騒音状態を検出し、該検出された騒
音の大小を判断し、該騒音が小さいと判断されたとき、
前記登録されたすべての語彙を認識対象として用いて音
声認識を行い、前記騒音が大きいと判断されたとき、前
記登録された語彙の一部のみを認識対象として用いて音
声認識を行うことを特徴とする。
【0008】
【作用】音声認識装置には認識可能な語彙を予め登録し
ておく。この登録できる語彙の数は、使用者側の立場で
は、なるべく多いことが望ましい。ところが、一般に音
声認識装置は認識対象語彙が多いほど、また類似単語の
多いほど認識性能は低下する。特に、騒音環境下では類
似単語による性能劣化の程度は大きい。したがって、登
録可能な語彙数を大きく設定すると騒音のない環境では
充分な認識性能が得られるものの、騒音環境下では認識
誤りが多く、充分な認識性能は期待できない。
【0009】そこで、本発明では、騒音が少ない環境で
使用する場合には予め登録しておいた認識語彙全てを認
識対象として使用し、騒音の多い環境では騒音状態検出
部、認識語彙制限部により、予め登録しておいた認識語
彙のうち一部を除外して(例えば使用頻度の低い語彙あ
るいは類似語を認識対象から外して)認識をおこなう。
【0010】以上の動作により、多くの語彙を登録する
場合であっても騒音環境下の認識性能を向上させること
が可能になった。
【0011】
【実施例】以下、本発明の実施例を説明する。本実施例
では、音声認識機能を有する携帯型端末装置に本発明を
適用した例を説明する。
【0012】図15に、携帯型端末装置の外観を示す。
同図において、101は音声入力部、110は音声出力
部、111は表示部、112は選択ボタン、506はセ
ンサ部である。これらの各部の機能については後述す
る。
【0013】図1は、本発明の音声認識装置のシステム
構成の一実施例を示すブロック図である。図1におい
て、101は音声入力部、102はA/D変換部、10
3は分析部、104は標準パタン格納部、105は照合
部、106は騒音状態検出部、107は認識語彙制限
部、108は音声区間検出部、109はコマンド実行部
である。音声入力部101は音声コマンド等の音声を入
力する部分である。音声入力部101より入力した音声
信号はA/D変換部102により量子化され、音声区間
検出部108で音声区間が検出される。音声区間検出に
ついては、古井“ディジタル音声処理”東海大学出版会
などに詳しい。例えば、入力信号の短時間パワーを一定
時間毎に抽出していき、閾値以上の短時間パワーが一定
時間以上継続された否かによって音声区間を判定する手
法がよく用いられるものとして挙げられる。音声区間検
出部201で検出された音声区間以外の部分は騒音のみ
の区間と考えてほぼ間違いない。音声区間の量子化され
た音声信号は、分析部103に入る。分析部103では
LPC分析等の分析手法を用いて認識の判定に用いる音
声の特徴ベクトルを抽出する。音声の特長抽出法につい
ては、前述の古井“ディジタル音声処理”などに詳し
い。音声の特徴ベクトルとして、例えばLPCケプスト
ラムなどがよく用いられる。標準パタン格納部104
は、予め登録しておいた語彙の特徴ベクトル(標準パタ
ン)を格納しておく。照合部105は、分析部103で
特徴ベクトルに変換された入力音声と、標準パタン格納
部104に格納されている標準パタンとの間で類似度計
算をおこない、いちばん大きい類似度の登録語彙を認識
結果として出力する。騒音状態検出部106は、認識性
能が劣化する大きな要因のひとつである騒音の状態を検
出する部分である。認識語彙制限部107は、騒音状態
検出部106で得られた騒音状態の程度により認識対象
語彙を制限する。勿論、騒音状態の程度が充分小さい場
合には認識語彙制限部107はなにもしない。
【0014】図12により、図1のシステムのシステム
処理フローを説明する。まず、使用者が音声コマンドを
起動すると、A/D変換部102が起動され、音声の取
込を開始する(S10)。そこで、入力音声信号の音声
区間を検出するとともに(S11)、騒音状態の検出を
行う(S12)。この騒音状態を予め定めた閾値と比較
し(S13)、騒音が小さいと判定されればステップS
15に進む。騒音が大きいと判定されれば、認識対象語
彙数を制限する(S14)。この認識対象語彙の制限
は、例えば、標準パタン格納部104に格納されている
登録語彙の特徴ベクトル(標準パタン)に使用頻度情報
を持たせ、使用頻度の高いもののみを認識対象語彙とす
る。そこで、この制限された語彙の標準パタンと入力音
声との照合を行い(S15)、認識結果の提示を行い
(S16)、使用者の確認を求める。この提示は、図1
5に示した表示部111または音声出力部(音声合成部
を含む)110により行う。使用者が、確認ボタンを押
すなどにより認識結果が正しい旨入力した場合、その認
識結果が表わすコマンドを実行する(S18)。認識結
果が誤っている場合には、使用者が再度音声指示を行う
等によりステップS10からの処理が再度行われる。認
識結果が正しい旨、使用者が指示した場合、さらに、使
用頻度情報の更新を行う(S19)。
【0015】図13により、音声ダイヤルを例にとっ
て、本システムの入出力シーケンスを説明する。まず、
音声コマンドを起動すると、システムからコマンドを要
求するガイダンスが出力される(2001)。システム
からの出力は、この例では「コマンドを入力してくださ
い。」という音声を示しているが、音声でなく液晶等に
よる画面表示であってもよく、あるいは、両者を併用し
てもよい。使用者は、ガイダンスに従い、音声コマンド
を入力する(2002)。この例では、ダイヤリングし
たい相手の名前「いちかわ」を発声している。音声コマ
ンドが入力されると、システムは入力した音声コマンド
の認識結果を使用者に返し(2003)、使用者に確認
を求める。ここでは、「いちかわ」を「いしかわ」と誤
って認識した例を示している。使用者は、認識結果が誤
っていると判断すると音声コマンド(「いちかわ」)を
再入力する(2004)。システムは音声コマンドが再
入力された音声コマンドを再度認識し、その認識結果
(この例では「いちかわ」)を返す(2005)。そこ
で、使用者は認識結果が正しいことを確認ボタンの押下
等によりシステムに通知する(2006)。その結果、
システムは、認識したコマンドを実行し、ダイヤリング
を開始する(2007)。
【0016】次に、騒音状態検出部106についてその
詳細を述べる。図2に、騒音状態検出部106の構成例
を示す。
【0017】図2において、202はパワー算出部であ
る。パワー算出部202は、音声区間検出部201か
ら、音声区間以外の信号を騒音区間信号を受けて、信号
の短時間パワーを算出することにより、周囲騒音のパワ
ーを求める。この求められた周囲騒音のパワーは、認識
時の騒音状態情報として認識語彙制限部107に出力さ
れる。勿論、音声区間検出部108において短時間パワ
ーを算出する場合にはパワー算出部202は必要ない。
【0018】図3は、騒音状態検出部106の他の構成
例を説明するための図である。
【0019】図3において、302、302’は図2の
パワー算出部202と同一構成のパワー算出部、303
は音声対雑音比(S/N)算出部である。図2の場合と
同様、A/D変換部102により量子化された入力音声
が音声区間検出部108において音声が存在する区間と
それ以外の区間とに分離される。パワー算出部302、
302’は、それぞれ音声区間信号の短時間パワー、お
よび騒音区間信号の短時間パワーを計算する。勿論、音
声区間検出部108において短時間パワーを算出する場
合にはパワー算出部302、302’は必要ない。S/
N算出部303は音声区間信号の短時間パワー、および
騒音区間信号の短時間パワーに基づき入力音声のS/N
を計算し、認識時の騒音状態情報として認識語彙制限部
107に出力する。
【0020】図4は、さらに他の構成の騒音状態検出部
408を有する本発明の他の実施例のシステム構成を示
す。
【0021】図4において、図1の実施例と同様、10
1は音声入力部、102はA/D変換部、103は分析
部、104は標準パタン格納部、105は照合部、40
6は認識結果確認部、107は認識語彙制限部、108
は音声区間検出部、109はコマンド実行部であり、さ
らに408は騒音状態検出部である。図1の実施例と同
様に、音声入力部101より入力した音声信号は、A/
D変換部102で量子化され、分析部103で特徴ベク
トルに変換される。照合部105は分析部103より出
力された特徴ベクトルと標準パタン格納部104に格納
されている標準パタンとの距離計算をおこない、認識結
果を認識結果確認部406に出力する。認識結果確認部
406は、照合部105で認識された結果を音声や文字
などの情報として出力し、使用者に認識結果の確認を求
める。認識結果の確認方法は「確認」、「キャンセル」
等の選択ボタン112(図15)の操作や、音声による
確認、言い直しなどが考えられる。認識結果確認部40
6は、認識結果が正しいと確認すると認識結果をコマン
ド実行部109に出力し、音声コマンドの実行を依頼す
る。また、認識結果確認部406は、認識結果が正しく
ないと判断すると、騒音状態検出部408に認識誤りが
生じたことを出力すると共に、新たな認識結果を受け付
ける。騒音状態検出部408は、認識誤りが生じたこと
を検出すると、認識誤りの頻度を騒音状態情報として認
識対象制限部107に出力する。認識語彙制限部107
は、騒音状態検出部408で得られた騒音状態の程度に
より認識対象語彙を制限する。
【0022】図5は、騒音状態検出部106の第3の実
施例を説明するための図である。
【0023】図5において、101は音声入力部、10
2はA/D変換部、103は分析部、104は標準パタ
ン格納部、105は照合部、107は認識語彙制限部、
108は音声区間検出部であり、506はセンサ部、5
07は騒音状態検出部である。図1の実施例と同様に、
音声入力部101より入力した音声信号は、A/D変換
部102で量子化され、分析部103で特徴ベクトルに
変換される。照合部105は、分析部103より出力さ
れた特徴ベクトルと標準パタン格納部104に格納され
ている標準パタンとの距離計算をおこない、認識結果を
得る。センサ部506は、例えば認識装置と使用者(の
口元)と間の距離を測定し、騒音状態検出部507に出
力する。距離の測定については、赤外線センサや超音波
センサ等の距離センサを使用することで実現可能であ
る。騒音状態検出部507は、音声入力部101と使用
者の距離大きいほど入力音声のS/Nが悪いと想定し、
センサー部506で得られた距離情報を騒音状態情報と
して認識対象制限部107に出力する。認識語彙制限部
107は、騒音状態検出部507で得られた騒音状態の
程度により認識対象語彙を制限する。ここで、認識装置
に認識条件を選択するためのスイッチを設け、センサ部
506で距離を測定するかわりにスイッチの状態を検出
し、騒音状態検出部507はスイッチの状態を認識時の
騒音状態情報として認識語彙制限部107に出力する変
形も実現可能である。スイッチは「通常モード」、「騒
音モード」等の切替スイッチでもよいし、使用環境毎に
多段階に切り替えられるものでもよい。
【0024】これまでに説明した騒音状態検出のための
構成は例示に過ぎず、他にも同様な効果を得ることがで
きれば他の構成でも構わない。また、上述した構成を複
数併用することも可能である。
【0025】次に、認識語彙制限部107について詳細
に述べる。図6に、認識語彙制限部107の構成例を示
す。
【0026】図6において、104は標準パタン格納
部、602は重要語彙記憶部、603は認識語彙制限部
である。重要語彙記憶部602は、標準パタン格納部1
04に格納されている登録語彙のうち、使用者が頻繁に
使用する語彙や重要語彙として予め指定したものを記憶
する部分である。重要語彙の指定は語彙登録時でも登録
後でもどちらでもよい。認識語彙制限部603は、騒音
状態検出部106から入力した騒音情報の値が予め定め
たが閾値よりも大きい場合、標準パタン格納部104に
格納されている登録語彙のうち重要語彙記憶部602に
登録されている語彙のみを認識対象語彙として照合部1
05に出力する。この構成例によれば、使用者自ら指定
した語彙は騒音環境下で認識対象語彙を制限した場合で
も認識対象外となることはなく、騒音下で重要語彙が認
識できないことによる不利益を心配する必要はなくな
る。
【0027】認識語彙制限部107の他の構成例とし
て、認識騒音状態に応じて認識対象語彙数を決め、標準
パタン格納部104に登録された語彙のうち優先度の高
いものから、限られた語彙として選択する手法について
説明する。ここでは、騒音状態検出部106が入力音声
のS/N値を出力する場合について説明するが、騒音状
態検出部106が他の場合でも同様に考えることができ
る。
【0028】このような構成を実現する手段として、図
7に、認識語彙制限部107において、認識対象語彙数
を制限するために使用する認識対象語彙数制限テーブル
700を示す。図7において、701は騒音状態検出部
106より入力した音声のS/Nの値、702は対象S
/N時の認識対象語彙数を示す。認識語彙制限部107
は、図7のテーブル700を参照することによって、騒
音状態検出部106より入力したS/Nに応じた認識対
象語彙数を得ることができる。認識語彙制限部107
は、認識対象語彙数に応じて標準パタン格納部104よ
り優先度の高い順にその語彙数分の標準パタンを選択す
る。
【0029】優先度の高い順に認識対象語彙を選択する
方法は、前述のように、標準パタン格納部104に格納
している各登録語彙に対して使用頻度情報を付与し、使
用頻度の高い順に認識対象語彙として選択していくこと
で実現できる。このように、認識対象語彙の制限に使用
頻度情報を利用すれば、入力音声が認識対象語彙から外
れる確率を大幅に少なくすることが可能である。
【0030】認識語彙制限部107の第3の構成例とし
て、標準パタン格納部104に格納している各登録語彙
に対し、類似語情報を付与する方法について説明する。
この方法を実現する手段として、図8に、標準パタン格
納部104に格納してある登録語彙の類似語テーブル8
00を示す。
【0031】図8において、801は登録語彙、802
は各登録語彙に対する類似登録語彙、803は登録語彙
と類似登録語彙との類似度を示す。本構成例において、
標準パタン格納部104に新たに語彙が登録されると、
元から登録されていた語彙と新たに登録された語彙との
間で類似度が計算され、いちばん類似度の高い登録語彙
を類似登録語彙として、そのときの類似度と共に類似語
テーブル800に登録する。認識語彙制限部107は、
類似語テーブル800を参照し、類似度がある値以上の
登録語彙のペアのうち一方の語彙を認識対象から外す。
このとき、類似度の閾値は図7と同様に騒音状態検出部
106の出力と類似度閾値との対応テーブルを予め用意
しておく。また、類似語ペアのうちどちらの語彙を認識
対象として選択するかの判断は、使用頻度の高い語彙や
使用者が重要語彙として登録した語彙を優先することに
より実現できる。
【0032】図8の構成例によれば、騒音が少ない環境
で使用する場合には予め登録しておいた認識語彙全てを
認識対象として使用し、騒音の多い環境では騒音状態検
出部、認識語彙制限部により、予め登録しておいた認識
語彙のうち使用頻度の低い語彙および類似語を認識対象
から外して認識をおこなう。その結果、多くの語彙を登
録している場合であっても、騒音環境下の認識性能を向
上させることが可能となる。また、図5で説明した選択
スイッチを設ける場合を除けば、騒音状態に応じて認識
対象語彙が自動的に制限されるため、使用者が使用環境
を意識しなくともよいといった利点もある。
【0033】以上説明した実施例では、認識対象語彙の
制限により認識対象外となった語彙を認識させることは
できない。そこで、本実施例の変形として、認識対象語
彙の制限をおこなった結果正しく認識できなかった場合
には、認識対象語彙を入れ替える方法について説明す
る。認識した結果を確認する方法については図4の認識
結果確認部406ですでに説明した。
【0034】図9は、2回の認識をおこなったときの認
識対象語彙の集合を摸式的に示したものである。図9に
おいて901は登録した全語彙の集合、902は認識語
彙制限部107により選択された第1回目の認識対象語
彙の集合、903は第2回目の認識対象語彙の集合であ
る。
【0035】図14の処理フローに示すように、騒音下
での第1回目の認識(S20)では、語彙群902を対
象とした認識がおこなわれる(S21,S23)。した
がって、入力された語彙が認識対象語彙群902に存在
しない場合には(S24,S25)、正しい認識結果を
得ることはできない。そこで、第1回目の認識が正しく
ない場合、認識語彙制限部107は全登録語彙901か
ら第1回目の認識対象語彙902を除外した語彙を対象
として再び認識対象語彙を制限をおこなう(S22)。
なお、図9の例では、全登録語彙901から第1回目の
認識対象語彙の集合902を除外した語彙数が認識語彙
制限部107で制限される認識語彙数よりも大きい場合
を示しているが、逆に認識語彙制限部107で制限され
る認識語彙数よりも小さい場合もありうる。この場合
は、第2回目の認識には全登録語彙901から第1回目
の認識対象語彙の集合902を除外した語彙全てを用い
ることも可能であるし、第1回目の認識対象語彙のうち
使用頻度の高い語彙および、重要語彙として登録してあ
る語彙については第2回目の認識対象語彙として除外し
ないといった変形も可能である。以上の実施例の変形に
よれば、認識対象語彙の制限により認識対象外となった
語彙に対しても2回目以降の認識では正しく認識させる
ことができる。なお、2回目には語彙数の制限自体をな
くし、すべての語彙を認識対象とすることも考えられ
る。
【0036】つぎに、認識対象語彙の制限により認識対
象外となった語彙を認識させるための第2の例として、
類似語情報を用いて認識対象語彙を制限する場合には認
識結果を複数提示する本発明の第4の実施例について説
明する。図10は本実施例を説明するためのシステム構
成図であり、図11は認識対象語彙の摸式図である。
【0037】図10において、101は音声入力部、1
02はA/D変換部、103は分析部、104は標準パ
タン格納部、105は照合部、106は騒音状態検出
部、108は音声区間検出部、1007は認識語彙制限
部、800は類似語テーブル、1009は認識結果確認
部、109はコマンド実行部である。図1、図4の実施
例と同様に、音声入力部101より入力した音声信号
は、A/D変換部102で量子化され、分析部103で
特徴ベクトルに変換される。照合部105は分析部10
3より出力された特徴ベクトルと標準パタン格納部10
4に格納されている標準パタンとの距離計算をおこな
う。このとき騒音状態検出部106で検出した騒音状態
によって、認識語彙制限部1009は、類似語テーブル
800の情報を元に認識対象語彙の制限をおこなう。類
似語テーブル800には図8で説明したように、登録語
彙とその類似語彙がペアで記憶されている。認識結果確
認部1009は、照合部105で認識された結果を音声
や文字などの情報として出力し、使用者に認識結果の確
認を求める。
【0038】図11において、1101は登録した全語
彙の集合、1102は図10の類似語テーブル800に
記憶されている類似語ペアの一例、1103は認識制限
部1007によって選択された認識対象語彙語彙の集合
である。図11の例では類似語のペア「いちかわ」、
「いしかわ」のうち「いちかわ」が認識対象語彙となっ
ているため、音声入力部101からの入力が「いしか
わ」の場合であっても照合部105では「いちかわ」が
認識される。そこで、認識確認部1009では認識候補
として照合部105で認識された語彙(「いちかわ」)と
その類似ペアの語彙(「いしかわ」)の両方を表示部11
1(図15)または音声出力部110(図15)に提示
し、使用者に認識候補の選択を施す。このとき両者の違
いを強調するために同一でない部分「ち」、「し」を強
調して提示してもよい。認識候補の選択は、ボタンやタ
ッチパネル等で選択することも可能であるし、再び音声
で入力することも可能である。また、認識確認部100
9は、照合部105で認識された語彙の類似語ペアの類
似度が低い場合には認識候補として類似語を出力しない
といった変形も可能である。認識結果確認部1009で
認識結果が確定すると認識結果をコマンド実行部109
に出力し、音声コマンドの実行を依頼する。ここで、各
構成要素は既に説明した実施例の何れの実現方法を用い
てもよいことはいうまでもない。
【0039】以上説明した図10の実施例によれば、類
似語情報を用いて認識対象語彙を制限する場合には認識
結果を複数提示することで、認識対象語彙の制限により
認識対象外となった語彙に対しても認識候補とすること
が可能となる。
【0040】
【発明の効果】本発明によれば、騒音が少ない環境で使
用する場合には、予め登録しておいた認識対象語彙全て
を認識対象として使用し、騒音の多い環境では予め登録
しておいた認識語彙のうちその一部の語彙を認識対象か
ら外して認識をおこなうことにより、多くの語彙を登録
している場合であっても騒音環境下の認識性能を向上さ
せることが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施例のシステム構成を示すブロッ
ク図である。
【図2】図1の騒音状態検出部の構成例を示すブロック
図である。
【図3】図1の騒音状態検出部の他の構成例を示すブロ
ック図である。
【図4】本発明の第2の実施例のシステム構成を示すブ
ロック図である。
【図5】本発明の第3の実施例のシステム構成を示すブ
ロック図である。
【図6】図1の認識対象語彙数制限部の構成例を示すブ
ロック図である。
【図7】図1の認識対象語彙数制限部の他の構成例を示
す認識対象語彙数制限テーブルの説明図である。
【図8】図10の実施例に用いうる類似語テーブルの説
明図である。
【図9】図1の実施例等における認識対象語彙の説明図
である。
【図10】本発明の第4の実施例のシステム構成を示す
ブロック図である。
【図11】図10の実施例において認識対象語彙を説明
するための説明図である。
【図12】図1の実施例のシステム処理を表わすフロー
チャートである。
【図13】図1の実施例における入出力シーケンス例の
説明図である。
【図14】図9の説明に対応するシステム処理のフロー
チャートである。
【図15】本発明が適用される携帯型端末装置の外観図
である。
【符号の説明】
101…音声入力部、102…A/D変換部、103…
分析部、104…標準パタン格納部、105…照合部、
106…騒音状態検出部、107…認識語彙制限部、1
08…音声区間検出部、109…コマンド実行部

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】認識対象となる音声を入力する音声入力部
    と、 該音声入力部より得られた入力音声を量子化するA/D
    変換部と、 前記入力音声の特徴成分を求める分析部と、 予め登録しておいた認識対象語彙の特徴ベクトルを格納
    した標準パタン格納部と、 該標準パタンに格納されている特徴ベクトルと前記分析
    部で求めた特徴ベクトルとの類似度を求めることで前記
    入力音声の認識をおこなう照合部と、 認識時の騒音状態を検出する騒音状態検出部と、 前記照合部で照合する認識対象語彙数を予め登録してお
    いた認識対象語彙数よりも少なくする認識語彙制限部と
    を備え、 前記認識語彙制限部は、前記騒音状態検出部で検出され
    た騒音状態に応じて認識対象語彙を制限することを特徴
    とする音声認識装置。
  2. 【請求項2】前記騒音状態検出部は、該音声認識装置使
    用時の騒音レベルを検出することを特徴とする請求項1
    記載の音声認識装置。
  3. 【請求項3】前記騒音状態検出部は、該音声入力部より
    入力した音声の音声対雑音比を検出することにより騒音
    状態を検出することを特徴とする請求項1記載の音声認
    識装置。
  4. 【請求項4】前記騒音状態検出部は、該音声入力部と使
    用者の口元との距離を検出し、該検出された距離に基づ
    いて騒音状態を検出することを特徴とする請求項1記載
    の音声認識装置。
  5. 【請求項5】使用者が使用条件を選択するための条件選
    択部を有し、前記騒音状態検出部は条件選択部の状態に
    基づいて騒音状態を検出することを特徴とする請求項1
    記載の音声認識装置。
  6. 【請求項6】該音声入力部より入力した音声が正しく認
    識されなかったことを判定する誤認識判定部を有し、前
    記騒音状態検出部は、前記誤認識判定部の状態に基づい
    て騒音状態を検出することを特徴とする請求項1記載の
    音声認識装置。
  7. 【請求項7】前記標準パタン格納部に登録されている語
    彙の中から使用者が指定する語彙を記憶する指定語彙記
    憶部を有し、前記認識語彙制限部は、前記指定語彙記憶
    部に記憶されている語彙情報を基に認識対象語彙を制限
    することを特徴とする請求項1から6のいずれかに記載
    の音声認識装置。
  8. 【請求項8】前記標準パタン格納部に登録されている語
    彙に対し、類似語彙の関係を記憶する類似語彙記憶部を
    有し、前記認識語彙制限部は、前記類似語彙記憶部の類
    似語彙情報をもとに認識対象語彙を制限することを特徴
    とする請求項1から6のいずれかに記載の音声認識装
    置。
  9. 【請求項9】前記標準パタン格納部に登録されている語
    彙に対し、過去の使用頻度を記憶する使用頻度記憶部を
    有し、前記認識語彙制限部は、前記使用頻度記憶部の頻
    度情報をもとに認識対象語彙を制限することを特徴とす
    る請求項1から6のいずれかに記載の音声認識装置。
  10. 【請求項10】前記標準パタン格納部に登録されている
    語彙に対し類似語彙の関係を記憶する類似語彙記憶部
    と、前記標準パタン格納部に登録されている語彙に対し
    過去の使用頻度を記憶する使用頻度記憶部とを有し、前
    記認識語彙制限部は、前記類似語彙記憶部の類似語彙情
    報と前記語彙頻度記憶部の頻度情報をもとに認識対象語
    彙を制限することを特徴とする請求項1から6のいずれ
    かに記載の音声認識装置。
  11. 【請求項11】前記音声入力部より入力した音声が正し
    く認識されなかったことを判定する誤認識判定部を有
    し、前記認識語彙制限部で認識対象語彙を制限した認識
    の認識結果が誤りであった場合、前記認識対象語彙部の
    制限を外し、前記標準パタン格納部に登録されている全
    語彙を認識対象として認識をおこなうことを特徴とする
    請求項1から10のいずれかに記載の音声認識装置。
  12. 【請求項12】前記音声入力部より入力した音声が正し
    く認識されなかったことを判定する誤認識判定部を有
    し、前記認識語彙制限部で認識対象語彙を制限した認識
    の認識結果が誤りであった場合、前記標準パタン格納部
    に登録されている全語彙のうち前記認識対象語彙部で選
    択された認識対象語彙を外した残りの語彙を認識対象と
    して認識をおこなうことを特徴とする請求項1から10
    のいずれかに記載の音声認識装置。
  13. 【請求項13】前記音声入力部より入力した音声が正し
    く認識されなかったことを判定する誤認識判定部を有
    し、前記認識語彙制限部で認識対象語彙を制限した認識
    の認識結果が誤りであった場合、前記標準パタン格納部
    に登録されている全語彙のうち前記認識対象語彙部で選
    択された認識対象語彙を外した残りの語彙の一部を認識
    対象として認識をおこなうことを特徴とする請求項1か
    ら10のいずれかに記載の音声認識装置。
  14. 【請求項14】認識した結果を使用者に提示するための
    提示部を有し、前記認識語彙制限部で認識語彙を制限し
    た認識をおこなう場合、前記提示部は、認識された語彙
    と共に、前記類似語彙記憶部に記憶されている前記認識
    語彙の類似語を認識候補として提示することを特徴とす
    る請求項8または10記載の音声認識装置。
  15. 【請求項15】認識した結果を使用者に提示するための
    提示部を有し、前記認識語彙制限部で認識語彙を制限し
    た認識をおこなう場合、前記類似語彙記憶部に記憶され
    ている前記認識語彙の類似語との類似度が高い場合の
    み、前記提示部は、前記認識された語彙と前記類似語と
    を認識候補として提示することを特徴とする請求項8ま
    たは10記載の音声認識装置。
  16. 【請求項16】前記提示部は、前記認識された語彙と前
    記類似語を前記提示部に提示する際に、提示語彙の同一
    でない部分を強調して提示することを特徴とする請求項
    14または15記載の音声認識装置。
  17. 【請求項17】予め登録された複数の語彙と入力音声と
    を照合して、音声認識を行う音声認識装置における音声
    認識方法であって、 音声認識時の周囲の騒音状態を検出し、 該検出された騒音の大小を判断し、 該騒音が小さいと判断されたとき、前記登録されたすべ
    ての語彙を認識対象として用いて音声認識を行い、 前記騒音が大きいと判断されたとき、前記登録された語
    彙の一部のみを認識対象として用いて音声認識を行うこ
    とを特徴とする音声認識方法。
JP5150712A 1993-06-22 1993-06-22 音声認識装置および音声認識方法 Pending JPH0713591A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5150712A JPH0713591A (ja) 1993-06-22 1993-06-22 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5150712A JPH0713591A (ja) 1993-06-22 1993-06-22 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JPH0713591A true JPH0713591A (ja) 1995-01-17

Family

ID=15502762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5150712A Pending JPH0713591A (ja) 1993-06-22 1993-06-22 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JPH0713591A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000214879A (ja) * 1999-01-20 2000-08-04 Sony Internatl Europ Gmbh 音声認識装置の適応化方法
JP2001195058A (ja) * 2000-01-12 2001-07-19 Yamaha Corp 演奏装置
WO2003036617A1 (fr) * 2001-10-22 2003-05-01 Sony Corporation Appareil de reconnaissance vocale et procede de reconnaissance de la parole
JP2004163458A (ja) * 2002-11-08 2004-06-10 Sony Corp 音声認識装置
JP2007286174A (ja) * 2006-04-13 2007-11-01 Funai Electric Co Ltd 電子機器
JP2009532744A (ja) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド 音声認識システムにモデルを適合させるための方法およびシステム
WO2014068788A1 (ja) * 2012-11-05 2014-05-08 三菱電機株式会社 音声認識装置
US8868421B2 (en) 2005-02-04 2014-10-21 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US10068566B2 (en) 2005-02-04 2018-09-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
JP2021124779A (ja) * 2020-01-31 2021-08-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
US11837253B2 (en) 2016-07-27 2023-12-05 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000214879A (ja) * 1999-01-20 2000-08-04 Sony Internatl Europ Gmbh 音声認識装置の適応化方法
JP4644893B2 (ja) * 2000-01-12 2011-03-09 ヤマハ株式会社 演奏装置
JP2001195058A (ja) * 2000-01-12 2001-07-19 Yamaha Corp 演奏装置
WO2003036617A1 (fr) * 2001-10-22 2003-05-01 Sony Corporation Appareil de reconnaissance vocale et procede de reconnaissance de la parole
US7031917B2 (en) 2001-10-22 2006-04-18 Sony Corporation Speech recognition apparatus using distance based acoustic models
US7321853B2 (en) 2001-10-22 2008-01-22 Sony Corporation Speech recognition apparatus and speech recognition method
JP2004163458A (ja) * 2002-11-08 2004-06-10 Sony Corp 音声認識装置
US10068566B2 (en) 2005-02-04 2018-09-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8868421B2 (en) 2005-02-04 2014-10-21 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US9202458B2 (en) 2005-02-04 2015-12-01 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US9928829B2 (en) 2005-02-04 2018-03-27 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
JP2009532744A (ja) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド 音声認識システムにモデルを適合させるための方法およびシステム
JP2007286174A (ja) * 2006-04-13 2007-11-01 Funai Electric Co Ltd 電子機器
US11817078B2 (en) 2011-05-20 2023-11-14 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US11810545B2 (en) 2011-05-20 2023-11-07 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9697818B2 (en) 2011-05-20 2017-07-04 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US10685643B2 (en) 2011-05-20 2020-06-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
JP5677650B2 (ja) * 2012-11-05 2015-02-25 三菱電機株式会社 音声認識装置
US9378737B2 (en) 2012-11-05 2016-06-28 Mitsubishi Electric Corporation Voice recognition device
WO2014068788A1 (ja) * 2012-11-05 2014-05-08 三菱電機株式会社 音声認識装置
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US11837253B2 (en) 2016-07-27 2023-12-05 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
JP2021124779A (ja) * 2020-01-31 2021-08-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Similar Documents

Publication Publication Date Title
EP1301922B1 (en) System and method for voice recognition with a plurality of voice recognition engines
US8255216B2 (en) Speech recognition of character sequences
US7027985B2 (en) Speech recognition method with a replace command
EP1316086B1 (en) Combining dtw and hmm in speaker dependent and independent modes for speech recognition
US7634401B2 (en) Speech recognition method for determining missing speech
JPH0713591A (ja) 音声認識装置および音声認識方法
US20070136060A1 (en) Recognizing entries in lexical lists
US7050973B2 (en) Speaker recognition using dynamic time warp template spotting
JP2002116793A (ja) データ入力システム及びその方法
JPH06124097A (ja) 携帯型端末装置
JPH10274996A (ja) 音声認識装置
JP2003163951A (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
JP3082618B2 (ja) エレベータの音声入力装置
JP2007127896A (ja) 音声認識装置及び音声認識方法
JPH0830290A (ja) 音声入力可能な情報処理装置およびそれにおける誤処理検出方法
JP4849630B2 (ja) 発話内容識別装置及び個人識別装置
JP3112037B2 (ja) 音声認識装置
JP4635743B2 (ja) 音声対話装置及び音声理解結果生成方法
JP3443874B2 (ja) 音声認識装置および方法
JP3114757B2 (ja) 音声認識装置
JP3285954B2 (ja) 音声認識装置
JP4282354B2 (ja) 音声認識装置
JP2001306091A (ja) 音声認識システムおよび単語検索方法
JP4236502B2 (ja) 音声認識装置
JP6351440B2 (ja) 音声認識装置及びコンピュータプログラム