JP3192324B2 - 特定話者用単語音声認識装置 - Google Patents

特定話者用単語音声認識装置

Info

Publication number
JP3192324B2
JP3192324B2 JP18344794A JP18344794A JP3192324B2 JP 3192324 B2 JP3192324 B2 JP 3192324B2 JP 18344794 A JP18344794 A JP 18344794A JP 18344794 A JP18344794 A JP 18344794A JP 3192324 B2 JP3192324 B2 JP 3192324B2
Authority
JP
Japan
Prior art keywords
word
voice
user
registered
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP18344794A
Other languages
English (en)
Other versions
JPH0844388A (ja
Inventor
清治 濱口
耕市 山口
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP18344794A priority Critical patent/JP3192324B2/ja
Publication of JPH0844388A publication Critical patent/JPH0844388A/ja
Application granted granted Critical
Publication of JP3192324B2 publication Critical patent/JP3192324B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、単語音声認識装置に関
し、特に特定話者の音声を認識する特定話者音声認識技
術を利用した特定話者用単語音声認識装置に関する。
【0002】
【従来の技術】従来、特定話者用単語音声認識装置は、
認識対象となる単語が予め利用者本人の声により登録さ
れ、認識時にはそれらの単語のうちのどれかが選ばれて
発声されることにより、発声された単語音声の特徴量と
登録されている単語音声の特徴量とが比較され、最も類
似している単語が選び出される。特定話者用音声認識に
は、登録作業が必要なものの、認識語彙に自由度を与え
ることが可能であり、また不特定話者用音声認識に比べ
て認識性能の面で有利であるという特徴を持っている。
【0003】なお、音声認識性能を低下させる原因の一
つに、登録語彙中に類似単語が存在していて、認識結果
としてその類似した単語が誤って出力されるという場合
がある。このような問題を解決するために、ダイヤル操
作の代わりに相手の名前を発生して電話をかける音声ダ
イヤル装置などにおいて、人名を音声で登録する際に、
すでに登録済みの名前の中に類似パターンが存在した場
合、利用者にその旨を知らせ、類似音声の変更や削除を
行わせる方法が特開平3−123249号公報に開示さ
れている。
【0004】
【発明が解決しようとする課題】上述した音声ダイヤル
装置の相手先の名前などは登録音声の語彙が利用者の自
由に任されており、そのため認識結果のエコーバックや
ガイダンス出力には利用者の発声した音声の特徴量より
作成された合成用標準パターンが使用されることにな
る。一方、認識装置の用途によっては、認識語彙が固定
されていて、エコーバックやガイダンス用の音声は予め
認識装置のメモリ中に用意されていることがあり、利用
者が類似単語登録を避けるために認識語彙を言い換えた
りすると、エコーバックやガイダンス用の音声が利用者
の登録音声と食い違ってしまい、利用者は正しく発音し
ているつもりでも装置がまったく認識しないことが起こ
る虞がある。認識結果や語彙がパネルなどに表示される
場合なども同様の問題が発生する。
【0005】例えば、0〜9の一桁の数字を登録する必
要がある音声認識装置の場合、利用者に対して「れい」
「いち」「に」…「く」などの発生を求めてくる。利用
者はこれを受けて数字音声を発生するのであるが、この
中には「1(いち)」と「7(しち)」、「6(ろ
く)」と「9(く)」といった類似単語が含まれてい
る。最初から、認識語彙にはこのような紛らわしい単語
を選ばなければよいのであるが、人間の習慣上、やむを
得ず類似単語を含む場合がある。また、発声方法は各個
人によって異なるので、標準的な人にとっては類似して
いない単語同士であっても、それらの単語が類似してし
まう人が存在する。利用者が「7(しち)」を「なな」
などと言い換えて登録を行えば類似単語の問題を回避で
きる可能性が高いが、エコーバックやガイダンス音声は
「しち」であるため、利用者の登録音声とは食い違って
しまい、利用者が自分がどういう発声で登録したかを覚
えていないと、言い換えて登録した語彙が認識できない
という状況が発生してしまう。ガイダンス音声が「し
ち」のままだと、登録時点からの時間経過によって、利
用者は「なな」と発声して登録したことを忘れ、認識時
に「しち」と発声する可能性が高いからである。
【0006】本発明は、上記のような課題を解消するた
めになされたもので、利用者の登録音声とエコーバック
やガイダンス音声あるいは認識結果の表示などが食い違
うことなしに、類似単語の登録を避け高い認識性能を実
現する特定話者用単語音声認識装置を提供することを目
的とする。
【0007】
【課題を解決するための手段】本発明は、利用者が複数
の対象を表す単語の音声を予め自分の声で登録した後、
使用時に登録されている前記単語の何れかを選択して発
声したときに、発声された音声パターンとすでに登録さ
れている音声パターンとを比較して発声された単語を認
識しその結果を出力することによって前記複数の対象を
識別する特定話者用単語音声認識装置であって、利用者
に登録すべき単語の発声を促すために前記単語を提示す
る手段と、利用者が前記提示された単語の音声を入力す
る入力手段と、入力された音声を分析して特徴量を抽出
する特徴量抽出手段と、抽出された特徴量を記憶する記
憶手段と、入力された単語の音声の特徴量と、すでに登
録されている単語の音声の特徴量との間の距離を算出す
る演算手段と、新たに入力された単語と登録されている
前記単語との特徴量間の距離が前記複数の対象を識別す
るために十分な大きさを確保できないと判断した場合、
前記複数の対象を識別するために十分な大きさを確保で
きるまで、次候補として用意されている他の単語を1単
語づつ利用者に提示するように制御する制御手段とを有
し、前記制御手段は、前記提示された単語の次候補とし
て用意されている他の単語を利用者に提示するか、すで
に登録されている単語の次候補として用意されている他
の単語を利用者に提示するかを選択可能であると共に、
前記提示された単語の次候補として用意されている単語
が尽きた場合、任意の単語の発声を利用者に促すことを
特徴とする特定話者用単語音声認識装置を提供する。
【0008】本発明は、利用者による単語の音声入力を
促すガイド音声を出力する出力手段と、前記特徴量間の
距離が所定値以上でない単語を報知する報知手段とをさ
らに具備することを特徴とする特定話者用単語音声認識
装置を提供する。
【0009】利用者が複数の対象を表す単語の音声を予
め自分の声で登録した後、使用時に登録されている前記
単語の何れかを選択して発声したときに、発声された音
声パターンとすでに登録されている音声パターンとを比
較して発声された単語を認識しその結果を出力すること
によって前記複数の対象を識別する特定話者用単語音声
認識装置であって、利用者が音声を入力する入力手段
と、入力された音声を分析して特徴量を抽出する特徴量
抽出手段と、抽出された特徴量を記憶する記憶手段と、
入力された単語の音声の特徴量と、すでに登録されてい
る単語の音声の特徴量との間の距離を算出する演算手段
と、新たに入力された単語と登録されている前記単語と
の特徴量間の距離が前記複数の対象を識別するために十
分な大きさを確保できないと判断した場合、前記複数の
対象を識別するために十分な大きさを確保できるまで、
次候補として用意されている他の単語を1単語づつ利用
者に提示するように制御する制御手段と、利用者による
単語の音声入力を促すガイド音声を出力する出力手段
と、前記特徴量間の距離が所定値以上でない単語を報知
する報知手段とを有し、前記制御手段は、次候補として
用意されている単語が尽きた場合、任意の単語の発声を
利用者に促すことを特徴とする特定話者用単語音声認識
装置を提供する。
【0010】本発明は、現在どのような単語セットが登
録されているかを出力する音声出力手段又は表示手段を
備えることを特徴とする特定話者用単語音声認識装置を
提供する。
【0011】
【作用】本発明によれば、利用者が入力手段により提示
された単語の音声を入力すると、特徴量抽出手段により
入力された音声が分析されて特徴量が抽出され、記憶手
段により、抽出された前記特徴量が記憶され、演算手段
により入力された音声の特徴量と、すでに登録されてい
る単語音声の特徴量との距離が算出され、初期認識語彙
として用意されている単語では特徴量間の距離が十分な
大きさを確保できない場合、制御手段により、前記複数
の対象を識別するために十分な大きさを確保できるま
で、次候補として用意されている他の単語を1単語づつ
利用者に提示するように制御される。さらに、本発明に
よれば、制御手段は、前記提示された単語の次候補とし
て用意されている他の単語を利用者に提示するか、すで
に登録されている単語の次候補として用意されている他
の単語を利用者に提示するかを選択するこができる。こ
れにより、音声の特徴量間の距離が十分に大きな単語に
より、複数の対象の識別を確実に行うことができる。
らに、本発明によれば、次候補として用意されている単
語が尽きた場合、前記制御手段により、任意の単語の発
声が利用者に促される。これにより、類似単語の登録を
避け高い認識性能を実現する。
【0012】また、本発明によれば、出力手段により利
用者の音声入力を促すガイド音声が出力され、利用者は
このガイド音声を確認して音声を入力する。さらに、報
知手段により特徴量間の距離が所定値以上でない単語が
報知され、利用者は、他の単語の音声登録を選択するこ
とができる。これにより、利用者の登録音声とエコーバ
ックやガイダンス音声あるいは認識結果の表示などが食
い違うことなしに、類似単語の登録を避け高い認識性能
を実現することができる。
【0013】また、本発明によれば、利用者が入力手段
により提示された単語の音声を入力すると、特徴量抽出
手段により入力された音声が分析されて特徴量が抽出さ
れ、記憶手段により、抽出された前記特徴量が記憶さ
れ、演算手段により入力された音声の特徴量と、すでに
登録されている単語音声の特徴量との距離が算出され、
初期認識語彙として用意されている単語では特徴量間の
距離が十分な大きさを確保できない場合、制御手段によ
り、前記複数の対象を識別するために十分な大きさを確
保できるまで、次候補として用意されている他の単語を
1単語づつ利用者に提示するように制御される。さら
に、本発明によれば、出力手段により利用者の音声入力
を促すガイド音声が出力され、利用者はこのガイド音声
を確認して音声を入力する。さらに、報知手段により特
徴量間の距離が所定値以上でない単語が報知され、利用
者は、他の単語の音声登録を選択することができる。こ
れにより、利用者の登録音声とエコーバックやガイダン
ス音声あるいは認識結果の表示などが食い違うことなし
に、類似単語の登録を避け高い認識性能を実現すること
ができる。さらに、本発明によれば、次候補として用意
されている単語が尽きた場合、前記制御手段により、任
意の単語の発声が利用者に促される。これにより、類似
単語の登録を避け高い認識性能を実現する。
【0014】また、本発明によれば、音声出力手段また
は表示手段により現在どのような単語セットが登録され
ているかが出力される。
【0015】
【実施例】以下、本発明の特定話者用単語音声認識装置
の第1の実施例を図を参照しながら説明する。
【0016】本実施例の特定話者用単語音声認識装置
は、図1に示すように、利用者の音声入力を促すガイド
音声を出力する出力手段及び現在どのような単語セット
が登録されているかを出力する音声出力手段としての音
声合成部1と、利用者の音声を入力する入力手段として
のマイクロホン2と、入力された音声を分析して特徴量
を抽出する特徴量抽出手段としての単語登録/認識部3
と、抽出された特徴量を記憶する記憶手段及び利用者が
発声した音声を保存しかつ再生し得る保存再生手段とし
ての単語認識・再生パターンメモリ4と、各部を制御す
る制御部5と、指示等を入力する操作パネル6と、現在
どのような単語セットが登録されているかを出力する表
示手段としての表示パネル7と、ガイド音声を格納する
ガイド音声メモリ8とを具備している。
【0017】制御部5は、図2に示すように、単語登録
/認識部3により抽出された入力音声の特徴量と、すで
に単語認識・再生パターンメモリ4に登録されている単
語音声の特徴量との距離を算出する演算手段9と、特徴
量間の距離が所定値以上でない単語を報知する報知手段
10と、利用者が音声を登録する際に、初期認識語彙と
して用意されている単語では特徴量間の距離が十分な大
きさを確保できない場合、次候補として用意されている
他の単語の音声を登録するように制御する制御手段11
とを具備している。
【0018】なお、特定話者用単語音声認識装置の適用
例としては、例えばホームオートメーションにおいて、
屋内の照明やテープレコーダーの操作を音声で行うため
の装置が考えられ、認識語彙としては図3に示すような
語彙を想定する。図3から分かるように、一つの操作に
対していくつかの候補単語が予め用意されている。
【0019】次に、本実施例の動作を図4のフローチャ
ートに沿って説明する。なお、特定話者用単語音声認識
装置の操作はマイクロホン2及び操作パネル6を使用し
て行われるので、特定話者用単語音声認識装置を使用す
るためには、まず利用者の声で単語を登録する必要があ
る。
【0020】操作パネル6が操作されて登録が開始され
ると(ステップS1)、音声合成部1によりガイド音声
メモリ8に格納されている「これから言う単語を発声し
てください」というガイド音声が発声された後(ステッ
プS2)、例えば認識語彙が図3に記されているもので
ある場合、まず「電源」というガイド音声が流される。
そして、次候補選択操作があるか否かが判断され、すな
わち操作パネル6からの操作が行われたか否か判断され
る(ステップS3)。次候補選択操作を行わない場合、
利用者は「電源」というガイド音声を聞いて、「電源」
と発声する(ステップS4)。単語登録/認識部3によ
り利用者が発声した音声が分析され、特徴量が抽出され
る。そして、演算手段9により単語認識・再生パターン
メモリ4にすでに登録されている各単語との音声パター
ンの特徴量との距離がDPマッチングなどの手法を用い
算出される(ステップS5)。
【0021】この距離が設定閾値以下となる組み合わせ
すなわち類似パターンが存在するか否かが制御手段11
により判断され(ステップS6)、類似パターンが存在
しない場合は、利用者が発声したばかりの「電源」とい
う音声の特徴量が記憶パターンとしてメモリ4に記憶さ
れる(ステップS7)。また、類似パターンが存在する
と判断された場合、例えば「電源」という音声が登録さ
れた後、上述ステップS1から次の語彙「電灯」の登録
を進めてきたときに、「電源」と「電灯」のパターン間
距離が設定閾値以下となった場合、それらの単語が類似
単語と判断される。そして、利用者に対して「電源と電
灯が類似しています。どちらかを登録し直して下さ
い。」というような警告が報知手段10により音声合成
部1を介して発声される(ステップS8)。
【0022】それから、利用者がこのような警告を受け
た場合、利用者が既登録類似単語再登録、登録キャンセ
ル、登録の内のいずれを選択したか否かが判断され(ス
テップS9)、この警告を無視して登録操作が行われれ
ば、ステップS7に移り、発声したばかりの「電灯」の
音声がメモリ4に記憶され、次の単語の登録に進むこと
ができる。しかし、利用者が認識性能の向上を望み、警
告を受けた単語を登録し直す場合、例えば「電灯」の登
録をやり直す場合、利用者は操作パネル6から登録キャ
ンセル操作を行う。登録がキャンセルされた後(ステッ
プS10)、再び上述ステップS2に戻って、発声を促
すガイダンスが流れるが、図3に示すように、今度は
「電灯」の次候補として用意されている「照明」が出力
される。ここで、「照明」と発声すれば、「電灯」の発
声時と同様にステップS5ですでに登録されている各単
語と「照明」の距離が算出され、距離が十分でない組み
合わせすなわち類似単語が存在する場合、ステップS8
で警告が発せられる。類似単語の組み合わせが存在しな
い場合、もしくは警告を無視して「照明」が登録された
場合には、以降は認識結果のエコーバックなどにも「電
灯」ではなく「照明」が使用される。これは、音声の特
徴量と共に何番目の候補音声のときに登録したかを記憶
しておくことによって可能になる。「電灯」で登録した
なら”1”を、「照明」で登録したなら”2”を音声の
特徴量と共に記憶しておく。この記憶様式は、図5に示
すように、登録データ開始アドレス、データ長、候補番
号とからなっている。
【0023】また、上述ステップS3において、操作パ
ネル6からの操作が行われた場合、例えば「照明」とい
うガイド音声が発せられ、利用者が「照明」という発声
で登録したくなければ、音声を発声せずに操作パネル6
を操作すると、図3に示すように、「照明」の次候補単
語には「ライト」が用意されているので(ステップS1
1)、「ライト」というガイド音声が出力され(ステッ
プS12)、ステップS3へ戻る。なお、ステップS3
からステップS11への移行は、登録やり直しの場合で
なくても可能であることはいうまでもない。ステップS
3に戻り、「ライト」でも登録したくない場合、操作パ
ネル6から上述同様の操作が行われると、「ライト」の
次候補は存在しないので、最初の候補である「電灯」に
戻る。つまり、ステップS11からステップS12を通
過する度に、候補単語はシフトされる。
【0024】また、ステップS11において、登録用次
候補単語のガイド音声がない場合、例えば「ライト」の
次候補は存在しないので、「任意の発声で入力してくだ
さい」などとガイダンスし(ステップS13)、利用者
に任意の単語を発声させることにより、類似語の登録を
回避する。ここで、発声して登録すると、その音声は認
識のみならず、音声出力にも使用され、それ以降は認識
結果のエコーバックやガイド音声などでも利用者の発声
音声が使用される。
【0025】利用者の任意発声を登録した場合には、図
5の候補番号欄に”0”などと記録されて、予め用意さ
れている音声と区別しておく。利用者の登録音声のエコ
ーバックは、登録時のサンプリングデータを単語認識・
再生パターンメモリ4に蓄えておき、それをD/A変換
することで可能になるが、エコーバック用のメモリを節
約するために、認識用に登録された単語の特徴量から合
成する方法もある。
【0026】一方、「任意の発声で入力してください」
などのガイド音声や、「電源」「電灯」「ライト」など
の図3に示す登録用単語のガイド音声などはこれを書き
替えを必要としないのでRAMよりも安価なROMなど
で実現できる。図1のガイド音声メモリ8はこれらのガ
イド音声用データを格納しており、音声合成部1は制御
部5からの命令を受けてガイド音声メモリ8からデータ
を読み出してガイド音声を再生する。任意の発声を要求
してきた時点で、音声を発声せず、更に次ぎの候補を選
択した場合は、最初の候補に戻り、再び「電灯」という
ガイド音声が出力される。
【0027】ところで、上述ステップS8において、
「電源と電灯が類似しています。どちらかを登録し直し
てください。」という警告を受けた場合、ステップS9
で既登録類似単語の再登録が選択されると、「電灯」の
音声パターンはメモリ4に記憶され、「電源」の方が登
録し直される(ステップS14)。この例では、ステッ
プS9で操作パネル6が操作され、「電源」の登録が受
付け状態にされ、ステップS3で「電源」の次候補単語
が選ばれて発声される。登録をやり直した結果、既に登
録済みの別の単語との距離が近くなることが考えられ
る。もちろん、この場合でも警告のガイダンスが流れる
ので、操作パネル6が操作されて該当単語音声を登録し
直すことができる。
【0028】なお、登録アルゴリズムとしては、上記の
ように一単語を登録し終わったときに、警告を発する方
法だけでなく、全ての単語を登録し終わった時に単語間
距離が設定閾値以下となる組み合わせがあるか否かがチ
ェックされ、該当するものが警告されるという方法も考
えられる。何れの登録アルゴリズムであっても、距離が
設定閾値以下の単語の組み合わせが複数あった場合に、
それらの全てを知らせてもよいが、最も距離の小さい組
み合わせのみを知らせるだけでもよい。また、操作パネ
ル6からの操作により、距離が十分でない単語の組み合
わせを随時確認できる機能を持たせる必要があると思わ
れるが、これは登録時の距離チェック機能を流用するだ
けで可能になる。
【0029】単語の登録や認識は、単語登録/認識部3
が制御部5からの命令を受けてマイクロホン2からの入
力が分析され、その特徴量が単語認識・再生パターンメ
モリ4へ記憶されたり、既に記憶されている他の単語の
特徴量と比較されることによって行われる。制御部5に
より操作パネル6からの入力と、その時点での装置の状
態に応じ、音声合成部1や単語登録/認識部3に命令が
出される。表示パネル7は、後述のように認識語彙の確
認が文字表示によって行われる場合に必要となる。認識
語彙の確認が音声によって行われる場合には表示パネル
7を必要としない。 なお、上述実施例においては、認
識語彙として図3に表示されているものを例にとり説明
したが、本発明は認識語彙の種類に限定されるものでは
ない。
【0030】さて、上述したような構成の認識装置の場
合、認識語彙が一意に固定されていないため、現時点で
どのような語彙が登録されているかを確認する方法が必
要になる。第1に、音声で確認する方法が挙げられる。
図1の認識装置の操作パネル6から特定の操作を行う
と、登録されている単語の音声が順に出力される。この
確認音声は、登録用のガイド音声として用意されている
ものを出力する方法と、利用者の登録音声を合成出力す
る方法がある。ガイド音声を用いるほうがきれいな音声
を出力できるが、任意発声で登録した単語にはガイド音
声が用意されていないので、利用者の登録音声を合成出
力する方法を使用することになる。
【0031】第2の方法として、液晶などの表示パネル
7を用い、登録単語を文字で表示する方法が考えられ
る。表示パネルによる認識語彙確認手段を備えた音声認
識装置は、図6に示すように構成されている。総認識単
語数が少ない場合や、表示パネルが十分大きい場合に
は、一面に全ての単語を表示することも可能であるが、
そうでない場合には、操作パネル31を操作して、認識
語彙表示部32の画面を切り換えたり、スクロールさせ
たりして表示させる機能が必要となる。利用者が任意の
音声を登録した単語には文字列が用意されていないの
で、音声登録の際に操作パネルの文字入力部33から文
字列を入力しておくなどの方法が考えられる。例えば、
図6の認識語彙表示部32の中の7番目の認識語彙であ
る「止まれ」は図3の単語候補の中には用意されていな
い。これは「停止」や「ストップ」では他の認識語彙と
十分な距離が確保できないため、利用者が自分で考えて
登録した単語である。「止まれ」の文字列は用意されて
いないので、文字入力部33から利用者が操作して入力
する。
【0032】文字列のデータは、図3の単語候補の場合
なら、ガイド音声メモリ8の中に予め用意しておき、利
用者が任意に入力したデータなら単語認識・再生パター
ンメモリ4の中に記憶するという方法が使える。なお、
図中の34はマイクロホンである。
【0033】
【発明の効果】本発明によれば、利用者が入力手段によ
り提示された単語の音声を入力すると、特徴量抽出手段
により入力された音声が分析されて特徴量が抽出され、
記憶手段により、抽出された前記特徴量が記憶され、演
算手段により入力された音声の特徴量と、すでに登録さ
れている単語音声の特徴量との距離が算出され、初期認
識語彙として用意されている単語では特徴量間の距離が
十分な大きさを確保できない場合、制御手段により、前
記複数の対象を識別するために十分な大きさを確保でき
るまで、次候補として用意されている他の単語を1単語
づつ利用者に提示するように制御され、さらに、制御手
段は、前記提示された単語の次候補として用意されてい
る他の単語を利用者に提示するか、すでに登録されてい
る単語の次候補として用意されている他の単語を利用者
に提示するかを選択可能な構成にしたので、音声の特徴
量間の距離が十分に大きな単語により、複数の対象の識
別を確実に行うことができる。さらに、次候補として用
意されている単語が尽きた場合、前記制御手段により、
任意の単語の発声が利用者に促されるように構成したの
で、類似単語の登録を避け高い認識性能を実現する。
【0034】また、本発明によれば、出力手段により利
用者の音声入力を促すガイド音声が出力され、利用者は
このガイド音声を確認して音声を入力する。さらに、報
知手段により特徴量間の距離が所定値以上でない単語が
報知され、利用者は、他の単語の音声登録を選択するこ
とができるように構成したので、利用者の登録音声とエ
コーバックやガイダンス音声あるいは認識結果の表示な
どが食い違うことなしに、類似単語の登録を避け高い認
識性能を実現することができる
【0035】また、本発明によれば、利用者が入力手段
により提示された単語の音声を入力すると、特徴量抽出
手段により入力された音声が分析されて特徴量が抽出さ
れ、記憶手段により、抽出された前記特徴量が記憶さ
れ、演算手段により入力された音声の特徴量と、すでに
登録されている単語音声の特徴量との距離が算出され、
初期認識語彙として用意されている単語では特徴量間の
距離が十分な大きさを確保できない場合、制御手段によ
り、前記複数の対象を識別するために十分な大きさを確
保できるまで、次候補として用意されている他の単語を
1単語づつ利用者に提示するように制御される。さら
に、出力手段により利用者の音声入力を促すガイド音声
が出力され、利用者はこのガイド音声を確認して音声を
入力する。さらに、報知手段により特徴量間の距離が所
定値以上でない単語が報知され、利用者は、他の単語の
音声登録を選択することができるように構成したので、
利用者の登録音声とエコーバックやガイダンス音声ある
いは認識結果の表示などが食い違うことなしに、類似単
語の登録を避け高い認識性能を実現することができる。
さらに、次候補として用意されている単語が尽きた場
合、前記制御手段により、任意の単語の発声が利用者に
促されるように構成したので、類似単語の登録を避け高
い認識性能を実現する。
【0036】また、本発明によれば、音声出力手段また
は表示手段により現在どのような単語セットが登録され
ているかを出力するように構成したので、現時点でどの
ような語彙が登録されているか否かを容易に確認するこ
とができる。
【図面の簡単な説明】
【図1】本発明の特定話者用単語音声認識装置の第1の
実施例を示すブロック図である。
【図2】本発明の特定話者用単語音声認識装置の制御部
の構成を示すブロック図である。
【図3】認識語彙候補を示す図である。
【図4】本発明の動作を示すフローチャートである。
【図5】登録音声情報の記憶様式を示す図である。
【図6】表示パネルを使用した認識語彙確認装置を示す
図である。
【符号の説明】
1 音声合成部 2 マイクロホン 3 単語登録/認識部 4 単語認識・再生パターンメモリ 5 制御部 6 操作パネル 7 表示パネル 8 ガイド音声メモリ 9 演算手段 10 報知手段 11 制御手段 31 操作パネル 32 認識語彙表示部 33 文字入力部 34 マイクロホン
フロントページの続き (56)参考文献 特開 昭57−129497(JP,A) 特開 昭58−76944(JP,A) 特開 昭60−218698(JP,A) 特開 平3−123249(JP,A) 特開 昭63−70296(JP,A) 特開 昭62−260194(JP,A) 特開 平1−285997(JP,A) 特開 昭63−38994(JP,A) 特開 昭56−123600(JP,A) 特開 昭63−294600(JP,A) 特開 平3−10298(JP,A) 特開 平2−23399(JP,A) 特開 昭58−178396(JP,A) 特開 平2−141154(JP,A) 特公 平5−74837(JP,B2) 特公 昭61−26677(JP,B2) 特公 平2−15080(JP,B2) 特公 平5−38958(JP,B2) 特公 平6−7347(JP,B2) 特公 平4−62595(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 G10L 15/28 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 利用者が複数の対象を表す単語の音声を
    予め自分の声で登録した後、使用時に登録されている前
    記単語の何れかを選択して発声したときに、発声された
    音声パターンとすでに登録されている音声パターンとを
    比較して発声された単語を認識しその結果を出力するこ
    とによって前記複数の対象を識別する特定話者用単語音
    声認識装置であって、 利用者に登録すべき単語の発声を促すために前記単語を
    提示する手段と、 利用者が前記提示された単語の音声を入力する入力手段
    と、 入力された音声を分析して特徴量を抽出する特徴量抽出
    手段と、 抽出された特徴量を記憶する記憶手段と、 入力された単語の音声の特徴量と、すでに登録されてい
    る単語の音声の特徴量との間の距離を算出する演算手段
    と、 新たに入力された単語と登録されている前記単語との特
    徴量間の距離が前記複数の対象を識別するために十分な
    大きさを確保できないと判断した場合、前記複数の対象
    を識別するために十分な大きさを確保できるまで、次候
    補として用意されている他の単語を1単語づつ利用者に
    提示するように制御する制御手段とを有し、 前記制御手段は、前記提示された単語の次候補として用
    意されている他の単語を利用者に提示するか、すでに登
    録されている単語の次候補として用意されている他の単
    語を利用者に提示するかを選択可能であると共に、前記
    提示された単語の次候補として用意されている単語が尽
    きた場合、任意の単語の発声を利用者に促すことを特徴
    とする特定話者用単語音声認識装置。
  2. 【請求項2】 利用者による単語の音声入力を促すガイ
    ド音声を出力する出力手段と、前記特徴量間の距離が所
    定値以上でない単語を報知する報知手段とをさらに具備
    する請求項1に記載の特定話者用単語音声認識装置。
  3. 【請求項3】 利用者が複数の対象を表す単語の音声を
    予め自分の声で登録した後、使用時に登録されている前
    記単語の何れかを選択して発声したときに、発声された
    音声パターンとすでに登録されている音声パターンとを
    比較して発声された単語を認識しその結果を出力するこ
    とによって前記複数の対象を識別する特定話者用単語音
    声認識装置であって、 利用者が音声を入力する入力手段と、 入力された音声を分析して特徴量を抽出する特徴量抽出
    手段と、 抽出された特徴量を記憶する記憶手段と、 入力された単語の音声の特徴量と、すでに登録されてい
    る単語の音声の特徴量との間の距離を算出する演算手段
    と、 新たに入力された単語と登録されている前記単語との特
    徴量間の距離が前記複数の対象を識別するために十分な
    大きさを確保できないと判断した場合、前記複数の対象
    を識別するために十分な大きさを確保できるまで、次候
    補として用意されている他の単語を1単語づつ利用者に
    提示するように制御する制御手段と 利用者による単語の音声入力を促すガイド音声を出力す
    る出力手段と、 前記特徴量間の距離が所定値以上でない単語を報知する
    報知手段とを有し、 前記制御手段は、次候補として用意されている単語が尽
    きた場合、任意の単語の発声を利用者に促すことを特徴
    とする特定話者用単語音声認識装置。
  4. 【請求項4】 現在どのような単語セットが登録されて
    いるかを出力する音声出力手段又は表示手段を備える請
    求項1から請求項3のいずれか一項に記載の特定話者用
    単語音声認識装置。
JP18344794A 1994-08-04 1994-08-04 特定話者用単語音声認識装置 Expired - Fee Related JP3192324B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18344794A JP3192324B2 (ja) 1994-08-04 1994-08-04 特定話者用単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18344794A JP3192324B2 (ja) 1994-08-04 1994-08-04 特定話者用単語音声認識装置

Publications (2)

Publication Number Publication Date
JPH0844388A JPH0844388A (ja) 1996-02-16
JP3192324B2 true JP3192324B2 (ja) 2001-07-23

Family

ID=16135939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18344794A Expired - Fee Related JP3192324B2 (ja) 1994-08-04 1994-08-04 特定話者用単語音声認識装置

Country Status (1)

Country Link
JP (1) JP3192324B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3542026B2 (ja) * 2000-05-02 2004-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体

Also Published As

Publication number Publication date
JPH0844388A (ja) 1996-02-16

Similar Documents

Publication Publication Date Title
JP4570176B2 (ja) ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム
US6801897B2 (en) Method of providing concise forms of natural commands
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
JPH0876788A (ja) 音声認識における混同しやすい語の検出方法
JPH05181494A (ja) 音声パターンの識別装置と方法
JP3702867B2 (ja) 音声制御装置
JP2006517037A (ja) 韻律的模擬語合成方法および装置
JP2015014665A (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
EP0899737A2 (en) Script recognition using speech recognition
JPH11175082A (ja) 音声対話装置及び音声対話用音声合成方法
JP2000347681A (ja) テキスト・ベースの音声合成を利用した音声制御システム用の再生方法
JPH10326176A (ja) 音声対話制御方法
JP3837061B2 (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
JP3192324B2 (ja) 特定話者用単語音声認識装置
JP2004029354A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
WO2004034355A2 (en) System and methods for comparing speech elements
JP3277579B2 (ja) 音声認識方法および装置
JP3465334B2 (ja) 音声対話装置及び音声対話方法
KR20010000595A (ko) 대화식 음성 제어가 가능한 이동전화단말기 및 그 제어 방법
JPWO2019030810A1 (ja) 音声認識装置および音声認識方法
JP2664785B2 (ja) 音声認識装置
JP3808732B2 (ja) 音声認識方法及びそのシステム
JPS6211732B2 (ja)
JP2001067096A (ja) 音声認識結果評価装置および記録媒体
JPH06337700A (ja) 音声合成装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080525

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090525

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees