JPS5915990A

JPS5915990A - 音声認識方式

Info

Publication number: JPS5915990A
Application number: JP57124483A
Authority: JP
Inventors: 徳子松井; 俊宏木村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1982-07-19
Filing date: 1982-07-19
Publication date: 1984-01-27

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は、認識対象の各単語に対応して複数組の標準音
声パタンを内蔵（格納、記憶）している音声認識装置に
おいて、その認識率の向上および誤認識時の訂正処理の
効率向上を図るだめの音声認識方式に関するものである
。

この種の音声認識装置における従来の音声認識方式は、
例えば、一連のサービスが完了するまで、内蔵されてい
る複数組の全標準音声パタンを使用して音声認識処理を
行わせるようにしていだので、ある発声者による特定の
単語が、特定組の標準音声パタンに関して誤認識を起こ
し易いものであると、一連の音声認識処理において誤認
識が多発するというおそれがあった。

まだ、誤認識が発生したときには、同一内容のものを再
発声させ、かつ、誤認識時におけるものと全く同一内容
の音声認識処理を行わせるようにしていた。

しかしながら、誤認識をしたということは、その発声音
声バタンか、各標準音声バタンのうちで真に上記発声音
声バタンに近いものとして認識・判定をされるべき標準
音声パタンよシも、誤認識の結果となった標準音声パタ
ンの方に近かったということである。

したがって、上述のように同一内容の音声認識処理を繰
り返しても、反復して同様な誤認識となる確率が高く、
正しい認識結果が得られるまでには、相当に多くの発声
の繰返しをしなければならないので、認識に要する時間
が長くなるとともに、発声者に対する負担も大きくなる
という問題があった。

本発明の目的は、上記した従来技術の欠点をなくシ、特
に発声者別に生ずる特定単語の標準音声パタンの特定組
に対する誤認識を防止して認識率の向上を可能とせしめ
る音声認識方式を提供することにある。また、他の目的
は、入力音声の誤認識をしたときは、次の繰返し認識の
認識率を向上せしめ当該訂正処理の効率向上を可能とす
る音声認識方式を提供することにある。

本発明の音声認識方式に係る第１の発明の構成は、認識
対象の各単語に対応して複数組の標準音声バタンデータ
を記憶しておき、入力音声の特徴抽出を行い、その特徴
データと上記全標準音声バタンデータとの類似度計算処
理を行い、その類似度が当該入力音声に対して最上位と
なる標準音声パタンを認識結果として判定・出力する機
能を有する音声認識装置において、一連の音声認識処理
について、最初に正認識結果が得られた場合の類似度が
上位となった所定組数の標準音声バタンデータのみを用
い、その後の入力音声との類似度計算処理を行わしめる
ように制御・処理するものである。

まだ、同様に第２の発明の構成は、認識対象の各単語に
対応して複数組の標準音声バタンデータを記憶しておき
、入力音声の特徴を抽出し、その特徴データと上記全標
準音声バタンデータとの類似度計算処理を行い、その類
似度が当該入力音声に対して最上位となる標準音声パタ
ンを認識結果として判定・出力する機能を有する音声認
識装置において、一連の音声認識処理について、誤認識
結果が得られるごとに、誤認識の対象となった標準音声
バタンデータの組のみを除き、その後の入力音声との類
似度計算処理を行わしめるように制御・処理するもので
ある。

以下、各発明の実施例を図に基づいて説明する。

第１図は、第１の発明に係る音声認識方式の一実施例の
方式構成図、第２図は、その処理フローチャートである
。

ここで、１は、認識対象の各単語について複数組の標準
音声バタンデータを格納（記憶）している標準音声バタ
ンメモリ、２は、その選択制御をする標準音声バタン選
択部、３は、音声入力に係るマイクロフォン、４は、そ
の入力音声の特徴抽出をする分析部、５は、その％徴デ
ータと標準音声バタンデータとの類似度計算処理（バタ
ンマツチング処理）を行う音声認識部、６は、その処理
結果に基づき入力音声に対する類似度が高い標準音声パ
タンの組を判定する判定部、７は、認識結果の表示に係
る音声合成部、８は、同スピーカ、９は、認識結果の確
認および繰返し音声入力の指示に係るコンソール部、１
０は、上記各部に対する制御その他所要の処理を行う制
御部、１１は、認識結果に基づいて所望の処理をするホ
スト装置である。

まず、マイクロフォン３からの入力音声の認識に先立ち
、制御部１０は、音声入力に対する準備を分析部４．音
声認識部５に指示し、また、その時の認識対象となるべ
き単語の標準音声ノくタンの全組のデータを標準音声・
ζタンメモリ１から選択するように標準音声バタン選択
部２に指示する（第２図の処理２１）。

これらの準備が完了すると、発声者に対して音声入力を
促すべき入力催告メツセージを出力するよう音声合成部
７に指示し、スピーカ８から同メツセージを放声せしめ
る（処理２２）。

これにより、発声者がマイクロフォン３から音声入力を
すると（処理２３）、分析部４は、その入力音声の音声
分析をして特徴抽出を行う（処理２４）。

音声認識部５は、上述のように制御部１０からの制御に
よシ標準バタン選択部２が選択・指示する標準音声パタ
ン全組のデータと上記入力音声の特徴データとの間で類
似度計算処理（バタンマツチング処理）を行い、上記各
組の中から入力音声との類似度が最上位のものを認識結
果の候補とするとともに、すべての認識結果、類似度を
判定部６、制御部１０に伝える（処理２５）。

制御部１０ば、認識結果の類似度が前もって定められた
定数（リジェクト定数）よりも低く、認識結果として出
力するには疑わしいものとみなすべき認識結果（リジェ
クト）に該当するかどうかを判断しく判断２７）、リジ
ェクトの場合には、標準音声バタン選択部２に対して全
組の標準音声パタンを選択するように指示しく処理２８
）、更に音声合成音量対して再び同一内容の入力催告メ
ツセージを出力するよう指示し、同メツセージをスピー
カ８から放声せしめる（処理２９）。これにより、上述
と同様な再認識処理が行われる。

一方、リジェクトでない場合には、その認識結果が正し
いものであるか否かを発声者に確認させるための表示と
して、確認要求メツセージを音声合成部７経由でスピー
カ８から放声せしめる（処理３０）。

発声者は、これを聴取して入力音声が正しい認識（正認
識）をされたのか、誤った認識（誤認識）をされたのか
を知シ、その旨をコンソール部９から制御部１０へ入力
する（処理３１）。

この認識結果の正否の確認入力は、必ずしもコンソール
部９における操作による必要はなく、マイクロフォン３
からの確認用音声入力によってもよいが、その内容は、
音声認識が確実に行われるように簡単で誤認識をしにく
いものであるものが望ましい。

制御部１０は、正認識をしだか否かを判断しく判断３２
）、そうでない場合は、再度、前述の処理２８．２９へ
戻るようにし、正認識であった場合には、必要に応じて
上記の認識結果の確認情報によって当該標準音声バタン
情報をホスト装置１１へ送出するとともに、この音声認
識処理が一連の処理の第１回目であるか否かを判断しく
判断３３）、第１回目であるときは、正認識をしだ組の
標準音声パタンの中で類似度が上位の所定数の組（例え
ば、２組）の標準音声パタンの情報を判定部６から受は
取り、標準音声バタン選択部２に府して次のま３識の標
準音声パクンの選択内容を上記上位類似度のもの（例え
ば、２組）に限るように指示しておく　（処理３４）。

次いで、第２回目以降の認識であったとき（判断３３の
ＮＯのとき）、ま・た１丈上記処理３４を完了したとき
は、それまでの制御、処理で一連のサービス動作が終了
したか否かを判断しく判断３５）、終了していなければ
、再び前述の処理２２−・戻って同様な処理を繰り返し
、終了していれば、全処理を終了せしめる。

このようにして、最初の正認識がされた後には、当該発
声者に対して適合した数組の標準音声パタンだけが認識
処理に用いられることになるので、発声者により特定の
単語の特定の組の標準音声パタンに対する誤認識が多く
発生することを防止し、認識率の向上とともに認識時間
の減少も得られる。

次に、第３図は、第２の発明に係る音声認識方式の一実
施例の処理フローチャートで、その方式構成図は、第１
図のものをそのまま用いることができるので、以下、第
１図、第３図に基ついて上記実施例の説明をする。

まず、第３図における処理２１〜３２については、前述
の第１の発明の実施例の第２図のものと全く同様である
ので、それと異なる部分についてのみ説明する。

正認識でなかった（誤認識であった）場合には、制御部
１０は、標準音声バタン選択部２に対し、標準音声パタ
ンの中から上記誤認識結果の対象となった組を除くよう
に指示しく第３図の処理３６）、更に再入力の催告メツ
セージを音声合成部７経由でスピーカ８から放声せしめ
る（処理３７）。

以上の処理を正認識結果が得られるまで繰り返して行い
（処理２３以降）、正認識結果が得られた場合には、必
要に応じて当該標準音声バタン情報をホス＋装置１１へ
送出するとともに、一連のサービス動作が終了したか否
かを判断しく判断３８）、終了していないときは、再び
前述の処理２２へ戻って同様な処理を繰り返し、終了し
ているときは、全処理を終了せしめる。

このようにして、誤認識となったときに、その対象とな
った標準音声パタンの組を除いて次の繰返し認識を行う
ので、以後、正認識の確率を高くすることができるとと
もに、その訂正処理の効率向上も可能となる。

以上、詳細に説明したように、本発明によれば、認識率
を向上し、また、誤認識となったときの訂正処理の効率
を向」ニすることができるので、この種の音声認識シス
テムにおける信頼性、サービス性、効率の向上に顕著な
効果が得られる。

【図面の簡単な説明】

第１図は、第１の発明に係る音声認識方式の一実施例の
方式構成図、第２図は、゛その処理フローチャート、第
３図は、第２の発明の音声認識方式の一実施例の処理フ
ローチャートである。１・・・標準音声ガタ／メモリ、２・・・標準音声・々
タン選択部、３・・・マイクロフォン、４・・・分析部
、５・・・音声認識部、６・・・判定部、７・・・音声
合成部、８・・・スピーカ、９・・・コンソール部、１
０・・・制御部、”代理人　弁理士　福田幸作；““−
。（ほか１名ン犀１　目め２［］

Claims

【特許請求の範囲】１、認識対象の各単語に対応して複数組の標準音声バタ
ンデータを記憶しておき、°入力音声の特徴抽出を行い
、その特徴データと上記全標準バタンデータとの類似度
計算処理を行い、その類似度が当該入力音声に対して最
上位となる標準音声パタンを認識結果として判定・出力
する機能を有する音声認識装置において、一連の音声認
識処理について、最初に正認識結果が得られた場合の類
似度が上位となった所定組数の標準音声バタンデータの
みを用い、その後の入力音声との類似度計算処理を行わ
しめるように制御・処理することを特徴とする音声認識
方式。２、認識対象の各単語に対応して複数組の標準音声バタ
ンデータを記憶しておき、入力音声の特徴抽出を行い、
その特徴データと上記全標準バタンデータとの類似度計
算処理を行い、その類似度が当該入力音声に対して最上
位となる標準音声パタンを認識結果として判定・出力す
る機能を有する音声認識装置において、一連の認識処理
について、誤認識結果が得られるごとに、誤認識の対象
となった標準音声バタンデータの組のみを除き、その後
の入力音声との類似度計算処理を行わしめるように制御
・処理することを特徴とする音声認識方式。