JP2019184631A

JP2019184631A - 音声認識システム及びコンピュータプログラム

Info

Publication number: JP2019184631A
Application number: JP2018070589A
Authority: JP
Inventors: 信範工藤; Akinori Kudo
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2019-10-24
Anticipated expiration: 2038-04-02
Also published as: JP6966374B2

Abstract

【課題】誤受理率を増加することなく、効率的に誤棄却率を低減する「音声認識システム及びコンピュータプログラム」を提供する。【解決手段】音声認識エンジンは、入力音声との相違度がしきい値PTh以下となったワードを予備認識ワードとして検出し、入力音声との相違度がしきいTh値(PTh＞Th)以下となったワードを認識ワードとして検出する。音声入力制御部は、予備認識ワードとして検出されたワードに対してフラグをセットし所定期間維持する。また、音声入力制御部は、認識ワードが検出されたときに、認識ワードとして検出されたワードに対してセットされているフラグの数が所定数以上であれば、当該ワードのしきいTh値を増加し、当該ワードを音声認識エンジンにおいて認識されやすくする。【選択図】図５

Description

本発明は、ユーザの発話音声を認識する音声認識の技術に関するものである。

ユーザの発話音声を認識する音声認識の技術としては、予め音声認識辞書に登録した各ワードについて、当該ワードが発話音声が表すワードであることの尤もらしさを表す尤度を算定し、尤度が最大のワードを、当該尤度が所定のしきい値を超えたときにのみ、ユーザが発話したワードとして認識する技術が知られている。

また、このような音声認識の技術において、前回のユーザの発話音声に対して行った音声認識において尤度がしきい値を超えるワードが存在せずに認識が失敗し、今回のユーザの発話音声対して行った音声認識において認識されたワードが、前回のユーザの発話音声に対して行った音声認識において尤度が最大のワードであった場合に、前回の音声認識では、今回認識したワードを誤棄却（FA;False Rejection)したものと判定し、より当該ワードが認識されやすい値にしきい値を変更する技術が知られている（たとえば、特許文献１）。

特開２００７-４１３１９号公報

上述したしきい値を変更する技術によれば、前回の音声認識と今回の音声認識において、ユーザが同じワードを発話した場合において、前回の音声認識で当該ワードが尤度が最大のワードとして認識されず、今回の音声認識で当該ワードが認識された場合には、前回の音声認識で今回認識したワードを誤棄却しているにも関わらず、しきい値を変更することができず、効率的な誤棄却率（FRR；False Rejection Rate）の低減を行うことができない。

また、上述したしきい値を変更する技術によれば、前回の音声認識で尤度が最大となったワードが前回の音声認識で認識されたワードである場合にはしきい値を変更することとなるが、当該ワードの前回の音声認識における最大の尤度が低い場合、ユーザが前回と今回と同じワードを発話していない可能性、すなわち、前回の音声認識が誤棄却（FA;False Rejection)でない可能性があるため、当該しきい値の変更によって、誤ったワードを当該ワードとして認識してしまう誤受理（FA；False Acceptance)が生じ易くなってしまう。

そこで、本発明は、音声認識において、できるだけ誤受理率（FAR；False Acceptance Rate)を増加することなく、効率的に誤棄却率（FRR；False Rejection Rate）を低減することを課題とする。

前記課題達成のために、本発明は、ワードを音声認識する音声認識システムに、マイクロフォンと、整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出すると共に、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの前記予備認識計数値を１増加し、その後、所定期間経過したならば、当該ワードの予備認識計数値を１減少する予備認識計数手段と、前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上（ただし、所定値は２以上の整数）である場合に、当該認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更する基準値変更手段とを備えたものである。

ここで、このような音声認識システムは、前記基準値変更手段において、認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更する際に、各ワードの前記予備認識計数値をクリアするように構成してもよい。

また、前記課題達成のために、本発明は、ワードを音声認識する音声認識システムに、マイクロフォンと、整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出すると共に、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの前記予備認識計数値を１増加し、その後、所定期間経過したならば、当該ワードの予備認識計数値を１減少する予備認識計数手段と、前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上（ただし、所定値は２以上の整数）である場合に、当該認識結果として出力された当該ワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する基準値変更提案手段と、ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段とを備えたものである。

ここで、このような音声認識システムは、前記基準値変更提案手段において、認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する際に、各ワードの前記予備認識計数値をクリアするように構成してもよい。

また、以上の各音声認識システムにおいて、前記所定値は３以上の整数とするようにしてもよい。
また、以上の音声認識システムは、自動車に搭載された情報処理システムにおいて音声入力に用いられる音声認識システムであってもよい。
以上のような音声認識システムでは、音声認識システムでは、ワードの認識の直前の期間に、当該認識したワードを発声した音声と類似した音声が複数回入力されている場合にのみ、当該ワードの基準値のより低い整合の度合を表す値への変更、または、当該変更の提案を行う。ここで、このようなワードの認識の直前の期間に、当該認識したワードを発声した音声と類似した音声が複数回入力されている状況は、ユーザが同じワードを認識されるまで繰り返し発声した状況、すなわち、誤棄却（False Rejection；FR）が発生したワードの再発声に対して、当該ワードを正しく認識できた状況である蓋然性が大きい。なお、ワードの認識の直前の期間に、当該認識したワードを発声した音声と類似した音声が３回以上の入力されている状況は、認識したワードを発声した音声と類似した音声が３回以上入力した状況であるので、特に、当該蓋然性が大きい。

したがって、以上のような音声認識システムによれば、真に誤棄却（False Rejection；FR）が発生したワードについてのみ、その基準値をより低い整合の度合を表すように変更して、当該ワードを認識されやすくすることができる。よって、誤受理率（FAR；False Acceptance Rate）を増加することなく、誤棄却率（FRR；False Rejection Rate）を低減することができる。

なお、以上のような音声認識システムでは、ワードの認識の直前の期間に入力した音声が、当該認識したワードを発声した音声と類似した音声であるかどうかを、当該音声が、当該ワードの予備基準値が表す度合以上高い度合で整合しているかどうかで判別しているので、ワードの認識の直前の期間に入力した音声が最も整合したワードが当該認識したワードでなくても、誤棄却（False Rejection；FR）を検出して、基準値のより低い整合の度合を表す値への変更、または、当該変更の提案を行うことができる。また、一方で、ワードの認識の直前の期間に入力した音声が最も整合したワードが当該認識したワードであっても、その整合度が低い場合には、認識したワードを発声した音声と類似した音声として検出しないので、誤って誤棄却（False Rejection；FR）を検出して、基準値の変更や、当該変更の提案を行ってしまうことを抑制できる。

以上のように、本発明によれば、音声認識において、できるだけ誤受理率（FAR；False Acceptance Rate)を増加することなく、効率的に誤棄却率（False Rejection. Rate；FRR）を低減することができる。

本発明の実施形態に係る情報処理システムの構成を示すブロック図である。本発明の実施形態に係る音声認識辞書としきい値テーブルを示す図である。本発明の実施形態に係る音声認識エンジンの音声認識の手法を示す図である。本発明の実施形態に係るFR対応しきい値調整処理を示すフローチャートである。本発明の実施形態に係るFR対応しきい値調整処理の処理例を示す図である。本発明の実施形態に係るしきい値調整画面を示す図である。。

以下、本発明の実施形態を、自動車に搭載される情報処理システムへの適用を例にとり説明する。
図示するように、情報処理システムは、データ処理部１、マイクロフォン２、音声入力部３、入力装置４、表示装置５、カメラやオーディオ機器やＧＰＳ受信器等のその他の周辺装置６を備えている。

ここで、音声入力部３は、マイクロフォン２から入力するユーザの発話音声を音声認識し認識結果をデータ処理部１に出力する。
そして、データ処理部１は、カーナビゲーション機能やミュージックプレイヤ機能やカメラ撮影画像の表示機能などの各種機能を備えており、音声入力部３から入力する認識結果に応じた処理を行う。

次に、また、音声入力部３は、音声認識エンジン３１、音声認識辞書３２、しきい値テーブル３３、音声入力制御部３４を備えている。
ここで、このような情報処理システムは、CPUやメモリや周辺デバイスなどを備えたコンピュータを用いて構成されるものであってよく、この場合、上述したデータ処理部１や音声入力部３は、CPUがコンピュータプログラムを実行することにより実現されるものであってよい。

次に、図２ａに示すように、音声認識辞書３２には、音声認識エンジン３１において認識の対象とする複数のワードと、当該ワードの識別番号（No.）とが登録されている。
また、しきい値テーブル３３には、音声認識エンジン３１において認識の対象とする各ワードについて、そのワードの識別番号（No.）と、そのワードのしきい値Thと、そのワードのしきい値の調整を行うか否かを示す調整有無が登録されている。

次に、音声認識エンジン３１で行う音声認識の動作について説明する。
音声認識エンジン３１は、マイクロフォン２から入力する音声である認識対象音声の入力と並行して、認識対象音声に対する音声認識辞書３２に格納された各ワードのスコアを算定する。

ここで、認識対象音声に対する音声認識辞書３２に登録された各ワードのスコアは、当該ワードと認識対象音声が表す語句との相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。

より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間（たとえば、音素毎の音声区間）の音が入力する度に、当該音声区間の音と、音声認識辞書３２に登録されている各ワードの当該音声区間に対応する部分の発音との整合の有無を算定し、整合していればスコアを所定値減少し、整合していなければスコアを所定値増加することにより行う。なお、認識対象音声の音声区間毎のスコアの増加値／減少値は、たとえば、当該音声区間のワードの全音声区間に対する割合を、スコアの初期値に乗じた大きさとする。

このような音声認識によれば、認識対象音声が「あいうえおか」であるときに、ワード「あいうえお」に対して算出されるスコアの推移を図３ａに示し、ワード「あいうあい」に対して算出されるスコアの推移を図３ｂに示すように、ワードと一致する認識対象音声の音が入力されている間は、ワードとのスコアは順次減少しワードと一致しない認識対象音声の音が入力されている間はワードのスコアは順次増加する。

すなわち、たとえば、図３ａに示したように、認識対象音声「あいうえおか」と、ワード「あいうえお」とスコアは、認識対象音声の「あいうえお」の音が入力されている期間は順次減少し、その後、認識対象音声の「か」が入力されると増加する。

また、同様に、図３ｂに示したように、認識対象音声「あいうえおか」と、ワード「あいうあい」とスコアは、認識対象音声の「あいう」の音が入力されている期間は順次減少し、その後の、認識対象音声の「えおか」が入力されている期間は順次増加する。

さて、音声認識エンジン３１は、以上のようにして算出される認識対象音声といずれかのワードとのスコアが、そのワードのしきい値テーブル３３に登録されているしきい値Th以下となったならば、当該スコアがしきい値Th以下となったワードを認識ワードとして音声入力制御部３４に出力し、音声入力制御部３４は音声認識エンジン３１から出力された認識ワードを認識結果としてデータ処理部１に出力する。

すなわち、たとえば、図３ａに示したワード「あいうえお」の場合では、ワード「あいうえお」についてのスコアは、認識対象音声の「あいうえおか」の「え」が入力されるとしきい値Th以下となるので、この時点で、認識ワード「あいうえお」が出力される。

一方、図３ｂに示したワード「あいうあい」の場合では、ワード「あいうあい」についてのスコアがのしきい値Th以下となることはないので、このワード「あいうあい」は認識ワードとして出力されない。

また、音声認識エンジン３１は、以上のようにして算出される認識対象音声といずれかのワードとのスコアが、そのワードに対して設定される予備認識しきい値Pth以下となったならば、当該スコアが予備認識しきい値Pth以下となったワードを予備認識し予備認識ワードとして音声入力制御部３４に出力する処理も行う。

ここで、各ワードの予備認識しきい値Pth以下は、そのワードのしきい値テーブル３３に登録されているしきい値Thに所定値を加算した値、または、そのワードのしきい値テーブル３３に登録されているしきい値Thを、当該しきい値Thの所定割合分増加したものとする。

このように予備認識しきい値Pthを設定することにより、たとえば、図３ａに示したワード「あいうえお」の場合では、認識対象音声の「あいうえおか」の「え」が入力されてスコアがしきい値Th以下となって認識ワード「あいうえお」が出力される前に、認識対象音声の「あいうえおか」の「う」が入力された時点でスコアが予備認識しきい値PTh以下となってワード「あいうえお」が予備認識され予備認識ワード「あいうえお」が出力される。

一方、図３ｂに示したワード「あいうあい」は、スコアがしきい値Th以下とならず認識ワードとして出力されることはないが、認識対象音声の「あいうえおか」の「う」が入力された時点でスコアが予備認識しきい値PTh以下となってワード「あいうあい」が予備認識され予備認識ワード「あいうあい」が出力される
次に、音声入力制御部３４が誤棄却率（FRR；False Rejection Rate）を低減するために行うFR対応しきい値調整処理について説明する。

図４に、このFR対応しきい値調整処理の手順を示す。
図示するように、音声入力制御部３４は、FR対応しきい値調整処理において、音声認識エンジン３１からの予備認識ワードの出力の発生と（ステップ４０２）、後述するタイマのタイムアウトの発生と（ステップ４０４）、音声認識エンジン３１からの認識ワードの出力の発生と（ステップ４０６）を監視する。

そして、ステップ４０２、４０４、４０６の監視中に、予備認識ワードの出力が発生したならば、予備認識されたワード（予備認識ワードとなっているワード）のしきい値テーブル３３に登録されている調整有無が調整有りとなっているかどうかを調べ（ステップ４１２）、調整有りとなっていなければステップ４０２、４０４、４０６の監視に戻る。

なお、しきい値テーブル３３に登録されている調整有無の初期値は全てのワードについて調整有りとなっている。
一方、予備認識されたワードのワードのしきい値テーブル３３に登録されている調整有無が調整有りとなっている場合には（ステップ４１２）、予備認識されたワードに対してフラグをセットし（ステップ４１４）、セットしたフラグに対応づけたタイマをスタートし（ステップ４１６）、ステップ４０２、４０４、４０６の監視に戻る。ここで、ステップ４１６でスタートするタイマは、所定時間（たとえば、１０秒）がタイムアウト時間として設定されている。ただし、タイマのタイムアウト時間は、予備認識されたワードの長さ（文字数）に応じて、長さが長いワードほどタイムアウト時間長が大きくなるように設定するようにしてもよい。

次に、ステップ４０２、４０４、４０６の監視中に、いずれかのタイマのタイムアウトが発生した場合には（ステップ４０４）、タイムアウトが発生したタイマに対応づけられているフラグをクリアする（ステップ４２２）。そして、ステップ４０２、４０４、４０６の監視に戻る。

次に、ステップ４０２、４０４、４０６の監視中に、音声認識エンジン３１からの認識ワードの出力が発生した場合には（ステップ４０６）、認識されたワード（認識ワードとなっているワード）のワードのしきい値テーブル３３に登録されている調整有無が調整有りとなっているかどうかを調べ（ステップ４３２）、調整有りとなっていなければステップ４０２、４０４、４０６の監視に戻る。

一方、認識されたワードのワードのしきい値テーブル３３に登録されている調整有無が調整有りとなっている場合には（ステップ４３２）、認識されたワードに対してセットされているフラグ数が所定値ｎ（ｎはたとえば３）以上であるかどうかを調べ（ステップ４３４）、所定値ｎ以上でなければ、ステップ４０２、４０４、４０６の監視に戻る。

一方、認識されたワードに対してセットされているフラグ数が所定値ｎ以上であれば（ステップ４３４）、認識されたワードに対してしきい値テーブル３３に登録されているしきい値Thを、所定値分増加する（ステップ４３６）。

そして、現時点でセットされている各ワードのフラグの全てをクリアし（ステップ４３８）ステップ４０２、４０４、４０６の監視に戻る。
以上、音声入力制御部３４が行うFR対応しきい値調整処理について説明した。
なお、以上のFR対応しきい値調整処理において、各ワードのフラグは、フラグ数がカウント値を表す当該ワードのカウンタとして機能しており、以上のFR対応しきい値調整処理は、ステップ４１４で予備認識されたワードのカウンタを１増加する処理とし、ステップ４１６を、予備認識されたワードに対応づけたタイマをスタートする処理とし、ステップ４２２を、タイムアウトが発生したタイマに対応づけられているワードのカウンタをクリアする処理とし、ステップ４３８を、全てのワードのカウンタをクリアする処理とすると共に、認識されたワードのカウンタのカウンタ値が、当該ワードのフラグ数を表すものとしてステップ４３４を行うようにしても等価である。

なお、このようにFR対応しきい値調整処理をカウンタを用いて行う場合、以下の説明においては、各ワードのカウンタのカウンタ値が、当該ワードのフラグ数を表すものとして取り扱う。

ここで、図５に、このようなFR対応しきい値調整処理の処理例を示す。
図示した例は、ユーザが「ちずかくだい」と発話しても何のワードも認識されないため、再度、「ちずかくだい」と発話することを繰り返した結果、ユーザの３度目の「ちずかくだい」との発話に対してワード「ちずかくだい」が認識された場合についてのものである。

すなわち、同じワードを表すに対して、誤棄却（FR；False Rejection）が二度繰り返された後に、当該ワードを表す３度目の発話に対して正しく当該ワードを認識できた場合についてのものである。

また、この例では、図４に示したFR対応しきい値調整処理出用いるタイマのタイムアウト時間は１０秒であり、所定値ｎは３であるものとしている。
この場合、図示するように、「ちずかくだい」をユーザが発話した音声がマイクロフォン２から、認識対象音声として、音声認識エンジン３１に３度繰り返し入力する。
この場合、音声認識エンジン３１は、１度目の認識対象音声「ちずかくだい」と２度目の認識対象音声「ちずかくだい」については、いずれのワードのスコアとしても、当該ワードのしきい値Th以下となるスコアを算出せず、認識ワードを出力しない。そして、その後、音声認識エンジン３１は、３度目の認識対象音声「ちずかくだい」については、音声認識辞書３２に登録された各ワードのうちのワード「ちずかくだい」に対して、最初に、ワードのしきい値Th以下となるスコアを算出し、認識ワード「ちずかくだい」を出力する(t4)。

一方、ワード「ちずかくだい」を発話した音声は少なくとも各回の認識対象音声「ちずかくだい」と類似しているので、音声認識エンジン３１は、１度目の認識対象音声「ちずかくだい」と２度目の認識対象音声「ちずかくだい」について、ワード「ちずかくだい」のスコアとしてワード「ちずかくだい」の予備認識しきい値PTh以下となるスコアを算出し、予備認識ワード「ちずかくだい」を出力する（t1,t2)。また、３度目の認識対象音声「ちずかくだい」についても、認識ワード「ちずかくだい」を出力する前に、ワード「ちずかくだい」のスコアとしてワード「ちずかくだい」の予備認識しきい値PTh以下となるスコアを算出し、予備認識ワード「ちずかくだい」を出力する(t3)。そして、音声入力制御部３４は、予備認識ワード「ちずかくだい」が出力されるたび、ワード「ちずかくだい」に対するフラグをセットし、セット後、１０秒間セット状態のまま維持する。

なお、音声認識エンジン３１は、各回の認識対象音声「ちずかくだい」に対して、ワード「ちずかくだい」以外の、認識対象音声「ちずかくだい」に所定レベル以上、発話が類似する他のワードについても、当該他のワードのスコアとして当該他のワードの予備認識しきい値PTh以下となるスコアを算出し、当該他のワードを予備認識ワードとして出力し、音声入力制御部３４は、当該他のワードが予備認識ワードとして出力されるたび、当該他のワードに対するフラグをセットし、セット後、１０秒間セット状態のまま維持する。

そして、時刻t4において、認識ワード「ちずかくだい」が出力されたならば、音声入力制御部３４は、認識ワードとして出力されたワード「ちずかくだい」に対してセットされているフラグの数を調べ、図示した例では、所定値ｎである３以上であるので、ワード「ちずかくだい」のしきい値Thを増加する。ただし、時刻t1最初の予備認識ワード「ちずかくだい」の出力から、時刻t4の認識ワード「ちずかくだい」の出力までの時間は、タイムアウト時間の１０秒以内であったものとする。

なお、このようなFR対応しきい値調整処理では、１度目の認識対象音声「ちずかくだい」と２度目の認識対象音声「ちずかくだい」に対して、ワード「ちずかくだい」を含む複数のワードが予備認識ワードとして出力されており、予備認識ワードとして出力されたワードのスコアのうちで、ワード「ちずかくだい」のスコアが最小でない場合であっても、認識ワード「ちずかくだい」が認識されたときに、ワード「ちずかくだい」のしきい値Thの増加は行われる。すなわち、以上のようなFR対応しきい値調整処理によれば、１度目の認識対象音声と２度目の認識対象音声の双方に対して予備認識ワードとして出力されたワードが複数存在する場合、その複数のワードのうちの、３度目の認識対象音声に対して認識ワードとして出力されたワードのしきい値Thの増加が行われる。

そして、このようなワード「ちずかくだい」のしきい値Thの増加により、ワード「ちずかくだい」はより認識されやすくなり、以降、ワード「ちずかくだい」の誤棄却率（FRR；False Rejection Rate）は低減する。

たとば、ワード「ちずかくだい」のしきい値Thを、図４中Xの値まで増加させれば、図４の１度目や２度目の認識対象音声「ちずかくだい」と同じ認識対象音声に対して、ワード「ちずかくだい」を認識ワードとして認識できるようになる。

さて、ここで、認識ワードとして認識されたワードと同じワードが予備認識ワードとして検出された音声は、当該認識ワードを発話した音声と類似した音声である。
そして、以上に説明してきたようにFR対応しきい値調整処理では、認識ワードの認識の直前の期間に、当該認識ワードを発話した音声と類似した音声（予備認識ワードが検出された音声）が複数回入力されている場合にのみ、当該ワードのしきい値Thの増加を行う。また、このような認識ワードの認識の直前の期間に、当該認識したワードを発話した音声と類似した音声が複数回入力されている状況は、ユーザが同じワードを認識されるまで繰り返し発話した状況、すなわち、誤棄却（FR；False Rejection）が発生したワードの再発話に対して、当該ワードを正しく認識ワードとして認識できた状況である蓋然性が大きい。なお、認識ワードの認識の直前の期間に、当該認識ワードを発話した音声と類似した音声が３回以上の入力されている状況は、認識ワードを発話した音声と類似した音声が３回以上入力した状況であるので、特に、当該蓋然性が大きい。

したがって、真に誤棄却（FR；False Rejection）が発生したワードについてのみ、しきい値Thの増加を行って、当該ワードを認識されやすくすることができ、誤受理率（FAR；False Acceptance Rate）を増加することなく、誤棄却率（FRR；False Rejection Rate）を低減することができる。

なお、以上のように認識ワードの認識の直前の期間に入力した音声が、当該認識した認識ワードを発話した音声と類似した音声であるかどうかを、当該音声に対して、当該認識ワードの予備認識しきい値PTh以下のスコアが算出されるかどうかで判別しているので、認識ワードの認識の直前の期間に入力した音声が最も整合したワードが当該認識ワードと同じワードでなくても、誤棄却（FR；False Rejection）を検出して、当該ワードのしきい値Thの増加を行うことができる。また、一方で、認識ワードの認識の直前の期間に入力した音声が最も整合したワードが当該認識ワードと同じワードであっても、そのスコアが予備認識しきい値PTh以下とならない場合には、当該音声を認識ワードを発話した音声と類似した音声として検出しないので、誤って誤棄却（FR；False Rejection）を検出して、当該ワードのしきい値Thの増加を行ってしまうことは抑制される。

さて、ここで、以上のFR対応しきい値調整処理では、ステップ４３６で、認識ワードとして認識されたワードに対してしきい値テーブル３３に登録されているしきい値Thを所定値分増加したが、ステップ４３６は、たとえば、”「ちずかくだい」は、しきい値を増加すると認識されやすくなります”といったような、認識ワードとして認識されたワードのしきい値の増加を促すメッセージを表示もしくは音声出力する処理としてもよい。ただし、この場合には、データ処理部１に、ユーザ操作に応じて、しきい値テーブル３３の各ワードのしきい値Thを変更する機能を設け、ユーザが自身でワードのしきい値を調整できるようにする。

または、データ処理部１に、図６ａに示すような、各ワード用のしきい値調整画面を表示装置５に表示して、当該しきい値調整画面に対するユーザ操作に応じて、しきい値テーブル３３のしきい値Thを変更するしきい値変更処理を行うしきい値編集機能を設け、ユーザが自身でワードのしきい値を調整できるようにする共に、ステップ４３６を、しきい値編集機能の、認識ワードとして認識されたワードのしきい値変更処理を、しきい値増加提案型の属性で起動する処理としてもよい。ここで、しきい値編集機能は、特定のワードのしきい値変更処理を起動したならば、図６ａに示す当該ワード用のしきい値調整画面を表示装置５に表示し、しきい値調整画面に設けた増加キー６０１、減少キー６０２のユーザ操作をしきい値調整操作として図６ｂ、ｃに示すように受け付けながら、しきい値テーブル３３の当該ワードのしきい値Thを変更する。また、しきい値編集機能は、しきい値増加提案型の属性でしきい値変更処理を起動した場合、しきい値調整画面には、「設定を大きくすると"地図拡大"が認識されやすくなります」といったような、しきい値を減少することを提案するメッセージの表示を含める。

さて、音声入力制御部３４は、以上の処理の他、FR対応しきい値調整処理によってしきい値Thを増加したワードについて、その後に、ユーザ操作に応じてしきい値を減少したならば、当該ワードのしきい値テーブル３３の調整有無を調整無しに設定する処理等も行う。

以上、本発明の実施形態について説明した。

１…データ処理部、２…マイクロフォン、３…音声入力部、４…入力装置、５…表示装置、６…周辺装置、３１…音声認識エンジン、３２…音声認識辞書、３３…値テーブル、３４…音声入力制御部。

Claims

ワードを音声認識する音声認識システムであって、
マイクロフォンと、
整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出すると共に、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの予備認識計数値を１増加し、その後、所定期間経過したならば、当該ワードの前記予備認識計数値を１減少する予備認識計数手段と、
前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上（ただし、所定値は２以上の整数）である場合に、当該認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更する基準値変更手段とを有することを特徴とする音声認識システム。
請求項１記載の音声認識システムであって、
前記基準値変更手段は、認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更する際に、各ワードの前記予備認識計数値をクリアすることを特徴とする音声認識システム。
ワードを音声認識する音声認識システムであって、
マイクロフォンと、
整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出すると共に、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの予備認識計数値を１増加し、その後、所定期間経過したならば、当該ワードの前記予備認識計数値を１減少する予備認識計数手段と、
前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上（ただし、所定値は２以上の整数）である場合に、ユーザに対して、当該認識結果として出力された当該ワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する基準値変更提案手段と、
ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段とを有することを特徴とする音声認識システム。
請求項３記載の音声認識システムであって、
前記基準値変更提案手段は、認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する際に、各ワードの前記予備認識計数値をクリアすることを特徴とする音声認識システム。
請求項１、２、３または４記載の音声認識システムであって、
前記所定値は３以上の整数であることを特徴とする音声認識システム。
請求項１、２、３、４または５記載の音声認識システムであって、
当該音声認識システムは、自動車に搭載された情報処理システムにおいて音声入力に用いられる音声認識システムであることを特徴とする音声認識システム。
マイクロフォンを備えたコンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは前記コンピュータを、
整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出すると共に、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの前記予備認識計数値を１増加し、その後、所定期間経過したならば、当該ワードの予備認識計数値を１減少する予備認識計数手段と、
前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上（ただし、所定値は２以上の整数）である場合に、当該認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更する基準値変更手段として機能させることを特徴とするコンピュータプログラム。
マイクロフォンを備えたコンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは前記コンピュータを、
整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出すると共に、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの前記予備認識計数値を１増加し、その後、所定期間経過したならば、当該ワードの予備認識計数値を１減少する予備認識計数手段と、
前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上（ただし、所定値は２以上の整数）である場合に、当該認識結果として出力された当該ワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する基準値変更提案手段と、
ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段として機能させることを特徴とするコンピュータプログラム。