JP2019184631A - 音声認識システム及びコンピュータプログラム - Google Patents

音声認識システム及びコンピュータプログラム Download PDF

Info

Publication number
JP2019184631A
JP2019184631A JP2018070589A JP2018070589A JP2019184631A JP 2019184631 A JP2019184631 A JP 2019184631A JP 2018070589 A JP2018070589 A JP 2018070589A JP 2018070589 A JP2018070589 A JP 2018070589A JP 2019184631 A JP2019184631 A JP 2019184631A
Authority
JP
Japan
Prior art keywords
word
recognition
preliminary
reference value
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018070589A
Other languages
English (en)
Other versions
JP6966374B2 (ja
Inventor
信範 工藤
Akinori Kudo
信範 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2018070589A priority Critical patent/JP6966374B2/ja
Publication of JP2019184631A publication Critical patent/JP2019184631A/ja
Application granted granted Critical
Publication of JP6966374B2 publication Critical patent/JP6966374B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Navigation (AREA)

Abstract

【課題】誤受理率を増加することなく、効率的に誤棄却率を低減する「音声認識システム及びコンピュータプログラム」を提供する。【解決手段】音声認識エンジンは、入力音声との相違度がしきい値PTh以下となったワードを予備認識ワードとして検出し、入力音声との相違度がしきいTh値(PTh>Th)以下となったワードを認識ワードとして検出する。音声入力制御部は、予備認識ワードとして検出されたワードに対してフラグをセットし所定期間維持する。また、音声入力制御部は、認識ワードが検出されたときに、認識ワードとして検出されたワードに対してセットされているフラグの数が所定数以上であれば、当該ワードのしきいTh値を増加し、当該ワードを音声認識エンジンにおいて認識されやすくする。【選択図】図5

Description

本発明は、ユーザの発話音声を認識する音声認識の技術に関するものである。
ユーザの発話音声を認識する音声認識の技術としては、予め音声認識辞書に登録した各ワードについて、当該ワードが発話音声が表すワードであることの尤もらしさを表す尤度を算定し、尤度が最大のワードを、当該尤度が所定のしきい値を超えたときにのみ、ユーザが発話したワードとして認識する技術が知られている。
また、このような音声認識の技術において、前回のユーザの発話音声に対して行った音声認識において尤度がしきい値を超えるワードが存在せずに認識が失敗し、今回のユーザの発話音声対して行った音声認識において認識されたワードが、前回のユーザの発話音声に対して行った音声認識において尤度が最大のワードであった場合に、前回の音声認識では、今回認識したワードを誤棄却(FA;False Rejection)したものと判定し、より当該ワードが認識されやすい値にしきい値を変更する技術が知られている(たとえば、特許文献1)。
特開2007-41319号公報
上述したしきい値を変更する技術によれば、前回の音声認識と今回の音声認識において、ユーザが同じワードを発話した場合において、前回の音声認識で当該ワードが尤度が最大のワードとして認識されず、今回の音声認識で当該ワードが認識された場合には、前回の音声認識で今回認識したワードを誤棄却しているにも関わらず、しきい値を変更することができず、効率的な誤棄却率(FRR;False Rejection Rate)の低減を行うことができない。
また、上述したしきい値を変更する技術によれば、前回の音声認識で尤度が最大となったワードが前回の音声認識で認識されたワードである場合にはしきい値を変更することとなるが、当該ワードの前回の音声認識における最大の尤度が低い場合、ユーザが前回と今回と同じワードを発話していない可能性、すなわち、前回の音声認識が誤棄却(FA;False Rejection)でない可能性があるため、当該しきい値の変更によって、誤ったワードを当該ワードとして認識してしまう誤受理(FA;False Acceptance)が生じ易くなってしまう。
そこで、本発明は、音声認識において、できるだけ誤受理率(FAR;False Acceptance Rate)を増加することなく、効率的に誤棄却率(FRR;False Rejection Rate)を低減することを課題とする。
前記課題達成のために、本発明は、ワードを音声認識する音声認識システムに、マイクロフォンと、整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出すると共に、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの前記予備認識計数値を1増加し、その後、所定期間経過したならば、当該ワードの予備認識計数値を1減少する予備認識計数手段と、前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上(ただし、所定値は2以上の整数)である場合に、当該認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更する基準値変更手段とを備えたものである。
ここで、このような音声認識システムは、前記基準値変更手段において、認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更する際に、各ワードの前記予備認識計数値をクリアするように構成してもよい。
また、前記課題達成のために、本発明は、ワードを音声認識する音声認識システムに、マイクロフォンと、整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出すると共に、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの前記予備認識計数値を1増加し、その後、所定期間経過したならば、当該ワードの予備認識計数値を1減少する予備認識計数手段と、前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上(ただし、所定値は2以上の整数)である場合に、当該認識結果として出力された当該ワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する基準値変更提案手段と、ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段とを備えたものである。
ここで、このような音声認識システムは、前記基準値変更提案手段において、認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する際に、各ワードの前記予備認識計数値をクリアするように構成してもよい。
また、以上の各音声認識システムにおいて、前記所定値は3以上の整数とするようにしてもよい。
また、以上の音声認識システムは、自動車に搭載された情報処理システムにおいて音声入力に用いられる音声認識システムであってもよい。
以上のような音声認識システムでは、音声認識システムでは、ワードの認識の直前の期間に、当該認識したワードを発声した音声と類似した音声が複数回入力されている場合にのみ、当該ワードの基準値のより低い整合の度合を表す値への変更、または、当該変更の提案を行う。ここで、このようなワードの認識の直前の期間に、当該認識したワードを発声した音声と類似した音声が複数回入力されている状況は、ユーザが同じワードを認識されるまで繰り返し発声した状況、すなわち、誤棄却(False Rejection;FR)が発生したワードの再発声に対して、当該ワードを正しく認識できた状況である蓋然性が大きい。なお、ワードの認識の直前の期間に、当該認識したワードを発声した音声と類似した音声が3回以上の入力されている状況は、認識したワードを発声した音声と類似した音声が3回以上入力した状況であるので、特に、当該蓋然性が大きい。
したがって、以上のような音声認識システムによれば、真に誤棄却(False Rejection;FR)が発生したワードについてのみ、その基準値をより低い整合の度合を表すように変更して、当該ワードを認識されやすくすることができる。よって、誤受理率(FAR;False Acceptance Rate)を増加することなく、誤棄却率(FRR;False Rejection Rate)を低減することができる。
なお、以上のような音声認識システムでは、ワードの認識の直前の期間に入力した音声が、当該認識したワードを発声した音声と類似した音声であるかどうかを、当該音声が、当該ワードの予備基準値が表す度合以上高い度合で整合しているかどうかで判別しているので、ワードの認識の直前の期間に入力した音声が最も整合したワードが当該認識したワードでなくても、誤棄却(False Rejection;FR)を検出して、基準値のより低い整合の度合を表す値への変更、または、当該変更の提案を行うことができる。また、一方で、ワードの認識の直前の期間に入力した音声が最も整合したワードが当該認識したワードであっても、その整合度が低い場合には、認識したワードを発声した音声と類似した音声として検出しないので、誤って誤棄却(False Rejection;FR)を検出して、基準値の変更や、当該変更の提案を行ってしまうことを抑制できる。
以上のように、本発明によれば、音声認識において、できるだけ誤受理率(FAR;False Acceptance Rate)を増加することなく、効率的に誤棄却率(False Rejection. Rate;FRR)を低減することができる。
本発明の実施形態に係る情報処理システムの構成を示すブロック図である。 本発明の実施形態に係る音声認識辞書としきい値テーブルを示す図である。 本発明の実施形態に係る音声認識エンジンの音声認識の手法を示す図である。 本発明の実施形態に係るFR対応しきい値調整処理を示すフローチャートである。 本発明の実施形態に係るFR対応しきい値調整処理の処理例を示す図である。 本発明の実施形態に係るしきい値調整画面を示す図である。。
以下、本発明の実施形態を、自動車に搭載される情報処理システムへの適用を例にとり説明する。
図示するように、情報処理システムは、データ処理部1、マイクロフォン2、音声入力部3、入力装置4、表示装置5、カメラやオーディオ機器やGPS受信器等のその他の周辺装置6を備えている。
ここで、音声入力部3は、マイクロフォン2から入力するユーザの発話音声を音声認識し認識結果をデータ処理部1に出力する。
そして、データ処理部1は、カーナビゲーション機能やミュージックプレイヤ機能やカメラ撮影画像の表示機能などの各種機能を備えており、音声入力部3から入力する認識結果に応じた処理を行う。
次に、また、音声入力部3は、音声認識エンジン31、音声認識辞書32、しきい値テーブル33、音声入力制御部34を備えている。
ここで、このような情報処理システムは、CPUやメモリや周辺デバイスなどを備えたコンピュータを用いて構成されるものであってよく、この場合、上述したデータ処理部1や音声入力部3は、CPUがコンピュータプログラムを実行することにより実現されるものであってよい。
次に、図2aに示すように、音声認識辞書32には、音声認識エンジン31において認識の対象とする複数のワードと、当該ワードの識別番号(No.)とが登録されている。
また、しきい値テーブル33には、音声認識エンジン31において認識の対象とする各ワードについて、そのワードの識別番号(No.)と、そのワードのしきい値Thと、そのワードのしきい値の調整を行うか否かを示す調整有無が登録されている。
次に、音声認識エンジン31で行う音声認識の動作について説明する。
音声認識エンジン31は、マイクロフォン2から入力する音声である認識対象音声の入力と並行して、認識対象音声に対する音声認識辞書32に格納された各ワードのスコアを算定する。
ここで、認識対象音声に対する音声認識辞書32に登録された各ワードのスコアは、当該ワードと認識対象音声が表す語句との相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。
より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間(たとえば、音素毎の音声区間)の音が入力する度に、当該音声区間の音と、音声認識辞書32に登録されている各ワードの当該音声区間に対応する部分の発音との整合の有無を算定し、整合していればスコアを所定値減少し、整合していなければスコアを所定値増加することにより行う。なお、認識対象音声の音声区間毎のスコアの増加値/減少値は、たとえば、当該音声区間のワードの全音声区間に対する割合を、スコアの初期値に乗じた大きさとする。
このような音声認識によれば、認識対象音声が「あいうえおか」であるときに、ワード「あいうえお」に対して算出されるスコアの推移を図3aに示し、ワード「あいうあい」に対して算出されるスコアの推移を図3bに示すように、ワードと一致する認識対象音声の音が入力されている間は、ワードとのスコアは順次減少しワードと一致しない認識対象音声の音が入力されている間はワードのスコアは順次増加する。
すなわち、たとえば、図3aに示したように、認識対象音声「あいうえおか」と、ワード「あいうえお」とスコアは、認識対象音声の「あいうえお」の音が入力されている期間は順次減少し、その後、認識対象音声の「か」が入力されると増加する。
また、同様に、図3bに示したように、認識対象音声「あいうえおか」と、ワード「あいうあい」とスコアは、認識対象音声の「あいう」の音が入力されている期間は順次減少し、その後の、認識対象音声の「えおか」が入力されている期間は順次増加する。
さて、音声認識エンジン31は、以上のようにして算出される認識対象音声といずれかのワードとのスコアが、そのワードのしきい値テーブル33に登録されているしきい値Th以下となったならば、当該スコアがしきい値Th以下となったワードを認識ワードとして音声入力制御部34に出力し、音声入力制御部34は音声認識エンジン31から出力された認識ワードを認識結果としてデータ処理部1に出力する。
すなわち、たとえば、図3aに示したワード「あいうえお」の場合では、ワード「あいうえお」についてのスコアは、認識対象音声の「あいうえおか」の「え」が入力されるとしきい値Th以下となるので、この時点で、認識ワード「あいうえお」が出力される。
一方、図3bに示したワード「あいうあい」の場合では、ワード「あいうあい」についてのスコアがのしきい値Th以下となることはないので、このワード「あいうあい」は認識ワードとして出力されない。
また、音声認識エンジン31は、以上のようにして算出される認識対象音声といずれかのワードとのスコアが、そのワードに対して設定される予備認識しきい値Pth以下となったならば、当該スコアが予備認識しきい値Pth以下となったワードを予備認識し予備認識ワードとして音声入力制御部34に出力する処理も行う。
ここで、各ワードの予備認識しきい値Pth以下は、そのワードのしきい値テーブル33に登録されているしきい値Thに所定値を加算した値、または、そのワードのしきい値テーブル33に登録されているしきい値Thを、当該しきい値Thの所定割合分増加したものとする。
このように予備認識しきい値Pthを設定することにより、たとえば、図3aに示したワード「あいうえお」の場合では、認識対象音声の「あいうえおか」の「え」が入力されてスコアがしきい値Th以下となって認識ワード「あいうえお」が出力される前に、認識対象音声の「あいうえおか」の「う」が入力された時点でスコアが予備認識しきい値PTh以下となってワード「あいうえお」が予備認識され予備認識ワード「あいうえお」が出力される。
一方、図3bに示したワード「あいうあい」は、スコアがしきい値Th以下とならず認識ワードとして出力されることはないが、認識対象音声の「あいうえおか」の「う」が入力された時点でスコアが予備認識しきい値PTh以下となってワード「あいうあい」が予備認識され予備認識ワード「あいうあい」が出力される
次に、音声入力制御部34が誤棄却率(FRR;False Rejection Rate)を低減するために行うFR対応しきい値調整処理について説明する。
図4に、このFR対応しきい値調整処理の手順を示す。
図示するように、音声入力制御部34は、FR対応しきい値調整処理において、音声認識エンジン31からの予備認識ワードの出力の発生と(ステップ402)、後述するタイマのタイムアウトの発生と(ステップ404)、音声認識エンジン31からの認識ワードの出力の発生と(ステップ406)を監視する。
そして、ステップ402、404、406の監視中に、予備認識ワードの出力が発生したならば、予備認識されたワード(予備認識ワードとなっているワード)のしきい値テーブル33に登録されている調整有無が調整有りとなっているかどうかを調べ(ステップ412)、調整有りとなっていなければステップ402、404、406の監視に戻る。
なお、しきい値テーブル33に登録されている調整有無の初期値は全てのワードについて調整有りとなっている。
一方、予備認識されたワードのワードのしきい値テーブル33に登録されている調整有無が調整有りとなっている場合には(ステップ412)、予備認識されたワードに対してフラグをセットし(ステップ414)、セットしたフラグに対応づけたタイマをスタートし(ステップ416)、ステップ402、404、406の監視に戻る。ここで、ステップ416でスタートするタイマは、所定時間(たとえば、10秒)がタイムアウト時間として設定されている。ただし、タイマのタイムアウト時間は、予備認識されたワードの長さ(文字数)に応じて、長さが長いワードほどタイムアウト時間長が大きくなるように設定するようにしてもよい。
次に、ステップ402、404、406の監視中に、いずれかのタイマのタイムアウトが発生した場合には(ステップ404)、タイムアウトが発生したタイマに対応づけられているフラグをクリアする(ステップ422)。そして、ステップ402、404、406の監視に戻る。
次に、ステップ402、404、406の監視中に、音声認識エンジン31からの認識ワードの出力が発生した場合には(ステップ406)、認識されたワード(認識ワードとなっているワード)のワードのしきい値テーブル33に登録されている調整有無が調整有りとなっているかどうかを調べ(ステップ432)、調整有りとなっていなければステップ402、404、406の監視に戻る。
一方、認識されたワードのワードのしきい値テーブル33に登録されている調整有無が調整有りとなっている場合には(ステップ432)、認識されたワードに対してセットされているフラグ数が所定値n(nはたとえば3)以上であるかどうかを調べ(ステップ434)、所定値n以上でなければ、ステップ402、404、406の監視に戻る。
一方、認識されたワードに対してセットされているフラグ数が所定値n以上であれば(ステップ434)、認識されたワードに対してしきい値テーブル33に登録されているしきい値Thを、所定値分増加する(ステップ436)。
そして、現時点でセットされている各ワードのフラグの全てをクリアし(ステップ438)ステップ402、404、406の監視に戻る。
以上、音声入力制御部34が行うFR対応しきい値調整処理について説明した。
なお、以上のFR対応しきい値調整処理において、各ワードのフラグは、フラグ数がカウント値を表す当該ワードのカウンタとして機能しており、以上のFR対応しきい値調整処理は、ステップ414で予備認識されたワードのカウンタを1増加する処理とし、ステップ416を、予備認識されたワードに対応づけたタイマをスタートする処理とし、ステップ422を、タイムアウトが発生したタイマに対応づけられているワードのカウンタをクリアする処理とし、ステップ438を、全てのワードのカウンタをクリアする処理とすると共に、認識されたワードのカウンタのカウンタ値が、当該ワードのフラグ数を表すものとしてステップ434を行うようにしても等価である。
なお、このようにFR対応しきい値調整処理をカウンタを用いて行う場合、以下の説明においては、各ワードのカウンタのカウンタ値が、当該ワードのフラグ数を表すものとして取り扱う。
ここで、図5に、このようなFR対応しきい値調整処理の処理例を示す。
図示した例は、ユーザが「ちずかくだい」と発話しても何のワードも認識されないため、再度、「ちずかくだい」と発話することを繰り返した結果、ユーザの3度目の「ちずかくだい」との発話に対してワード「ちずかくだい」が認識された場合についてのものである。
すなわち、同じワードを表すに対して、誤棄却(FR;False Rejection)が二度繰り返された後に、当該ワードを表す3度目の発話に対して正しく当該ワードを認識できた場合についてのものである。
また、この例では、図4に示したFR対応しきい値調整処理出用いるタイマのタイムアウト時間は10秒であり、所定値nは3であるものとしている。
この場合、図示するように、「ちずかくだい」をユーザが発話した音声がマイクロフォン2から、認識対象音声として、音声認識エンジン31に3度繰り返し入力する。
この場合、音声認識エンジン31は、1度目の認識対象音声「ちずかくだい」と2度目の認識対象音声「ちずかくだい」については、いずれのワードのスコアとしても、当該ワードのしきい値Th以下となるスコアを算出せず、認識ワードを出力しない。そして、その後、音声認識エンジン31は、3度目の認識対象音声「ちずかくだい」については、音声認識辞書32に登録された各ワードのうちのワード「ちずかくだい」に対して、最初に、ワードのしきい値Th以下となるスコアを算出し、認識ワード「ちずかくだい」を出力する(t4)。
一方、ワード「ちずかくだい」を発話した音声は少なくとも各回の認識対象音声「ちずかくだい」と類似しているので、音声認識エンジン31は、1度目の認識対象音声「ちずかくだい」と2度目の認識対象音声「ちずかくだい」について、ワード「ちずかくだい」のスコアとしてワード「ちずかくだい」の予備認識しきい値PTh以下となるスコアを算出し、予備認識ワード「ちずかくだい」を出力する(t1,t2)。また、3度目の認識対象音声「ちずかくだい」についても、認識ワード「ちずかくだい」を出力する前に、ワード「ちずかくだい」のスコアとしてワード「ちずかくだい」の予備認識しきい値PTh以下となるスコアを算出し、予備認識ワード「ちずかくだい」を出力する(t3)。そして、音声入力制御部34は、予備認識ワード「ちずかくだい」が出力されるたび、ワード「ちずかくだい」に対するフラグをセットし、セット後、10秒間セット状態のまま維持する。
なお、音声認識エンジン31は、各回の認識対象音声「ちずかくだい」に対して、ワード「ちずかくだい」以外の、認識対象音声「ちずかくだい」に所定レベル以上、発話が類似する他のワードについても、当該他のワードのスコアとして当該他のワードの予備認識しきい値PTh以下となるスコアを算出し、当該他のワードを予備認識ワードとして出力し、音声入力制御部34は、当該他のワードが予備認識ワードとして出力されるたび、当該他のワードに対するフラグをセットし、セット後、10秒間セット状態のまま維持する。
そして、時刻t4において、認識ワード「ちずかくだい」が出力されたならば、音声入力制御部34は、認識ワードとして出力されたワード「ちずかくだい」に対してセットされているフラグの数を調べ、図示した例では、所定値nである3以上であるので、ワード「ちずかくだい」のしきい値Thを増加する。ただし、時刻t1最初の予備認識ワード「ちずかくだい」の出力から、時刻t4の認識ワード「ちずかくだい」の出力までの時間は、タイムアウト時間の10秒以内であったものとする。
なお、このようなFR対応しきい値調整処理では、1度目の認識対象音声「ちずかくだい」と2度目の認識対象音声「ちずかくだい」に対して、ワード「ちずかくだい」を含む複数のワードが予備認識ワードとして出力されており、予備認識ワードとして出力されたワードのスコアのうちで、ワード「ちずかくだい」のスコアが最小でない場合であっても、認識ワード「ちずかくだい」が認識されたときに、ワード「ちずかくだい」のしきい値Thの増加は行われる。すなわち、以上のようなFR対応しきい値調整処理によれば、1度目の認識対象音声と2度目の認識対象音声の双方に対して予備認識ワードとして出力されたワードが複数存在する場合、その複数のワードのうちの、3度目の認識対象音声に対して認識ワードとして出力されたワードのしきい値Thの増加が行われる。
そして、このようなワード「ちずかくだい」のしきい値Thの増加により、ワード「ちずかくだい」はより認識されやすくなり、以降、ワード「ちずかくだい」の誤棄却率(FRR;False Rejection Rate)は低減する。
たとば、ワード「ちずかくだい」のしきい値Thを、図4中Xの値まで増加させれば、図4の1度目や2度目の認識対象音声「ちずかくだい」と同じ認識対象音声に対して、ワード「ちずかくだい」を認識ワードとして認識できるようになる。
さて、ここで、認識ワードとして認識されたワードと同じワードが予備認識ワードとして検出された音声は、当該認識ワードを発話した音声と類似した音声である。
そして、以上に説明してきたようにFR対応しきい値調整処理では、認識ワードの認識の直前の期間に、当該認識ワードを発話した音声と類似した音声(予備認識ワードが検出された音声)が複数回入力されている場合にのみ、当該ワードのしきい値Thの増加を行う。また、このような認識ワードの認識の直前の期間に、当該認識したワードを発話した音声と類似した音声が複数回入力されている状況は、ユーザが同じワードを認識されるまで繰り返し発話した状況、すなわち、誤棄却(FR;False Rejection)が発生したワードの再発話に対して、当該ワードを正しく認識ワードとして認識できた状況である蓋然性が大きい。なお、認識ワードの認識の直前の期間に、当該認識ワードを発話した音声と類似した音声が3回以上の入力されている状況は、認識ワードを発話した音声と類似した音声が3回以上入力した状況であるので、特に、当該蓋然性が大きい。
したがって、真に誤棄却(FR;False Rejection)が発生したワードについてのみ、しきい値Thの増加を行って、当該ワードを認識されやすくすることができ、誤受理率(FAR;False Acceptance Rate)を増加することなく、誤棄却率(FRR;False Rejection Rate)を低減することができる。
なお、以上のように認識ワードの認識の直前の期間に入力した音声が、当該認識した認識ワードを発話した音声と類似した音声であるかどうかを、当該音声に対して、当該認識ワードの予備認識しきい値PTh以下のスコアが算出されるかどうかで判別しているので、認識ワードの認識の直前の期間に入力した音声が最も整合したワードが当該認識ワードと同じワードでなくても、誤棄却(FR;False Rejection)を検出して、当該ワードのしきい値Thの増加を行うことができる。また、一方で、認識ワードの認識の直前の期間に入力した音声が最も整合したワードが当該認識ワードと同じワードであっても、そのスコアが予備認識しきい値PTh以下とならない場合には、当該音声を認識ワードを発話した音声と類似した音声として検出しないので、誤って誤棄却(FR;False Rejection)を検出して、当該ワードのしきい値Thの増加を行ってしまうことは抑制される。
さて、ここで、以上のFR対応しきい値調整処理では、ステップ436で、認識ワードとして認識されたワードに対してしきい値テーブル33に登録されているしきい値Thを所定値分増加したが、ステップ436は、たとえば、”「ちずかくだい」は、しきい値を増加すると認識されやすくなります”といったような、認識ワードとして認識されたワードのしきい値の増加を促すメッセージを表示もしくは音声出力する処理としてもよい。ただし、この場合には、データ処理部1に、ユーザ操作に応じて、しきい値テーブル33の各ワードのしきい値Thを変更する機能を設け、ユーザが自身でワードのしきい値を調整できるようにする。
または、データ処理部1に、図6aに示すような、各ワード用のしきい値調整画面を表示装置5に表示して、当該しきい値調整画面に対するユーザ操作に応じて、しきい値テーブル33のしきい値Thを変更するしきい値変更処理を行うしきい値編集機能を設け、ユーザが自身でワードのしきい値を調整できるようにする共に、ステップ436を、しきい値編集機能の、認識ワードとして認識されたワードのしきい値変更処理を、しきい値増加提案型の属性で起動する処理としてもよい。ここで、しきい値編集機能は、特定のワードのしきい値変更処理を起動したならば、図6aに示す当該ワード用のしきい値調整画面を表示装置5に表示し、しきい値調整画面に設けた増加キー601、減少キー602のユーザ操作をしきい値調整操作として図6b、cに示すように受け付けながら、しきい値テーブル33の当該ワードのしきい値Thを変更する。また、しきい値編集機能は、しきい値増加提案型の属性でしきい値変更処理を起動した場合、しきい値調整画面には、「設定を大きくすると"地図拡大"が認識されやすくなります」といったような、しきい値を減少することを提案するメッセージの表示を含める。
さて、音声入力制御部34は、以上の処理の他、FR対応しきい値調整処理によってしきい値Thを増加したワードについて、その後に、ユーザ操作に応じてしきい値を減少したならば、当該ワードのしきい値テーブル33の調整有無を調整無しに設定する処理等も行う。
以上、本発明の実施形態について説明した。
1…データ処理部、2…マイクロフォン、3…音声入力部、4…入力装置、5…表示装置、6…周辺装置、31…音声認識エンジン、32…音声認識辞書、33…値テーブル、34…音声入力制御部。

Claims (8)

  1. ワードを音声認識する音声認識システムであって、
    マイクロフォンと、
    整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
    前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出すると共に、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
    前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの予備認識計数値を1増加し、その後、所定期間経過したならば、当該ワードの前記予備認識計数値を1減少する予備認識計数手段と、
    前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上(ただし、所定値は2以上の整数)である場合に、当該認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更する基準値変更手段とを有することを特徴とする音声認識システム。
  2. 請求項1記載の音声認識システムであって、
    前記基準値変更手段は、認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更する際に、各ワードの前記予備認識計数値をクリアすることを特徴とする音声認識システム。
  3. ワードを音声認識する音声認識システムであって、
    マイクロフォンと、
    整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
    前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出すると共に、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
    前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの予備認識計数値を1増加し、その後、所定期間経過したならば、当該ワードの前記予備認識計数値を1減少する予備認識計数手段と、
    前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上(ただし、所定値は2以上の整数)である場合に、ユーザに対して、当該認識結果として出力された当該ワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する基準値変更提案手段と、
    ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段とを有することを特徴とする音声認識システム。
  4. 請求項3記載の音声認識システムであって、
    前記基準値変更提案手段は、認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する際に、各ワードの前記予備認識計数値をクリアすることを特徴とする音声認識システム。
  5. 請求項1、2、3または4記載の音声認識システムであって、
    前記所定値は3以上の整数であることを特徴とする音声認識システム。
  6. 請求項1、2、3、4または5記載の音声認識システムであって、
    当該音声認識システムは、自動車に搭載された情報処理システムにおいて音声入力に用いられる音声認識システムであることを特徴とする音声認識システム。
  7. マイクロフォンを備えたコンピュータによって読み取られ実行されるコンピュータプログラムであって、
    当該コンピュータプログラムは前記コンピュータを、
    整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
    前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出すると共に、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
    前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの前記予備認識計数値を1増加し、その後、所定期間経過したならば、当該ワードの予備認識計数値を1減少する予備認識計数手段と、
    前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上(ただし、所定値は2以上の整数)である場合に、当該認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更する基準値変更手段として機能させることを特徴とするコンピュータプログラム。
  8. マイクロフォンを備えたコンピュータによって読み取られ実行されるコンピュータプログラムであって、
    当該コンピュータプログラムは前記コンピュータを、
    整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
    前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出すると共に、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
    前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの前記予備認識計数値を1増加し、その後、所定期間経過したならば、当該ワードの予備認識計数値を1減少する予備認識計数手段と、
    前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上(ただし、所定値は2以上の整数)である場合に、当該認識結果として出力された当該ワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する基準値変更提案手段と、
    ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段として機能させることを特徴とするコンピュータプログラム。
JP2018070589A 2018-04-02 2018-04-02 音声認識システム及びコンピュータプログラム Active JP6966374B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018070589A JP6966374B2 (ja) 2018-04-02 2018-04-02 音声認識システム及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018070589A JP6966374B2 (ja) 2018-04-02 2018-04-02 音声認識システム及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2019184631A true JP2019184631A (ja) 2019-10-24
JP6966374B2 JP6966374B2 (ja) 2021-11-17

Family

ID=68340136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018070589A Active JP6966374B2 (ja) 2018-04-02 2018-04-02 音声認識システム及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6966374B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021134551A1 (zh) * 2019-12-31 2021-07-08 李庆远 多个机器翻译输出的人类合并和训练

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04152397A (ja) * 1990-10-16 1992-05-26 Sanyo Electric Co Ltd 音声認識装置
JPH04155399A (ja) * 1990-10-18 1992-05-28 Ricoh Co Ltd 音声認識装置
JPH09212187A (ja) * 1996-02-02 1997-08-15 Ricoh Elemex Corp 音声認識方法及び装置
JP2003091299A (ja) * 2001-07-13 2003-03-28 Honda Motor Co Ltd 車載用音声認識装置
JP2007041319A (ja) * 2005-08-03 2007-02-15 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04152397A (ja) * 1990-10-16 1992-05-26 Sanyo Electric Co Ltd 音声認識装置
JPH04155399A (ja) * 1990-10-18 1992-05-28 Ricoh Co Ltd 音声認識装置
JPH09212187A (ja) * 1996-02-02 1997-08-15 Ricoh Elemex Corp 音声認識方法及び装置
JP2003091299A (ja) * 2001-07-13 2003-03-28 Honda Motor Co Ltd 車載用音声認識装置
JP2007041319A (ja) * 2005-08-03 2007-02-15 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021134551A1 (zh) * 2019-12-31 2021-07-08 李庆远 多个机器翻译输出的人类合并和训练

Also Published As

Publication number Publication date
JP6966374B2 (ja) 2021-11-17

Similar Documents

Publication Publication Date Title
US10332513B1 (en) Voice enablement and disablement of speech processing functionality
US7228275B1 (en) Speech recognition system having multiple speech recognizers
US9373321B2 (en) Generation of wake-up words
US20160266910A1 (en) Methods And Apparatus For Unsupervised Wakeup With Time-Correlated Acoustic Events
JP3920097B2 (ja) 車載機器用音声認識装置
US9418653B2 (en) Operation assisting method and operation assisting device
US10176806B2 (en) Motor vehicle operating device with a correction strategy for voice recognition
US20200075028A1 (en) Speaker recognition and speaker change detection
JP6350903B2 (ja) 操作補助装置および操作補助方法
WO2020153109A1 (ja) 発言禁止用語に対し注意を喚起するためのプレゼンテーション支援装置
KR20230002690A (ko) 발화의 음성 인식 오류 교정
US20170270923A1 (en) Voice processing device and voice processing method
JP2006208486A (ja) 音声入力装置
CN105632500B (zh) 语音识别装置及其控制方法
JP4491438B2 (ja) 音声対話装置、音声対話方法、およびプログラム
JP6966374B2 (ja) 音声認識システム及びコンピュータプログラム
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP6716968B2 (ja) 音声認識装置、音声認識プログラム
JP2019184633A (ja) 音声認識システム
JP2006039382A (ja) 音声認識装置
JP4498906B2 (ja) 音声認識装置
JP2009251019A (ja) 音声認識装置
JP2016191739A (ja) 発音誤り検出装置、方法およびプログラム
JP2009003205A (ja) 音声認識装置、および音声認識方法
US9858918B2 (en) Root cause analysis and recovery systems and methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211021

R150 Certificate of patent or registration of utility model

Ref document number: 6966374

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150