JP5037041B2 - 車載用音声認識装置及び音声コマンド登録方法 - Google Patents

車載用音声認識装置及び音声コマンド登録方法 Download PDF

Info

Publication number
JP5037041B2
JP5037041B2 JP2006173813A JP2006173813A JP5037041B2 JP 5037041 B2 JP5037041 B2 JP 5037041B2 JP 2006173813 A JP2006173813 A JP 2006173813A JP 2006173813 A JP2006173813 A JP 2006173813A JP 5037041 B2 JP5037041 B2 JP 5037041B2
Authority
JP
Japan
Prior art keywords
recognition
voice
dictionary
command
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006173813A
Other languages
English (en)
Other versions
JP2008003371A (ja
Inventor
教明 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2006173813A priority Critical patent/JP5037041B2/ja
Publication of JP2008003371A publication Critical patent/JP2008003371A/ja
Application granted granted Critical
Publication of JP5037041B2 publication Critical patent/JP5037041B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Description

本発明は、車載用音声認識装置及び音声コマンド登録方法に関し、特に、車室内でユーザがコマンドとして発した単語や語句などの音声(以下、「ボイスタグ(Voice Tag) 」ともいう。)を基に的確な音声認識を行うよう適応された技術に関する。
最近の車両には、車室内のユーザに対して様々なサービスを提供するための機器や装置などが搭載されている。その代表的な車載機器として、設定した目的地に向けて道路を間違うことなく走行できるように案内する機能(経路誘導機能)を搭載したナビゲーション装置や、各種ソース(ラジオ受信機、CDプレーヤ、TV受信機、DVDプレーヤ等)から出力される音声(オーディオ)情報や映像(ビデオ)情報などの各種エンターテイメントを提供するオーディオ/ビデオ(A/V)機器などがある。これらの車載機器(装置)は、ユーザがリモコンや操作パネル等を操作して所要の指示を与えることにより、その操作指示に応じてその動作状態が変更される。変更された機器の動作状態は、車室内に設置されたスピーカ(リア席のユーザについてはワイヤレスヘッドホン等)を介して聴くことができ、また車載モニタ等の表示装置の画面を通して見ることができる。
このように各車載機器に対してはリモコン操作等のマニュアル操作に基づいて所要の操作指示を入力することができるが、最近では、操作指示を音声入力(発話)するだけで当該機器の制御を行える機能(音声認識機能)を搭載した装置も出現している。かかる音声認識機能は、ユーザの操作上の便宜を図る点で有利であり、特に、運転者にとっては安全走行の点で非常に有用である。
音声認識機能を実現するには音声コマンドの認識用辞書を必要とし、この認識用辞書には、音声認識の対象とされる単語や語句などの音声、すなわち、音声認識に基づいて制御されるべき車載機器の操作指示に関連したボイスタグ又はこれを含む音声コマンドが登録されている。ボイスタグは、例えば、ナビゲーション装置において住所録(Address Book)を呼び出す際に使用される。その一例を図9に示す。
ボイスタグを登録する際には(図9(a)参照)、先ず、ナビゲーション機能が有効な状態で、リモコン操作や画面上でのタッチ操作等により"Address Book"画面61を表示させ、次に画面61上の"Add Voice Tag" 部分62にタッチすると、ボイスタグを記録する旨の案内情報(子画面)63が表示される。ユーザがこの画面63上の"Start" 部分64にタッチし、例えば2秒以内に、所望のボイスタグ(何と言って呼び出すかの音声)を発声すると、そのボイスタグを記録中である旨の案内情報(子画面)65が表示される。そして、この画面65上の"Finished"部分66が点灯すると、そのボイスタグの認識辞書への登録が完了する。例えば、その登録されたボイスタグが [マクドナルド] であったとする。
このようにして登録されたボイスタグ(= [マクドナルド] )を音声認識処理に使用する際には(図9(b)参照)、先ず、画面上でのタッチ操作等により自車位置周辺の地図画面67を表示させ、この状態で、ユーザが"Go to [マクドナルド]"と発声すると、この音声コマンド(PCMデータ)を基に音声認識処理を実行し、目的地までの誘導経路等の情報を画面67に表示する。図中、CMは自車位置マーク、GRは誘導経路、DS1は目的地までの距離及び時間とその方位を指示する情報、DS2は誘導経路上で次の案内ポイントまでの距離を指示する情報を示している。
また、図9(a)においてボイスタグを登録する際、ユーザが発声したボイスタグが音声認識に使えないデータであった場合には、図9(c)に示すようにユーザに再登録を促す旨の案内情報(警告画面)68が表示される。ユーザは、必要であればこの画面68上の"Start" 部分にタッチして再度ボイスタグを発声し、必要でなければ"Cancel"部分にタッチして再登録を中止する。なお、ここでいう「音声認識に使えないデータ」とは、基本的には、周囲が非常に騒々しい環境下でユーザが発声を行ったために(一応登録はできたが)音声認識エンジンで使用する音声データとしては有効なレベルに達していなかった場合のデータを指している。ただし、図9(c)に例示した警告画面68は、このような場合に限らず、発声そのものを検出できなかった場合(同図(a)の例を参照すると、ユーザが画面63上の"Start" 部分64にタッチしてから何も発声しないで2秒経過してしまった場合)にも表示される。
上記の従来技術に関連する技術としては、例えば、特許文献1に記載されるように、音声認識装置において、入力した音声データの音声パターンとあらかじめ生成された標準音声パターンとのマッチングを行うマッチング部を予備選択部とマッチング処理部の2段構成とし、予備選択部では、入力した音声データと辞書生成部において音声データから全帯域フィルタによって分析され辞書に登録された全帯域辞書データとをマッチングして候補単語を絞り込むようにし、マッチング処理部では、絞り込まれた候補単語と辞書生成部において音声データから帯域別フィルタによって分析され辞書に登録された帯域別辞書データとのマッチング処理により候補単語の内から類似度が所定のしきい値より大きい候補単語を認識単語として出力するようにしたものがある。
特開平6−301399号公報
上述したように従来の技術では、ユーザが発したボイスタグを認識辞書に登録してナビゲーション装置等の制御に利用できるようにした機能が実現されているが、従来の方法では認識辞書に登録されている全てのボイスタグに対して音声認識を行っているため、以下に説明するような不都合があった。
すなわち、音声認識エンジンでは、ユーザが発したボイスタグ(コマンド)と認識辞書に登録されている全てのコマンドとのそれぞれの合致度(「スコア」ともいう。)を算出し、その算出結果から最も合致度の大きいコマンドをユーザが発声したコマンドとして決定する(音声認識)。このとき、その最も合致度の大きいコマンドが1つに特定できれば問題はないが、登録されているコマンドの数が多くなってくると発声上「読み」の類似したコマンドも多くなるため、認識エンジンでは必ずしも1つに特定することができず、結果として、マッチングしないコマンドを誤認識してしまう場合が起こり得る。つまり、従来の技術では、ボイスタグを登録する際、過去に登録したボイスタグと同一もしくは類似している音声を登録した場合、ボイスタグ呼出し用の認識辞書には同一もしくは類似している音声データが複数登録されることになり、そのため、ナビゲーション装置等の制御に利用する際に音声認識処理を行ったときに誤認識する割合が高くなる(つまり、音声コマンドに対する認識率が低下する)といった課題があった。
本発明は、かかる従来技術における課題に鑑み創作されたもので、音声コマンドを認識辞書に登録してナビゲーション装置等の車載機器の制御に利用するにあたり、登録した音声コマンドに対する認識率を向上させることができる車載用音声認識装置及び音声コマンド登録方法を提供することを目的とする。
上記の従来技術の課題を解決するため、本発明の一形態によれば、車室内でユーザが発話するコマンドを入力する音声入力手段と、前記音声入力手段を介して入力されたコマンドとの比較照合を行うのに使用され、制御対象機器の動作状態に応じて選択可能なコマンドを登録した複数の認識辞書と、入力されたコマンドを前記認識辞書に登録すべきかどうかを判断するための判別用辞書であって前記複数の認識辞書に登録されているコマンドと同じコマンドが登録されるよう適応されたものとを格納した記憶手段と、前記制御対象機器の動作状態に応じて有効な前記認識辞書を切り替える辞書切替選択手段と、前記音声入力手段を介して入力されたコマンドと前記記憶手段に格納されているいずれかの辞書に登録されているコマンドとの比較照合に基づいた音声認識を行う音声認識手段とを備え、前記音声認識手段は、前記音声入力手段を介してコマンドが入力されたときに、前記判別用辞書のみを使用して当該入力されたコマンドに対する音声認識を行い、該音声認識に基づいて算出した認識スコアが所定のしきい値より低い場合に、当該コマンドを前記制御対象機器の動作状態に応じて選択された前記認識辞書及び前記判別用辞書に登録することを特徴とする車載用音声認識装置が提供される。
本発明に係る車載用音声認識装置によれば、ユーザが発したコマンド(ボイスタグを含む)を登録するにあたり、判別用辞書のみを使用して当該コマンドに対する音声認識を行い、その結果に基づき認識スコアが当該しきい値より低い場合に、当該コマンドはこれまで登録したいずれのコマンドとも類似していないデータであると判断して、当該コマンドを認識辞書と判別用辞書に登録するようにしている。
つまり、登録しようとしているコマンド(ボイスタグを含む)が判別用辞書に既に登録されているものと同一もしくは類似しているか、あるいは類似していない(非類似)かを判断し、非類似の場合にのみ当該コマンドを登録するようにしている。言い換えると、既に登録されているコマンドと同一もしくは類似しているコマンドについては、登録しないようにしている。
これによって、従来技術に見られたような不都合(過去に登録したコマンド(ボイスタグを含む)と同一もしくは類似している音声データが登録されることによってひき起こされる認識の際の紛らわしさ)を解消することができ、登録した音声コマンドに対する認識率を高めることが可能となる。
本発明の他の形態によれば、車室内でユーザが発話するコマンドを入力する音声入力手段と、前記音声入力手段を介して入力されたコマンドとの比較照合を行うのに使用され、制御対象機器の動作状態に応じて選択可能なコマンドを登録した複数の認識辞書と、入力されたコマンドを前記認識辞書に登録すべきかどうかを判断するための判別用辞書であって前記複数の認識辞書に登録されているコマンドと同じコマンドが登録されるよう適応されたものとを格納した記憶手段と、前記制御対象機器の動作状態に応じて有効な前記認識辞書を切り替える辞書切替選択手段と、前記音声入力手段を介して入力されたコマンドと前記記憶手段に格納されているいずれかの辞書に登録されているコマンドとの比較照合に基づいた音声認識を行う音声認識手段とを備えた車載用音声認識装置において、前記音声入力手段を介してコマンドが入力されたときに、前記判別用辞書のみを有効にして当該入力されたコマンドに対する音声認識を実行し、該音声認識に基づいて算出した認識スコアが所定のしきい値より低い場合に、当該コマンドを前記制御対象機器の動作状態に応じて選択された前記認識辞書及び前記判別用辞書に登録することを特徴とする音声コマンド登録方法が提供される。
本発明に係る車載用音声認識装置の他の構成上の特徴及びそれに基づく具体的な処理態様等については、後述する発明の実施の形態を参照しながら詳細に説明する。
以下、本発明の実施の形態について、添付の図面を参照しながら説明する。
図1は、本発明の一実施形態に係る車載用音声認識装置を組み込んだ車載オーディオ/ビデオ(A/V)・ナビゲーションシステムの構成を示したものである。
図示のように車載A/V・ナビゲーションシステム40は、本実施形態に係る車載用音声認識装置10と、その音声認識結果に基づいて発話内容(ボイスタグを含むコマンド)に対応した制御が行われる対象機器(図示の例では、ラジオ受信機1、DVD/CDプレーヤ2、TV受信機4及びナビゲーションユニット5)と、フロント席のユーザが各制御対象機器に対して各種設定操作を行うためのフロント席用操作ユニット(ヘッドユニット(H/U))20と、リア席のユーザが各制御対象機器(ナビゲーションユニット5を除く)に対して各種設定操作を行うためのリア席用操作ユニット30と、フロント席用表示ユニット25と、アンプユニット26と、スピーカ27と、リア席用表示ユニット31と、ワイヤレスヘッドホン32とを備えている。車載用音声認識装置10、各制御対象機器1〜5、フロント席用操作ユニット20、各表示ユニット25,31及びアンプユニット26は、伝送路として供される光ファイバ等のバス6を介して相互に接続されている。図示の例では、スピーカ27は1個のみ示されているが、実際には車室内の所定の場所に所要の個数、例えば、リア席が1列の場合であれば少なくともリア席の左右の近傍とフロント席の左右の近傍にそれぞれ2個ずつ、計4個のスピーカ27が設置されている。リア席用の操作ユニット30、表示ユニット31及びワイヤレスヘッドホン32についても同様に、それぞれ1台(1個)のみ示されているが、実際にはリア席の搭乗者数に応じて所要の台数(個数)分設けられている。
本実施形態に係る車載用音声認識装置10は、記録媒体としてのハードディスクドライブ(HDD)7と、マイクロホン8と、音声認識ユニット9とを備えている。マイクロホン8は、車室内の運転席前方のサンバイザー又はルームミラーの近傍に適宜設置され、ユーザが発声するコマンド(ボイスタグを含む)を検出してその音圧レベルに応じたアナログ音声信号に変換するものである。HDD7によって駆動されるディスク(図示せず)には、ナビゲーション機能を実行する際に使用する地図データと共に、音声認識機能を実行する際に使用するデータがそれぞれ割り当てられた記憶領域に格納されている。地図データは、各縮尺レベル(1/12500、1/25000、1/50000等)に応じて適当な大きさの経度幅及び緯度幅に区切られており、経路探索やマップマッチング等の各種処理に必要な道路ユニットのデータ及び交差点の詳細を表す交差点ユニットのデータ、各種施設(コンビニエンスストア、ガソリンスタンド、スーパー・ディスカウントショップ等)に関するデータ(位置、住所、電話番号、ジャンル等の各種情報)等を含んでいる。HDD7(その一部の記憶領域)に格納される音声認識用のデータの内容については、音声認識ユニット9の内部構成と併せて後で説明する。
フロント席用操作ユニット(H/U)20は、運転者と助手席の乗員が共用できるように両座席の中間のセンターコンソール上に「操作パネル」の形態で設置されており、その対応する表示ユニット25は、その操作パネル(H/U)の上方に配置されており、例えば、LCDモニタからなる。この表示ユニット25の画面には、ナビゲーションユニット5から出力された各種の映像情報(音声認識に基づいた自車位置周辺の地図、目的地までの誘導経路など)、DVD/CDプレーヤ2やTV受信機4などの映像ソースから出力された映像情報などが表示される。一方、リア席用操作ユニット30は、リア席のユーザが操作し易いように「リモコン」の形態で設けられており、これに対応するリア席用表示ユニット31と赤外線通信により接続されている。このリア席用表示ユニット31は、例えば、前の座席のヘッドレストの後部に設置されており、フロント側の表示ユニット25と同様に映像情報をディスプレイ画面に表示するLCDモニタ等を有している。この表示ユニット31は、その対応するワイヤレスヘッドホン32と赤外線通信及びRF通信により接続されている。なお、ワイヤレスヘッドホン32に代えて、ジャック付きのヘッドホンを使用してもよい。この場合には、ヘッドホンは対応する表示ユニット31とジャックを介して有線接続されることになる。
各制御対象機器1〜5は、基本的な動作として、フロント席用操作ユニット20、リア席用操作ユニット30又は音声認識ユニット10からバス6に送出された操作指示に係るデータ(後述する「機器制御信号」)を受信し、その操作指示に係るデータに基づいて自己の動作状態を設定もしくは変更し、その結果(現在の動作状態)を指示するデータを音声/映像信号としてバス6に送出する。例えば、ラジオ受信機1の場合、各操作ユニット20,30あるいは音声認識ユニット10から与えられる操作指示に応答して、FM放送やAM放送の信号を受信して復調することにより音声信号を生成し、これをデジタルの音声データに変換して、バス6に送出する。また、DVD/CDプレーヤ2の場合、同様に与えられる操作指示に応答して、ユーザにより選択されたDVDの記録面に記録された信号を読み取り、再生された映像データをバス6に送出する。また、ナビゲーションユニット5の場合、同様に与えられる操作指示に応答して、ユーザにより設定された目的地までの誘導経路を探索し、その探索した経路のデータをバス6に送出する。
フロント席用操作ユニット20は、制御部21と、操作部22と、表示部23と、メモリ部24とを備えている。このうち、操作部22は、各制御対象機器1〜5に対して各種設定操作を行うための操作キー、例えば、電源のオン/オフ及び音量調整を行うための電源キー、各機器を選択するための選択キー、所定の動作や機能を行わせるためのシフトキーやプリセットキー等を備えている。表示部23は、操作パネル(H/U)上にLCD等の形態で配置されており、制御部21から出力されるデータに基づいて、各種情報、例えば、ラジオ受信機1に関してはFM/AMの種別やその放送局の受信周波数など、DVD/CDプレーヤ2に関してはCD演奏時のディスク番号や再生位置(トラック数、経過時間等)などを表示する。メモリ部24は、フラッシュメモリ等の不揮発性メモリからなり、制御部21からの制御に基づいて必要な情報(データ)を格納しておくためのものである。例えば、各操作ユニット20,30あるいは音声認識ユニット10から与えられる操作指示に基づいて選択機器からの音声/映像信号の出力動作が停止された時点での当該機器の動作状態を示すデータが格納される。このデータは、次の出力動作開始時に必要に応じて参照するために格納されるものであり、例えば、いずれの機器(ソース)を使用していたかを指示する「ソース種別」、オーディオソースであればその音声を聴取していた際の音量や音質の調整値を指示する「音量・音質」、各機器別の詳細な動作状態を指示する「機器別詳細情報」などを含む。
制御部21はマイクロコンピュータ(マイコン)等により構成され、本システム40全体の制御を行うものである。基本的には、各操作ユニット20,30あるいは音声認識ユニット10から与えられた操作指示に基づき、選択機器からバス6を介して送られてくる音声/映像データを取得して音声/映像情報の再生を行う動作、操作状況や動作状態等を指示する情報を表示部23に表示させる動作などの制御を行う。この場合、取得された音声データは、制御部21によりバス6を介してアンプユニット26に送られ、適宜D/A変換され、また音量や音質等の制御が行われ、増幅された後、スピーカ27を通して音声出力される。また、取得された映像データは、制御部21によりバス6を介して表示ユニット25に送られ、そのディスプレイ画面に映像情報として表示される。
一方、リア席用操作ユニット(リモコン)30は、特に図示はしないが、フロント側の操作部22と同等の機能を有する操作部と、この操作部から入力された操作指示に応じた信号を赤外線通信により表示ユニット31に向けて送信するための赤外線送信部とを備えている。また、リア席用表示ユニット31は、特に図示はしないが、リモコン30及びワイヤレスヘッドホン32との間で制御信号やデータ等を通信するための赤外線通信部と、フロント側の制御部21と同等の制御を行う制御部と、フロント側の表示ユニット25と同様のLCDモニタ等からなる表示部と、フロント側のメモリ部24と同様のメモリ部とを備えている。
次に、本実施形態に係る車載用音声認識装置10の構成について、その一例を示す図2を参照しながら説明する。
本実施形態に係る車載用音声認識装置10は、図示のようにHDD7(その一部の記憶領域)と、マイクロホン8と、音声認識ユニット9とを備えている。音声認識ユニット9は、その機能ブロックとして、音声入力部11と、音声認識処理部12と、辞書切替選択部13と、音声再生処理部14と、機器制御信号発生部15とを備えている。
HDD7には、音声認識用のデータとして、ユーザが発話したコマンド(ボイスタグを含む)を認識するためのコマンド認識辞書と、本発明の特徴をなす判別用辞書JDと、音響モデルAMとが格納されている。音響モデルAMは当業者には周知のものであり、例えば、音素対応の音素HMM(隠れマルコフモデル)からなる音素HMMセットを生成し、この音素HMMセットの音素HMMを組み合わせて、それぞれの音節対応の初期音素連鎖音節HMMからなる初期音素連鎖音節HMMセットを生成し、その初期音素連鎖音節HMMセットを学習することによって、作成され得る。この音響モデルAMは、音声認識処理部12において音声認識を行う際に適宜参照される。
コマンド認識辞書は、例えば、各制御対象機器1〜5の動作状態もしくは操作指示に関連させてそれぞれ選択可能なコマンドからなる認識辞書毎に区分され(図示の例では、D1〜D3の3種類の辞書)、当該辞書の識別番号(ID=1〜3)に対応させて格納されている。図示の例では、1番目のコマンド認識辞書D1がボイスタグ(Voice Tag) 認識用の辞書として割り当てられている。
判別用辞書JDは、後述するようにユーザが発したボイスタグをボイスタグ認識用の辞書D1に登録すべきかどうかを判断する際に使用されるものである。この判別用辞書JDには、少なくともボイスタグ認識用の辞書D1に登録されているボイスタグと同じボイスタグが登録されるようになっている。さらに判別用辞書JDには、ナビゲーションユニット5が製品としてサポートしているコマンド(図2の例では、"Menu","Cancel","Map" )が予約語として登録されている。このような予約語を予め登録しておくことで、後述するようにボイスタグを音声認識したときに、ユーザが新規で登録したコマンドなのか、ナビゲーション機能として元々有していたコマンドなのかを判別することができる。
音声認識ユニット9において、音声入力部11は、マイクロホン8を介してユーザが発した音声コマンド(アナログ音声信号)を適宜増幅し、デジタル化した後、音声認識処理部12に出力する。音声認識処理部12は、基本的には、音響モデルAMを参照しながら各制御対象機器1〜5の動作状態において選択可能なコマンドからなる認識辞書(図示の例では、コマンド認識辞書D1〜D3のいずれか)を使用して、入力された音声コマンドと当該認識辞書に含まれる各コマンドとを比較照合し、それぞれ合致度(認識スコア)を算出して、最も認識スコアの大きいコマンドをユーザが発した音声コマンドとして決定するものである。さらに音声認識処理部12では、本発明に関連する処理として、後述するようにボイスタグを登録する際には判別用辞書JDを使用して認識処理を行い、その認識スコアに応じて、当該ボイスタグをボイスタグ認識用の辞書D1に登録すべきかどうかを決定する。
辞書切替選択部13は、各制御対象機器1〜5と動作可能に接続されており、これらの動作状態に変化が発生したときにそれを検出してその動作状態に対応する選択可能なコマンドからなる認識辞書を選択するものである。音声再生処理部14では、ユーザによって音声入力されたコマンド(ボイスタグを含む)の認識結果をトークバック再生したり、各制御対象機器1〜5に対する、音声による操作の結果を報知するための音声データを合成する。合成された音声データはバス6(図1)に送出され、アンプユニット26を介してスピーカ27からユーザに報知される。機器制御信号発生部15では、音声認識処理部12で決定されたコマンドを取得し、そのコマンドの内容に応じた機器制御信号を出力する。出力された機器制御信号はバス6(図1)に送出され、該当する制御対象機器では、その機器制御信号に基づいて動作状態の変更を行う。
以下、本実施形態に係る車載用音声認識装置10(図2)において行うコマンド認識辞書と判別用辞書の切替選択に基づいたボイスタグの登録に係る処理について、その一例を示す図3を参照しながら説明する。併せて、図4〜図8も参照しながら補足説明する。
先ず初期状態として、ボイスタグ認識用の辞書(コマンド認識辞書D1)と判別用辞書JDにはボイスタグは登録されていないものとし、また判別用辞書JDには、ナビゲーション機能として元々有していたコマンド("Menu","Cancel","Map" )が予約語として登録されているものとする。
この状態で最初のステップS1では、音声認識ユニット9において、マイクロホン8から音声入力部11を介してボイスタグ用の音声データを検出した(YES)か否(NO)かを判定する。判定結果がYESの場合にはステップS2に進み、判定結果がNOの場合にはボイスタグを検出するまで判定処理を繰り返す。
次のステップS2では、音声認識ユニット9において、辞書切替選択部13が音声認識処理部12と協働して、選択可能なコマンド認識辞書(図2の例では、D1〜D3)と判別用辞書JDを有効化する。
次のステップS3では、音声認識処理部12において、HDD7に格納されている各辞書(この場合、ボイスタグ認識用の辞書D1と判別用辞書JD)を参照して、登録されているボイスタグは有る(YES)か否(NO)かを判定する。判定結果がYESの場合にはステップS4に進み、判定結果がNOの場合にはステップS5に進む。
ステップS5では(ボイスタグが未だ登録されていない場合)、音声認識処理部12により、その検出したボイスタグのPCMデータ(音声データ)を録音すると共に、そのボイスタグを当該認識辞書(ボイスタグ認識用の辞書D1)と判別用辞書JDに登録する。図4はその一例を示しており、図示の例では、ボイスタグ認識用の辞書D1と判別用辞書JDにボイスタグとして"Best Buy"のコマンドが登録されている(図中、(b),(c)参照)。なお、(a)に示す画面51は、図9に例示した"Address Book"画面61と同等のものである。このようにしてボイスタグの登録が終了すると、ステップS1に戻って上記の処理を繰り返す。
一方、ステップS4では、辞書切替選択部13が音声認識処理部12と協働して、現在有効になっている認識辞書のID(図2の例では、ID=1〜3)を保持した上で、辞書を全て無効化する(図4(c)、図5(b)、図7(b)参照)。
次のステップS6では、辞書切替選択部13が音声認識処理部12と協働して、無効化された辞書のうち判別用辞書JDのみを有効にし(図5(c)、図7(c)参照)、音声認識処理部12において、録音されたPCMデータに基づきその判別用辞書JDのみを使用して、検出したボイスタグに対する音声認識を実行する。図5(a)、図7(a)は、この場合の「検出したボイスタグ」の一例を示しており、図5(a)の例ではボイスタグとして"My Home" が検出されており、図7(a)の例ではボイスタグとして"Best Buy"が検出されている。なお、各図の(a)に示す画面52は、図9に例示した画面65と同等のものである。
次のステップS7では、音声認識処理部12において、音声認識に基づいて算出した認識スコアが所定のしきい値より低い(YES)か否(NO)かを判定する。判定結果がYESの場合にはステップS8に進み、判定結果がNOの場合にはステップS9に進む。ここに、認識スコアが当該しきい値より低い場合には、検出したボイスタグは、これまで登録したいずれのボイスタグとも類似していないデータ(非類似のデータ)であると判断することができる。一方、認識スコアが当該しきい値より高い場合には、検出したボイスタグは、これまで登録したいずれかのボイスタグと同一又は類似しているデータ(同一/類似のデータ)であると判断することができる。
ステップS8では(検出したボイスタグが非類似のデータの場合)、音声認識処理部12により、その検出したボイスタグのPCMデータ(音声データ)を録音すると共に、そのボイスタグを判別用辞書JDとボイスタグ認識用の辞書D1に登録する。図6はその一例を示しており、図示の例では、ボイスタグとして新たに"My Home" のコマンドが登録されている(図中、(b)のボイスタグ認識用の辞書D1’、(c)の判別用辞書JD’参照)。このようにしてボイスタグの登録が終了すると、ステップS10に進む。
一方、ステップS9では(検出したボイスタグが同一/類似のデータの場合)、音声認識処理部12からの制御に基づき機器制御信号発生部15を介して表示ユニット(この場合、フロント席用表示ユニット25)の画面に、当該ボイスタグを各辞書(ボイスタグ認識用の辞書D1と判別用辞書JD)に登録しない旨の案内情報(警告画面)を表示する。図8(a)はその一例を示しており、図示の例では、過去に登録したボイスタグと極めて類似しているので登録しない旨、そして再登録を促す旨の案内情報(警告画面)53が表示されている。この警告画面を表示すると、ステップS10に進む。
最後のステップS10では、辞書切替選択部13が音声認識処理部12と協働して、判別用辞書JD(又はJD’)を無効にし、保持しておいた認識辞書IDのコマンド認識辞書を有効化する(図6(b),(c)、図8(b),(c)参照)。
なお、本発明の要旨とは関係しないので特に図示はしていないが、上記の処理(図3)を通してコマンド認識辞書(ボイスタグ認識用辞書D1)に登録されたボイスタグは、各制御対象機器1〜5を制御するのに利用され得る。この場合、音声認識ユニット9では、機器制御信号発生部15により、音声認識処理部12で認識されたコマンドに応じた機器制御信号を出力し、これに対応する制御を当該制御対象機器に対して実行する。その際、当該制御対象機器の動作状態に係る映像を表示している表示ユニット25,31に対して当該コマンドに応じた制御(画面表示やその変更など)を行うと共に、当該制御対象機器の動作状態に係る音声を出力しているスピーカ27(ワイヤレスヘッドホン32を含む)に対して当該コマンドに応じた制御(音声の変更など)を行う。例えば、図9(b)に例示したように、自車位置周辺の地図画面67を表示させている状態で、ユーザがマイクロホン8を介して"Go to [My Home]" と発声すると、音声認識ユニット9では、この音声コマンド(PCMデータ)を基に音声認識処理を実行し、その実行結果に応じた機器制御信号を出力する。ナビゲーションユニット5では、この機器制御信号に応答して、表示ユニット25の画面に自宅(My Home) までの誘導経路等の情報を表示する。
以上説明したように、本実施形態に係る車載用音声認識装置10によれば、マイクロホン8を介して音声入力されたコマンド(ボイスタグを含む)を認識辞書D1と判別用辞書JDに登録するにあたり、判別用辞書JDのみを使用して当該コマンドに対する音声認識を行い、その結果に基づき算出した認識スコアが当該しきい値より低い場合には、当該コマンドはこれまで登録したいずれのコマンドとも類似していない(非類似の)データであると判断して、当該コマンドを各辞書D1,JDに登録するようにしている。
一方、認識スコアが当該しきい値より高い場合には、当該コマンドはこれまで登録したいずれかのコマンドと同一もしくは類似している(同一/類似の)データであると判断して、当該コマンドを各辞書D1,JDに登録しない旨の案内情報(警告画面)53を表示するようにしている。
つまり、登録しようとしているコマンド(ボイスタグを含む)が判別用辞書JDに既に登録されているコマンドと同一/類似しているか、あるいは非類似かを判断し、非類似の場合にのみ当該コマンドを登録するようにし、同一/類似の場合には登録しないようにしている。
これにより、従来技術に見られたような、過去に登録したコマンドと同一もしくは類似している音声データが登録されることによってひき起こされる認識の際の紛らわしさといった不都合を解消することができる。その結果、認識辞書に登録した音声コマンドに対する認識率を高めることができる。
上述した実施形態では、車載用音声認識装置10を車載A/V・ナビゲーションシステム40の一部として組み込んだ場合を例にとって説明したが、本発明の要旨(ユーザが発したコマンド(ボイスタグ)をコマンド認識辞書(ボイスタグ認識用辞書D1)に登録するにあたり、その登録を行うべきかどうかを判断するための判別用辞書を作成しておき、この判別用辞書を使用して入力されたコマンドに対する認識処理を行い、その結果(認識スコア)に基づいて同一もしくは類似していないコマンドのみを認識辞書に登録するようにしたこと)からも明らかなように、必ずしもA/V機器とナビゲーション装置の両方を含むシステムに組み込んで使用する必要がないことはもちろんである。
また、上述した実施形態では、地図データと共にコマンド認識辞書、判別用辞書等を格納する記録媒体としてHDD7を使用しているが、これに代えて、フラッシュメモリなどの書き換え可能な他の記録媒体を使用してもよい。
本発明の一実施形態に係る車載用音声認識装置を組み込んだ車載オーディオ/ビデオ(A/V)・ナビゲーションシステムの構成を示すブロック図である。 図1における車載用音声認識装置の構成を示すブロック図である。 図2の車載用音声認識装置において行うコマンド認識辞書と判別用辞書の切替選択に基づいたボイスタグの登録に係る処理の一例を示すフロー図である。 図3の処理フローの補足説明図(その1)である。 図3の処理フローの補足説明図(その2)である。 図3の処理フローの補足説明図(その3)である。 図3の処理フローの補足説明図(その4)である。 図3の処理フローの補足説明図(その5)である。 ボイスタグの使用例を説明するための図である。
符号の説明
1〜5…制御対象機器、
7…HDD(記憶手段)、
8…マイクロホン(音声入力手段)、
9…音声認識ユニット(音声認識手段)、
10…車載用音声認識装置、
12…音声認識処理部、
13…辞書切替選択部、
14…音声再生処理部、
15…機器制御信号発生部、
20,30…操作ユニット、
25,31…表示ユニット(表示手段)、
27…スピーカ、
40…車載オーディオ/ビデオ(A/V)・ナビゲーションシステム、
53…ボイスタグを登録しない旨の案内情報(警告画面)、
D1,D1’…ボイスタグ認識用辞書(コマンド認識辞書)、
D2,D3…コマンド認識辞書、
JD,JD’…判別用辞書。

Claims (6)

  1. 車室内でユーザが発話するコマンドを入力する音声入力手段と、
    前記音声入力手段を介して入力されたコマンドとの比較照合を行うのに使用され、制御対象機器の動作状態に応じて選択可能なコマンドを登録した複数の認識辞書と、入力されたコマンドを前記認識辞書に登録すべきかどうかを判断するための判別用辞書であって前記複数の認識辞書に登録されているコマンドと同じコマンドが登録されるよう適応されたものとを格納した記憶手段と、
    前記制御対象機器の動作状態に応じて有効な前記認識辞書を切り替える辞書切替選択手段と、
    前記音声入力手段を介して入力されたコマンドと前記記憶手段に格納されているいずれかの辞書に登録されているコマンドとの比較照合に基づいた音声認識を行う音声認識手段とを備え、
    前記音声認識手段は、前記音声入力手段を介してコマンドが入力されたときに、前記判別用辞書のみを使用して当該入力されたコマンドに対する音声認識を行い、該音声認識に基づいて算出した認識スコアが所定のしきい値より低い場合に、当該コマンドを前記制御対象機器の動作状態に応じて選択された前記認識辞書及び前記判別用辞書に登録することを特徴とする車載用音声認識装置。
  2. さらに表示手段を備え、
    前記音声認識手段は、前記音声認識に基づいて算出した認識スコアが所定のしきい値より高い場合に、前記表示手段に対し、当該コマンドを前記認識辞書及び前記判別用辞書に登録しない旨の警告画面を表示させることを特徴とする請求項1に記載の車載用音声認識装置。
  3. 前記音声認識手段は、前記音声入力手段を介してコマンドが入力されたときに、前記判別用辞書にコマンドが未だ登録されていない場合には、当該入力されたコマンドをそのまま前記認識辞書及び前記判別用辞書に登録することを特徴とする請求項1に記載の車載用音声認識装置。
  4. さらに前記判別用辞書に、前記車載用音声認識装置と協働するナビゲーションユニットが製品としてサポートしているコマンドが予約語として登録されていることを特徴とする請求項1に記載の車載用音声認識装置。
  5. 車室内でユーザが発話するコマンドを入力する音声入力手段と、前記音声入力手段を介して入力されたコマンドとの比較照合を行うのに使用され、制御対象機器の動作状態に応じて選択可能なコマンドを登録した複数の認識辞書と、入力されたコマンドを前記認識辞書に登録すべきかどうかを判断するための判別用辞書であって前記複数の認識辞書に登録されているコマンドと同じコマンドが登録されるよう適応されたものとを格納した記憶手段と、前記制御対象機器の動作状態に応じて有効な前記認識辞書を切り替える辞書切替選択手段と、前記音声入力手段を介して入力されたコマンドと前記記憶手段に格納されているいずれかの辞書に登録されているコマンドとの比較照合に基づいた音声認識を行う音声認識手段とを備えた車載用音声認識装置において、
    前記音声入力手段を介してコマンドが入力されたときに、前記判別用辞書のみを有効にして当該入力されたコマンドに対する音声認識を実行し、
    該音声認識に基づいて算出した認識スコアが所定のしきい値より低い場合に、当該コマンドを前記制御対象機器の動作状態に応じて選択された前記認識辞書及び前記判別用辞書に登録することを特徴とする音声コマンド登録方法。
  6. 前記音声認識に基づいて算出した認識スコアが所定のしきい値より高い場合に、表示手段により、当該コマンドを前記認識辞書及び前記判別用辞書に登録しない旨の警告画面を表示することを特徴とする請求項5に記載の音声コマンド登録方法。
JP2006173813A 2006-06-23 2006-06-23 車載用音声認識装置及び音声コマンド登録方法 Active JP5037041B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006173813A JP5037041B2 (ja) 2006-06-23 2006-06-23 車載用音声認識装置及び音声コマンド登録方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006173813A JP5037041B2 (ja) 2006-06-23 2006-06-23 車載用音声認識装置及び音声コマンド登録方法

Publications (2)

Publication Number Publication Date
JP2008003371A JP2008003371A (ja) 2008-01-10
JP5037041B2 true JP5037041B2 (ja) 2012-09-26

Family

ID=39007798

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006173813A Active JP5037041B2 (ja) 2006-06-23 2006-06-23 車載用音声認識装置及び音声コマンド登録方法

Country Status (1)

Country Link
JP (1) JP5037041B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012001730A1 (ja) * 2010-06-28 2012-01-05 三菱電機株式会社 音声認識装置
CN102831894B (zh) 2012-08-09 2014-07-09 华为终端有限公司 指令处理方法、装置和***
KR102245747B1 (ko) 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH067348B2 (ja) * 1989-04-13 1994-01-26 株式会社東芝 パタン認識装置
JP3352144B2 (ja) * 1993-04-16 2002-12-03 クラリオン株式会社 音声認識装置
JPH08110790A (ja) * 1994-10-11 1996-04-30 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置
JP4201870B2 (ja) * 1998-02-24 2008-12-24 クラリオン株式会社 音声認識による制御を用いるシステム及び音声認識による制御方法
JP2000029585A (ja) * 1998-07-08 2000-01-28 Canon Inc 音声コマンド認識画像処理装置
JP2000259172A (ja) * 1999-03-11 2000-09-22 Canon Inc 音声認識装置と音声データの認識方法
JP2000338991A (ja) * 1999-05-25 2000-12-08 Nec Saitama Ltd 認識率信頼性表示機能付き音声操作電話装置及びその音声認識方法
JP2004029354A (ja) * 2002-06-25 2004-01-29 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2004226698A (ja) * 2003-01-23 2004-08-12 Yaskawa Electric Corp 音声認識装置
JP4450575B2 (ja) * 2003-06-26 2010-04-14 株式会社ザナヴィ・インフォマティクス 車両用音声認識装置、車載ナビゲーション装置
JP4236597B2 (ja) * 2004-02-16 2009-03-11 シャープ株式会社 音声認識装置、音声認識プログラムおよび記録媒体。
JP2005242181A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 語彙選定方法、語彙選定装置およびプログラム
JP2006033795A (ja) * 2004-06-15 2006-02-02 Sanyo Electric Co Ltd リモートコントロールシステム、コントローラ、コンピュータにコントローラの機能を付与するプログラム、当該プログラムを格納した記憶媒体、およびサーバ。

Also Published As

Publication number Publication date
JP2008003371A (ja) 2008-01-10

Similar Documents

Publication Publication Date Title
JP5014662B2 (ja) 車載用音声認識装置及び音声認識方法
JP4269973B2 (ja) カーオーディオシステム
JP3567864B2 (ja) 音声認識装置及び記録媒体
JP4304952B2 (ja) 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
EP2045140B1 (en) Adjustment of vehicular elements by speech control
JP6604151B2 (ja) 音声認識制御システム
US20070203699A1 (en) Speech recognizer control system, speech recognizer control method, and speech recognizer control program
JP2008058409A (ja) 音声認識方法及び音声認識装置
JPH09114489A (ja) 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
US9685157B2 (en) Vehicle and control method thereof
JP2017090613A (ja) 音声認識制御システム
JP2017090612A (ja) 音声認識制御システム
JP2009251388A (ja) 母国語発話装置
JP2017090614A (ja) 音声認識制御システム
KR101755308B1 (ko) 음성 인식 모듈, 그를 가지는 단말기 및 차량
JP5037041B2 (ja) 車載用音声認識装置及び音声コマンド登録方法
JP6741387B2 (ja) 音声出力装置
JP4770374B2 (ja) 音声認識装置
JP2014065359A (ja) 表示制御装置、表示システム及び表示制御方法
JP2020144264A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2007057805A (ja) 車両用情報処理装置
JPH09114487A (ja) 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
JPH09114491A (ja) 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
CN111724778A (zh) 车载装置、车载装置的控制方法及存储介质
JP4093394B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111028

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120419

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120704

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5037041

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150