JP6100263B2 - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置 Download PDF

Info

Publication number
JP6100263B2
JP6100263B2 JP2014529572A JP2014529572A JP6100263B2 JP 6100263 B2 JP6100263 B2 JP 6100263B2 JP 2014529572 A JP2014529572 A JP 2014529572A JP 2014529572 A JP2014529572 A JP 2014529572A JP 6100263 B2 JP6100263 B2 JP 6100263B2
Authority
JP
Japan
Prior art keywords
trigger signal
speech recognition
mouth
signal
trigger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014529572A
Other languages
English (en)
Other versions
JPWO2014025012A1 (ja
Inventor
史郎 岩井
史郎 岩井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Access Corp
Original Assignee
Honda Access Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Access Corp filed Critical Honda Access Corp
Publication of JPWO2014025012A1 publication Critical patent/JPWO2014025012A1/ja
Application granted granted Critical
Publication of JP6100263B2 publication Critical patent/JP6100263B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

本発明は、音声認識方法及び音声認識装置に関する。
自動車等の車両は、ドアミラー、ナビゲーション装置等の電装品を備え、これらの電装品は、音声認識装置を備えることができ、運転者からの音声によって制御される。例えば特許文献1の明細書の記載によれば、画像認識回路が、運転者の***の開閉動作の有無を画像認識により判定する。また、ドアミラー制御回路は、画像認識回路で運転者の***の開閉動作が有ると判定された期間に音声認識回路で分析される指示内容について鏡面角度調整を許可する一方、画像認識回路で運転者の***の開閉動作が無いと判定された期間に音声認識回路で分析される指示内容について鏡面角度調整を禁止する。これにより、運転者以外の搭乗者による声その他のノイズにより誤動作で鏡面角度調整が実行されるのを防止することができる。
特許文献1の明細書の記載によれば、ドアミラー制御回路は、口の開きの有無が「無し」である時に音声認識回路による音声認識の結果(鏡面角度調整の指示内容)を無効にしている。従って、画像認識回路は、例えば口の動きを伴わない音声を認識する時に「発話無し」と判定し、音声認識の精度が低下してしまう。
特許第4754294号公報
本発明の1つの目的は、音声認識の精度を向上可能な音声認識方法及び音声認識装置を提供することにある。本発明の他の目的は、以下に例示する態様及び好ましい実施形態、並びに添付の図面を参照することによって、当業者に明らかになるであろう。
以下に、本発明の概要を容易に理解するために、本発明に従う態様を例示する。
本願発明によれば、音声認識装置であって、
口の開きの有無に基づき、第1のトリガー信号を生成するとともに、目の向きの変化の有無及び/又は顔の向きの変化の有無とに基づき、第2のトリガー信号を生成するトリガー生成部と、
認識用の認識トリガー信号に応じて、音信号を取り込み、取り込まれた前記音信号の音声認識を開始する音声認識部と、
を備え、
前記トリガー生成部は、前記口の開きの有無が有りであった時点から前記第1のトリガー信号を生成し、前記目の向きの変化の有無及び/又は前記顔の向きの変化の有無の何れかが有りであった時点から前記第2のトリガー信号を生成し、
前記音声認識部は、前記トリガー生成部が前記第2のトリガー信号を生成しないで前記第1のトリガー信号を生成する時、前記第1のトリガー信号をそのまま前記認識トリガー信号として利用し、
前記音声認識部は、前記トリガー生成部が前記第1のトリガー信号を生成するとともに前記第2のトリガー信号を生成する時、前記第2のトリガー信号をそのまま前記認識トリガー信号として利用し、
前記音声認識部は、前記第1のトリガー信号又は前記第2のトリガー信号による前記音声認識の結果がエラーを示す時、
前記口の開きの有無が有りであった時点から所定期間だけ遡って生成される前記第1のトリガー信号を前記認識トリガー信号として利用することを特徴とする音声認識装置が提供される。
本願発明によれば、音声認識方法であって、
口の開きの有無が有りであった時点で、第1のトリガー信号を生成すること、
前記第1のトリガー信号を生成した後に、前記口の開きの有無が有りであった前記時点から遡る所定期間内に、目の向きの変化の有無及び/又は顔の向きの変化の有無の何れかが有りであった時点で第2のトリガー信号を生成すること、及び
前記第2のトリガー信号が生成されない時には前記第1のトリガー信号に応じて音信号を取り込む一方、前記第2のトリガー信号が生成される時には前記第2のトリガー信号に応じて前記音信号を取り込み、取り込まれた前記音信号の音声認識を開始すること、
を含み、
前記第1のトリガー信号又は前記第2のトリガー信号による前記音声認識の結果がエラーを示す時に、前記口の開きの有無が有りであった時点から前記所定期間だけ遡った時点で、修正された第1のトリガー信号を生成し、
前記修正された第1のトリガー信号が生成される時には前記修正された第1のトリガー信号に応じて前記音信号を取り込み、取り込まれた前記音信号の音声認識を再度開始することを特徴とする音声認識方法が提供される。
本発明者は、人によっては口の開きを伴わないで発話することを認識した。本願発明によれば、トリガー生成部は、口の開きが有る前の所定期間だけ遡ってトリガー信号を生成するか、或いは、口の開きだけでなく、目の向きの変化及び/又は顔の向きの変化に基づきトリガー信号を生成する。このようなトリガー信号によれば、口の開きを伴った音声の前の口の開きを伴わない音声を取り込み、その取り込んだ音声を含んで、音声認識を実行することができる。これにより、音声認識の精度を向上させることができる。
また、音信号中の音声認識を開始する期間を定めるトリガー信号を利用することで、すべての期間の音信号に対して音声認識を実行する必要がない。言い換えれば、トリガー信号によって切り出される音信号だけに対して音声認識を実行すればよい。従って、音声認識を実行する時の処理を軽減させることができる。
音声認識の結果がエラーを示す時、音声認識部がトリガー信号を修正するので、音声認識の結果がエラーを示さない時、音声認識部は、修正されないトリガー信号(即ち、口の開きの有無だけ)を用いて音声認識を早期に実行又は完了することができる。
音声認識の結果がエラーを示さない時、音声認識部は、修正されないトリガー信号(即ち、口の開きの有無だけ)を用いて音声認識を早期に実行又は完了することができる。
一般に、人が、例えば日本語の「ラ」,「リ」,「ル」等の日本語の子音、例えば英語の「b」,「c」,「d」等の英語の子音等を含む任意の言語の子音を発話する時の口の開きは、母音を発生する時の口の開きよりも小さい。また、人によっては、口の開きが小さい。従って、口の動きに基づき音声認識を実行すると、口の動きを伴わない音声を認識することができない。本発明者は、人が発話を開始する前に目、顔、眉等の口以外の顔器官が動くことを認識し、音声認識方法におけるトリガー信号の生成過程において、口(第1の顔器官)以外の顔器官(第2の顔器官)の動きを考慮することを発明した。
本願発明によれば、口(第1の顔器官)の動きだけでは認識できなかった音声を口以外の他の顔器官(第2の顔器官)の動きに基づくトリガー信号を生成することができる。従って、このトリガー信号によれば、口の動きを伴わない期間の音声も認識することができ、音声の認識率(音声認識の精度)を向上させることができる。
また、音信号中の音声認識を開始する期間を定めるトリガー信号を利用することで、すべての期間の音信号に対して音声認識を実行する必要がない。言い換えれば、トリガー信号によって切り出される音信号だけに対して音声認識を実行すればよい。従って、音声認識を実行する時の処理を軽減させることができる。
本発明者は、顔器官の動きの中でも目の動きに伴って人が発話する可能性が高いことを認識した。また、本発明者は、顔器官の動きの中でも顔の動きに伴って人が発話することを認識した。目の動き及び又は顔の動きでトリガー信号を生成することで、音声認識の精度をさらに向上させることができる。
本発明者は、特定の物に人が一瞬注視する時、また、他人の声を人が聞く時、その人の目の向きの変化及び顔の向きの変化が生じ易く、このようなタイミングで人が発話する可能性が高いことを認識した。このような人の一般的な行動特性を利用しながらトリガー信号を生成することで、音声認識の精度をより一層向上させることができる。
本発明者は、人によっては口の動きを伴わないで発話することを認識した。本願発明によれば、口の動きの有無が有りであった時から所定期間だけ遡ってトリガー信号を生成することができる。従って、口の動きを伴った音声の前の口の動きを伴わない音声を取り込み、その取り込んだ音声を含んで、音声認識を実行することができる。これにより、音声認識の精度を向上させることができる。
また、音信号中の音声認識を開始する期間を定めるトリガー信号を利用することで、すべての期間の音信号に対して音声認識を実行する必要がない。言い換えれば、トリガー信号によって切り出される音信号だけに対して音声認識を実行すればよい。従って、音声認識を実行する時の処理を軽減させることができる。
音声認識の結果がエラーを示さない時、音声認識方法は、修正されないトリガー信号(即ち、口の開きの有無だけ)を用いて音声認識を早期に実行又は完了することができる。
音声認識の結果がエラーを示さない時、音声認識方法は、修正されないトリガー信号(即ち、口の開きの有無だけ)を用いて音声認識を早期に実行又は完了することができる。
当業者は、例示した本発明に従う態様が、本発明の精神を逸脱することなく、さらに変更され得ることを容易に理解できるであろう。
本発明に従う音声認識方法を実行する音声認識装置の構成例を示す。 図1の音声記憶部に記憶される音信号に対応するトリガー信号を生成する期間の説明図の1例を示す。 顔器官の動きを特定する特徴点の説明図の1例を示す。 本発明に従う音声認識方法を実行する音声認識装置である電装品の構成例を示す。 図4の電装品の動作例を表すフローチャートを示す。
以下に説明する最良の実施形態は、本発明を容易に理解するために用いられている。従って、当業者は、本発明が、以下に説明される実施形態によって不当に限定されないことを留意すべきである。
図1は、本発明に従う音声認識方法を実行する音声認識装置の構成例を示す。図1に示される音声認識装置100は、トリガー信号生成部22及び音声認識部23を備える。例えばマイク11で取得された音信号中の音声認識を開始する期間を定めるトリガー信号が生成される間、トリガー信号生成部22は、例えばカメラ12によって、音信号と同期可能に取得された映像信号を利用する。トリガー信号生成部22は、映像信号中の各画像から口等の顔器官を抽出し、顔器官の動きを認識し、顔器官の動きに基づきトリガー信号を生成する。
図1に示される音声認識装置100は、例えば音信号を記憶する音声記憶部21を更に備えることができ、音声認識部23は、音声記憶部21で一時的に記憶された音信号をトリガー信号に基づき所定期間だけ遡って取り込むことができる。但し、音声認識装置100は、音声記憶部21を省略して、音声認識部23は、音声認識部23は、例えばマイク11からの音信号を直接に取り込んでもよい。
トリガー信号生成部22及び音声認識部23は、例えば1つのマイコンで構成され、マイコンのRead Only Memory(ROM)は、トリガー信号生成部22及び音声認識部23の各々に処理を実行させるためのプログラム(データ)を格納することができ、マイコンのRandom Access Memory(RAM)には各プログラムを実行するためのデータを記憶することができる。音声記憶部21は、例えばフラッシュメモリで構成される。なお、例えばマイコンのROM及びRAM、並びにフラッシュメモリは、1つの記憶部で構成されてもよく、その記憶部の中で、様々な信号及びデータを記憶してもよい。音声認識装置100は、例えば1つのマイコン及び1つのフラッシュメモリ、並びに入出力インターフェース等を含む1つの電子制御ユニットで構成され、電装品31も、例えば1つの電子制御ユニットで構成される。なお、1つの電子制御ユニットで、電装品31及び音声認識装置100を構成することもできる。
図1に示されるトリガー生成部22は、少なくとも口の開きの有無に基づき、トリガー信号を生成する。また、音声認識部23は、トリガー信号に応じて、音信号を取り込み、取り込まれた音信号中の音声認識を開始する。音声記憶部21は、音信号を記憶する。
トリガー生成部22が口の開きの有無だけに基づきトリガー信号を生成する時、トリガー生成部22は、口の開きの有無が「有り」であった時点から所定期間だけ遡ってトリガー信号を生成する。或いは、トリガー生成部22が口の開きの有無と目の向きの変化の有無及び/又は顔の向きの変化の有無とに基づきトリガー信号を生成する時、トリガー生成部22は、上記有無の何れかが「有り」であった時点からトリガー信号を生成する。
トリガー生成部22は、少なくとも1種類の音声認識方法でトリガー信号を生成することができる。具体的には、予め1種類の音声認識方法を実行可能なプログラムだけが音声認識装置100にインストールされ、トリガー生成部22は、その1種類の音声認識方法でトリガー信号を生成することができる。1種類の音声認識方法は、後述する第1の音声認識方法又は第2の音声認識方法である。或いは、予め2種類の音声認識方法を実行可能なプログラムだけが音声認識装置100にインストールされ、トリガー生成部22は、その2種類の音声認識方法の中から1つの音声認識方法を選択し、選択された音声認識方法でトリガー信号を生成してもよい。1種類の音声認識方法は、後述する第1の音声認識方法及び第2の音声認識方法である。
2種類の音声認識方法のうちの第1の音声認識方法は、口の動きの有無に基づき、トリガー信号を生成すること、及びトリガー信号に応じて音信号を取り込み、取り込まれた音信号中の音声認識を開始すること、を含む。トリガー信号は、口の動きの有無が有りであった時から所定期間だけ遡って生成される。2種類の音声認識方法のうちの第2の音声認識方法は、口である第1の顔器官の動きと第1の顔器官(口)と異なる例えば目、顔等である第2の顔器官の動きとに基づき、トリガー信号を生成すること、及びトリガー信号に応じて音信号中の音声認識を開始すること、を含む。
図2に示されるように、本発明者は、人によっては口の動きを伴わないで発話することを認識した。本発明によれば、口の動きが有る前の所定期間だけ遡ってトリガー信号を生成するか、或いは、口の動きだけでなく、口以外の他の顔器官の動きにも基づきトリガー信号を生成する。このようなトリガー信号によれば、口の動きを伴った音声の前の口の動きを伴わない音声も取り込むことができ、その取り込んで音声認識を実行することにより、音声認識の精度を向上させることができる。
音声認識装置100又はその音声認識装置100に実行される音声認識方法は、様々な機器に利用することができ、例えば車両に搭載されるナビゲーション装置等の電装品31に利用することができる。電装品31は、音声認識装置100によって認識された音声に基づき、様々な制御を実行することができ、例えば、ナビゲーション装置は、運転者の音声で住所検索等の操作を実行することができる。ナビゲーション装置等の電装品31に限定されず、様々な機器で、音声認識装置100又は音声認識装置100で実行される音声認識方法を組み込んで、本発明を利用し、音声認識の精度を向上させることができる。
なお、図1に示される音声認識装置100は、マイク11を備えていないが、音声認識装置100は、例えばマイク11等の音声取得部を組み込んでもよい。同様に、音声認識装置100は、カメラ12を備えていないが、音声認識装置100は、例えばカメラ12等の映像取得部を組み込んでもよい。
図2は、図1に示される音声記憶部31に記憶される音信号に対応するトリガー信号を生成する期間の説明図の1例を示す。図2にされるように、音声記憶部21に記憶される音信号が波形として表され、図1に示されるマイク11で取得される音信号は、カメラ12で取得される映像信号と同期している。言い換えれば、音信号の時刻は、映像信号の時刻と一致している。図2にされるように、音信号は、音声だけでなく、ノイズも含んでいる。
図2にされるように、時刻t0で、図1に示されるトリガー信号生成部22は、映像信号中の口の動き(例えば口の開き)を特定し、以後、時刻t1まで、口の開きが継続していたと判定した。即ち、時刻t0は、口の動きを伴う音声期間の始点を示す時刻であり、時刻t1は、口の動きを伴う音声期間の終点を示す時刻である。トリガー生成部22が口の動きの有無だけに基づきトリガー信号を生成する時、第1の比較例において、トリガー信号(第1のトリガー信号)は、例えば時刻t0まで、ゼロ又はLowを示し、時刻t0から時刻t1まで、1又はHighを示し、時刻t1以降、ゼロ又はLowを示す。
しかしながら、人によっては、口の開きが小さく、図2に示されるように、口の動きを伴わないで発話することもある。即ち、トリガー生成部22で口の動きを特定できないとしても、時刻t0よりも前に口の動きを伴わない音声期間tsが存在することを本発明者は認識した。第1の比較例におけるトリガー信号(第1のトリガー信号)は、時刻t0から時刻t1までのみ、1又はHighを示すので、このようなトリガー信号(第1のトリガー信号)で時刻t0から時刻t1までの音声信号中の音声を認識しても、音声期間tsに含まれる音声を認識することができない。同様に、時刻t1よりも後に口の動きを伴わない音声期間teが存在する時も、その音声期間teに含まれる音声を認識することができない。従って、第1の比較例におけるトリガー信号(第1のトリガー信号)では、音声認識の精度が低下してしまう。
そこで、本発明に従う第1の音声認識方法では、トリガー信号(修正される第1のトリガー信号)は、口の動きの有無が「有り」であった時刻t0から所定期間だけ遡って生成される。所定期間は、音声期間tsを含むように設定され、所定期間は、例えば2[sec]〜3[sec]である。即ち、時刻t0から時刻t1までに口の動きの有無が「有り」である時、時刻t0の例えば2,3秒前から、1又はHighを示すトリガー信号(修正される第1のトリガー信号)が生成される。同様に、口の動きの有無が「有り」であった時刻t1から所定期間だけ遅れる時にゼロ又はLowを示すトリガー信号(修正される第1のトリガー信号)が生成されてもよく、即ち、時刻t0の例えば2,3秒前から時刻t1の例えば2,3秒後まで、1又はHighを示すトリガー信号(修正される第1のトリガー信号)が生成されてもよい。少なくとも、時刻t0の例えば2,3秒前からの音声信号を取り込み、取り込まれた音信号中の音声認識を開始することで、音声期間tsの子音(例えば日本語の「ラ」、英語の「b」等)等の音素を認識することができ、第1の音声認識方法におけるトリガー信号(修正される第1のトリガー信号)では、音声認識の精度が向上する。同様に、時刻t1の例えば2,3秒後までの音声信号を取り込み、取り込まれた音信号中の音声認識を終了する。
また、本発明に従う第2の音声認識方法では、トリガー信号(第2のトリガー信号)の1又はHighを示す期間が音声期間tsを含むように、トリガー信号(第2のトリガー信号)が生成される。即ち、口の動きの有無が「無し」であった音声期間ts内に、口以外の顔器官である例えば目の動きの有無が「有り」であった時、生成されたトリガー信号(第2のトリガー信号)は、1又はHighを示す。同様に、トリガー信号(第2のトリガー信号)の1又はHighを示す期間が音声期間teを含むように、トリガー信号(第2のトリガー信号)が生成されてもよい。音声期間te内に例えば目の動きの有無が「有り」であった時、生成されたトリガー信号(第2のトリガー信号)は、1又はHighを示す。目の動きの有無だけでなく、顔の動きの有無も考慮されてもよく、或いは、目の動きの有無の代わりに、顔の動きの有無が考慮されてもよい。口である第1の顔器官の動きと第1の顔器官(口)と異なる例えば目、顔等である第2の顔器官の動きとに基づき、トリガー信号(第2のトリガー信号)を生成することで、音声認識部23は、音声期間ts,teの子音等の音素を認識することができ、第2の音声認識方法におけるトリガー信号(第2のトリガー信号)でも、音声認識の精度が向上する。
なお、例えば特許文献1の音声認識回路のような第2の比較例は、特定の期間の音信号ではなく、すべての期間の音信号に対して音声認識を実行することもできる。
第1の音声認識方法又は第2音声認識方法では、音信号中の音声認識を開始する期間を定めるトリガー信号(修正された第1のトリガー信号又は第2のトリガー信号)を利用することで、すべての期間の音信号に対して音声認識が実行される必要がない。言い換えれば、トリガー信号(修正された第1のトリガー信号又は第2のトリガー信号)によって切り出される音信号だけに対して音声認識を実行すればよい。従って、第1の音声認識方法又は第2音声認識方法では、音声認識を実行する時の処理を軽減させることができる。
図3は、顔器官の動きを特定する特徴点の説明図の1例を示す。図1に示されるカメラ12は、運転者等の人の顔を映すように設置され、例えば車室内のインナーミラー、サンバイザー、インストルメントパネル、ルーフライニング等に設置される。従って、運転者が運転席に正面(車両の前進方向)を向いて座った時に、カメラ12は、運転者の顔を捕らえることができる。図3を参照するに、カメラ12は、顔の正面を捕らえている。図1に示されるトリガー信号生成部22は、図3に示されるような顔の特徴点Pを画像認識することができる。具体的には、トリガー信号生成部22(画像認識部)は、映像信号中の各フレーム(画像)に対して人の顔領域の切出しを行う。図3を参照するに、トリガー信号生成部22は、顔器官として、例えば口領域、目領域及び眉領域を抽出し、口領域、目領域及び眉領域の特徴点として、それぞれ、特徴点P11,P12,P13,P14、特徴点P21、P22、P23、P24、P25、P31、P32、P34、P35及び特徴点P41、P42、P43、P44、P45、P51、P52、P54、P55を抽出する。
トリガー信号生成部22は、例えば4個の特徴点P11,P12,P13,P14から口の動きを特定し、具体的には、口の開きの有無を判定する。口の開きの有無が「有り」である時、トリガー信号(第2のトリガー信号)は、1又はHighを示す。なお、口の開きの有無だけで、トリガー信号(修正された第1のトリガー信号)を生成する時、トリガー信号(修正されない第1のトリガー信号)が「0又はLow」から「1又はHigh」に変化した時点から例えば2,3秒前から、(修正された第1のトリガー信号)は、「1又はHigh」を示す。
また、トリガー信号生成部22は、口の動きだけでなく、目の動きも考慮する時、トリガー信号生成部22は、例えば10個の特徴点P21、P22、P23、P24、P25、P31、P32、P34、P35から目の動きを特定し、具体的には、目の向きの変化の有無を判定する。口の開きの有無及び目の向きの変化の有無の少なくとも1つが「有り」である時、トリガー信号(第2のトリガー信号)は、1又はHighを示す。
トリガー信号生成部22は、眉の動きの有無、眉の移動の有無を判定してもよいが、眉の移動の有無よりも、目の向きの変化の有無に基づきトリガー信号(第2のトリガー信号)を生成した方が、口の動きを伴わない音声を取り込む確率が高くなる。
加えて、トリガー信号生成部22は、例えば顔領域中の口領域及び目領域の位置に基づき、顔の動きを特定し、具体的には、顔の向きの変化の有無を判定することができる。顔の向きの変化の有無は、目の向きの変化の有無と同様に、口の動きを伴わない音声を取り込む確率が高くなる。口の開きの有無及び顔の向きの変化の有無の少なくとも1つが「有り」である時、トリガー信号(第2のトリガー信号)は、1又はHighを示す。或いは、口の開きの有無、目の向きの変化の有無及び顔の向きの変化の有無の少なくとも1つが「有り」である時、トリガー信号(第2のトリガー信号)は、1又はHighを示す。
このようにしてトリガー生成部22がトリガー信号(修正された第1のトリガー信号又は第2のトリガー信号)を生成し、且つトリガー信号(修正された第1のトリガー信号又は第2のトリガー信号)が1又はHighを示す期間の音信号が音声認識部23によって音声認識される時、音声中の音素を例えば音響モデルで認識する精度が向上する。その後、音声認識部23は、認識された音素から例えば言語モデルで単語又は文章を特定し、文字データを例えば電装品31に送信することができる。電装品31は、文字データが特定の制御コマンドに一致するか否かを判定し、運転者等の人は、例えば電装品31を音声で操作することができる。
図4は、本発明に従う音声認識方法を実行する音声認識装置である電装品の構成例を示す。図4に示される電装品31は、図1の音声認識装置100と同様に、トリガー信号生成部22及び音声認識部23を備える。また、図4に示される電装品31は、図1の音声認識装置100及び図1のマイク11を組み込む図1の電装品31の変形例に相当する。
図4に示されるように、図4のカメラ12は、画像記憶部13を有し、画像記憶部13は、マイク11からの音信号と同期可能な映像信号を記憶することができる。なお、カメラ12が起動している間、画像記憶部13は、カメラ12で取得される映像信号を常に記憶することができ、画像記憶部13に記憶される映像信号は、複数のフレーム(画像)を含んでいる。
図4の電装品31は、マイク11を備えることができ、また、図4の電装品31は、例えば操作部24、処理部25、センサ部26、表示部27及び情報記憶部28を備えることができる。但し、図4の電装品31は、図1の音声認識装置100と同様に、マイク11を備えなくてもよい。また、図4の電装品31は、操作部24、処理部25、センサ部26、表示部27及び情報記憶部28の一部又は全部を備えなくてもよい。
図4の音声認識部23は、図1の音声認識部23と同様に、トリガー信号(修正された第1のトリガー信号又は第2のトリガー信号)を利用することができるとともに、修正されない第1のトリガー信号を利用してもよい。音声認識部23の動作例については、後述する。
図5は、図4の電装品31の動作例を表すフローチャートを示す。図5において、スタートは、例えば、電装品31がONされた時を表す。図4の電装品31は、例えばナビゲーション装置であり、図4の操作部24は、例えば運転者である人(ユーザ)からの操作情報を入力し、その操作情報を音声記憶部21に出力することができる。具体的には、操作部24は、例えば発話ボタンであり、音声記憶部21は、発話ボタンが押されたか否かを判定することができる(図5のステップS1)。
例えば運転者がある目的地まで車両を運転したい時、運転者はナビゲーション装置である電装品31にその目的地を設定する必要がある。運転者が運転者の音声でその目的地の住所検索等の操作を実行する時、運転者は発話ボタンである操作部24を押すことができる。発話ボタンが押された後に、音声記憶部21は、運転者の音声を記憶することができる(図5のステップS2)。但し、音声記憶部21は、操作部24からの操作情報と無関係に、音声の記憶を開始してもよい。即ち、電装品31は、操作部24を備えなくてもよく、電装品31が起動する時、音声記憶部21は、操作部24からの操作情報と無関係に、音声の記憶を開始してもよい。
例えば図4のカメラ12が起動する時、カメラ12の画像記憶部13は、複数のフレーム(画像)で構成される映像信号の記憶を開始することができる。但し、例えば電装品31からの起動信号を入力する時、画像記憶部13は、映像信号(複数の画像)の記憶を開始してもよい。図4のトリガー信号生成部22は、映像信号中の各画像から口等の顔器官を抽出し、顔器官の動きを認識し、顔器官の動きに基づき例えば第1及び第2のトリガー信号を生成する。
トリガー生成部22は、少なくとも口の開きの有無を抽出し、口の開きの有無が「有り」であった時点からに1又はHighを示す第1のトリガー信号を生成し、第1のトリガー信号を音声認識部23に出力する。また、トリガー生成部22は、例えば目及び/又は顔の向きの変化の有無を抽出してもよい。トリガー生成部22は、例えば目の向きの変化の有無が「有り」であった瞬間だけに1又はHighを示す第2のトリガー信号を生成し、第2のトリガー信号を音声認識部23に出力する。
図4の音声認識部23は、第1のトリガー信号を入力し、口の開きの有無の状態が「無し」から「有り」に変化するまで待つ(図5のステップS3)。音声認識部23は、第2のトリガー信号も入力し、口の開きの有無の状態が「無し」から「有り」に変化する時点(例えば図2の時刻t0)の前に、例えば目の向きの変化の有無が「有り」であった瞬間が存在していたか否かを判定する(図5のステップS4)。
口の開きの有無の状態が「無し」から「有り」に変化する時点(例えば図2の時刻t0)の前に、例えば目の向きの変化の有無が「有り」であった瞬間が存在していない時、即ち、例えば目の向きの変化の有無の状態が「有り」を示す前に、口の開きの有無の状態が「有り」を示す時、音声認識部23は、口の開きの有無(例えば図2の時刻t0から時刻t1まで)に応じて音声認識を開始する(図5のステップS5)。
口の開きの有無の状態が「無し」から「有り」に変化する時点(例えば図2の時刻t0)の前に、例えば目の向きの変化の有無が「有り」であった瞬間が存在している時、即ち、口の開きの有無の状態が「有り」を示す前に、例えば目の向きの変化の有無の状態が「有り」を示す時、音声認識部23は、例えば目の向きの変化の有無及び口の開きの有無(例えば図2の時刻t0から音声期間tsだけ前の時刻から少なくとも時刻t1まで)に応じて音声認識を開始する(図5のステップS6)。
音声認識部23の音声認識の結果がエラーを示さない時、即ち音声認識部23が音声中の音素から例えば言語モデルで単語又は文章を特定できる時、その単語又はその文章を図4の処理部25に出力する。処理部25は、その単語又はその文章に応じて制御コマンド(例えば住所検索)を実行する(図5のステップS11)。具体的には、処理部25は、例えば言語モデルで特定された単語又は文章に一致する制御コマンドを実行する(図5のステップS11)。
代替的に、音声認識部23の音声認識の結果がエラーを示す時、即ち音声認識部23が音声中の音素から例えば言語モデルで単語又は文章を特定できない時、音声認識部23は、修正される第1のトリガー信号を生成し、音声認識を開始する(図5のステップS7)。具体的には、音声認識部23は、口の開きの有無の状態が「無し」から「有り」に変化する時点から所定期間だけ遡る時点(例えば図2の時刻t0の例えば2,3秒前)から、音声認識を開始する(図5のステップS8)。その後、図5のステップS9において、音声認識部23の音声認識の結果がエラーを示し続ける時、音声認識部23は、音声中の音素を認識する範囲を拡大させ、その後、認識又は推定される音素から例えば言語モデルで単語又は文章を特定できる(図5のステップS10)。その後、処理部25は、その単語又はその文章に応じて制御コマンド(例えば住所検索)を実行する(図5のステップS10)。具体的には、処理部25は、音声中の音素を認識する範囲を拡大させた後に例えば言語モデルで特定された単語又は文章に一致する制御コマンド、即ち、拡大される前の範囲で特定された単語又は文章に類似する制御コマンドを実行する(図5のステップS11)。
なお、図4の音声認識部23は、第2のトリガー信号を利用しなくてもよく、第1のトリガー信号だけを利用してもよい。また、第1のトリガー信号を利用した後に、音声認識部23の音声認識の結果がエラーを示す時、図4の音声認識部23は、修正される第1のトリガー信号だけを利用してもよい。
図4のセンサ部26は、例えば車両の位置を取得するGPSセンサであり、図5の処理部25は、車両の位置から例えば設定された目的地までのルートを算出することができる。図4の情報記憶部28は、処理部25によって利用される情報として、例えば地図情報を記憶し、処理部25は、例えば算出したルート及び車両の位置に基づき車両の位置の周辺の周辺地図情報を情報記憶部28から取得し、表示部27に表示することができる。なお、表示部27は、例えばタッチパネル式のディスプレイであり、運転者が表示部27(タッチパネル式のディスプレイ)を触ることで、運転者は、電装品31(ナビゲーション装置)を操作することができる。即ち、表示部27は、第2の操作部の機能を有してもよく、表示部27(タッチパネル式のディスプレイ)は、操作情報を入力し、その操作情報を処理部25に出力することができる。これにより、処理部25は、運転者の例えば指による第2の操作部への操作を入力し、例えば住所検索等の操作を実行してもよい。
本発明は、上述の例示的な実施形態に限定されず、また、当業者は、上述の例示的な実施形態を特許請求の範囲に含まれる範囲まで、容易に変更することができるであろう。
11・・・マイク、12・・・カメラ、13・・・画像記憶部、21・・・音声記憶部、22・・・トリガー信号生成部、23・・・音声認識部、24・・・操作部、25・・・処理部、26・・・センサ部、27・・・表示部、28・・・情報記憶部、31・・・電装品、100・・・音声認識装置、P・・・特徴点、t0・・・口の動きを伴う音声期間の始点を示す時刻、t1・・・口の動きを伴う音声期間の終点を示す時刻、te,ts・・・口の動きを伴わない音声期間。

Claims (2)

  1. 音声認識装置であって、
    口の開きの有無に基づき、第1のトリガー信号を生成するとともに、目の向きの変化の有無及び/又は顔の向きの変化の有無とに基づき、第2のトリガー信号を生成するトリガー生成部と、
    認識用の認識トリガー信号に応じて、音信号を取り込み、取り込まれた前記音信号の音声認識を開始する音声認識部と、
    を備え、
    前記トリガー生成部は、前記口の開きの有無が有りであった時点から前記第1のトリガー信号を生成し、前記目の向きの変化の有無及び/又は前記顔の向きの変化の有無の何れかが有りであった時点から前記第2のトリガー信号を生成し、
    前記音声認識部は、前記トリガー生成部が前記第2のトリガー信号を生成しないで前記第1のトリガー信号を生成する時、前記第1のトリガー信号をそのまま前記認識トリガー信号として利用し
    前記音声認識部は、前記トリガー生成部が前記第1のトリガー信号を生成するとともに前記第2のトリガー信号を生成する時、前記第2のトリガー信号をそのまま前記認識トリガー信号として利用し、
    前記音声認識部は、前記第1のトリガー信号又は前記第2のトリガー信号による前記音声認識の結果がエラーを示す時
    記口の開きの有無が有りであった時点から所定期間だけ遡って生成される前記第1のトリガー信号を前記認識トリガー信号として利用する、ことを特徴とする音声認識装置。
  2. 音声認識方法であって、
    口の開きの有無が有りであった時点で、第1のトリガー信号を生成すること、
    前記第1のトリガー信号を生成した後に、前記口の開きの有無が有りであった前記時点から遡る所定期間内に、目の向きの変化の有無及び/又は顔の向きの変化の有無の何れかが有りであった時点で第2のトリガー信号を生成すること、及び
    前記第2のトリガー信号が生成されない時には前記第1のトリガー信号に応じて音信号を取り込む一方、前記第2のトリガー信号が生成される時には前記第2のトリガー信号に応じて前記音信号を取り込み、取り込まれた前記音信号の音声認識を開始すること、
    を含み、
    前記第1のトリガー信号又は前記第2のトリガー信号による前記音声認識の結果がエラーを示す時に、前記口の開きの有無が有りであった時点から前記所定期間だけ遡った時点で、修正された第1のトリガー信号を生成し、
    前記修正された第1のトリガー信号が生成される時には前記修正された第1のトリガー信号に応じて前記音信号を取り込み、取り込まれた前記音信号の音声認識を再度開始することを特徴とする音声認識方法。

JP2014529572A 2012-08-10 2013-08-09 音声認識方法及び音声認識装置 Expired - Fee Related JP6100263B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012178701 2012-08-10
JP2012178701 2012-08-10
PCT/JP2013/071649 WO2014025012A1 (ja) 2012-08-10 2013-08-09 音声認識方法及び音声認識装置

Publications (2)

Publication Number Publication Date
JPWO2014025012A1 JPWO2014025012A1 (ja) 2016-07-25
JP6100263B2 true JP6100263B2 (ja) 2017-03-22

Family

ID=50068229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014529572A Expired - Fee Related JP6100263B2 (ja) 2012-08-10 2013-08-09 音声認識方法及び音声認識装置

Country Status (4)

Country Link
US (1) US9704484B2 (ja)
JP (1) JP6100263B2 (ja)
BR (1) BR112015002920A2 (ja)
WO (1) WO2014025012A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9747900B2 (en) 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
JP6634755B2 (ja) * 2015-09-18 2020-01-22 カシオ計算機株式会社 電子機器、システム、保存制御方法及びプログラム
JP6159492B1 (ja) * 2016-03-24 2017-07-05 楽天株式会社 情報処理システム、情報処理方法、及び情報処理プログラム
EP3674851A1 (en) * 2016-07-07 2020-07-01 David Franklin Gesture-based user interface
CA3004281A1 (en) 2016-10-31 2018-05-03 Rovi Guides, Inc. Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset
KR102591413B1 (ko) * 2016-11-16 2023-10-19 엘지전자 주식회사 이동단말기 및 그 제어방법
US11488033B2 (en) 2017-03-23 2022-11-01 ROVl GUIDES, INC. Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset
US10748542B2 (en) 2017-03-23 2020-08-18 Joyson Safety Systems Acquisition Llc System and method of correlating mouth images to input commands
US11521608B2 (en) * 2017-05-24 2022-12-06 Rovi Guides, Inc. Methods and systems for correcting, based on speech, input generated using automatic speech recognition
EP3466761B1 (en) * 2017-10-05 2020-09-09 Ningbo Geely Automobile Research & Development Co. Ltd. A display system and method for a vehicle
US10580410B2 (en) 2018-04-27 2020-03-03 Sorenson Ip Holdings, Llc Transcription of communications
CN110767228B (zh) * 2018-07-25 2022-06-03 杭州海康威视数字技术股份有限公司 一种声音获取方法、装置、设备及***
JP7055721B2 (ja) * 2018-08-27 2022-04-18 京セラ株式会社 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
US11482215B2 (en) 2019-03-27 2022-10-25 Samsung Electronics Co., Ltd. Multi-modal interaction with intelligent assistants in voice command devices
JP7242873B2 (ja) * 2019-09-05 2023-03-20 三菱電機株式会社 音声認識補助装置および音声認識補助方法
CN113345472B (zh) * 2021-05-08 2022-03-25 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6194095A (ja) * 1984-10-16 1986-05-12 株式会社リコー 音声認識装置
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JPH11352987A (ja) * 1998-06-04 1999-12-24 Toyota Motor Corp 音声認識装置
JP3157788B2 (ja) * 1998-11-12 2001-04-16 埼玉日本電気株式会社 携帯型情報端末
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
JP2002091466A (ja) * 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識装置
EP1215658A3 (en) * 2000-12-05 2002-08-14 Hewlett-Packard Company Visual activation of voice controlled apparatus
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US20030171932A1 (en) * 2002-03-07 2003-09-11 Biing-Hwang Juang Speech recognition
US7587318B2 (en) * 2002-09-12 2009-09-08 Broadcom Corporation Correlating video images of lip movements with audio signals to improve speech recognition
US7894637B2 (en) * 2004-05-21 2011-02-22 Asahi Kasei Corporation Device, program, and method for classifying behavior content of an object person
JP4754294B2 (ja) 2005-08-02 2011-08-24 株式会社村上開明堂 車両用ミラーの鏡面角度調整方法およびその装置
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
JP2009025579A (ja) * 2007-07-20 2009-02-05 Nissan Motor Co Ltd 音声認識装置および音声認識方法
EP3576388A1 (en) * 2008-11-10 2019-12-04 Google LLC Speech detection
US8428759B2 (en) * 2010-03-26 2013-04-23 Google Inc. Predictive pre-recording of audio for voice input
US8635066B2 (en) * 2010-04-14 2014-01-21 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
US9318129B2 (en) * 2011-07-18 2016-04-19 At&T Intellectual Property I, Lp System and method for enhancing speech activity detection using facial feature detection
KR20130032966A (ko) * 2011-09-26 2013-04-03 엘지전자 주식회사 사용자 인터페이스 방법 및 장치
JP2013080015A (ja) * 2011-09-30 2013-05-02 Toshiba Corp 音声認識装置および音声認識方法
US20150109191A1 (en) * 2012-02-16 2015-04-23 Google Inc. Speech Recognition
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
US9443510B2 (en) * 2012-07-09 2016-09-13 Lg Electronics Inc. Speech recognition apparatus and method

Also Published As

Publication number Publication date
WO2014025012A1 (ja) 2014-02-13
BR112015002920A2 (pt) 2017-08-08
US20150206535A1 (en) 2015-07-23
JPWO2014025012A1 (ja) 2016-07-25
US9704484B2 (en) 2017-07-11

Similar Documents

Publication Publication Date Title
JP6100263B2 (ja) 音声認識方法及び音声認識装置
EP3877975B1 (en) Electronic device and method for outputting a speech signal
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
US20190172448A1 (en) Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
CN113454708A (zh) 语言学风格匹配代理
US10147423B2 (en) Context-aware query recognition for electronic devices
JP3945356B2 (ja) 音声対話装置及びプログラム
JP7227395B2 (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体
CN110874137A (zh) 一种交互方法以及装置
CN108665907B (zh) 声音识别装置、声音识别方法、记录介质以及机器人
WO2020125038A1 (zh) 语音控制方法及装置
JP2018013549A (ja) 発話内容認識装置
JP3399674B2 (ja) 画面制御装置とその方法
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
JP5055486B2 (ja) 遠隔操作アンドロイドの発話動作制御システム
JP3199972B2 (ja) あいづち応答のある対話装置
JP2015172848A (ja) 読唇入力装置、読唇入力方法及び読唇入力プログラム
KR20170029390A (ko) 음성 명령 모드 진입 방법
JP6701483B2 (ja) アンドロイドロボットの制御システム、装置、プログラムおよび方法
US20180336191A1 (en) Method for multi-sense fusion using synchrony
JP2018180424A (ja) 音声認識装置および音声認識方法
JP2023048064A5 (ja)
JP2023169166A (ja) ロボット、応答方法及びプログラム
KR20210109722A (ko) 사용자의 발화 상태에 기초하여 제어 정보를 생성하는 디바이스 및 그 제어 방법
JP2018063324A (ja) インタラクション装置及びインタラクションの表出方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20160513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160607

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20160719

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160801

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170222

R150 Certificate of patent or registration of utility model

Ref document number: 6100263

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees