JP2009098217A

JP2009098217A - 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体

Info

Publication number: JP2009098217A
Application number: JP2007267128A
Authority: JP
Inventors: Kenji Takeda; 賢司武田; Yoshiko Kato; 淑子加藤; Ryo Oda; 亮小田; Keiichiro Koyama; 馨一郎小山; Koji Shinto; 浩司新戸; Kunihiko Mori; 邦彦森
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2007-10-12
Filing date: 2007-10-12
Publication date: 2009-05-07

Abstract

【課題】音声認識を開始させる際の、利用者の手間を軽減すること。
【解決手段】音声認識装置１００は、入力部１０１と、検知部１０２と、画像認識部１０３と、音声認識部１０４と、を備える。入力部１０１には、利用者からの音声が入力される。検知部１０２は、利用者の身体のうち発話時に動作する部位を検知する。画像認識部１０３は、検知部１０２による検知結果に基づいて、利用者の発話に関する行動状態を画像認識する。音声認識部１０４は、画像認識部１０３によって利用者の発話に関する行動状態が画像認識された後に、入力部１０１に入力される音声に対する音声認識を開始する。
【選択図】図１

Description

この発明は、音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体に関する。

近年、自動車などの車両には、目的地までの経路を探索して、当該目的地まで誘導するナビゲーション装置が搭載されている。このようなナビゲーション装置において、目的地の設定など各種設定や入力は、タッチパネルなどの操作入力によっておこなわれるものが知られている。また、このほかにも、音声認識機能を具備したものであれば、利用者からの発話により各種設定や入力がおこなわれるものが知られている。

音声認識機能を具備した技術としては、たとえば、音声の誤認識の低減を図るために、利用者からの語彙のジャンルの発話に基づき、語彙のジャンルを指定し、指定されたジャンルの中から音声認識をおこなうようにした技術が提案されている（たとえば、特許文献１参照。）。

特開平１０−９７２８１号公報

しかしながら、上述した特許文献１の技術は、音声認識を開始させるためには、利用者がトークスイッチをオンにする必要があり、利用者にとって手間がかかるといった問題が一例として挙げられる。

上述した課題を解決し、目的を達成するため、請求項１の発明にかかる音声認識装置は、利用者からの音声が入力される入力手段と、利用者の身体のうち発話時に動作する部位を検知する検知手段と、前記検知手段による検知結果に基づいて、利用者の発話に関する行動状態を画像認識する画像認識手段と、前記画像認識手段によって利用者の発話に関する行動状態が画像認識された後に、前記入力手段に入力される音声に対する音声認識を開始する音声認識手段と、を備えることを特徴とする。

また、請求項８に記載のナビゲーション装置は、上記音声認識装置を備えることを特徴とする。

また、請求項１０の発明にかかる音声認識方法は、利用者からの音声が入力される入力工程と、利用者の発話に関する行動状態を検知する検知工程と、前記検知工程による検知結果に基づいて、利用者の発話に関する行動状態を画像認識する画像認識工程と、前記画像認識工程によって利用者の発話に関する行動状態が画像認識された後に、前記入力工程にて入力される音声に対する音声認識を開始する音声認識工程と、を含むことを特徴とする。

また、請求項１１の発明にかかる音声認識プログラムは、請求項１０に記載の音声認識方法をコンピュータに実行させることを特徴とする。

また、請求項１２の発明にかかる記録媒体は、請求項１１に記載の音声認識プログラムをコンピュータに読み取り可能に記録したことを特徴とする。

以下に添付図面を参照して、この発明にかかる音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体の好適な実施の形態を詳細に説明する。

（実施の形態）
（音声認識装置の機能的構成）
この発明の実施の形態にかかる音声認識装置１００の機能的構成について説明する。図１は、本実施の形態にかかる音声認識装置１００の機能的構成の一例を示すブロック図である。図１において、音声認識装置１００は、入力部１０１と、検知部１０２と、画像認識部１０３と、音声認識部１０４と、出力部１０５と、電源制御部１０６と、記録部１０７とを備えている。

入力部１０１には、利用者からの音声が入力される。入力部１０１は、具体的には、マイクロフォンである。マイクロフォンには、たとえば、ハンズフリー・マイクロフォンが用いられ、ヘッドセットなどに小型のマイクを装着させたものや、車両などの移動体内に配置されるものなどが挙げられる。

検知部１０２は、利用者の身体のうち発話時に動作する部位を検知する。検知部１０２には、たとえば、画像を撮影するカメラからの撮像信号を検知する。発話時に変化する部位は、たとえば、目、眉、鼻、頬のほか、人によっては手なども挙げられるが、代表的には、口元が挙げられる。

画像認識部１０３は、検知部１０２による検知結果に基づいて、利用者の発話に関する行動状態を画像認識する。発話に関する行動状態は、具体的には、利用者が発話する状態であり、目、眉、鼻、頬の動いた状態であってもよいが、代表的には、口元の動いた状態が挙げられる。

音声認識部１０４は、画像認識部１０３によって利用者の発話に関する行動状態が画像認識された後に、入力部１０１に入力される音声に対する音声認識を開始する。音声認識部１０４は、代表的には、画像認識部１０３によって利用者の口元に動きがあると画像認識された後に、入力部１０１に入力される音声に対する音声認識を開始する。この音声認識部１０４は、入力部１０１に入力された音声を音声解析し、解析した音声データを出力部１０５に出力する。音声認識部１０４による音声解析は、具体的には、記録部１０７に、予め記録される言語データと、入力された音声の特徴とを照らし合わせ、尤もらしい言語を推定することによりおこなわれる。

出力部１０５は、音声認識部１０４によって音声解析された音声データを出力する。出力部１０５から出力された音声データにより、たとえば、ナビゲーション装置において各種プログラムが実行され、各種設定や処理がおこなわれる。

また、本実施の形態において、電源制御部１０６を備えてもよい。電源制御部１０６は、画像認識部１０３によって利用者の発話に関する行動状態が画像認識された場合に、入力部１０１の電源をオンにする。この場合、音声認識部１０４は、入力部１０１の電源がオンになってから、入力部１０１に入力される音声に対する音声認識処理を開始すればよい。本構成は、音声認識をおこなう必要があるときに、入力部１０１の電源をオンにすることにより、消費電力の低減を図ったものである。

また、本実施の形態において、画像認識部１０３は、検知部１０２による検知結果に基づいて、利用者の口元の動きが所定時間ないことを画像認識してもよい。この場合、音声認識部１０４は、画像認識部１０３によって利用者の口元の動きが所定時間ないと画像認識された場合に、入力部１０１に入力される音声に対する音声認識を停止する。本構成は、利用者の口元の動きが所定時間ない場合に、利用者に発話する様子がないものと想定できることに基づき、音声認識を停止させることにより、誤認識や、これに伴う誤作動を防止するようにしたものである。

また、このような、音声認識部１０４が入力部１０１に入力される音声に対する音声認識を停止する条件下で、電源制御部１０６により、入力部１０１の電源をオフにさせてもよい。本構成は、音声認識をおこなう必要のないときに、入力部１０１の電源をオフにさせることにより、消費電力の低減を図ったものである。

また、本実施の形態において、音声認識部１０４は、入力部１０１に所定時間以上音声が入力されていないと判断した場合に、入力部１０１に入力される音声に対する音声認識を停止してもよい。本構成は、所定時間以上音声が入力されない場合に、利用者に発話する様子がないものと想定できることに基づき、音声認識を停止させるようにしたものである。また、このような、音声認識部１０４が入力部１０１に入力される音声に対する音声認識を停止する条件下で、電源制御部１０６により入力部１０１の電源をオフにさせてもよい。

また、本実施の形態において、音声認識部１０４は、入力部１０１に非言語音が入力された場合に、入力部１０１に入力される音声に対する音声認識を停止してもよい。非言語音は、具体的には、咳払い、あくび、くしゃみなどの音声である。本構成は、入力部１０１に非言語音が入力された場合に、利用者からの発話ではないものと認識できることにより、音声認識を停止させるようにしたものである。また、このような、音声認識部１０４が入力部１０１に入力される音声に対する音声認識を停止する条件下で、電源制御部１０６により入力部１０１の電源をオフにさせてもよい。

また、本実施の形態において、音声認識部１０４は、入力部１０１に一定の周波数の音声が所定時間以上入力された場合に、入力部１０１に入力される音声に対する音声認識を停止してもよい。一定の周波数の音声は、具体的には、ガムを噛んでいる場合などの音声である。本構成は、入力部１０１に一定の周波数の音声が所定時間以上入力された場合に、利用者からの発話ではないものと認識できることにより、音声認識を停止させるようにしたものである。また、このような、音声認識部１０４が入力部１０１に入力される音声に対する音声認識を停止する条件下で、電源制御部１０６により入力部１０１の電源をオフにさせてもよい。

また、本実施の形態において、音声認識装置１００を、移動体に搭載されるナビゲーション装置に用いてもよい。この場合、検知部１０２は、移動体に搭乗する複数の利用者のうち、少なくとも一人の身体のうち発話時に動作する部位を検知すればよい。移動体に搭乗する複数の利用者のうち、少なくとも一人とは、ナビゲーション装置に対して発話する利用者であり、たとえば、運転者や助手席の搭乗者が挙げられるが、後部座席の搭乗者であってもよい。

また、画像認識部１０３は、検知部１０２による検知結果に基づいて、少なくとも一人の発話に関する行動状態を画像認識する。音声認識部１０４は、画像認識部１０３によって少なくとも一人の発話に関する行動状態が画像認識された後に、入力部１０１に入力される音声に対する音声認識を開始する。本構成は、移動体に搭乗する利用者のうち、少なくとも一人の身体のうち発話時に動作する部位を検知するようにし、搭乗者からのナビゲーション装置に対する音声入力を可能にしたものである。

（音声認識装置の音声認識処理手順）
つぎに、図２を用いて、音声認識装置１００の音声認識処理手順について説明する。図２は、本実施の形態にかかる音声認識装置１００の音声認識処理手順の一例を示すフローチャートである。

図２のフローチャートにおいて、音声認識装置１００は、検知部１０２により利用者の身体のうち発話時に動作する部位を検知する（ステップＳ２０１）。そして、検知部１０２による検知結果に基づいて、画像認識部１０３が利用者の発話に関する行動状態を画像認識するまで待機する（ステップＳ２０２：Ｎｏのループ）。

そして、利用者の発話に関する行動状態を画像認識すると（ステップＳ２０２：Ｙｅｓ）、電源制御部１０６が入力部１０１の電源をオンにする（ステップＳ２０３）。このあと、音声認識部１０４が入力部１０１に入力される音声に対する音声認識を開始し（ステップＳ２０４）、一連の処理を終了する。

以上説明したように、本実施の形態にかかる音声認識装置１００は、利用者の身体のうち発話時に動作する部位の検知結果に基づいて、利用者の発話に関する行動状態が画像認識された後に、入力される音声に対する音声認識を開始するようにした。これにより、利用者の操作によりトークスイッチをオンにすることなく、音声認識を開始させることができる。したがって、利用者の手間を軽減することが可能になる。

また、本実施の形態において、利用者の口元の検知結果に基づいて、利用者の口元の動きを画像認識するようにすれば、簡単に、利用者の発話に関する行動状態を画像認識することができる。

また、本実施の形態において、利用者の発話に関する行動状態が画像認識された場合に、入力部１０１の電源をオンにし、音声に対する音声認識処理を開始するようにすれば、音声認識をおこなう必要があるときにのみ、電源をオンにすることができ、消費電力を低減させることができる。

また、本実施の形態において、利用者の口元の動きが所定時間ない場合など、利用者に発話する様子がないものと想定できる場合や、非言語音など利用者からの発話ではないものと認識できる場合に、音声認識を停止させるようにすれば、不要な音声認識をおこなうことなく、音声認識における誤認識や、これに伴う誤作動を防止することができる。特に、このような、入力される音声に対する音声認識を停止する条件下で、入力部１０１の電源をオフにさせるようにすれば、消費電力を低減させることができる。

また、本実施の形態において、音声認識装置１００を備えたナビゲーション装置によれば、利用者がトークスイッチを操作する手間を省くことができることにより、利用者は、運転動作に早く就くことができるとともに、運転に専念することができる。

また、同乗者移動体に搭乗する複数の利用者のうち、少なくとも一人の身体のうち発話時に動作する部位を検知するようにすれば、たとえば、運転者以外の搭乗者からの発話を受け付けることも可能になる。

以下に、本発明の実施例について説明する。本実施例では、車両に搭載されるナビゲーション装置によって、本発明の音声認識装置１００を実施した場合の一例について説明する。

（ナビゲーション装置のハードウェア構成）
図３を用いて、本実施例にかかるナビゲーション装置３００のハードウェア構成について説明する。図３は、本実施例にかかるナビゲーション装置３００のハードウェア構成の一例を示すブロック図である。図３において、ナビゲーション装置３００は、車両などの移動体に搭載されており、ＣＰＵ３０１と、ＲＯＭ３０２と、ＲＡＭ３０３と、磁気ディスクドライブ３０４と、磁気ディスク３０５と、光ディスクドライブ３０６と、光ディスク３０７と、音声Ｉ／Ｆ（インターフェース）３０８と、マイク３０９と、スピーカ３１０と、入力デバイス３１１と、映像Ｉ／Ｆ３１２と、ディスプレイ３１３と、通信Ｉ／Ｆ３１４と、ＧＰＳユニット３１５と、各種センサ３１６と、カメラ３１７と、を備えている。また、各構成部３０１〜３１７はバス３２０によってそれぞれ接続されている。

ＣＰＵ３０１は、ナビゲーション装置３００の全体の制御を司る。ＲＯＭ３０２は、ブートプログラム、現在位置算出プログラム、経路探索プログラム、経路誘導プログラム、音声認識プログラムなどの各種プログラムを記録している。また、ＲＡＭ３０３は、ＣＰＵ３０１のワークエリアとして使用される。

現在位置算出プログラムは、たとえば、後述するＧＰＳユニット３１５および各種センサ３１６の出力情報に基づいて、車両の現在位置（ナビゲーション装置３００の現在位置）を算出させる。

経路探索プログラムは、後述する磁気ディスク３０５に記録されている地図データなどを利用して、出発地点から目的地点までの最適な経路を探索させる。ここで、最適な経路とは、目的地点までの最短（または最速）経路やユーザが指定した条件に最も合致する経路などである。また、目的地点のみならず、立ち寄り地点や休憩地点までの経路を探索してもよい。探索された誘導経路は、ＣＰＵ３０１を介して音声Ｉ／Ｆ３０８や映像Ｉ／Ｆ３１２へ出力される。

経路誘導プログラムは、経路探索プログラムを実行することによって探索された誘導経路情報、現在位置算出プログラムを実行することによって算出された車両の現在位置情報、磁気ディスク３０５から読み出された地図データに基づいて、リアルタイムな経路誘導情報を生成させる。生成された経路誘導情報は、ＣＰＵ３０１を介して音声Ｉ／Ｆ３０８や映像Ｉ／Ｆ３１２へ出力される。

音声認識プログラムは、カメラ３１７によって撮影された利用者の口元の撮像結果に基づいて、利用者の口元の動きが画像認識された後に、音声Ｉ／Ｆ３０８から入力される音声に対する音声認識を開始させる。

磁気ディスクドライブ３０４は、ＣＰＵ３０１の制御にしたがって磁気ディスク３０５に対するデータの読み取り／書き込みを制御する。磁気ディスク３０５は、磁気ディスクドライブ３０４の制御で書き込まれたデータを記録する。磁気ディスク３０５としては、たとえば、ＨＤ（ハードディスク）やＦＤ（フレキシブルディスク）を用いることができる。

光ディスクドライブ３０６は、ＣＰＵ３０１の制御にしたがって光ディスク３０７に対するデータの読み取り／書き込みを制御する。光ディスク３０７は、光ディスクドライブ３０６の制御にしたがってデータの読み出される着脱自在な記録媒体である。光ディスク３０７は、書き込み可能な記録媒体を利用することもできる。また、この着脱可能な記録媒体として、光ディスク３０７のほか、ＭＯ、メモリカードなどであってもよい。

音声Ｉ／Ｆ３０８は、音声入力用のマイク３０９および音声出力用のスピーカ３１０に接続される。マイク３０９は、車室内の音を収集するハンズフリー・マイクロフォンによって構成される。マイク３０９は、たとえば、車両のサンバイザー付近に設置され、その数は単数でも複数でもよい。マイク３０９に受音された音声は、音声Ｉ／Ｆ３０８内でＡ／Ｄ変換される。スピーカ３１０からは、音声が出力される。

入力デバイス３１１は、文字、数値、各種指示などの入力のための複数のキーを備えたリモコン、キーボード、マウス、タッチパネルなどが挙げられる。

映像Ｉ／Ｆ３１２は、ディスプレイ３１３と接続される。映像Ｉ／Ｆ３１２は、具体的には、たとえば、ディスプレイ３１３全体の制御をおこなうグラフィックコントローラと、即時表示可能な画像情報を一時的に記録するＶＲＡＭ（ＶｉｄｅｏＲＡＭ）などのバッファメモリと、グラフィックコントローラから出力される画像データに基づいて、ディスプレイ３１３を表示制御する制御ＩＣなどによって構成される。

ディスプレイ３１３には、アイコン、カーソル、メニュー、ウインドウ、あるいは文字や画像などの各種データが表示される。このディスプレイ３１３は、たとえば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどを採用することができる。

通信Ｉ／Ｆ３１４は、無線を介してネットワークに接続され、ナビゲーション装置３００とＣＰＵ３０１とのインターフェースとして機能する。通信Ｉ／Ｆ３１４は、さらに、無線を介してインターネットなどの通信網に接続され、この通信網とＣＰＵ３０１とのインターフェースとしても機能する。

通信網には、ＬＡＮ、ＷＡＮ、公衆回線網や携帯電話網などがある。具体的には、通信Ｉ／Ｆ３１４は、たとえば、ＦＭチューナー、ＶＩＣＳ（ＶｅｈｉｃｌｅＩｎｆｏｒｍａｔｉｏｎａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍ）／ビーコンレシーバ、無線ナビゲーション装置、およびそのほかのナビゲーション装置によって構成され、ＶＩＣＳセンターから配信される渋滞や交通規制などの道路交通情報を取得する。なお、ＶＩＣＳは登録商標である。

また、通信Ｉ／Ｆ３１４は、たとえば、ＤＳＲＣ（ＤｅｄｉｃａｔｅｄＳｈｏｒｔＲａｎｇｅＣｏｍｍｕｎｉｃａｔｉｏｎ）を用いた場合は、路側に設置された無線装置と双方向の無線通信をおこなう車載無線装置によって構成され、交通情報や地図情報などの各種情報を取得する。なお、ＤＳＲＣの具体例としては、ＥＴＣ（ノンストップ自動料金支払いシステム）が挙げられる。

ＧＰＳユニット３１５は、ＧＰＳ衛星からの電波を受信し、車両の現在位置を示す情報を出力する。ＧＰＳユニット３１５の出力情報は、後述する各種センサ３１６の出力値とともに、ＣＰＵ３０１による車両の現在位置の算出に際して利用される。現在位置を示す情報は、たとえば緯度・経度、高度などの、地図情報上の１点を特定する情報である。

各種センサ３１６は、車速センサや加速度センサ、角速度センサなどを含み、車両の位置や挙動を判断することが可能な情報を出力する。各種センサ３１６の出力値は、ＣＰＵ３０１による車両の現在位置の算出や、速度や方位の変化量の測定などに用いられる。

カメラ３１７は、たとえば、運転者の口元の映像を撮影する。なお、カメラ３１７は、助手席や後部座席の搭乗者の口元の映像を撮影してもよい。映像は、動画が用いられる。

図１に示した音声認識装置１００が備える入力部１０１と、検知部１０２と、画像認識部１０３と、音声認識部１０４と、出力部１０５と、電源制御部１０６とは、図３に示したナビゲーション装置３００におけるＲＯＭ３０２、ＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などに記録されたプログラムやデータを用いて、ＣＰＵ３０１が所定のプログラムを実行し、ナビゲーション装置３００における各部を制御することによって、その機能を実現する。

すなわち、本実施例のナビゲーション装置３００は、ナビゲーション装置３００における記録媒体としてのＲＯＭ３０２に記録されている音声認識プログラムを実行することにより、図１に示した音声認識装置１００が備える機能を、図２に示した音声認識処理手順で実行することができる。

（ナビゲーション装置の音声認識処理の一例）
つぎに、図４を用いて、本実施例にかかるナビゲーション装置３００がおこなう音声認識処理の一例について説明する。図４は、本実施例にかかるナビゲーション装置３００の音声認識処理の一例を示すフローチャートである。

図４のフローチャートにおいて、ナビゲーション装置３００は、カメラ３１７により利用者の口元を撮像する（ステップＳ４０１）。そして、利用者の口元の動きを画像認識するまで（ステップＳ４０２：Ｎｏのループ）、ステップＳ４０１に移行し、利用者の口元の動きを画像認識すると（ステップＳ４０２：Ｙｅｓ）、マイク３０９の電源をオンにする（ステップＳ４０３）。

このあと、マイク３０９に入力される音声に対する音声認識を開始する（ステップＳ４０４）。そして、所定時間以上、口元の動きがないか否かを判断する（ステップＳ４０５）。ステップＳ４０５において、所定時間内に口元の動きがあると判断した場合（ステップＳ４０５：Ｎｏ）、所定時間以上、音声の入力がないか否かを判断する（ステップＳ４０６）。

ステップＳ４０６において、所定時間内に音声の入力があると判断した場合（ステップＳ４０６：Ｎｏ）、入力された音声が非言語音か否かを判断する（ステップＳ４０７）。なお、非言語音は、咳払い、くしゃみ、あくびなどの音声である。ステップＳ４０７において、入力された音声が非言語音ではないと判断した場合（ステップＳ４０７：Ｎｏ）、一定の周波数の音声が所定時間以上入力されているか否かを判断する（ステップＳ４０８）。一定の周波数の音声が所定時間以上入力されている場合とは、たとえば、ガムを噛んでいる場合などである。

ステップＳ４０８において、一定の周波数の音声が所定時間以上入力されていないと判断した場合（ステップＳ４０８：Ｎｏ）、ステップＳ４０４に移行する。一方、ステップＳ４０８において、一定の周波数の音声が所定時間以上入力されていると判断した場合（ステップＳ４０８：Ｙｅｓ）、マイク３０９の電源をオフにし（ステップＳ４０９）、一連の処理を終了する。

また、ステップＳ４０５において、所定時間以上、口元の動きがないと判断した場合（ステップＳ４０５：Ｙｅｓ）、ステップＳ４０９に移行する。また、ステップＳ４０６において、所定時間以上、音声の入力がないと判断した場合（ステップＳ４０６：Ｙｅｓ）、ステップＳ４０９に移行する。また、ステップＳ４０７において、入力された音声が非言語音であると判断した場合（ステップＳ４０７：Ｙｅｓ）、ステップＳ４０９に移行する。

以上説明したように、本実施例にかかるナビゲーション装置３００は、利用者の口元の撮像結果に基づいて、利用者の口元の動きが画像認識された後に、マイクの電源をオンにし、入力される音声に対する音声認識を開始するようにした。これにより、利用者の操作によりトークスイッチをオンにすることなく、音声認識を開始させることができる。したがって、利用者の手間を軽減することが可能になる。

また、本実施例において、利用者の発話に関する行動状態が画像認識された場合に、マイクの電源をオンにし、音声に対する音声認識処理を開始するようにすれば、音声認識をおこなう必要があるときにのみ、電源をオンにすることができ、消費電力を低減させることができる。

また、本実施例において、利用者の口元の動きが所定時間ない場合など、利用者に発話する様子がないものと想定できる場合や、非言語音など利用者からの発話ではないものと認識できる場合に、音声認識を停止させるようにしたので、不要な音声認識をおこなうことなく、音声認識における誤認識や、これに伴う誤作動を防止することができる。特に、このような、入力される音声に対する音声認識を停止する条件下で、マイクの電源をオフにしたので、消費電力を低減させることができる。

また、本実施例にかかるナビゲーション装置３００によれば、利用者がトークスイッチを操作する手間を省くことができることにより、利用者は、運転動作に早く就くことができるとともに、運転に専念することができる。また、同乗者移動体に搭乗する複数の利用者のうち、助手席や後部座席に搭乗する少なくとも一人の口元を検知するようにすれば、運転者以外の搭乗者からの発話を受け付けることも可能になる。

以上説明したように、本発明の音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体は、利用者の身体のうち発話時に動作する部位の検知結果に基づいて、利用者の発話に関する行動状態が画像認識された後に、入力される音声に対する音声認識を開始するようにした。これにより、利用者の操作によりトークスイッチをオンにすることなく、音声認識を開始させることができる。したがって、利用者の手間を軽減することが可能になる。

なお、本実施例で説明した音声認識方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。

本実施の形態にかかる音声認識装置の機能的構成の一例を示すブロック図である。本実施の形態にかかる音声認識装置の音声認識処理手順の一例を示すフローチャートである。本実施例にかかるナビゲーション装置のハードウェア構成の一例を示すブロック図である。本実施例にかかるナビゲーション装置の音声認識処理の一例を示すフローチャートである。

符号の説明

１００音声認識装置
１０１入力部
１０２検知部
１０３画像認識部
１０４音声認識部
１０５出力部
１０６電源制御部
３００ナビゲーション装置

Claims

利用者からの音声が入力される入力手段と、
利用者の身体のうち発話時に動作する部位を検知する検知手段と、
前記検知手段による検知結果に基づいて、利用者の発話に関する行動状態を画像認識する画像認識手段と、
前記画像認識手段によって利用者の発話に関する行動状態が画像認識された後に、前記入力手段に入力される音声に対する音声認識処理を開始する音声認識手段と、
を備えることを特徴とする音声認識装置。
前記検知手段は、利用者の口元を検知し、
前記画像認識手段は、前記検知手段による検知結果に基づいて、利用者の口元に動きがあることを画像認識し、
前記音声認識手段は、前記画像認識手段によって利用者の口元に動きがあると画像認識された後に、前記入力手段に入力される音声に対する音声認識処理を開始することを特徴とする請求項１に記載の音声認識装置。
前記画像認識手段は、前記検知手段による検知結果に基づいて、利用者の口元の動きが所定時間ないことを画像認識し、
前記音声認識手段は、前記画像認識手段によって利用者の口元の動きが所定時間ないことを画像認識された場合に、前記入力手段に入力される音声に対する音声認識処理を停止することを特徴とする請求項１に記載の音声認識装置。
前記音声認識手段は、前記入力手段に所定時間以上音声が入力されていないと判断した場合に、前記入力手段に入力される音声に対する音声認識処理を停止することを特徴とする請求項１〜３のいずれか一つに記載の音声認識装置。
前記音声認識手段は、前記入力手段に非言語音が入力された場合に、前記入力手段に入力される音声に対する音声認識処理を停止することを特徴とする請求項１〜４のいずれか一つに記載の音声認識装置。
前記音声認識手段は、前記入力手段に一定の周波数の音声が所定時間以上入力された場合に、前記入力手段に入力される音声に対する音声認識処理を停止することを特徴とする請求項５に記載の音声認識装置。
前記画像認識手段によって利用者の発話に関する行動状態が画像認識された場合に、前記入力手段の電源をオンにする電源制御手段をさらに備え、
前記音声認識手段は、前記入力手段の電源がオンになってから、前記入力手段に入力される音声に対する音声認識処理を開始することを特徴とする請求項１〜６のいずれか一つに記載の音声認識装置。
前記電源制御手段は、前記音声認識手段が音声認識処理を停止した場合に、前記入力手段の電源をオフにすることを特徴とする請求項７に記載の音声認識装置。
請求項１〜８のいずれか一つに記載の音声認識装置を備え、移動体に搭載されるナビゲーション装置であって、
前記検知手段は、前記移動体に搭乗する複数の利用者のうち、少なくとも一人の身体のうち発話時に動作する部位を検知し、
前記画像認識手段は、前記検知手段による検知結果に基づいて、少なくとも一人の発話に関する行動状態を画像認識し、
前記音声認識手段は、前記画像認識手段によって少なくとも一人の発話に関する行動状態が画像認識された後に、前記入力手段に入力される音声に対する音声認識を開始することを特徴とするナビゲーション装置。
利用者からの音声が入力される入力工程と、
利用者の発話に関する行動状態を検知する検知工程と、
前記検知工程による検知結果に基づいて、利用者の発話に関する行動状態を画像認識する画像認識工程と、
前記画像認識工程によって利用者の発話に関する行動状態が画像認識された後に、前記入力工程にて入力される音声に対する音声認識処理を開始する音声認識工程と、
を含むことを特徴とする音声認識方法。
請求項１０に記載の音声認識方法をコンピュータに実行させることを特徴とする音声認識プログラム。
請求項１１に記載の音声認識プログラムを記録したことを特徴とするコンピュータに読み取り可能な記録媒体。