JP2013080015A

JP2013080015A - 音声認識装置および音声認識方法

Info

Publication number: JP2013080015A
Application number: JP2011218679A
Authority: JP
Inventors: Masanobu Nakamura; 匡伸中村; Akinori Kawamura; 聡典河村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-09-30
Filing date: 2011-09-30
Publication date: 2013-05-02
Also published as: US20130085757A1

Abstract

【課題】使用環境に適した開始トリガを選択する音声認識装置を実現することである。
【解決手段】本実施形態の音声認識装置は、複数のトリガ検出手段とトリガ選択手段と認
識手段とを備える。トリガ検出手段は、機器を操作するためのコマンド発声の認識開始を
指示する開始トリガを検出する。トリガ選択手段は、前記機器に設置された１又は複数の
センサからの信号に基づいて、前記複数のトリガ検出手段から前記機器の使用環境に適し
たトリガ検出手段を選択する。認識手段は、前記トリガ選択手段で動作を有効にされた前
記トリガ検出手段が、前記開始トリガを検出した場合、前記コマンド発声の認識処理を開
始する。
【選択図】図１

Description

本発明の実施形態は、音声認識装置および音声認識方法に関する。

近年、ユーザが発声したコマンド（コマンド発声）を認識して機器の操作を行う音声認
識装置が実用化されている。コマンド発声の認識を開始する指示（開始トリガ）として、
ユーザによる特定のキーワードの発声、ジェスチャ、拍手などが提案されている。これら
の開始トリガを用いた音声認識装置では、開始トリガを検出した後、コマンド発声の認識
処理を開始する。

しかしながら、上述した開始トリガには、操作対象となる機器の使用環境に応じた一長
一短があり、使用環境に適しない開始トリガを用いた場合、開始トリガの検出精度が低下
するという問題があった。例えば、機器の周囲が暗い場合、画像認識の精度が低下するた
め、ジェスチャによる開始トリガを正しく検出することができなかった。また、複数の開
始トリガを受理可能な音声認識装置において、使用環境に適した開始トリガをユーザが適
宜選択することは困難であった。

特開２０１０−２０４２６６号公報特開２０１０−１９３３５５号公報

発明が解決しようとする課題は、使用環境に適した開始トリガを選択する音声認識装置
を実現することである。

本実施形態の音声認識装置は、複数のトリガ検出手段とトリガ選択手段と認識手段とを
備える。トリガ検出手段は、機器を操作するためのコマンド発声の認識開始を指示する開
始トリガを検出する。トリガ選択手段は、前記機器に設置された１又は複数のセンサから
の信号に基づいて、前記複数のトリガ検出手段から前記機器の使用環境に適したトリガ検
出手段を選択する。認識手段は、前記トリガ選択手段で動作を有効にされた前記トリガ検
出手段が、前記開始トリガを検出した場合、前記コマンド発声の認識処理を開始する。

第１の実施形態の音声認識装置を示すブロック図。実施形態の音声認識装置のハードウェア構成を示す図。実施形態の拍手トリガ検出部のフローチャート。実施形態の拍手トリガ検出部で検出される拍手の一例を示す図。実施形態の音声認識装置のフローチャート。実施形態のトリガ選択部のフローチャート。変形例１のトリガ選択部のフローチャート。テレビ受像機のディスプレイに表示された画像の一例を示す図。テレビ受像機のディスプレイに表示された画像の一例を示す図。

以下、本発明の実施形態について図面を参照しながら説明する。

（第１の実施形態）
第１の実施形態の音声認識装置は、ユーザのコマンド発声を認識して機器の操作を行う
装置である。音声認識装置はテレビ受像機に内蔵されており、ユーザはコマンド発声によ
り、テレビ受像機のチャンネルの切り替え、番組表の検索などを指示することができる。

本実施形態の音声認識装置は、コマンド発声の認識を開始する指示（開始トリガ）に発
話ボタン押下などの操作を必要とせず、ジェスチャトリガ、ボイストリガ、拍手トリガの
３種類の開始トリガの中から、テレビ受像機の使用環境に適した開始トリガを選択する。
ここで、ジェスチャトリガはユーザによる特定のジェスチャを、ボイストリガはユーザに
よる特定のキーワード発声を、拍手トリガはユーザの拍手をそれぞれ開始トリガとするも
のである。

図１は、第１の実施形態にかかる音声認識装置１００を示すブロック図である。本実施
形態の音声認識装置１００は、マイク２０８で取得された音からユーザの特定のキーワー
ド発声による開始トリガを検出するボイストリガ検出部１０１と、カメラ２０９で撮像さ
れた映像からユーザの特定のジェスチャによる開始トリガを検出するジェスチャトリガ検
出部１０２と、マイク２０８で取得された音からユーザの拍手による開始トリガを検出す
る拍手トリガ検出部１０３と、テレビ受像機周囲の音量を測定する音量センサ２１０、テ
レビ受像機からユーザまでの距離を測定する距離センサ２１１、テレビ受像機周囲の光量
を測定する光量センサ２１２からの信号に基づいて、上記各トリガ検出部のうち、使用環
境に適した開始トリガを検出するトリガ検出部の動作を有効にするトリガ選択部１０４と
、トリガ選択部１０４で動作を有効にされた何れかのトリガ検出部が開始トリガを検出し
た場合、マイク２０８で取得されたコマンド発声の音声波形に対する認識処理を開始する
認識部１０５とを備える。

本実施形態の音声認識装置は、操作対象となる機器（テレビ受像機）に設置されたセン
サからの信号に基づいて、機器の使用環境に適したトリガ検出部の動作を有効にする。こ
れにより、開始トリガを高い精度で検出することができ、結果としてユーザのコマンド発
声の認識精度を向上させることができる。

（ハードウェア構成）
本実施形態の音声認識装置は、図２に示すような通常のコンピュータを利用したハード
ウェアで構成することができ、装置全体を制御するＣＰＵ（Central Processing Unit）
等の制御部２０１と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory
）やＲＡＭ（Random Access Memory）等の記憶部２０２と、各種データや各種プログラム
を記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記
憶部２０３と、ユーザの指示入力を受け付ける操作部２０４と、外部装置との通信を制御
する通信部２０５と、ユーザのコマンド発声を取得するマイク２０８と、ユーザのジェス
チャを撮像するカメラ２０９と、テレビ受像機周囲の音量を測定する音量センサ２１０と
、テレビ受像機からユーザまでの距離を測定する距離センサ２１１と、テレビ受像機周囲
の光量を測定する光量センサ２１２と、これらを接続するバス２０６とを備えている。

このようなハードウェア構成において、制御部２０１がＲＯＭ等の記憶部２０２や外部
記憶部２０３に記憶された各種プログラムを実行することにより以下の機能が実現される
。

（トリガ選択部）
トリガ選択部１０４は、音量センサ２１０、距離センサ２１１、光量センサ２１２から
の信号に基づいて、後述する各トリガ検出部のうちテレビ受像機の使用環境に適したトリ
ガ検出部を選択し、その動作を有効にする。

ここで、音量センサ２１０は、テレビ受像機周囲の音量を測定するセンサであり、マイ
ク２０８で取得した周囲雑音の音量やテレビ受像機自体がスピーカから再生する音の音量
を測定する。なお、音量センサ２１０で音を時系列のディジタル信号として取得し、トリ
ガ選択部１０４でその信号から音量（例えば、所定区間における信号のパワー）を計算す
るようにしてもよい。この場合、音量センサ２１０はマイク２０８で代替することができ
る。

距離センサ２１１は、テレビ受像機からユーザまでの距離を測定するセンサである。所
定の距離以内に人がいるかいないかを判別する人感センサで代替することもできる。

光量センサ２１２は、テレビ受像機周囲の光量を測定する光量センサである。

これらセンサからの信号に基づいた、トリガ選択部１０４における動作の詳細は後述す
る。

（ボイストリガ検出部）
ボイストリガ検出部１０１は、マイク２０８で取得された音からユーザのキーワード発
声による開始トリガを検出する。

ボイストリガを用いた音声認識では、特定のキーワード発声を開始トリガとして検出後
、それに続くユーザのコマンド発声を認識する（特開２００１−６７０９１号公報）。例
えば、「ハロー」をキーワードとして使用する場合、ユーザの「ハロー」というキーワー
ド発声を検出すると、「ピッ」という音を出力してユーザにコマンド発声を促す。そして
、それに続く「８チャンネル」などのユーザのコマンド発声を認識する。

ボイストリガ検出部１０１は、特定のキーワードを認識語彙とした認識処理を継続的に
行い、得られた信頼度スコアが閾値Ｌを超えた場合に、特定のキーワードが発声されたと
判別する。閾値Ｌは、特定のキーワードを発声した場合の信頼度スコアの分布と、それ以
外を発声した場合の信頼度スコアの分布を予め実験的に求めておき、これら２つの分布を
適切に区別する値に設定することができる。

ボイストリガ検出部１０１は、マイク２０８で取得された音を常時取り込んで認識処理
を行うが、認識語彙を特定のキーワードに絞ることができるため周囲雑音による誤認識の
危険性を減らすことができる。

ただし、周囲雑音やテレビ受像機の出力音声が非常に大きい場合やユーザの声が小さい
場合は、キーワード発声のＳＮＲが低下するため、キーワード発声による開始トリガの検
出精度が低下する。

（ジェスチャトリガ検出部）
ジェスチャトリガ検出部１０２は、カメラ２０９で撮像された映像からユーザの特定の
ジェスチャによる開始トリガを検出する。

ジェスチャトリガを用いた音声認識では、ユーザの特定のジェスチャを開始トリガとし
て検出後、それに続くユーザのコマンド発声を認識する（特開２０１０−１８２０１４号
公報）。例えば、「手を左右に振る」という動作をジェスチャとして使用する場合、画像
認識により「手を左右に振る」動作を検出すると、「ピッ」という音を出力してユーザに
コマンド発声を促す。そして、それに続く「８チャンネル」などのユーザのコマンド発声
を認識する。

ジェスチャトリガ検出部１０２は、画像認識を用いて開始トリガを検出するため、周囲
雑音の影響を受けないが、カメラで捉えることのできる範囲でユーザがジェスチャをする
必要がある等の制約がある。また、照明条件によりジェスチャの認識精度が変動する。さ
らに、高度な画像認識処理を常に動作させる必要があるため、他のトリガ検出部と比較し
て消費電力が大きくなる。

（拍手トリガ検出部）
拍手トリガ検出部１０３は、マイク２０８で取得された音からユーザの拍手による開始
トリガを検出する。ここで、本実施形態における拍手は、「パン、パン」という２回連続
した拍手とする。

拍手トリガを用いた音声認識では、２回連続した拍手を検出すると、「ピッ」という音
を出力してユーザにコマンド発声を促す。そして、それに続くユーザのコマンド発声を認
識する。

図３のフローチャートを利用して、拍手トリガ検出部１０３の処理を説明する。この処
理では、図４に示すように、所定間隔（閾値Ｔ_０）の間にパワーが閾値Ｓを２回超えるよ
うな音の波形を拍手として検出する。

ここで、閾値Ｔ_０は、２回連続した拍手を行った場合の拍手間の継続時間の分布を予め
求めておき、その分布が十分に包含される最小の値に設定することができる。また、閾値
Ｓは、拍手を行っていない時のパワーの分布と、拍手を行った時のパワーの分布を予め実
験的に求めておき、２つの分布を適切に区別するための最適値を用いて設定できる。

まず、図３のステップＳ１では、マイク２０８で音の取得が開始された時刻をt=0と設
定する。ここで、tは、取得された音の波形をフレーム長２５ｍｓ、間隔８ｍｓで分割し
た際のフレームの番号を表す。ステップＳ２では、ｔをｔ＋１に更新する。ステップＳ３
では、ｔ番目のフレームにおける波形のパワーを計算し、その値を予め設定した閾値Ｓと
比較する。パワーが閾値Ｓを超える場合はステップＳ４へ、超えない場合はステップＳ２
へ移行する。ステップＳ４では、Ｔ＝０に設定する。ステップＳ５では、ＴをＴ＋１に、
ｔをｔ＋Ｔにそれぞれ更新する。ステップＳ６では、Ｔが予め設定した閾値Ｔ_０より小さ
いか否かを判別する。ＴがＴ_０より小さい場合はステップＳ７へ、それ以外の場合はステ
ップＳ２へ移行する。ステップＳ７では、ｔ番目のフレームにおける波形のパワーを計算
し、その値を閾値Ｓと比較する。パワーが閾値Ｓを超える場合はステップＳ８へ移行し、
２回連続した拍手を検出したものと判別する。それ以外の場合はステップＳ２へ移行し、
処理を継続する。

本実施形態で用いる「パン、パン」という２回連続した拍手は他の周囲雑音と比較して
特別な特徴を持つため、拍手トリガ検出部１０３は、周囲雑音がある程度大きい場合でも
拍手による開始トリガを検出することができる。

（認識部）
認識部１０５は、トリガ選択部１０４で有効とされた何れかのトリガ検出部が開始トリ
ガを検出した場合、コマンド発声の認識処理を開始する。具体的には、認識部１０５は、
何れかのトリガ検出部が開始トリガを検出した後に、マイク２０８で取得された音の取り
込みを開始し、この音に含まれるコマンド発声に対する認識処理を実行する。

この他にも、マイク２０８で取得された音の取り込みとそれに対する認識処理を継続し
て行い、開始トリガ検出後に生成された認識結果のみを認識部１０５が出力するようにし
てもよい。

（フローチャート）
図５のフローチャートを利用して、本実施形態にかかる音声認識装置の処理を説明する
。

ステップＳ１１では、トリガ選択部１０４は、音量センサ２１０、距離センサ２１１、
光量センサ２１２からの信号に基づいて、ボイストリガ検出部１０１、ジェスチャトリガ
検出部１０２、拍手トリガ検出部１０３の中からテレビ受像機の使用環境に適したトリガ
検出部の動作を有効にする。

図６のフローチャートを利用して、ステップＳ１１の詳細を説明する。まず、ステップ
Ｓ２１では、トリガ選択部１０４は、初期化のため全てのトリガ検出部（ボイストリガ検
出部１０１、ジェスチャトリガ検出部１０２、拍手トリガ検出部１０３）の動作を無効に
する。

ステップＳ２２では、トリガ選択部１０４は、距離センサ２１１で測定されたテレビ受
像機からユーザまでの距離が予め設定された閾値Ｄを超えるか否かを判別する。閾値Ｄを
超える場合は、ユーザまでの距離が遠くジェスチャトリガ検出部１０２おけるジェスチャ
の認識精度が低下する可能性がある。したがって、この場合は、ジェスチャトリガ検出部
１０２はこの使用環境に適していないものとしてステップＳ２５に移行する。ユーザまで
の距離が閾値Ｄを超えない場合は、ステップＳ２３に移行する。

なお、閾値Ｄは、予め実験的に求めたユーザまでの距離とジェスチャの検出精度との関
係に基づいて設定することができる。

ステップＳ２３では、光量センサで測定されたテレビ受像機周囲の光量が予め設定され
た閾値Ｌを超えるか否かを判別する。閾値Ｌを超えない場合は、周囲が暗いためジェスチ
ャトリガ検出部１０２おけるジェスチャの認識精度が低下する可能性がある。したがって
、この場合は、ジェスチャトリガ検出部１０２はこの使用環境に適していないものとして
ステップＳ２５に移行する。

一方、光量が閾値Ｌを超える場合はステップＳ２４に移行し、ユーザまでの距離および
光量の両条件がジェスチャトリガ検出部１０２おけるジェスチャの画像認識に適している
ものとして、ジェスチャトリガ検出部１０２の動作を有効にする。

なお、閾値Ｌは、予め実験的に求めた光量とジェスチャの検出精度との関係に基づいて
設定することができる。

ステップＳ２５では、トリガ選択部１０４は、音量センサ２１０で測定されたテレビ受
像機周囲の音量が予め設定された閾値Ｎを超えるか否かを判別する。閾値Ｎを超える場合
は、周囲の雑音が大きすぎるためボイストリガ検出部１０１におけるキーワード発声の検
出精度が低下する可能性がある。したがって、この場合は、ボイストリガ検出部１０１は
この使用環境に適していないものとしてステップＳ２７に移行する。

一方、音量が閾値Ｎを超えない場合はステップＳ２６に移行し、周囲の雑音が小さくボ
イストリガ検出部１０１におけるキーワード発声の認識に適しているものとして、ボイス
トリガ検出部１０１の動作を有効にする。

なお、閾値Ｎは、予め実験的に求めた音量とキーワード発声の検出精度との関係に基づ
いて設定することができる。

最後に、ステップ２７では、拍手トリガ検出部１０３の動作を有効にする。本実施形態
では、拍手トリガ検出部１０３の動作を常に有効にする。これは、拍手トリガ検出部１０
３は、周囲の雑音が大きくても、ユーザまでの距離が遠くても比較的高い精度で開始トリ
ガを検出できるからである。

図５のフローチャートに戻って説明を続ける。ステップＳ１２では、音声認識装置は、
ステップＳ１１で有効とされたトリガ検出部の動作を開始する。

ステップＳ１３では、ステップＳ１２で動作を開始した何れかのトリガ検出部が開始ト
リガを検出したか否かを判別する。開始トリガを検出した場合は、ステップＳ１４へ移行
する。検出していない場合は、何れかのトリガ検出部が開始トリガを検出するまで待つ。

ステップＳ１４では、開始トリガを検出した後、ユーザのコマンド発声の認識処理を開
始する。

（効果）
このように、本実施形態の音声認識装置は、操作対象となる機器に設置されたセンサか
らの信号に基づいて、機器の使用環境に適したトリガ検出部の動作を有効にする。これに
より、開始トリガを高い精度で検出することができ、結果としてユーザのコマンド発声の
認識精度を向上させることができる。

（変形例１）
本実施形態のトリガ選択部１０４は、音量センサ２１０、距離センサ２１１、光量セン
サ２１２の計３つのセンサからの信号に基づいて、各トリガ検出部における動作の有効・
無効を選択したが、何れか１つのセンサを用いてトリガ検出部の動作を選択することも可
能である。例えば、音量センサ２１０があれば、図６のステップＳ２５と同様な処理を用
いて、ボイストリガ検出部１０１の動作の有効・無効を選択することができる。

また、距離センサ２１１からの信号を基に、ボイストリガ検出部１０１の動作の有効・
無効を選択することもできる。この場合、距離センサ２１１で測定された距離が閾値Ｄ以
下になったときに、ボイストリガ検出部１０１の動作を有効にする。これは、距離が小さ
い時は、テレビ受像機で受信されるユーザの音声が大きくなるため、ボイストリガ検出部
１０１での開始トリガの検出精度が高くなるからである。

また、トリガ選択部１０４が、センサ以外からの制御信号を用いて、各トリガ検出部に
おける動作の有効・無効を選択することもできる。センサ以外からの制御信号としては、
ユーザが指示した消費電力に関するモード（電力モード）がある。例えば、ユーザが、消
費電力が少ないモード（省電力モード）を選択した場合、トリガ選択部１０４は、常時動
作時に消費電力が大きくなるジェスチャトリガ検出部１０２の動作を無効にすることがで
きる。

図７は、電力モードを利用する場合のトリガ選択部１０４の動作を示すフローチャート
である。このフローチャートのステップＳ３１では、トリガ選択部１０４は、ユーザが指
示した電力モードを判別する。電力モードが通常のモード（通常モード）である場合は、
ステップＳ２２に移行しジェスチャトリガ検出部１０２を含めた各トリガ検出部における
動作の有効・無効を選択する。一方、電力モードが省電力モードである場合は、ステップ
Ｓ２５に移行し、消費電力が高いジェスチャトリガ検出部１０２の動作が有効にならない
ようにする。

このように、本変形例にかかる音声認識装置は、センサでは取得できない制御信号に基
づいて、トリガ検出部の動作の有効・無効を選択することができる。

（変形例２）
本実施形態の音声認識装置は、トリガ選択部１０４における各トリガ検出部の動作の有
効・無効の選択結果を、提示部（図示なし）を介してユーザに提示することができる。提
示部としては、テレビ受像機のディスプレイなどが考えられる。

図８および図９は、テレビ受像機のディスプレイ４００に表示された画像を表している
。例えば、図８のマーク４０１はボイストリガ検出部１０１、マーク４０２は拍手トリガ
検出部１０３、マーク４０３はジェスチャトリガ検出部１０２の動作がそれぞれ有効であ
ることを表している。すなわち、図８の状態では、ユーザは全ての開始トリガを用いてコ
マンド発声の認識開始を指示することができる。

一方、図９では、マーク４０１およびマーク４０２のみが表示されており、マーク４０
３は表示されていない。すなわち、図９の状態では、ユーザはジェスチャを開始トリガと
して選択できないことを意味している。

このように、有効に動作しているトリガ検出部の情報をユーザに提示することにより、
ユーザは使用する開始トリガを迷うことなく選択することができる。

なお、ユーザへの提示方法は上述した方法に限ったものではなく、テレビ受像機にトリ
ガ検出部と同数のＬＥＤを取りつけ、有効に動作しているトリガ検出部に対応したＬＥＤ
を点灯させるようにしてもよい。

（変形例３）
本実施形態におけるコマンド発声は、「８チャンネル」などのような孤立単語の発声だ
けでなく、「スポーツ番組を検索して」といった自然文の発声も含む。

また、音声認識装置がクラウドサーバ上に設置され、テレビ受像機がネットワークを介
して音声認識装置と接続している場合でも、音声認識装置は本実施形態と同様な処理を実
行することができる。

また、本実施形態におけるトリガ検出部は、ボイストリガ検出部１０１、ジェスチャト
リガ検出部１０２、拍手トリガ検出部１０３の３種類であるが、トリガ検出部はこれに限
られない。他の種類の開始トリガを検出するトリガ検出部であってもよい。

また、本実施形態では、使用環境に適したトリガ検出部を選択しこのトリガ検出手段の
動作を有効にしていたが、複数のトリガ検出部を常時動作させておき、トリガ選択部１０
４で選択されたトリガ検出部が開始トリガを検出した場合にコマンド発声の認識処理を開
始するようにしてよい。

以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理に
より実現可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したも
のであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その
他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の
省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や
要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる
。

１０１ボイストリガ検出部
１０２ジェスチャトリガ検出部
１０３拍手トリガ検出部
１０４トリガ選択部
１０５認識部
２０１制御部
２０２記憶部
２０３外部記憶部
２０４操作部
２０５通信部
２０６バス
２０８マイク
２０９カメラ
２１０音量センサ
２１１距離センサ
２１２光量センサ
４００テレビ受像機のディスプレイ
４０１ボイストリガが有効であることを示すマーク
４０２拍手トリガが有効であることを示すマーク
４０３ジェスチャトリガが有効であることを示すマーク

Claims

機器を操作するためのコマンド発声の認識開始を指示する開始トリガを検出する複数のト
リガ検出手段と、
前記機器に設置された１又は複数のセンサからの信号に基づいて、前記複数のトリガ検出
手段から前記機器の使用環境に適したトリガ検出手段を選択するトリガ選択手段と、
前記トリガ選択手段で選択された前記トリガ検出手段が、前記開始トリガを検出した場合
、前記コマンド発声の認識処理を開始する認識手段と、
を備える音声認識装置。
前記１又は複数のセンサのうちの少なくとも１つが、前記機器の周囲の音量を測定する音
量センサであり、前記複数のトリガ検出手段のうちの少なくとも１つが、ユーザの特定の
キーワード発声による開始トリガを検出するボイストリガ検出手段である場合において、
前記トリガ選択手段が、前記音量が予め決められた閾値以下となる場合に、前記ボイスト
リガ検出手段を選択する請求項１記載の音声認識装置。
前記１又は複数のセンサのうちの少なくとも１つが、前記機器の周囲の光量を測定する光
量センサであり、前記複数のトリガ検出手段のうちの少なくとも１つが、ユーザの特定の
ジェスチャによる開始トリガを検出するジェスチャトリガ検出手段である場合において、
前記トリガ選択手段が、前記光量が予め決められた閾値を超える場合に、前記ジェスチャ
トリガ検出手段を選択する請求項１記載の音声認識装置。
前記１又は複数のセンサのうちの少なくとも１つが、前記機器からユーザまでの距離を測
定する距離センサであり、前記複数のトリガ検出手段のうちの少なくとも１つが、ユーザ
の特定のジェスチャによる開始トリガを検出するジェスチャトリガ検出手段である場合に
おいて、
前記トリガ選択手段が、前記距離が予め決められた閾値以下となる場合に、前記ジェスチ
ャトリガ検出手段を選択する請求項１記載の音声認識装置。
前記１又は複数のセンサのうちの少なくとも１つが、前記機器からユーザまでの距離を測
定する距離センサであり、前記複数のトリガ検出手段のうちの少なくとも１つが、ユーザ
の特定のキーワード発声による開始トリガを検出するボイストリガ検出手段である場合に
おいて、
前記トリガ選択手段が、前記距離が予め決められた閾値以下となる場合に、前記ボイスト
リガ検出手段を選択する請求項１記載の音声認識装置。
前記トリガ選択手段が、前記センサからの信号以外の制御信号に基づいて、前記使用環境
に適した前記トリガ検出手段を選択する請求項１記載の音声認識装置。
コマンド発声での操作対象となる機器に設置された１又は複数のセンサからの信号に基づ
いて、前記コマンド発声の認識開始を指示する開始トリガを検出する複数のトリガ検出手
段から、前記機器の使用環境に適したトリガ検出手段を選択するトリガ選択ステップと、
前記トリガ選択ステップで選択された前記トリガ検出手段が、前記開始トリガを検出した
場合、前記コマンド発声の認識処理を開始する認識ステップと、
を備える音声認識方法。