JP2008058409A - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置 Download PDF

Info

Publication number
JP2008058409A
JP2008058409A JP2006232488A JP2006232488A JP2008058409A JP 2008058409 A JP2008058409 A JP 2008058409A JP 2006232488 A JP2006232488 A JP 2006232488A JP 2006232488 A JP2006232488 A JP 2006232488A JP 2008058409 A JP2008058409 A JP 2008058409A
Authority
JP
Japan
Prior art keywords
recognition
speech
speaker
line
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2006232488A
Other languages
English (en)
Inventor
Takayuki Miyajima
孝幸 宮島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisin AW Co Ltd
Original Assignee
Aisin AW Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisin AW Co Ltd filed Critical Aisin AW Co Ltd
Priority to JP2006232488A priority Critical patent/JP2008058409A/ja
Priority to CNA2007101291998A priority patent/CN101136198A/zh
Priority to EP07114006A priority patent/EP1895510A1/en
Priority to US11/889,047 priority patent/US20080059175A1/en
Publication of JP2008058409A publication Critical patent/JP2008058409A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】認識精度を向上することができる音声認識方法及び音声認識装置を提供する。
【解決手段】ドライバーが発した音声を認識するナビゲーションシステム1の制御装置2において、ドライバーの周囲にある装置に関する対象装置が予め関連付けられた認識候補を記憶する認識辞書16と、ドライバーの視線の方向を検出する画像プロセッサ9と、ドライバーの視線方向にある装置を判断する制御部3と、認識辞書16の各認識候補の中から、ドライバーの視線方向と対応する対象装置が関連付けられた各認識候補を認識対象範囲として設定し、その認識対象範囲の中から、マイク23が入力した音声データと類似性の高い認識候補を選択する音声認識プロセッサ11とを備えた。
【選択図】図1

Description

本発明は、音声認識方法及び音声認識装置に関する。
従来より、安全運転を支援するために、音声認識機能を搭載したナビゲーションシステムが自動車に実装されている。このシステムでは、マイクから入力した音声信号に対して認識処理を行って文字列データに変換し、その文字列データをエアコン等の各装置を制御するコマンドとしていた。しかし、通常の音声認識でも、高い認識率の達成が困難であるにも関わらず、車室内では、オーディオ音声、車両の走行中のノイズ等の背景音が多く、音声認識の精度が低くなることが問題となっていた。これに対し、特許文献1では、ドライバーが地名を発話した場合に、音声認識により検出された認識候補と、地図データの「県名」、「市町村名」等の地名データとを照合するシステムが記載されている。そして、地名データと認識候補とが合致した場合、その認識候補を地名を指定するコマンドとして認識する。
特開2005−114964号公報
上記したシステムでは、地名の認識精度が向上するものの、例えば、エアコンに対して「温度上昇」等の命令が発話された場合等、他の装置を操作する音声コマンドの認識精度を向上することはできない。
本発明は、上記問題点を鑑みてなされたものであり、その目的は、認識精度を向上することができる音声認識方法及び音声認識装置を提供することにある。
上記問題点を解決するために、請求項1に記載の発明は、発話者が発した音声を認識する音声認識方法において、前記発話者の視線の方向を検出し、その視線の方向にある視認対象物を推測するとともに、前記視認対象物と関連付けられた各認識候補の中から、前記発話者の視線の方向にある前記視認対象物に対応する前記各認識候補を認識対象範囲として設定し、前記認識対象範囲に含まれる前記各認識候補の中から、発話者が発した音声と類似性の高い前記認識候補を選択することを要旨とする。
請求項2に記載の発明は、発話者が発した音声を認識する音声認識装置において、前記発話者の周囲にある視認対象物に関連付けられた認識候補を記憶する認識辞書と、前記発話者の視線の方向を検出する視線検出手段と、前記視線の方向に基づき、前記発話者の視線方向にある前記視認対象物を判断する判断手段と、前記認識辞書の前記各認識候補の中から、前記発話者の視線方向にある前記視認対象物と関連付けられた前記各認識候補を、認識対象範囲として設定する範囲設定手段と、前記範囲設定手段が設定した前記認識対象範囲の中から、音声入力手段が入力した音声データと類似性の高い前記認識候補を選択する認識手段とを備えたことを要旨とする。
請求項3に記載の発明は、請求項2に記載の音声認識装置において、前記視認対象物は、車両に搭載された制御対象装置であって、前記認識手段により選択された前記認識候補に基づき、前記制御対象装置に制御信号を出力する車両側制御手段をさらに備えたことを要旨とする。
請求項4に記載の発明は、請求項2又は3に記載の音声認識装置において、前記視線検出手段は、前記発話者を正面から撮影する撮影手段から画像データを入力し、前記画像データを画像処理して、前記発話者の視線方向を算出することを要旨とする。
請求項5に記載の発明は、発話者が発した音声を認識する音声認識装置において、前記発話者の周囲にある視認対象物に関連付けられた認識候補を記憶する認識辞書と、前記発話者の視線の方向を検出する視線検出手段と、前記視線の方向に基づき、前記発話者の視線方向にある前記視認対象物を判断する判断手段と、前記発話者の視線方向にある前記視認対象物の優先度を高く設定する優先度設定手段と、前記認識辞書の前記認識候補の中から、前記優先度設定手段の優先度に基づき、音声入力手段から入力した音声データと類似性の高い前記認識候補を選択する認識手段とを備えたことを要旨とする。
請求項6に記載の発明は、発話者が発した音声を認識する音声認識装置において、各カテゴリに関連付けられた認識候補を記憶する認識辞書と、発話者の動作を検出する動作検出手段と、前記動作検出手段が発話者の動作を検出した際に、前記発話者の動作と関連付けられた前記カテゴリを選択し、その視認対象物が関連付けられた前記各認識候補を認識対象範囲として設定する範囲設定手段と、前記範囲設定手段が設定した前記認識対象範囲の中から、音声入力手段が入力した音声データと類似性の高い前記認識候補を選択する認識手段とを備えたことを要旨とする。
請求項1に記載の発明によれば、発話者が見ていると推測される視認対象物を検出し、その視認対象物に対応する認識候補を認識対象範囲とする。このため、膨大な数の認識候補中から、音声と合致する可能性が高い認識候補を絞り込むことができるので、認識精度が向上する。
請求項2に記載の発明によれば、音声認識装置は、発話者が見ていると推測される視認対象物を検出し、その視認対象物に対応する認識候補を認識対象範囲とする。このため、膨大な数の認識候補中から、音声と合致する可能性が高い認識候補を絞り込むことができるので、認識精度が向上する。
請求項3に記載の音声認識装置では、視認対象物は、車両に搭載された制御対象装置であって、その音声認識結果に応じてその制御対象装置が制御される。このため、車両のように制御対象装置が複数ある場合に特に効果を発揮できる。
請求項4に記載の発明によれば、発話者の視線の方向は、画像データを画像処理して算出される。このため、発話者の視線方向を比較的精度よく検出することができる。
請求項5に記載の発明によれば、認識辞書内の膨大な数の認識候補のうち、発話者が見ていると推測される視認対象物に対応する認識候補の優先度が高くなる。このため、発話者の音声と合致する確率の高い認識候補を最終的に選ぶことができるので、音声認識の精度が向上する。
請求項6に記載の発明によれば、発話者の動作とカテゴリとを予め設定し、その動作に対応するカテゴリが関連付けられた認識候補を認識対象範囲とする。このため、膨大な数の認識候補中から、音声と合致する可能性が高い認識候補を絞り込むことができるので、認識精度が向上する。
(第1実施形態)
以下、本発明の運転支援装置を具体化した第1の実施形態を図1〜図7に従って説明す
る。図1は、自動車(車両)に搭載されたナビゲーションシステム1の構成を説明するブロック図である。
図1に示すように、視認対象物及び制御対象装置としてのナビゲーションシステム1は、音声認識処理等を行う音声認識装置としての制御装置2と、各種画面を表示する視認対象物、制御対象装置としてのディスプレイ20、撮影手段としてのカメラ22、音声入力手段としてのマイク23及びスピーカ24を備えている。
制御装置2は、視線検出手段、判断手段及び車両側制御手段としての制御部3と、制御部3の演算結果を一時記憶するRAM4と、経路探索プログラム、音声認識プログラム等、各種プログラムを記憶するROM5と、GPS受信部6とを備えている。制御部3は、LSI等からなり、GPS受信部6から入力した位置検出信号に基づいて、車両の位置を示す絶対座標を算出する。さらに、制御部3は、制御装置2の車両側I/F部7を介して、車速センサ30及びジャイロセンサ31から、車速パルス及び方位検出信号を入力して、自律航法により基準位置からの相対位置を算出する。そして、GPS受信部6に基づく絶対座標と合わせて、自車位置を逐次特定する。
さらに、制御部3は、車両側I/F部7を介して、エアコン制御ユニット32との間で各種信号を送受信する。エアコン制御ユニット32は、ドライバーの手動操作、又は制御装置2による音声認識結果に基づき、車両に設けられたエアコン38(図4参照)の制御を行い、温度調節、風量調節、モード変更等を行う。
また、外部入力I/F部13は、ディスプレイ20に隣接されたスイッチ21等が操作されると、その操作に応じた信号を、制御部3又は音声出力制御部18に出力する。例えば、オーディオを起動するスイッチ21が操作されると、音声出力制御部18は、図示しない楽曲データベース又はナビゲーションシステム1に挿入された外部記憶媒体から楽曲ファイルを読み出したり、ラジオチューナ(図示略)を制御して、音声をスピーカ24から出力する。また、音声出力制御部18は、音量調節用のスイッチ21aが入力操作されると、入力操作に応じて、スピーカ24から出力される音量を調整する。
また、図1に示すように、制御装置2は、地理データ記憶部8、視線検出手段としての画像プロセッサ9を備えている。地理データ記憶部8は、内蔵されたハードディスク、又は光ディスク等の外部記憶媒体であって、目的地までの経路を探索するための各経路データ8aと、ディスプレイ20に地図画面20aを出力するための地図描画データ8bとが格納されている。
また、画像プロセッサ9は、映像信号入力部10を介して、車室内に設けられたカメラ22から画像データを入力して、発話者としてのドライバーの視線方向を検出する。このカメラ22は、ドライバーの目を撮影可能な位置に設けられている。本実施形態では、図2に示すように、コンビネーションメータやステアリングホイール36周辺に配置されている。カメラ22は、運転席35に着座したドライバーDの頭部を中心に撮影し、映像信号を映像信号入力部10に出力する。映像信号入力部10は映像信号をA/D変換して画像データを生成し、画像データを画像プロセッサ9に出力する。画像プロセッサ9は、画像データを公知の方法で画像処理して、ドライバーDの目Eの中での瞳Bの位置を検出する(図3(a)参照)。尚、カメラ22自体が映像信号をA/D変換してもよい。
そして、画像プロセッサ9は、画像データを所定間隔で入力し、目Eの中での瞳Bの位置の変化をモニタする。ドライバーDが、視線を前方から、ドライバーからみて右下方へ視線を移した場合、画像プロセッサ9は、画像データを解析して、瞳Bの位置を新たに算出する。瞳Bの位置を算出すると、画像プロセッサ9は、解析結果を制御部3に出力する
。制御部3は、解析結果に基づき、ドライバーDの視線方向を判断する。
図3(a)〜(d)は、瞳Bの位置を説明する図であって、片側の目をそれぞれ示している。例えば、図3(b)に示すように、瞳Bの位置がドライバーDからみて右下であることを示す解析結果が出力されると、制御部3は、ドライバーDの視線方向が右下方であると判断する。また、図3(c)に示すように、瞳Bの位置がドライバーDからみて左であることを示す解析結果が出力されると、制御部3は、ドライバーDの視線方向が左側方であると判断する。さらに、図3(d)に示すように、瞳Bの位置がドライバーDからみて左下であることを示す解析結果が出力されると、制御部3は、ドライバーDの視線方向が左下方であると判断する。
また、制御部3は、検出した視線方向と、ROM5に予め記憶された対象装置選択テーブル14(図1及び図5参照)とに基づき、ドライバーDが見た装置を推測する。図5に示すように、対象装置選択テーブル14は、ドライバーDの視線方向14aと、カテゴリとしての対象装置14bとを紐付けている。例えば、視線方向14aが「右下方」であるとき、図4に示すように、ドライバーDからみて、右下方にあるオーディオスイッチ39が視認対象となり、「オーディオ」が対象装置14bとなる。また、視線方向14aが「左側方」であるとき、ドライバーDは、左側方にあるナビゲーションシステム1のディスプレイ20を見ている可能性が高いので、対象装置14bは「ナビ」となる。また、視線方向14aが「左下方」であるとき、ドライバーDは、視認対象物、搭載機器としてのエアコン38の操作パネル37を見ている可能性が高いので、対象装置14bとして「エアコン」を紐付けている。尚、この対象装置選択テーブル14の視線方向14aは、「右下方」、「左側方」等の方向を示すデータでなく、瞳Bの座標を示すデータでも良い。このように推測された対象装置14bは、ドライバーDの音声認識に用いられる。
音声認識処理は、主に範囲設定手段、認識手段としての音声認識プロセッサ11(図1参照)によって、音声認識データベース(以下、音声認識DB12という)を用いて行われる。音声認識プロセッサ11は、車室内に設けられたマイク23(図1参照)から音声信号(音声データ)を入力するインターフェース、音声認識用LSI等を内蔵している。マイク23は、運転席35周辺に設けられ、運転者が発話した音声を入力する。
音声認識DB12には、音響モデル15、認識辞書16、言語モデル17が記憶されている。音響モデル15は、音声の特徴量と音素とを関連付けたデータである。認識辞書16は、音素列と対応付けられた単語を数万〜数十万語格納している。言語モデル17は、文頭・文末に位置する確率や、連続する単語間の接続確率や、係り受け関係をモデル化したデータである。図6は、本実施形態の認識辞書16の構成の一部を示した図である。図6に示すように、認識辞書16に記憶された認識候補16aは、対象装置14bによって分類されている。対象装置14bは、対象装置選択テーブル14の視線方向14aと対応付けられたデータである。認識候補16aは、各対象装置14bの操作に関する単語である。
まず、音声認識プロセッサ11は、入力した音声信号の波形の特徴を算出する。そして、この特徴量と音響モデル15とを照合して、「a(あ)」、「tsu(つ)」等の、特徴量と対応する音素をそれぞれ選択する。このとき、ドライバーDが「あつい」と発話したとしても、個人の発話特徴により「atui」という音素列だけでなく、その音素列と類似した「hatsui」、「asui」等の複数の音素列が検出される場合がある。さらに、音声認識プロセッサ11は、これらの各音素列と認識辞書16とを照合して、認識候補を選択する。ここで、制御部3により、ドライバーDが見ていると予測される対象装置14bが「エアコン」である場合、音声認識プロセッサ11は、膨大な数の認識候補16aの中から、「エアコン」が対象装置14bとして関連付けられた認識候補16aに絞
り込み、これらの認識候補16aを認識対象範囲とする。さらに、認識対象範囲の各認識候補16aと、音響モデル15に基づいて算出された各音素列とをそれぞれ照合して類似度を算出する。そして、類似度が最も高い認識候補16aを特定する。このように、認識対象範囲を設定することによって、音声の特徴は似ているものの発話の対象となる可能性が低い認識候補16aを認識対象外とすることができるので、認識精度を向上することができる。
さらに、音声認識プロセッサ11は、言語モデル17を用いて、接続関係の確率を算出し、整合性を判断する。例えば、「温度」及び「上昇」や、「経路」及び「探索」、「音量」及び「上げる」等の複数の単語が認識された場合、各単語の接続する確率を算出し、確率が高い場合には認識結果を確定する。認識結果が確定されると、音声認識プロセッサ11は、認識結果を制御部3に出力し、制御部3は、認識結果に基づくコマンドを、音声出力制御部18、エアコン制御ユニット32等に出力する。
次に、本実施形態の音声認識の処理手順について、図7に従って説明する。
まず、制御部3は、音声認識処理の開始トリガの入力を待機する(ステップS1)。開始トリガは、本実施形態では、車両のイグニッションから出力されたオン信号であるが、音声認識を開始するスイッチの押釦でも良い。開始トリガを入力すると(ステップ1においてYES)、画像プロセッサ9は、映像信号入力部10を介して、ドライバーDの頭部を撮影した画像データを入力する(ステップS2)。また、画像プロセッサ9は、入力した画像データを公知の処理手順により画像処理して、ドライバーDの瞳Bの位置を検出する(ステップS3)。
制御部3は、画像プロセッサ9から解析結果を入力し、ドライバーDの視線方向14aを判断する(ステップS4)。そして、図5に示す対象装置選択テーブル14に基づき、視線方向14aに、対象装置14bがあるか否かを判断する(ステップS5)。例えば視線方向14aが「右下方」である場合には、この視線方向14aに「オーディオ」を示す対象装置14bが紐付けられているので、視線方向14aに対象装置14bがあると判断し(ステップS5においてYES)、ステップS6に進む。
ステップS6において、制御部3は、音声認識プロセッサ11に視線方向14aを出力し、音声認識プロセッサ11は、認識辞書16に格納された各認識候補16aの中から認識対象範囲を指定する。例えば「オーディオ」の対象装置14bが選択されている場合には、「オーディオ」を示す対象装置14bが関連付けられた各認識候補16aを認識対象とする。
そして、ステップS7において、音声認識プロセッサ11は、マイク23から音声信号を入力したか否かを判断する。音声信号を入力しない場合には(ステップS7においてNO)、ステップS10に進む。一方、ステップS7において音声信号を入力したと判断すると(ステップS7においてYES)、音声認識プロセッサ11により音声認識を行う(ステップS8)。上記したように、音声認識プロセッサ11は、音声信号の特徴量を検出し、音響モデル15に基づき、特徴量と類似度の高い各音素列を算出する。そして、各音素列と、ステップS6において設定された認識対象範囲内の認識候補16aをそれぞれ照合し、類似度の高い各認識候補16aを選択する。各認識候補16aが決定すると、言語モデル17を用いて、それらの各認識候補16aの接続関係の確率を照合し、確率の高い文章を認識結果として確定する。
そして、認識結果が確定すると、制御部3は、対象装置14bに対し、認識結果に基づくコマンドを実行する(ステップS9)。例えば、対象装置14bが「エアコン」であって、認識結果が「暑い」だとすると、制御部3は、車両側I/F部7を介して、エアコン
38に温度を所定温度下げる操作命令を出力する。また、例えば対象装置14bが「オーディオ」であって、認識結果が「音量上げる」である場合、制御部3は、音声出力制御部18にそのコマンドを出力して、音量を大きくする。また、例えば対象装置14bが「ナビ」であって、認識結果が「自宅」である場合、制御部3は、現在の自車位置から、予め登録された自宅までの経路を経路データ8a等を用いて探索し、探索した経路をディスプレイ20に出力する。
一方、ステップS5において、視線方向14aに紐付けられた対象装置14bが無い場合には(ステップS5においてNO)、ステップS7に進み、認識辞書16の認識候補16aの認識対象範囲を指定しないまま、各認識候補16aと各音素列を照合する。そして、音声認識結果に基づき、制御部3は対象装置14bを制御して、コマンドを実行する(ステップS9)。
ステップS9において、コマンドが実行されると、制御部3は、終了トリガの入力の有無を判断する(ステップS10)。本実施形態では、終了トリガは、イグニッションのオフ信号であるが、終了スイッチの押釦でも良い。終了トリガを入力しないと判断すると(ステップS10においてNO)、ステップS2に戻り、ドライバーDの視線方向14aをモニタリングし、視線方向14aに応じた音声認識処理を繰り返す。終了トリガを入力したと判断すると(ステップS10においてYES)、処理を終了する。
上記実施形態によれば、以下のような効果を得ることができる。
(1)第1実施形態では、ナビゲーションシステム1の制御部3は、画像プロセッサ9の解析結果に基づき、ドライバーDの視線方向にある対象装置14bを判断するようにした。また、音声認識プロセッサ11は、認識辞書16内の認識候補16aから、ドライバーDの視線方向14aにある対象装置14bが関連付けられた各認識候補16aを認識対象範囲として設定するようにした。そして、認識対象範囲の中から、ドライバーDが発話した音声に基づく音素列と類似性の高い認識候補16aを認識結果として確定するようにした。従って、音声信号の特徴量や接続関係の確率だけでなく、ドライバーDの視線方向の対象装置14bを検出及び利用することによって、音声認識DB12内の膨大な数の認識候補16aの中から、発話内容と合致する可能性が高い認識候補16aに絞り込むことができる。これにより、ドライバーDの視線から外れた認識候補16aを認識対象外とすることができるので、音声の特徴量が類似しているが、ドライバーDの現在状況とは全く異なる認識候補16aを誤って認識結果として確定するような事態が回避される。このため、認識対象範囲を設定することにより音声認識処理を補助し、認識精度を向上させることができる。また、認識対象範囲を設定することにより、音素列と照合する認識候補16aの数が減少するので、処理時間も短縮化することができる。
(2)第1実施形態では、画像プロセッサ9により、カメラ22から入力した画像データに基づき、ドライバーDの瞳Bの位置を検出するようにした。このため、赤外線レーザ等で瞳の位置を検出する場合に比べ、発話者の視線方向14aを比較的精度よく検出することができる。
(第2実施形態)
次に、本発明を具体化した第2実施形態を図8に従って説明する。尚、第2の実施形態は、第1の実施形態の処理手順を変更したのみの構成であるため、同様の部分についてはその詳細な説明を省略する。
即ち、第2実施形態では、第1実施形態のステップS6の処理のみを変更している。詳述すると、図8に示すステップS5において、視線方向に対象装置14bがあると判断すると(ステップS5においてYES)、優先度設定手段としての音声認識プロセッサ11は、その対象装置14bが紐付けられた認識候補16aを優先する(ステップS6−1)
。具体的には、音声認識プロセッサ11は、その対象装置14bが紐付けられた認識候補16aの確率スコアを高く設定する。ドライバーDの視線方向14aが検出されていない初期状態では、各認識候補16aの確率スコアはデフォルト値、又は個人の使用頻度に応じて設定されたコスト値、又は一般的な使用頻度に応じて設定されたコスト値等に設定されている。確率スコアを高くする場合には、例えば、その確率スコアに所定値を加算する。
ステップS7において、音声信号が入力されたと判断すると(ステップS7においてYES)、音声認識プロセッサ11は、確率スコアを加味した音声認識を行う(ステップS8)。即ち、認識候補16aの絞り込みを行わないが、各認識候補16aと音素列との類似度を判断する際に、確率スコアが高い認識候補16aを優先して確定する。
従って、第2実施形態によれば、第1実施形態に記載の効果に加えて以下の効果を得ることができる。
(3)第2実施形態では、音声認識プロセッサ11は、ドライバーDの視線方向14aと対応する対象装置14bの各認識候補16aを優先して音声認識を行うようにした。このため、音素列と照合する認識候補16aを少なくせずに、発話された音声と合致する確率が高い認識候補16aを選択できる。従って、ドライバーDの視線が、発話した内容と合っていない場合にも、その音声を認識することができる。
尚、上記各実施形態は以下のように変更してもよい。
・第1及び第2実施形態では、対象装置14bと認識辞書16の認識候補16aとを紐付けするようにした。これ以外に、言語モデル17を、対象装置14bに応じて設定するようにしても良い。例えば、視線方向14aが「エアコン」の対象装置14bと対応しているとき、「温度」、「上げる」、「下げる」等のエアコン38の操作に関する単語の確率や接続確率を、初期値よりも高く設定する。このようにすると、より認識精度を向上することができる。
・上記各実施形態では、第1実施形態の処理手順に基づく音声認識モード、及び第2実施形態の処理手順に基づく音声認識モードを、ユーザが選択できるようにしてもよい。
・第2実施形態では、視線方向14aの対象装置14bと紐付けられた認識候補16aの確率スコアを高く設定するようにしたが、それらの認識候補16aの優先度が高くなればよい。例えば、まず視線方向14aの対象装置14bが紐付けられた認識候補16aを照合し、類似度の高い認識候補16aがない場合に、他の対象装置14bの認識候補16aを照合するようにしてもよい。
・上記各実施形態では、画像プロセッサ9は、開始トリガを入力した後、ドライバーDの視線の変化をモニタし、音声認識プロセッサ11は音声信号の入力を待機するようにしたが、ドライバーDがスイッチを押釦したときのみに、視線検出及び音声認識を行うようにしてもよい。この場合、開始トリガは、ドライバーDの開始スイッチ押釦操作であって、終了トリガは、例えば、ドライバーの終了用スイッチ押釦操作、又はタイマによる所定時間経過を示す信号である。
・上記実施形態では、ドライバーDの視線方向14a又は動作と、対象装置14bとの関係を予め登録するようにしてもよい。例えば、「手で顔を仰ぐ」動作と、「エアコン」を示す対象装置14bとを紐付けたテーブル等を予め登録する。そして、動作検出手段としての画像プロセッサ9が「手で顔を仰ぐ」動作を検出した場合には、音声認識プロセッサ11が、そのテーブルに基づき、認識対象範囲を、「エアコン」の対象装置14bと関連付けられた認識候補16aに絞り込む。また、そのテーブルを、各ユーザ毎に記憶するようにしてもよい。
・上記各実施形態では、対象カテゴリとして、ドライバーDの周囲にあるエアコン38、ナビゲーションシステム1、オーディオスイッチ39等を設定したが、他の装置を設定しても良く、視線方向14aと対象装置14bとの関係は車両の構成により変更してもよい。また、一つの視線方向14aに対して、複数の対象装置14bを関連付けても良い。例えば、視線方向14aが、「左下方」である場合には、エアコン38及びナビゲーションシステム1を対象装置14bとしても良い。また、視線方向14aが、「左側方」、「「左下方」等左側である場合には、左側にある各装置を全て対象装置14bとしてもよい。
・上記実施形態では、音声認識方法及び音声認識装置を、車両に搭載されたナビゲーションシステム1に具体化したが、音声認識機能を有する遊技機、ロボットシステム等、その他の装置に適用してもよい。
本実施形態のナビゲーションシステムの説明図。 カメラの取付位置の説明図。 (a)は正面、(b)は右下、(c)は左、(d)は左下に視線が向いた場合の瞳の位置の説明図。 対象装置の配置を説明する説明図。 対象装置選択テーブルの説明図。 認識辞書のデータ構成の要部を説明する説明図。 本実施形態の処理手順の説明図。 第2実施形態の処理手順の説明図。
符号の説明
1…視認対象物、搭載機器としてのナビゲーションシステム、2…音声認識装置としての制御装置、3…視線検出手段、判断手段、車両側制御手段としての制御部、9…視線検出手段、動作検出手段としての画像プロセッサ、11…範囲設定手段、認識手段、優先度設定手段としての音声認識プロセッサ、14a…視線方向、14b…対象カテゴリとしての対象装置、16…認識辞書、16a…認識候補、20…視認対象物、搭載機器としてのディスプレイ、22…撮影手段としてのカメラ、23…音声入力手段としてのマイク、38…視認対象物、搭載機器としてのエアコン、D…発話者としてのドライバー。

Claims (6)

  1. 発話者が発した音声を認識する音声認識方法において、
    前記発話者の視線の方向を検出し、その視線の方向にある視認対象物を推測するとともに、
    前記視認対象物と関連付けられた各認識候補の中から、前記発話者の視線の方向にある前記視認対象物に対応する前記各認識候補を認識対象範囲として設定し、前記認識対象範囲に含まれる前記各認識候補の中から、発話者が発した音声と類似性の高い前記認識候補を選択することを特徴とする音声認識方法。
  2. 発話者が発した音声を認識する音声認識装置において、
    前記発話者の周囲にある視認対象物に関連付けられた認識候補を記憶する認識辞書と、
    前記発話者の視線の方向を検出する視線検出手段と、
    前記視線の方向に基づき、前記発話者の視線方向にある前記視認対象物を判断する判断手段と、
    前記認識辞書の前記各認識候補の中から、前記発話者の視線方向にある前記視認対象物と関連付けられた前記各認識候補を、認識対象範囲として設定する範囲設定手段と、
    前記範囲設定手段が設定した前記認識対象範囲の中から、音声入力手段が入力した音声データと類似性の高い前記認識候補を選択する認識手段と
    を備えたことを特徴とする音声認識装置。
  3. 請求項2に記載の音声認識装置において、
    前記視認対象物は、車両に搭載された制御対象装置であって、
    前記認識手段により選択された前記認識候補に基づき、前記制御対象装置に制御信号を出力する車両側制御手段をさらに備えたことを特徴とする音声認識装置。
  4. 請求項2又は3に記載の音声認識装置において、
    前記視線検出手段は、前記発話者を正面から撮影する撮影手段から画像データを入力し、前記画像データを画像処理して、前記発話者の視線方向を算出することを特徴とする音声認識装置。
  5. 発話者が発した音声を認識する音声認識装置において、
    前記発話者の周囲にある視認対象物に関連付けられた認識候補を記憶する認識辞書と、
    前記発話者の視線の方向を検出する視線検出手段と、
    前記視線の方向に基づき、前記発話者の視線方向にある前記視認対象物を判断する判断手段と、
    前記発話者の視線方向にある前記視認対象物の優先度を高く設定する優先度設定手段と、
    前記認識辞書の前記認識候補の中から、前記優先度設定手段の優先度に基づき、音声入力手段から入力した音声データと類似性の高い前記認識候補を選択する認識手段と
    を備えたことを特徴とする音声認識装置。
  6. 発話者が発した音声を認識する音声認識装置において、
    各カテゴリに関連付けられた認識候補を記憶する認識辞書と、
    発話者の動作を検出する動作検出手段と、
    前記動作検出手段が発話者の動作を検出した際に、前記発話者の動作と関連付けられた前記カテゴリを選択し、その視認対象物が関連付けられた前記各認識候補を認識対象範囲として設定する範囲設定手段と、
    前記範囲設定手段が設定した前記認識対象範囲の中から、音声入力手段が入力した音声データと類似性の高い前記認識候補を選択する認識手段と
    を備えたことを特徴とする音声認識装置。
JP2006232488A 2006-08-29 2006-08-29 音声認識方法及び音声認識装置 Abandoned JP2008058409A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006232488A JP2008058409A (ja) 2006-08-29 2006-08-29 音声認識方法及び音声認識装置
CNA2007101291998A CN101136198A (zh) 2006-08-29 2007-07-13 语音识别方法及语音识别装置
EP07114006A EP1895510A1 (en) 2006-08-29 2007-08-08 Voice recognition method and voice recognition apparatus
US11/889,047 US20080059175A1 (en) 2006-08-29 2007-08-08 Voice recognition method and voice recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006232488A JP2008058409A (ja) 2006-08-29 2006-08-29 音声認識方法及び音声認識装置

Publications (1)

Publication Number Publication Date
JP2008058409A true JP2008058409A (ja) 2008-03-13

Family

ID=38535266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006232488A Abandoned JP2008058409A (ja) 2006-08-29 2006-08-29 音声認識方法及び音声認識装置

Country Status (4)

Country Link
US (1) US20080059175A1 (ja)
EP (1) EP1895510A1 (ja)
JP (1) JP2008058409A (ja)
CN (1) CN101136198A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009484A (ja) * 2008-06-30 2010-01-14 Denso It Laboratory Inc 車載機器制御装置および車載機器制御方法
JP2013250683A (ja) * 2012-05-30 2013-12-12 Nec Corp 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム
WO2015125274A1 (ja) * 2014-02-21 2015-08-27 三菱電機株式会社 音声認識装置、システムおよび方法
JP2015219441A (ja) * 2014-05-20 2015-12-07 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法
JP2015219440A (ja) * 2014-05-20 2015-12-07 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法
JP2016126791A (ja) * 2014-12-30 2016-07-11 ビステオン グローバル テクノロジーズ インコーポレイテッド 感覚フィードバックを備えた追跡のシステム及び方法
JP2016194877A (ja) * 2015-04-01 2016-11-17 富士通株式会社 説明支援装置、説明支援方法及び説明支援プログラム
JP2017009867A (ja) * 2015-06-24 2017-01-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム
JP2017007652A (ja) * 2015-06-08 2017-01-12 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツングRobert Bosch Gmbh 言語制御のための文脈を認識する方法、言語制御のための言語制御信号を決定する方法、および方法を実施するための装置
JP2018515817A (ja) * 2015-03-20 2018-06-14 フェイスブック,インク. 視線追跡と音声認識とを組み合わせることにより制御を改善する方法
WO2018135302A1 (ja) * 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080228493A1 (en) * 2007-03-12 2008-09-18 Chih-Lin Hu Determining voice commands with cooperative voice recognition
US8401780B2 (en) * 2008-01-17 2013-03-19 Navteq B.V. Method of prioritizing similar names of locations for use by a navigation system
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
CN102346533A (zh) * 2010-07-29 2012-02-08 鸿富锦精密工业(深圳)有限公司 具省电模式的电子装置及控制其进入省电模式的方法
DE102011012573B4 (de) * 2011-02-26 2021-09-16 Paragon Ag Sprachbedienvorrichtung für Kraftfahrzeuge und Verfahren zur Auswahl eines Mikrofons für den Betrieb einer Sprachbedienvorrichtung
US20130030811A1 (en) * 2011-07-29 2013-01-31 Panasonic Corporation Natural query interface for connected car
JP5942559B2 (ja) * 2012-04-16 2016-06-29 株式会社デンソー 音声認識装置
KR102206383B1 (ko) * 2012-07-09 2021-01-22 엘지전자 주식회사 음성 인식 장치 및 그 방법
US9093072B2 (en) * 2012-07-20 2015-07-28 Microsoft Technology Licensing, Llc Speech and gesture recognition enhancement
US9665604B2 (en) * 2012-07-31 2017-05-30 Schlumberger Technology Corporation Modeling and manipulation of seismic reference datum (SRD) in a collaborative petro-technical application environment
DE112012007103B4 (de) * 2012-11-05 2017-02-02 Mitsubishi Electric Corporation Spracherkennungsvorrichtung
US20140195233A1 (en) * 2013-01-08 2014-07-10 Spansion Llc Distributed Speech Recognition System
US9958176B2 (en) * 2013-02-07 2018-05-01 Trane International Inc. HVAC system with camera and microphone
FR3005776B1 (fr) * 2013-05-15 2015-05-22 Parrot Procede de reconnaissance vocale visuelle par suivi des deformations locales d'un ensemble de points d'interet de la bouche du locuteur
US20150039312A1 (en) * 2013-07-31 2015-02-05 GM Global Technology Operations LLC Controlling speech dialog using an additional sensor
CN105279151A (zh) * 2014-06-08 2016-01-27 上海能感物联网有限公司 汉语语音现场自动导航并驾驶汽车的控制器装置
CN105320649A (zh) * 2014-06-08 2016-02-10 上海能感物联网有限公司 汉语文本远程自动导航并驾驶汽车的控制器装置
TWI522257B (zh) 2014-07-09 2016-02-21 原相科技股份有限公司 車用安全系統及其運作方法
CN111556281B (zh) * 2014-07-17 2021-09-24 原相科技股份有限公司 车用安全***及其操作方法
WO2016072164A1 (ja) * 2014-11-05 2016-05-12 日立オートモティブシステムズ株式会社 車載用音声処理装置
US9626001B2 (en) * 2014-11-13 2017-04-18 International Business Machines Corporation Speech recognition candidate selection based on non-acoustic input
US9881610B2 (en) 2014-11-13 2018-01-30 International Business Machines Corporation Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
FR3034215B1 (fr) * 2015-03-27 2018-06-15 Valeo Comfort And Driving Assistance Procede de commande, dispositif de commande, systeme et vehicule automobile comprenant un tel dispositif de commande
JP6739907B2 (ja) * 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
JP6410987B2 (ja) * 2016-02-25 2018-10-24 富士フイルム株式会社 運転支援装置、運転支援方法、及び、運転支援プログラム
JP6597397B2 (ja) * 2016-02-29 2019-10-30 富士通株式会社 ポインティング支援装置、ポインティング支援方法およびポインティング支援プログラム
CN106057203A (zh) * 2016-05-24 2016-10-26 深圳市敢为软件技术有限公司 一种精准语音控制方法及装置
JP6422477B2 (ja) * 2016-12-21 2018-11-14 本田技研工業株式会社 コンテンツ提供装置、コンテンツ提供方法およびコンテンツ提供システム
US10438587B1 (en) * 2017-08-08 2019-10-08 X Development Llc Speech recognition biasing
DE102017216465A1 (de) * 2017-09-18 2019-03-21 Bayerische Motoren Werke Aktiengesellschaft Verfahren zur Ausgabe von Informationen zu einem Objekt eines Fortbewegungsmittels, System und Automobil
KR102517219B1 (ko) 2017-11-23 2023-04-03 삼성전자주식회사 전자장치 및 그 제어방법
WO2019123425A1 (en) * 2017-12-22 2019-06-27 Telefonaktiebolaget Lm Ericsson (Publ) Gaze-initiated voice control
CN109725869B (zh) * 2019-01-02 2022-10-21 百度在线网络技术(北京)有限公司 连续交互控制方法和装置
JP7250547B2 (ja) * 2019-02-05 2023-04-03 本田技研工業株式会社 エージェントシステム、情報処理装置、情報処理方法、およびプログラム
CN110990686B (zh) * 2019-10-17 2021-04-20 珠海格力电器股份有限公司 语音设备的控制装置、语音交互方法、装置及电子设备
CN113147779A (zh) * 2021-04-29 2021-07-23 前海七剑科技(深圳)有限公司 一种车辆控制方法及装置
CN113488043B (zh) * 2021-06-30 2023-03-24 上海商汤临港智能科技有限公司 乘员说话检测方法及装置、电子设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4827520A (en) * 1987-01-16 1989-05-02 Prince Corporation Voice actuated control system for use in a vehicle
JP3530591B2 (ja) * 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
ES2151016T3 (es) * 1994-12-23 2000-12-16 Siemens Ag Procedimiento para la conversion de informaciones introducidas por voz en datos legibles por maquina.
JP4116233B2 (ja) * 2000-09-05 2008-07-09 パイオニア株式会社 音声認識装置ならびにその方法
EP1215658A3 (en) * 2000-12-05 2002-08-14 Hewlett-Packard Company Visual activation of voice controlled apparatus

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009484A (ja) * 2008-06-30 2010-01-14 Denso It Laboratory Inc 車載機器制御装置および車載機器制御方法
JP2013250683A (ja) * 2012-05-30 2013-12-12 Nec Corp 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム
WO2015125274A1 (ja) * 2014-02-21 2015-08-27 三菱電機株式会社 音声認識装置、システムおよび方法
JP5925401B2 (ja) * 2014-02-21 2016-05-25 三菱電機株式会社 音声認識装置、システムおよび方法
JP2015219441A (ja) * 2014-05-20 2015-12-07 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法
JP2015219440A (ja) * 2014-05-20 2015-12-07 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法
JP2016126791A (ja) * 2014-12-30 2016-07-11 ビステオン グローバル テクノロジーズ インコーポレイテッド 感覚フィードバックを備えた追跡のシステム及び方法
JP2018515817A (ja) * 2015-03-20 2018-06-14 フェイスブック,インク. 視線追跡と音声認識とを組み合わせることにより制御を改善する方法
JP2016194877A (ja) * 2015-04-01 2016-11-17 富士通株式会社 説明支援装置、説明支援方法及び説明支援プログラム
JP2017007652A (ja) * 2015-06-08 2017-01-12 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツングRobert Bosch Gmbh 言語制御のための文脈を認識する方法、言語制御のための言語制御信号を決定する方法、および方法を実施するための装置
JP2017009867A (ja) * 2015-06-24 2017-01-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム
WO2018135302A1 (ja) * 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JPWO2018135302A1 (ja) * 2017-01-18 2019-11-21 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US11107469B2 (en) 2017-01-18 2021-08-31 Sony Corporation Information processing apparatus and information processing method
JP7107228B2 (ja) 2017-01-18 2022-07-27 ソニーグループ株式会社 情報処理装置および情報処理方法、並びにプログラム

Also Published As

Publication number Publication date
US20080059175A1 (en) 2008-03-06
CN101136198A (zh) 2008-03-05
EP1895510A1 (en) 2008-03-05

Similar Documents

Publication Publication Date Title
JP2008058409A (ja) 音声認識方法及び音声認識装置
JP4131978B2 (ja) 音声認識機器制御装置
JP6400109B2 (ja) 音声認識システム
US10446155B2 (en) Voice recognition device
US7822613B2 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
KR101598948B1 (ko) 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법
JP4260788B2 (ja) 音声認識機器制御装置
US10176806B2 (en) Motor vehicle operating device with a correction strategy for voice recognition
WO2015128960A1 (ja) 車載制御装置および車載制御方法
US20180204573A1 (en) Dialog device and dialog method
US20160335051A1 (en) Speech recognition device, system and method
JP2017090613A (ja) 音声認識制御システム
US9685157B2 (en) Vehicle and control method thereof
WO2014057540A1 (ja) ナビゲーション装置およびナビゲーション用サーバ
JP2010145262A (ja) ナビゲーション装置
JP3842497B2 (ja) 音声処理装置
JP2009230068A (ja) 音声認識装置及びナビゲーションシステム
JP5181533B2 (ja) 音声対話装置
KR20220073513A (ko) 대화 시스템, 차량 및 대화 시스템의 제어 방법
KR102036606B1 (ko) 음성 인식률을 고려한 운전자 및 주행상황 맞춤형 hud 정보 제공 시스템 및 방법
JP4938719B2 (ja) 車載情報システム
JP2007057805A (ja) 車両用情報処理装置
JP7233918B2 (ja) 車載装置、通信システム
KR20200117317A (ko) 대화 시스템 및 대화 처리 방법
JP2007025076A (ja) 車載用音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090312

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20090626