JP4682199B2 - 音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体 - Google Patents

音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4682199B2
JP4682199B2 JP2007522223A JP2007522223A JP4682199B2 JP 4682199 B2 JP4682199 B2 JP 4682199B2 JP 2007522223 A JP2007522223 A JP 2007522223A JP 2007522223 A JP2007522223 A JP 2007522223A JP 4682199 B2 JP4682199 B2 JP 4682199B2
Authority
JP
Japan
Prior art keywords
display
input
voice
words
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007522223A
Other languages
English (en)
Other versions
JPWO2006137245A1 (ja
Inventor
健太郎 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Publication of JPWO2006137245A1 publication Critical patent/JPWO2006137245A1/ja
Application granted granted Critical
Publication of JP4682199B2 publication Critical patent/JP4682199B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0489Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using dedicated keyboard keys or combinations thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Description

本発明は、発話された音声を認識する音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体に関する。ただし、本発明の利用は、上述した音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体には限られない。
従来、マイクなどを介して入力された人間の音声を認識する音声認識技術が知られている。このような音声認識においては、ユーザによる音声入力を受け取り、あらかじめ設定された待ち受け単語とのマッチング処理により、ユーザによる音声入力に対応する単語候補を決定する。そして、その単語候補中に正解が含まれるか否かを判定する。ここで、待ち受け単語とは、その状況においてユーザが発話するであろうと予測される単語である(たとえば、下記特許文献1参照。)。
特開2004−46106号公報
しかしながら、上述した従来技術によれば、その状況においてユーザが発話するであろうと予測される単語を全て待ち受け単語としなければならないという問題が一例として挙げられる。音声認識は、入力された音声と待ち受け単語とのマッチング処理によっておこなわれる。このため、音声認識の処理の速度を向上させるには、待ち受け単語の数はなるべく少ないことが好ましい。
また、音声認識は、操作ボタンやキー入力に代わる入力手段として用いられることが多く、待ち受け単語が表示画面上に表示される場合も多い。このような場合、多くの待ち受け単語を表示するために、表示画面上を待ち受け単語の表示によって占有されてしまったり、表示画面上の文字が細かく見づらくなってしまうという問題が一例として挙げられる。
上述した課題を解決し、目的を達成するため、請求項1の発明にかかる音声認識装置は、音声が入力される音声入力手段と、あらかじめ設定された複数の待ち受け語を表示する表示手段と、前記表示手段によって表示された複数の前記待ち受け語のうちいずれかを選択するための操作入力手段と、前記音声入力手段に入力された音声にそれぞれの前記待ち受け語が含まれた回数と、前記操作入力手段によってそれぞれの前記待ち受け語が選択された回数とを計数する計数手段と、前記計数手段によって計数された前記回数に基づいて、複数の前記待ち受け語のうち優先的に表示する優先表示語を抽出する抽出手段と、前記抽出手段によって抽出された前記優先表示語を前記表示手段に優先的に表示する表示制御手段と、前記優先表示語以外の前記待ち受け語を優先して、前記音声入力手段に入力された音声を音声認識する音声認識手段と、を備えることを特徴とする。
また、請求項5の発明にかかる情報処理装置は、音声が入力される音声入力手段と、装置が有する複数の機能のうちいずれか一つを実行するための複数の操作入力手段と、前記音声入力手段に入力された音声にそれぞれの前記機能の名称が含まれた回数と、前記操作入力手段によってそれぞれの前記機能が実行された回数とを計数する計数手段と、前記計数手段によって計数された前記回数に基づいて、複数の前記操作入力手段のうち操作者に近い位置に割り振る優先割振機能を決定する決定手段と、前記決定手段によって決定された前記優先割振機能以外の前記機能を優先して、前記音声入力手段に入力された音声を音声認識する音声認識手段と、を備えることを特徴とする。
また、請求項6の発明にかかる音声認識方法は、音声が入力される音声入力工程と、あらかじめ設定された複数の待ち受け語を表示する表示工程と、前記表示工程によって表示された複数の前記待ち受け語のうちいずれかを選択する操作入力工程と、前記音声入力工程に入力された音声にそれぞれの前記待ち受け語が含まれた回数と、前記操作入力工程によってそれぞれの前記待ち受け語が選択された回数とを計数する計数工程と、前記計数工程によって計数された前記回数に基づいて、複数の前記待ち受け語のうち優先的に表示する優先表示語を抽出する抽出工程と、前記抽出工程によって抽出された前記優先表示語を前記表示工程に優先的に表示する表示制御工程と、前記優先表示語以外の前記待ち受け語を優先して、前記音声入力工程に入力された音声を音声認識する音声認識工程と、を含むことを特徴とする。
また、請求項7の発明にかかる音声認識方法は、音声が入力される音声入力工程と、複数の機能のうちいずれか一つを実行させる操作入力工程と、前記音声入力工程に入力された音声にそれぞれの前記機能の名称が含まれた回数と、前記操作入力工程によってそれぞれの前記機能が実行された回数とを計数する計数工程と、前記計数工程によって計数された前記回数に基づいて、複数の前記操作入力工程のうち操作者に近い位置に割り振る優先割振機能を決定する決定工程と、前記決定工程によって決定された前記優先割振機能以外の前記機能を優先して、前記音声入力工程に入力された音声を音声認識する音声認識工程と、を含むことを特徴とする。
また、請求項8の発明にかかる音声認識プログラムは、請求項6または7に記載の音声認識方法をコンピュータに実行させることを特徴とする。
また、請求項9の発明にかかる記録媒体は、請求項8に記載の音声認識プログラムを記録したコンピュータに読み取り可能なことを特徴とする。
図1は、実施の形態にかかる音声認識装置の機能的構成を示すブロック図である。 図2は、音声認識装置による音声認識処理の手順を示すフローチャートである。 図3は、実施例1にかかるナビゲーション装置のハードウェア構成を示すブロック図である。 図4は、ナビゲーション装置によるユーザ設定操作の受付手順を示すフローチャートである。 図5は、目的地点設定画面の一例を示す図である。 図6は、目的地点候補の選択回数の一例を示す図表である。 図7は、図6に示した目的地点候補を選択回数が多い順に並べ替えた図表である。 図8は、音声認識用辞書に登録された語句を示す図表である。 図9は、レコメンド地点を考慮した目的地点設定画面の一例を示す図である。 図10は、ユーザによる目的地点設定操作を模式的に示した図である。 図11は、ナビゲーション装置によるユーザ設定操作の処理手順を示すフローチャートである。 図12は、目的地点候補の選択回数の一例を示す図表である。 図13は、ジャンル別の選択回数を考慮した目的地点設定画面の一例を示す図である。 図14は、ジャンル別の選択回数を考慮した目的地点設定画面の一例を示す図である。 図15は、実施例2にかかるナビゲーション装置の外観を示す図である。 図16は、ファンクションキーの機能表示例を示す図である。 図17は、ファンクションキーの機能表示例を示す図である。 図18は、各機能の使用頻度とその割合の一例を示す図表である。 図19は、各機能の使用割合を考慮したファンクションキーへの機能割当を示す図である。 図20は、ファンクションキーに割当られた機能の実行のための音声認識用辞書に登録された語句を示す図表である。
符号の説明
100 音声認識装置
101 音声入力部
102 表示部
103 操作入力部
104 計数部
105 抽出部
106 表示制御部
107 音声認識部
以下に添付図面を参照して、この発明にかかる音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体の好適な実施の形態を詳細に説明する。
(実施の形態)
図1は、実施の形態にかかる音声認識装置の機能的構成を示すブロック図である。図1において、実施の形態にかかる音声認識装置100は、音声入力部101、表示部102、操作入力部103、計数部104、抽出部105、表示制御部106、音声認識部107によって構成される。
音声入力部101は、音声が入力される。音声の入力は、たとえば、ユーザが所定の語句を発話することによっておこなう。表示部102は、あらかじめ設定された複数の待ち受け語を表示する。あらかじめ設定された複数の待ち受け語とは、後述する音声認識部107によって音声認識可能な語句であり、たとえば、地名や装置に対する操作指示語などである。
操作入力部103は、表示部102によって表示された複数の待ち受け語のうちいずれかを選択するために設けられる。操作入力部103は、たとえば、タッチパネルや操作ボタンによって実現される。操作入力部103がタッチパネルである場合は、表示部102と操作入力部103とは一体とすることができる。
計数部104は、音声入力部101に入力された音声にそれぞれの待ち受け語が含まれた回数と、操作入力部103によってそれぞれの待ち受け語が選択された回数とを計数する。また、計数部104は、待ち受け語が属するジャンルごとに回数を計数することとしてもよい。待ち受け語が属するジャンルとは、たとえば、待ち受け語の種類(地名、操作指示語など)や、施設の属性(飲食店、プレイランドなど)である。
抽出部105は、計数部104によって計数された回数に基づいて、複数の待ち受け語のうち優先的に表示する優先表示語を抽出する。抽出部105は、たとえば、計数部104によって計数された回数が多い待ち受け語を優先表示語として抽出する。なお、特定の待ち受け語を抽出するではなく、計数部104によって計数された回数に基づいて、待ち受け語それぞれに対して優先度をランキングすることとしてもよい。また、計数部104がジャンルごとに回数を計数している場合、抽出部105は、計数部104によって計測された回数が多いジャンルに属する待ち受け語を優先表示語として抽出する。
表示制御部106は、抽出部105によって抽出された優先表示語を表示部102に優先的に表示する。優先的に表示するとは、たとえば、優先表示語を回数が多い順に画面の上部から表示する、あるいは、スクロール操作なしで視認できる場所に配置するなどである。
音声認識部107は、優先表示語以外の待ち受け語を優先して、音声入力部101に入力された音声を音声認識する。優先表示語以外の待ち受け語を優先して、とは、たとえば、入力された音声とのマッチング処理を、優先表示語より先にそれ以外の待ち受け語に対しておこなうことである。なお、優先表示語以外の待ち受け語が多数ある場合には、さらにそれらの中で優先順位を決めることとしてもよい。
図2は、音声認識装置による音声認識処理の手順を示すフローチャートである。音声認識装置100は、まず、計数部104によって、音声入力部101において音声入力された、あるいは操作入力部103において操作入力された、待ち受け語の入力回数を計数する(ステップS201)。つぎに、抽出部105によって、複数の待ち受け語のうち優先的に表示する優先表示語を抽出する(ステップS202)。表示制御部106は、表示部102に抽出部105によって抽出された優先表示語を優先的に表示する(ステップS203)。
そして、音声入力があるまで待機し(ステップS204:Noのループ)、音声入力があった場合は(ステップS204:Yes)、入力された音声に対して、優先表示語以外の待ち受け語を優先して音声認識をおこない(ステップS205)、本フローチャートによる処理を終了する。
以上説明したように、実施の形態にかかる音声認識装置100によれば、優先して音声認識する待ち受け語を絞ることによって、音声認識処理の処理効率を向上させることができる。また、待ち受け語の入力回数によって、優先して表示する待ち受け語を抽出し、簡潔な画面表示をおこなうことができる。さらに、画面表示の優先度が高くない待ち受け語に関しては、優先的に音声認識をおこない、これらの待ち受け語を選択する際の操作の煩雑さを回避することができる。
(ナビゲーション装置300のハードウェア構成)
図3は、実施例1にかかるナビゲーション装置のハードウェア構成を示すブロック図である。実施例1では、実施の形態にかかる音声認識装置100を、ナビゲーション装置300の入力手段として用いる場合について説明する。図3において、ナビゲーション装置300は、車両に搭載されており、ナビゲーション制御部301と、ユーザ操作部302と、表示部303と、位置取得部304と、記録媒体305と、記録媒体デコード部306と、音声出力部307と、通信部308と、経路探索部309と、経路誘導部310と、案内音生成部311と、音声認識部312と、によって構成される。
ナビゲーション制御部301は、ナビゲーション装置300全体を制御する。ナビゲーション制御部301は、たとえば所定の演算処理を実行するCPU(Central Processing Unit)や、各種制御プログラムを格納するROM(Read Only Memory)、および、CPUのワークエリアとして機能するRAM(Random Access Memory)などによって構成されるマイクロコンピュータなどによって実現することができる。
また、ナビゲーション制御部301は、経路誘導に際し、経路探索部309、経路誘導部310、案内音生成部311との間で経路誘導に関する情報の入出力をおこない、その結果得られる情報を表示部303および音声出力部307へ出力する。
ユーザ操作部302は、文字、数値、各種指示など、ユーザによって入力操作された情報をナビゲーション制御部301に対して出力する。ユーザ操作部302の構成としては、後述する表示部303と一体として構成されるタッチパネル、物理的な押下/非押下を検出する押ボタンスイッチ、キーボード、ジョイスティックなど公知の各種形態を採用することが可能である。
また、ユーザ操作部302は、外部からの音声を入力するマイク302aを備える。マイク302aから入力された音声は、後述する音声認識部312によって音声認識される。これにより、ユーザは音声によって入力操作をおこなうことができる。
ユーザ操作部302は、ナビゲーション装置300に対して一体に設けられていてもよいし、リモコンのようにナビゲーション装置300から分離して操作可能な形態であってもよい。ユーザ操作部302は、上述した各種形態のうちいずれか単一の形態で構成されていてもよいし、複数の形態で構成されていてもよい。ユーザは、ユーザ操作部302の形態に応じて、適宜入力操作をおこなうことによって情報を入力する。ユーザ操作部302の操作によって入力される情報としては、たとえば、探索する経路の目的地点または出発地点が挙げられる。
目的地点または出発地点の入力は、それぞれの地点の緯度・経度や住所を入力する他、目的地点または出発地点となる施設の電話番号やジャンル、キーワードなどを指定することによって、該当する施設が探索され、その位置を特定することができる。より詳細には、これらの情報は、後述する記録媒体305に記録された地図情報に含まれる背景種別データに基づいて、地図上の一点として特定される。また、後述する表示部303に地図情報を表示させ、表示された地図上の一点を指定するようにしてもよい。
表示部303は、たとえば、CRT(Cathode Ray Tube)、TFT液晶ディスプレイ、有機ELディスプレイ、プラズマディスプレイなどを含む。表示部303は、具体的には、たとえば、映像I/Fや映像I/Fに接続された映像表示用のディスプレイ装置によって構成することができる。映像I/Fは、具体的には、たとえば、ディスプレイ装置全体の制御をおこなうグラフィックコントローラと、即時表示可能な画像情報を一時的に記憶するVRAM(Video RAM)などのバッファメモリと、グラフィックコントローラから出力される画像情報に基づいて、ディスプレイ装置を表示制御する制御ICなどによって構成される。表示部303には、アイコン、カーソル、メニュー、ウィンドウ、あるいは文字や画像などの各種情報が表示される。また、表示部303には、後述する記録媒体305に記憶された地図情報や経路誘導に関する情報が表示される。
位置取得部304は、GPSレシーバおよび各種センサから構成され、装置本体の現在位置(車両の現在位置)の情報を取得する。また、位置取得部304は、GPSレシーバが受信するGPS情報を受信できない領域など、所定の領域に入った際には、その領域内に設けられた通信機から送信されるGPS代替情報を受信して、車両の現在位置を検出する。
GPSレシーバは、GPS衛星から送信されるGPS情報を受信し、GPS衛星との幾何学的位置を求める。なお、GPSとは、Global Positioning Systemの略称であり、4つ以上の衛星からの電波を受信することによって地上での位置を正確に求めるシステムである。GPSレシーバは、GPS衛星からの電波を受信するためのアンテナ、受信した電波を復調するチューナーおよび復調した情報に基づいて現在位置を算出する演算回路などによって構成される。
各種センサは、車速センサや角速度センサ、走行距離センサ、傾斜センサなど自車に搭載された各種センサであり、これらのセンサから出力される情報から、自車の走行軌跡を求める。このように、GPSレシーバによって外部から得られた情報と合わせて、自車に搭載された各種センサの出力する情報を用いることによって、より高い精度で自車位置の認識をおこなうことができる。
車速センサは、ナビゲーション装置300を搭載する車両のトランスミッションの出力側シャフトから検出する。角速度センサは、自車の回転時の角速度を検出し、角速度情報と相対方位情報とを出力する。走行距離センサは、車輪の回転に伴って出力される所定周期のパルス信号のパルス数をカウントすることによって車輪1回転当たりのパルス数を算出し、その1回転当たりのパルス数に基づく走行距離情報を出力する。傾斜センサは、路面の傾斜角度を検出する。
記録媒体305は、各種制御プログラムや各種情報をコンピュータに読み取り可能な状態で記録する。記録媒体305は、記録媒体デコード部306による情報の書き込みを受け付けるとともに、書き込まれた情報を不揮発に記録する。記録媒体305は、たとえば、HD(Hard Disk)によって実現することができる。記録媒体305は、HDに限るものではなく、HDに代えて、あるいは、HDに加えて、DVD(Digital Versatile Disk)やCD(Compact Disk)など、記録媒体デコード部306に対して着脱可能であり可搬性を有するメディアを記録媒体305として用いてもよい。記録媒体305は、DVDおよびCDに限るものではなく、CD−ROM(CD−R,CD−RW)、MO(Magneto−Optical disk)、メモリカードなどの記録媒体デコード部306に対して着脱可能であり可搬性を有するメディアを利用することもできる。
記録媒体305に記憶された地図情報は、建物、河川、地表面などの地物(フィーチャ)を表す背景データと、道路の形状を表す道路形状データとを有しており、表示部303の表示画面において2次元または3次元に描画される。ナビゲーション装置300が経路誘導中の場合は、記録媒体305に記録された地図情報と位置取得部304によって取得された自車位置とが重ねて表示されることとなる。
なお、本実施例では地図情報を記録媒体305に記録するようにしたが、これに限るものではない。地図情報は、ナビゲーション装置300のハードウェアと一体に設けられているものに限って記録されているものではなく、ナビゲーション装置300外部に設けられていてもよい。その場合、ナビゲーション装置300は、たとえば、通信部308を通じて、ネットワークを介して地図情報を取得する。取得された地図情報はRAMなどに記憶される。
記録媒体デコード部306は、記録媒体305に対する情報の読み取り/書き込みの制御をおこなう。たとえば、記録媒体としてHDを用いた場合には、記録媒体デコード部306は、HDD(Hard Disk Drive)となる。同様に、記録媒体としてDVDあるいはCD(CD−R,CD−RWを含む)を用いた場合には、記録媒体デコード部306は、DVDドライブあるいはCDドライブとなる。書き込み可能かつ着脱可能な記録媒体305として、CD−ROM(CD−R,CD−RW)、MO、メモリカードなどを利用する場合には、各種記録媒体への情報の書き込みおよび各種記録媒体に記憶された情報の読み出しが可能な専用のドライブ装置を、記録媒体デコード部306として適宜用いる。
音声出力部307は、接続されたスピーカ(図示なし)への出力を制御することによって、案内音を再生する。スピーカは、1つであってもよいし、複数であってもよい。具体的には、音声出力部307は、音声出力用のスピーカに接続される音声I/Fによって実現することができる。より具体的には、音声I/Fは、たとえば、音声デジタル情報のD/A変換をおこなうD/Aコンバータと、D/Aコンバータから出力される音声アナログ信号を増幅する増幅器と、音声アナログ情報のA/D変換をおこなうA/Dコンバータと、から構成することができる。
通信部308は、渋滞や交通規制などの道路交通情報を、定期的あるいは不定期に取得する。また、通信部308は、ネットワークと接続され、サーバなどネットワークに接続された他の機器と情報の送受信をおこなう。
通信部308による道路交通情報の受信は、VICS(Vehicle Information and Communication System)センターから道路交通情報が配信されたタイミングで行ってもよいし、VICSセンターに対し定期的に道路交通情報を要求することで行ってもよい。また、サーバに集約された全国のVICS情報から、所望の地域の道路交通情報をネットワークを介して取得するようにしてもよい。通信部308は、たとえば、FMチューナー、VICS/ビーコンレシーバ、無線通信機器、およびその他の通信機器によって実現することが可能である。
経路探索部309は、記録媒体305に記憶されている地図情報や、通信部308を介して取得するVICS情報などを利用して、出発地点から目的地点までの最適な経路を探索する。ここで、最適な経路とは、ユーザが指定した条件に最も合致する経路である。一般に、出発地点から目的地点までの経路は無数存在する。このため、経路探索にあたって考慮される事項を設定し、条件に合致する経路を探索するようにしている。
経路誘導部310は、経路探索部309によって探索された誘導経路情報、位置取得部304によって取得された自車位置情報、記録媒体305から記録媒体デコード部306を経由して得られた地図情報に基づいて、リアルタイムな経路誘導情報の生成をおこなう。このとき生成される経路誘導情報は、通信部308によって受信した渋滞情報を考慮したものであってもよい。経路誘導部310で生成された経路誘導情報は、ナビゲーション制御部301を介して表示部303へ出力される。
案内音生成部311は、パターンに対応したトーンと音声の情報を生成する。すなわち、経路誘導部310で生成された経路誘導情報に基づいて、案内ポイントに対応した仮想音源の設定と音声ガイダンス情報の生成をおこない、ナビゲーション制御部301を介して音声出力部307へ出力する。
音声認識部312は、マイク302aを介して入力された音声を音声認識する。音声認識部312によって音声が認識されると、ナビゲーション制御部301は認識された言葉に対応した処理をおこなう。たとえば、目的地点の設定画面において発話がおこなわれ、音声認識によって地名が認識されると、ナビゲーション制御部301は、認識された地名を目的地点として設定する。ユーザは、表示部303に表示された地図から目的地点を指定する代わりに、目的地点名を発話することによって、目的地点を設定することができる。このように、音声認識部312による音声認識によって、ユーザ操作部302によっておこなう操作に代えることができる。
ここで、音声認識の手法は様々なものが知られているが、一般には、入力された音声を特定するために、あらかじめ認識対象となる音声の周波数分布を分析することで、たとえば、スペクトルや基本周波数の時系列情報などを入力音声の特徴量として抽出し、そのパターンを各単語に対応させて格納する音声認識用辞書を備えている。
認識されるべき音声が入力されると、入力された音声の周波数スペクトルを解析し、あらかじめ用意されている音素モデルとの比較・照合によって音素を特定する。そして、特定された音素モデルと、音声認識用辞書に格納された各単語のパターンをパターンマッチングにより比較照合し、各単語に対する類似度を算出する。つぎに算出された類似度が最も高い単語(パターンが最も近い単語)を、入力された音声であると認識し、その単語を出力するようにしている。つまり、入力された単語の周波数分布のパターンがどの単語パターンに最も類似しているかを調べることによって、入力音声を判定する。
音声認識部312は、マッチング処理の処理時間との関係から、音声認識処理において一時にマッチング処理をおこなう単語数を限定している。上述のように、音声認識部312は、入力された音声の周波数パターンと音声認識用辞書に格納された全ての各単語のパターンを比較照合した上で、各単語に対する類似度を算出する。このため、音声認識用辞書に登録されている単語数が少ないほど、処理時間を短縮することができる。ただし、登録された単語が発話された単語と一致しなければ、誤認識やエラー(該当単語なし)が多発し、返って使い勝手が悪くなってしまう。
そこで、音声認識部312は、単語ごとに音声認識における優先順位(以下、音声認識優先順位という)を設定し、音声認識優先順位に基づいて複数の辞書に単語を割り振る。音声認識処理をおこなう際は、音声認識優先順位が高い単語が割り振られた辞書からマッチング処理をおこなう。これにより、音声認識の精度を維持しつつ音声認識処理の効率化を図ることができる。
ここで、単語に設定する音声認識優先順位を決定する要素は、様々なものが考えられるが、本実施例では、音声認識またはユーザ操作部302を介した操作によって選択された回数に基づいて、その単語の音声認識優先順位を設定する。一般に、ユーザの使用頻度の高いメニューは上位に表示するなどがおこなわれている。このようにユーザが頻繁に選択する単語は、表示部303に優先的に表示して、ユーザ操作部302(タッチパネルなど)による操作をおこない易くする。一方で、選択頻度が少ない単語は、表示部303への表示優先度は低くする。その代わりに、音声認識優先度を高く設定し、優先的に音声認識をおこなえるようにする。
このように優先順位を決定するのは、頻繁に選択する単語はタッチパネルなどによってすぐに選択できる方が操作が容易であり、敢えて音声認識を使うメリットは小さい。このため、頻繁に選択する単語は、表示優先度は高くする一方で、音声認識優先度は低く設定する。逆に、選択頻度が少ない単語は、どのようなジャンルにカテゴライズされているか判断しづらい場合が多く、設定画面の表示から探すことが困難である。このような単語は、音声認識によって選択した方が操作を容易にすることができる。このため、選択頻度が少ない単語は、表示優先度を低くする一方で、音声認識優先度を高く設定する。このような設定をおこなうことによって、音声認識部312は音声認識の処理速度の向上を図っている。
以上のようなハードウェア構成によってナビゲーション装置300は構成されている。なお、実施の形態にかかる音声認識装置100の機能的構成である音声入力部101はマイク302aが、表示部102は表示部303が、操作入力部103はユーザ操作部302が、計数部104、抽出部105、表示制御部106は、ナビゲーション制御部301が、音声認識部107は音声認識部312が、それぞれその機能を実現する。
(ユーザ設定操作の受付手順)
図4は、ナビゲーション装置によるユーザ設定操作の受付手順を示すフローチャートである。前述のように、ナビゲーション装置300に対する設定操作は、音声認識部312によっておこなう音声認識およびユーザ操作部302を介した操作によっておこなうことができる。ナビゲーション装置300に対する設定操作は様々なものがあるが、ここでは目的地点の設定をおこなう場合を例として説明する。
まず、ナビゲーション制御部301は、目的地点候補ごとの選択回数をカウントしている(ステップS401)。ここで、目的地点は、あらかじめ登録された属性の施設を目的地点候補とし、これらの目的地点候補を選択することによって設定するものとする。あらかじめ登録された属性の施設とは、たとえば、ラーメン屋やファミリーレストランなどの飲食店や、スーパーマーケット、書店などの小売店などである。これらの目的地点候補の選択は、タッチパネル上に表示された施設名ボタンを押下したり、ユーザの発話を音声認識することによっておこなう。また、たとえば、地図上に示された施設を選択したり、前回の目的地点を読み出すなどしてもよい。
ナビゲーション制御部301は、目的地点設定画面の表示指示を待って(ステップS402:Noのループ)、目的地点設定画面の表示指示があった場合は(ステップS402:Yes)、レコメンド地点を抽出する(ステップS403)。目的地点設定画面の表示指示は、経路探索時など目的地点を設定する際におこなわれる。また、レコメンド地点とは、ステップS401においてカウントしている選択回数が上位の目的地点候補(より詳細には選択回数が上位の目的地点候補を示す語句)である。音声認識部312は、目的地点候補を選択回数によって順位付けして、選択回数が上位の単語を抽出する。レコメンド地点を上位何位までを抽出するかは後述する音声認識用辞書の容量に依存する。
つぎに、音声認識部312は、ステップS403で抽出されたレコメンド地点を第2の音声認識用辞書(以下、「第2辞書」という)に、その他の目的地点候補(より詳細には、その他の目的地点候補を示す語句)を第1の音声認識用辞書(以下、「第1辞書」という)に登録する(ステップS404)。ここで、第1辞書は、音声認識優先度が高い語句を登録する音声認識用辞書である。また、第2辞書は、音声認識優先度が低い語句を登録する辞書である。音声認識処理においては、まず、第1辞書に登録された語句とのマッチング処理がおこなわれ、該当する語句がなかった場合は、第2辞書に登録された語句とのマッチング処理がおこなわれる。
なお、ここでは音声認識用辞書を2つにしたが、選択回数に応じて、さらに多くの音声認識用辞書に単語を割り振ることとしてもよい。特に、割り振るべき単語が大量にある場合は、多くの音声認識用辞書に割り振ることによって、1つの音声認識用辞書に登録される単語数を少なくすることができる。
続いて、ナビゲーション制御部301は、レコメンド地点を初期選択メニューに設定し(ステップS405)、目的地点設定画面を表示する(ステップS406)。初期選択メニューとは、目的地点設定画面において、目的地点候補として最初に表示される項目である。目的地点候補は数多く存在し、一度に画面表示しようとすると画面表示が煩雑となる。このため、目的地点として選択される回数が多いレコメンド地点を初期選択メニューに置く。たとえば、スクロールバーなどを用いて全ての目的地点候補を表示する場合は、スクロールしなくても表示される位置にレコメンド情報を表示する。これにより、画面が煩雑になることを回避しつつ、ユーザに簡易な操作で目的地点の設定をおこなわせることができる。
そして、ナビゲーション制御部301は、ユーザ操作部302を介した操作入力または音声入力待ちに移行し(ステップS407)、本フローチャートによる処理を終了する。以上のような処理によって、ナビゲーション装置300はユーザからの設定操作を受け付ける。
図5は、目的地点設定画面の一例を示す図である。表示部303には、複数の目的地点候補表示521〜526が表示され、所望の目的を選択できるようになっている。表示部303はタッチパネルとなっており、表示された目的地点候補の名称を指で触れると、その目的地点候補が目的地点に設定できるようになっている。なお、目的地点の設定は、ユーザの発話を音声認識することによっても可能である。図示の例では、目的地点候補表示521は「公園」を、目的地点候補表示522は「書店」を、目的地点候補表示523は「スーパーマーケット」を、目的地点候補表示524は「ファミリーレストラン」を、目的地点候補表示525は「遊園地」を、目的地点候補表示526は「ラーメン屋」を、それぞれ示している。これらの項目は、当初、たとえば50音順に配置されている。
太線で示した表示領域501は、目的地点設定画面が表示部303上に表示される当初から表示される領域である。一方、点線で示した表示領域511は、スクロールボタン520を押下するなどによって画面スクロールをおこなうことによって表示部303に表示される領域である。一般に、目的地点候補は相当数存在するため、このようなスクロール表示や階層表示を用いて画面表示が煩雑になるのを防いでいる。なお、以下では説明の便宜上、上記に示した6つの地点(目的地点候補表示521〜526に示された地点)を目的地点候補とする。
図6は、目的地点候補の選択回数の一例を示す図表である。図6の図表において、目的地点候補表示601には、目的地点候補が50音順に示されている。また、選択回数表示602には、それぞれの目的地点が選択された回数が示されている。前述のように、ナビゲーション制御部301は、目的地点候補ごとの選択回数をカウントしている(図4のステップS401参照)。
図示の例では、「公園」は12回、「書店」は5回、「スーパーマーケット」は34回、「ファミリーレストラン」は43回、「遊園地」は3回、「ラーメン屋」は65回、それぞれ選択されている。この選択回数は、その選択がおこなわれた方法が、ユーザ操作部302を介した操作入力であるか、音声認識による選択であるかを問わずカウントしている。
図7は、図6に示した目的地点候補を選択回数が多い順に並べ替えた図表である。図6では50音順に配置されていた目的地点候補表示601は、選択回数が多い順に、「ラーメン屋」、「ファミリーレストラン」、「スーパーマーケット」、「公園」、「書店」、「遊園地」の順に並べ替えられている。このうち、選択回数が上位の目的地点が、レコメンド地点として抽出される(図4のステップS403参照)。ここでは、選択回数が上位3位の地点をレコメンド地点として抽出するものとする。すなわち、「ラーメン屋」、「ファミリーレストラン」、「スーパーマーケット」を抽出する。そして、レコメンド地点として抽出された目的地点候補を第2辞書に、その他の目的地点候補を第1辞書に登録する(図4のステップS404参照)。
図8は、音声認識用辞書に登録された語句を示す図表である。音声認識用辞書801には、第1辞書802および第2辞書803がある。第1辞書802には音声認識優先度が高い語句が登録され、第2辞書803には音声認識優先度が低い語句が登録される。図示の例では、第2辞書803には、レコメンド地点として抽出された「ラーメン屋」、「ファミリーレストラン」、「スーパーマーケット」が登録されている。一方、第1辞書802には、レコメンド地点以外の目的地点候補である「公園」、「書店」、「遊園地」が登録されている。
図9は、レコメンド地点を考慮した目的地点設定画面の一例を示す図である。太線で示した表示領域901は、目的地点設定画面が表示部303上に表示される当初から表示される領域である。一方、点線で示した表示領域911は、スクロールボタン920を押下するなどによって画面スクロールをおこなうことによって表示部303に表示される領域である。
図示のように、当初から表示される表示領域901には、レコメンド情報である「ラーメン屋」、「ファミリーレストラン」、「スーパーマーケット」を示す目的地点候補表示921〜923が表示される。一方で、スクロールボタン920を押下しなければ表示されない表示領域911には、その他の目的地点候補である「公園」、「書店」、「遊園地」を示す目的地点候補表示924〜926が表示される。
表示部303はタッチパネルとなっており、表示された目的地点候補の名称を指で触れると、その目的地点候補が目的地点に設定できる。このため、ユーザは、選択回数が多いレコメンド地点を、スクロール操作なしで目的地点として設定することができる。このため、目的地点の設定操作を容易におこなうことができる。
図10は、ユーザによる目的地点設定操作を模式的に示した図である。ユーザ1001は、レコメンド地点を目的地点に選択する際には、表示部303の表示領域901に示された目的地点候補表示921〜923を押下する(矢印1012)。また、レコメンド情報以外の目的地点候補を選択する際には、その施設名称、たとえば「書店」などと発話する(吹き出し1011)。レコメンド地点に該当しない「書店」は、音声認識優先度が高い第1辞書802に登録されているため、音声認識処理に要する時間を短縮することができる。なお、表示部303の表示をスクロールすることによって、「書店」を選択することも可能である。また、レコメンド地点を音声認識によって選択することも可能であるが、この場合は、第2辞書803を用いてマッチング処理をおこなうため、第1辞書802に登録されている語句に比べ、処理に要する時間が長くなる。
図11は、ナビゲーション装置によるユーザ設定操作の処理手順を示すフローチャートである。なお、以下も図4同様に、目的地点の設定をおこなう場合を例として説明する。まず、ナビゲーション制御部301は、ユーザ操作部302を介して目的地点候補の操作入力があったかを判断する(ステップS1101)。前述の例では、ユーザ操作部302は表示部303のタッチパネルであり、操作入力はタッチパネルが触れられたことを示す。操作入力があった場合は(ステップS1101:Yes)、操作入力された目的地点候補を目的地点として設定して(ステップS1102)、本フローチャートによる処理を終了する。
また、操作入力がなかった場合は(ステップS1101:No)、マイク302aを介した音声入力があったかを判断する(ステップS1103)。音声入力がなかった場合は(ステップS1103:No)、ステップS1101に戻り、ユーザからの入力を待つ。一方、音声入力があった場合は(ステップS1103:Yes)、まず、第1辞書とのマッチング処理によって音声認識をおこなう(ステップS1104)。そして、第1辞書とのマッチング処理によって入力された音声の認識ができたかを判断し(ステップS1105)、認識できた場合は(ステップS1105:Yes)、ステップS1108に移行する。
一方、認識ができなかった場合は(ステップS1105:No)、第2辞書とのマッチング処理によって音声認識をおこなう(ステップS1106)。そして、第2辞書とのマッチング処理によって入力された音声の認識ができたかを判断し(ステップS1107)、判断できた場合は(ステップS1107:Yes)、認識した目的地点候補を目的地点に設定して(ステップS1108)、本フローチャートによる処理を終了する。
一方、第2辞書とのマッチング処理によっても入力された音声の認識ができなかった場合は(ステップS1107:No)、表示部303にエラー表示をおこない(ステップS1109)、本フローチャートによる処理を終了する。エラー表示は、たとえば、再発話を促すものや、他の同義語に代えて再試行を促すものなどである。また、表示部303への表示に限らず、たとえば、音声によるエラー報知であってもよい。
以上のような処理によって、ナビゲーション装置300はユーザ設定操作の処理をおこなう。レコメンド地点は、当初から画面上に表示されるため、ユーザはタッチパネル操作によってすぐに選択することができる。また、レコメンド地点以外の目的地点候補は、画面上に表示はされていないものの、音声認識優先度が高い第1辞書に登録されており、音声による設定を優先的におこなうことができる。
なお、これまでの説明では、各目的地点候補の選択回数に基づいてレコメンド地点を抽出したが、これに限らず、たとえば、各目的地点候補が属するジャンルごとの選択回数に基づいてレコメンド地点を抽出してもよい。
図12は、目的地点候補の選択回数の一例を示す図表である。目的地点候補表示1201および選択回数表示1202は、図6に示したものと同様である。ジャンル属性表示1203は、それぞれの目的地点候補が属するジャンルを示している。図示の例では、「公園」および「遊園地」は「プレイスポット」に、「書店」および「スーパーマーケット」は「小売店」に、「ファミリーレストラン」および「ラーメン屋」は「飲食店」に、それぞれ属している。
また、「プレイスポット」に属する施設(「公園」および「遊園地」)が選択された回数の合計は12+3=15回である。「小売店」に属する施設(「書店」および「スーパーマーケット」)が選択された回数の合計は5+34=39回である。「飲食店」に属する施設(「ファミリーレストラン」および「ラーメン屋」)が選択された回数の合計は43+65=108回である。これから、飲食店に属する施設が最も多く選択され、続いて小売店、プレイスポットに属する施設が選択されていることがわかる。
一般に、目的地点候補は、その属性に基づいてジャンル分けされており、目的地点候補をジャンルから絞り込むことも可能である。このため、目的地点として選択される回数が多い目的地点候補が属するジャンルを優先的に表示させ、目的地点として選択される回数が少ない目的地点候補が属するジャンルは、音声認識優先度を高める。これにより、ユーザに対して目的地点の設定操作を効率的におこなわせることができる。
図13は、ジャンル別の選択回数を考慮した目的地点設定画面の一例を示す図である。表示部303には、ジャンルから目的地点を選択する選択画面1301が表示され、目的地点候補が属するジャンルのジャンル表示1321〜1323が表示されている。前述のように、最も多く選択されているジャンルである飲食店が、先頭に表示され、続いて小売店、プレイスポットが表示されている。それぞれのジャンル表示1321〜1323を押下すると、それぞれのジャンルに属する施設が表示される表示画面に移行する。また、各ジャンルに属する施設を直接音声認識によって選択することもできる。
図14は、ジャンル別の選択回数を考慮した目的地点設定画面の一例を示す図である。図13に示すようにジャンルから目的地点候補の施設を選択する他、図14に示すように全ての目的地点候補を表示させて選択する場合でもジャンル別の選択回数を考慮することができる。
太線で示した表示領域1401は、目的地点設定画面が表示部303上に表示される当初から表示される領域である。一方、点線で示した表示領域1411は、スクロールボタン1420を押下するなどによって画面スクロールをおこなうことによって表示部303に表示される領域である。
図示のように、当初から表示される表示領域1401には、選択回数が最も多いジャンル「飲食店」に属する施設である「ラーメン屋」および「ファミリーレストラン」の目的地点候補表示1421,1422が表示される。以降、スクロールボタン1420を押下しなければ表示されない表示領域1411にかけては、2番目に選択回数が多いジャンル「小売店」に属する施設である「スーパーマーケット」および「書店」の目的地点候補表示1423,1424が表示される。そして、さらにその下には、選択回数が最も少ないジャンル「プレイランド」に属する施設である「公園」および「遊園地」の目的地点候補表示1425,1426が表示される。
このような場合、音声認識用辞書の第1辞書には、「公園」「遊園地」などプレイスポットに属する施設が登録される。また、第2辞書には、「ラーメン屋」「ファミリーレストラン」など飲食店に属する施設および「スーパーマーケット」「書店」など小売店に属する施設が登録される。
このように、頻繁に選択されるジャンルに属する施設は優先的に表示することによって、ユーザはタッチパネル操作によって、頻繁に利用する施設を素早く目的地点として設定することができる。また、あまり選択されないジャンルに属する施設は、画面上に表示はされていないものの、音声認識優先度が高い第1辞書に登録されており、音声による設定を優先的におこなうことができる。特に、あまり利用しない施設は、どのようなジャンルに属するか不明な場合があり、画面表示の階層を辿るよりも、音声認識によって選択した方が効率的な場合が多い。このような音声認識によって入力される可能性が高い語句を優先的に音声認識することによって、音声認識処理を効率的におこなうことができる。
以上説明したように、実施例1にかかるナビゲーション装置300によれば、目的地点の選択回数によって、表示優先度および音声認識優先度を変化させることによって、効率的に目的地点の設定をおこなうことができる。また、選択回数が多い目的地点候補のみを表示することによって、目的地点設定画面に表示する項目を少なくし、画面表示を効率的におこなうことができる。
実施例1では、表示部303および音声認識を用いた目的地点の設定に関する実施例を説明した。実施例2では、ハードキーに対する機能割当に関する実施例を説明する。ナビゲーション装置などの車載器は、本体部に物理的に設けられたハードキーを備えている。これらのハードキーは、最初から特定の記号や機能が割り当てられているわけではなく、ユーザによる設定などによって、それぞれが必要とする機能を自由に割り当てることができるものがある(以下、このようなハードキーをファンクションキーという)。実施例2では、ファンクションキーへの機能割当と音声認識を組み合わせて、ユーザ操作の効率化を図る。なお、実施例2にかかるナビゲーション装置の構成は、図3に示した実施例1にかかるナビゲーション装置300と同様であるので、詳細な説明を省略し、実施例1と同様の符号を用いて説明する。
図15は、実施例2にかかるナビゲーション装置の外観を示す図である。ナビゲーション装置300は、表示部303および本体部1500から構成される。表示部303には、ナビゲーション画面や設定操作画面などが表示される。本体部1500には、図3に示したナビゲーション装置300の構成部のうち、表示部303以外のものが収納されている。
本体部1500には、電源ボタン1511のように、その機能が固定したボタンの他、ユーザの設定によって機能を割当可能なファンクションキー1521〜1525が設けられている。ファンクションキー1521〜1525には、たとえば、オーディオに関する機能を割当可能であり、「CD」「TUNER」「MD」「HDD」「TAPE」の各機能をいずれかのファンクションキー1521〜1525に割り振るものとする。
また、ファンクションキー1521〜1525に割当られた各機能の実行は、ファンクションキー1521〜1525を押下する他、ユーザがその機能名称を発話することによっておこなうこともできる。ユーザによる発話は、音声認識部312(図3参照)によって音声認識され、ナビゲーション制御部301(図3参照)は、音声認識された機能を実行する。
図16および図17は、ファンクションキーの機能表示例を示す図である。ファンクションキー1521〜1525は、文字表示または画像表示が可能であり、そのキーがどのような機能を有するかを示すことができる。図16では文字表示によって、図17では画像表示によって、それぞれのキーの機能を示している。また、この他、ファクションキー1521〜1525に指を近づけるとそのキーの機能を音声出力するようにしてもよい。
各ファンクションキー1521〜1525への機能の割当は、各機能の実行頻度によって決定される。一般に、操作対象は操作者に近い位置の方が効率的であり、誤操作なども少ない。このため、使用頻度が高い機能は、運転者(操作者)に近いキー(ファンクションキー1525側)に、使用頻度が低い機能は、操作者に遠いキー(ファンクションキー1521側)に、それぞれ配置する。
図18は、各機能の使用頻度とその割合の一例を示す図表である。図18の図表において、割当機能表示1801には、ファンクションキー1521〜1525に割当可能な機能が示されている。また、使用回数表示1802には、それぞれの機能が使用された回数が示されている。さらに、使用割合表示1803には、それぞれの機能が使用された割合が示されている。
図示の例では、「CD」の使用回数は103回であり、使用割合は48%である。「TUNER」の使用回数は13回であり、使用割合は6%である。「MD」の使用回数は32回であり、使用割合は15%である。「HDD」の使用回数は57回であり、使用割合は27%である。「TAPE」の使用回数は8回であり、使用割合は4%である。これから、各機能は「CD」「HDD」「MD」「TUNER」「TAPE」の順に使用されていることがわかる。
図19は、各機能の使用割合を考慮したファンクションキーへの機能割当を示す図である。操作者に最も近いファンクションキー1525から、操作者に最も遠いファンクションキー1521に向かって、「CD」「HDD」「MD」「TUNER」「TAPE」の順に割り振られている。これにより、ユーザが頻繁に使用する機能が割当られたキーを操作者に近い位置に設定し、これらの機能を使用する際の操作性を向上させることができる。
一方で、運転席から遠いファンクションキー(ファンクションキー1521側)に割当られた機能(使用頻度が低い機能)を使用する際には、キーによる操作は煩雑となる場合が多い。このような場合、ユーザは音声認識によってそれらの機能を実行することが多いと考えられる。このため、運転席から遠いファンクションキーに割当られた機能(使用頻度が低い機能)に関しては、音声認識優先度を上げ、効率的に音声認識をおこなえるようにする。
図20は、ファンクションキーに割当られた機能の実行のための音声認識用辞書に登録された語句を示す図表である。音声認識用辞書2001には、第1辞書2002および第2辞書2003がある。第1辞書2002には音声認識優先度が高い語句が登録され、第2辞書2003には音声認識優先度が低い語句が登録される。図示の例では、第1辞書2002には、使用頻度が低い機能である「MD」「TUNER」「TAPE」が登録されている。一方、第2辞書2003には、使用頻度が低い機能である「CD」「HDD」が登録されている。
第1辞書に登録された機能は、運転席から遠いファンクションキー(ファンクションキー1521側)に割当られており、キー操作よりも音声認識によって実行される可能性が高い。このため、音声認識優先度が高い語句が登録される第1辞書に登録する。また、第2辞書に登録された機能は、運転席から近いファンクションキー(ファンクションキー1525側)に割当られており、音声認識よりもキー操作によって実行される可能性が高い。このため、音声認識優先度が低い語句が登録される第2辞書に登録する。これにより、音声認識がおこなわれる語句を優先的に音声認識することができ、音声認識処理の処理効率の向上を図ることができる。
以上説明したように、実施例2にかかるナビゲーション装置300によれば、ファンクションキー1521〜1525に割当られる機能の使用頻度によって、各機能に割当るキーの位置を決定する。そして、使用頻度が高い機能は操作者から近いキーに割当て、キー操作をおこない易くする。また、操作者から遠いキーに割当られた機能に関しては、音声認識優先度を高め、効率的な音声認識をおこなう。これにより、ナビゲーション装置の操作性をより向上させることができる。
なお、本実施の形態で説明した音声認識方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。

Claims (9)

  1. 音声が入力される音声入力手段と、
    あらかじめ設定された複数の待ち受け語を表示する表示手段と、
    前記表示手段によって表示された複数の前記待ち受け語のうちいずれかを選択するための操作入力手段と、
    前記音声入力手段に入力された音声にそれぞれの前記待ち受け語が含まれた回数と、前記操作入力手段によってそれぞれの前記待ち受け語が選択された回数とを計数する計数手段と、
    前記計数手段によって計数された前記回数に基づいて、複数の前記待ち受け語のうち優先的に表示する優先表示語を抽出する抽出手段と、
    前記抽出手段によって抽出された前記優先表示語を前記表示手段に優先的に表示する表示制御手段と、
    前記優先表示語以外の前記待ち受け語を優先して、前記音声入力手段に入力された音声を音声認識する音声認識手段と、
    を備えることを特徴とする音声認識装置。
  2. 前記抽出手段は、前記計数手段によって計数された前記回数が多い前記待ち受け語を前記優先表示語として抽出することを特徴とする請求項1に記載の音声認識装置。
  3. 前記計数手段は、前記待ち受け語が属するジャンルごとに前記回数を計数し、
    前記抽出手段は、前記計数手段によって計測された前記回数が多いジャンルに属する前記待ち受け語を前記優先表示語として抽出することを特徴とする請求項1に記載の音声認識装置。
  4. 前記操作入力手段は、タッチパネルであり、
    前記表示制御手段は、前記優先表示語を前記回数が多い順に表示することを特徴とする請求項1〜3のいずれか一つに記載の音声認識装置。
  5. 音声が入力される音声入力手段と、
    装置が有する複数の機能のうちいずれか一つを実行するための複数の操作入力手段と、
    前記音声入力手段に入力された音声にそれぞれの前記機能の名称が含まれた回数と、前記操作入力手段によってそれぞれの前記機能が実行された回数とを計数する計数手段と、
    前記計数手段によって計数された前記回数に基づいて、複数の前記操作入力手段のうち操作者に近い位置に割り振る優先割振機能を決定する決定手段と、
    前記決定手段によって決定された前記優先割振機能以外の前記機能を優先して、前記音声入力手段に入力された音声を音声認識する音声認識手段と、
    を備えることを特徴とする情報処理装置。
  6. 音声が入力される音声入力工程と、
    あらかじめ設定された複数の待ち受け語を表示する表示工程と、
    前記表示工程によって表示された複数の前記待ち受け語のうちいずれかを選択する操作入力工程と、
    前記音声入力工程に入力された音声にそれぞれの前記待ち受け語が含まれた回数と、前記操作入力工程によってそれぞれの前記待ち受け語が選択された回数とを計数する計数工程と、
    前記計数工程によって計数された前記回数に基づいて、複数の前記待ち受け語のうち優先的に表示する優先表示語を抽出する抽出工程と、
    前記抽出工程によって抽出された前記優先表示語を前記表示工程に優先的に表示する表示制御工程と、
    前記優先表示語以外の前記待ち受け語を優先して、前記音声入力工程に入力された音声を音声認識する音声認識工程と、
    を含むことを特徴とする音声認識方法。
  7. 音声が入力される音声入力工程と、
    複数の機能のうちいずれか一つを実行させる操作入力工程と、
    前記音声入力工程に入力された音声にそれぞれの前記機能の名称が含まれた回数と、前記操作入力工程によってそれぞれの前記機能が実行された回数とを計数する計数工程と、
    前記計数工程によって計数された前記回数に基づいて、複数の前記操作入力工程のうち操作者に近い位置に割り振る優先割振機能を決定する決定工程と、
    前記決定工程によって決定された前記優先割振機能以外の前記機能を優先して、前記音声入力工程に入力された音声を音声認識する音声認識工程と、
    を含むことを特徴とする音声認識方法。
  8. 請求項6または7に記載の音声認識方法をコンピュータに実行させることを特徴とする音声認識プログラム。
  9. 請求項8に記載の音声認識プログラムを記録したコンピュータに読み取り可能な記録媒体。
JP2007522223A 2005-06-21 2006-05-29 音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体 Expired - Fee Related JP4682199B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005181064 2005-06-21
JP2005181064 2005-06-21
PCT/JP2006/310672 WO2006137245A1 (ja) 2005-06-21 2006-05-29 音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JPWO2006137245A1 JPWO2006137245A1 (ja) 2009-01-08
JP4682199B2 true JP4682199B2 (ja) 2011-05-11

Family

ID=37570279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007522223A Expired - Fee Related JP4682199B2 (ja) 2005-06-21 2006-05-29 音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体

Country Status (4)

Country Link
EP (1) EP1895508B1 (ja)
JP (1) JP4682199B2 (ja)
DE (1) DE602006017368D1 (ja)
WO (1) WO2006137245A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5128011B2 (ja) 2010-08-09 2013-01-23 三菱電機株式会社 情報処理装置
WO2016002406A1 (ja) * 2014-07-04 2016-01-07 クラリオン株式会社 車載対話型システム、及び車載情報機器
JP7268449B2 (ja) * 2019-03-29 2023-05-08 京セラドキュメントソリューションズ株式会社 表示制御装置、表示制御方法、及び表示制御プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222689A (ja) * 1999-02-01 2000-08-11 Equos Research Co Ltd 車両制御装置
JP2001331262A (ja) * 1998-03-05 2001-11-30 Mitsubishi Electric Corp 携帯端末
JP2002318597A (ja) * 2001-02-15 2002-10-31 Alpine Electronics Inc 音声入力案内方法及び装置
JP2003241784A (ja) * 2002-02-21 2003-08-29 Nissan Motor Co Ltd 音声入出力装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2589299B2 (ja) * 1987-01-28 1997-03-12 富士通株式会社 単語音声認識装置
US20020077830A1 (en) * 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
JP2003044074A (ja) * 2001-07-27 2003-02-14 Canon Inc 印刷処理装置、印刷処理方法、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
JP4475380B2 (ja) 2002-05-15 2010-06-09 パイオニア株式会社 音声認識装置及び音声認識プログラム
JP2005123964A (ja) * 2003-10-17 2005-05-12 Sharp Corp 機器の調整メニュー表示方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331262A (ja) * 1998-03-05 2001-11-30 Mitsubishi Electric Corp 携帯端末
JP2000222689A (ja) * 1999-02-01 2000-08-11 Equos Research Co Ltd 車両制御装置
JP2002318597A (ja) * 2001-02-15 2002-10-31 Alpine Electronics Inc 音声入力案内方法及び装置
JP2003241784A (ja) * 2002-02-21 2003-08-29 Nissan Motor Co Ltd 音声入出力装置

Also Published As

Publication number Publication date
DE602006017368D1 (de) 2010-11-18
EP1895508B1 (en) 2010-10-06
WO2006137245A1 (ja) 2006-12-28
JPWO2006137245A1 (ja) 2009-01-08
EP1895508A4 (en) 2009-12-16
EP1895508A1 (en) 2008-03-05

Similar Documents

Publication Publication Date Title
EP2245609B1 (en) Dynamic user interface for automated speech recognition
US7272489B2 (en) Navigation method and system for extracting, sorting and displaying POI information
US7310602B2 (en) Navigation apparatus
US20070033043A1 (en) Speech recognition apparatus, navigation apparatus including a speech recognition apparatus, and speech recognition method
JP4466379B2 (ja) 車載音声認識装置
JP2005214961A (ja) ナビゲーション装置、ナビゲーションシステムおよびナビゲーション方法
JP2005292970A (ja) 施設検索装置、プログラム、ナビゲーション装置、及び施設検索方法
JP4682199B2 (ja) 音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体
WO2006137246A1 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JPH10111141A (ja) 車両用ナビゲーション装置
JP5455355B2 (ja) 音声認識装置及びプログラム
JP6000136B2 (ja) 文字入力装置および文字入力方法
JP4196137B2 (ja) 目的地設定装置
JP4381632B2 (ja) ナビゲーションシステムおよびその目的地入力方法
JP2011232668A (ja) 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法
JP4705398B2 (ja) 音声案内装置、音声案内装置の制御方法及び制御プログラム
JP4471618B2 (ja) 項目検索装置及び項目検索方法
JP2017182251A (ja) 解析装置
JPH11325945A (ja) 車載用ナビゲーション装置
JP2010038751A (ja) ナビゲーション装置
WO2006028171A1 (ja) データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体
JP2006178898A (ja) 地点検索装置
JP2003140682A (ja) 音声認識装置及び音声辞書作成方法
JP6115202B2 (ja) 音声認識システム、方法およびプログラム
JP4645708B2 (ja) コード認識装置および経路探索装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110207

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees