JP2005215474A - 音声認識装置、プログラム、記憶媒体及びナビゲーション装置 - Google Patents

音声認識装置、プログラム、記憶媒体及びナビゲーション装置 Download PDF

Info

Publication number
JP2005215474A
JP2005215474A JP2004023881A JP2004023881A JP2005215474A JP 2005215474 A JP2005215474 A JP 2005215474A JP 2004023881 A JP2004023881 A JP 2004023881A JP 2004023881 A JP2004023881 A JP 2004023881A JP 2005215474 A JP2005215474 A JP 2005215474A
Authority
JP
Japan
Prior art keywords
speaker
voice
single syllable
speech recognition
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004023881A
Other languages
English (en)
Other versions
JP4453377B2 (ja
Inventor
Ryuichi Suzuki
竜一 鈴木
Kunio Yokoi
邦雄 横井
Ichiro Akahori
一郎 赤堀
Makoto Sakai
誠 坂井
Satoshi Suzuki
聖史 鈴木
Masahiko Tateishi
雅彦 立石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2004023881A priority Critical patent/JP4453377B2/ja
Priority to KR1020040110491A priority patent/KR100677711B1/ko
Publication of JP2005215474A publication Critical patent/JP2005215474A/ja
Application granted granted Critical
Publication of JP4453377B2 publication Critical patent/JP4453377B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0968Systems involving transmission of navigation instructions to the vehicle
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Navigation (AREA)

Abstract

【課題】 話者にとってできるだけ使い勝手の良い音声認識装置等を提供する。
【解決手段】 音声を入力すると(S120)、音声を分析して候補単音節を複数選択し(S125)、第1候補単音節を報知する(S135)。そして、確定SWが操作されたこと、又は更に音声が入力されたことによって処理を分岐し(S140)、確定SWが操作された場合は報知した候補単音節を確定単音節とし(S145)、さらに音声が入力された場合は再び音声を分析して候補単音節を選択する(S125)。この結果、話者は、認識が正しくなされなかった場合にスイッチ等を操作して再入力指示をすることなく、続けて再発話するだけでよい。
【選択図】 図2



Description

本発明は、話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置等に関する。
話者によって入力された音声に基づいて、話者の意図する単音節を一単音節ずつ決定する音声認識装置が広く知られている。このようなタイプの音声認識装置は、単語(複数の単音節からなる語)単位の音声認識を行う音声認識装置のように音声認識を行う単語全てに対応する単語辞書を予め備えている必要がないため、最終的な認識結果の集合(例えば文)としては事実上、どのようなものでも認識させることができるという利点がある。
しかし、単音節の音声を認識する場合は、単語単位の音声認識に比較して認識手がかりが少ないため、一般的に認識率が低い。そのため、このような単音節の音声を認識する音声認識装置では、より認識精度を向上させるために様々な工夫が施されている。例えば、話者が発話方法を工夫して入力することにより認識精度を向上させるようになっていたり、音声認識装置が認識した単音節を音声出力(トークバック)することにより話者に確認させて最終的な認識精度を向上させるようになっている。
ここで前者の方法について採り上げる。特許文献1に示す音声認識装置は、話者が例えば「あいうえおのあ」と入力することによって単音節の音声「あ」を認識するものである。このように話者が単音節よりも長い単音節認識用特定語を入力することにより、単に単音節を入力する場合と比較して音声認識装置の認識精度を向上させることができる。
特開平11−184495号公報
ところが、このような音声認識手法を用いた音声認識装置であっても、話者の話し方(いわゆる癖)や発話時の騒音環境等により、誤認識を完全に防ぐことは難しいのが実情である。また、単音節の音声を認識する音声認識装置の場合は、話者が一音節一音節毎に修正や確定を行う必要があり、誤認識があると更に話者に手間をかけさせるといった問題がある。
本発明は、このような問題に鑑みなされたものであり、話者にとってできるだけ使い勝手の良い音声認識装置等を提供することを目的とする。
上記課題を解決するためになされた請求項1に記載の音声認識装置は、音声入力手段と、音声認識手段と、受付手段と、制御手段とを備える。音声入力手段は話者の発声した音声を入力し、音声認識手段は入力手段が入力した音声を分析して候補単音節を特定し、報知手段は指定された情報を報知し、受付手段は話者の操作を受け付ける。また、制御手段は、音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を報知手段に報知させる報知処理を実行し、話者より決定を意味する操作を受付手段が受け付けた場合は直前の報知処理の際に報知させた候補単音節を話者の意図する単音節として確定する確定処理を実行し、話者から新たな音声が音声入力手段に入力されて音声認識手段が候補単音節を特定した場合は報知処理の実行に戻りその候補単音節の中で最も尤度が高い候補単音節を報知手段に報知させる。なお、ここで言う候補単音節というのは、字のごとく単音節の候補であり、音声認識手段が特定する候補単音節は1つであってもよいし複数であってもよい。
請求項1に記載の音声認識装置によれば、話者は発話した単音節が正しく認識された場合のみ操作を行い単音節を確定させ、正しく認識されていない場合には何ら操作なく正しく認識されるまで続けて単音節を発話することができる。このため話者は、認識が正しくなされなかった場合に何度も再入力指示をすることなく、続けて再発話するだけでよい。つまり、使い勝手が良い。
また、請求項2に記載の音声認識装置は、音声入力手段と、音声認識手段と、報知手段と、制御手段とを備える。音声入力手段は話者の発声した音声を入力し、音声認識手段は入力手段が入力した音声を分析して候補単音節を特定すると共に確定を意味する確定語を認識し、報知手段は指定された情報を報知する。また、制御手段は、音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を報知手段に報知させる報知処理を実行し、話者から新たな音声が音声入力手段に入力されて音声認識手段が確定語を認識した場合は直前の報知処理の際に報知させた候補単音節を話者の意図する単音節として確定する確定処理を実行し、話者から新たな音声が音声入力手段に入力されて音声認識手段が候補単音節を特定した場合は報知処理の実行に戻りその候補単音節の中で最も尤度が高い候補単音節を報知手段に報知させる。なお、ここで言う候補単音節というのは、字のごとく単音節の候補であり、音声認識手段が特定する候補単音節は1つであってもよいし複数であってもよい。
請求項2に記載の音声認識装置によれば、話者は発話した単音節が正しく認識された場合のみ確定語(例えば「次」や「次へ」や「次は」等)を発話して単音節を確定させ、正しく認識されていない場合には何ら特別な操作や発話することなく正しく認識されるまで認識させたい単音節を続けて発話することができる。このため話者は、認識が正しくなされなかった場合に何度も再入力指示をすることなく、続けて再発話するだけでよい。つまり、使い勝手がよい。
ところで、認識された単音節が正しくない場合、話者が再発話した際も再び前回と同じ不適切な候補単音節が報知される可能性がある。このようなこと防止するには、請求項3に記載のように、制御手段が、確定処理を実行することなく報知処理を連続して2回以上実行する場合、報知処理によって過去に報知した候補単音節を報知する候補単音節から除外して最も尤度の高い候補単音節を報知するようになっているとよい。
このようになっていれば、再発話の際に再び前回と同じ不適切な候補単音節が報知されることがなくなり、話者にとって使い勝手が向上する。
しかし、本当は正しい候補単音節が報知されたにもかかわらず、間違えて再発話してしまう場合も考えられる。このように間違えてしまうと、二度と正しい候補単音節が報知されなくなってしまという不都合が生じる。このような不都合が生じることを防止するためには、請求項4に記載のように、所定回数、再発話があった際には、候補単音節の除外を解除するようになっているとよい。つまり、制御手段が、前記除外について、確定処理を実行することなく繰り返し実行した報知処理のうち直前を除く所定回数以前に実行した報知処理によって報知した候補単音節は除外しないようになっているとよい。
なお、この所定回数の最適値としては、請求項5に記載のように3回であるとよい。この数字の根拠は、本願発明者らが行った実験(本実験の詳細は実施の形態の欄で説明)によると、発話回数4回までに正しい候補単音節が報知される確率は98%であり、それ以上発話回数を重ねてもそれ以降に正しい候補単音節が報知されるということはほとんどない。つまり、ほとんどの場合、再発話回数3回時点までに正しい単音節が一度は報知されていることを意味し、再発話回数が3回になった場合には、話者が正しい候補単音節を誤って除外してしまった可能性が高いことを意味する。
したがって、請求項5に記載のように、過去3回以前に実行した報知処理によって報知した候補単音節は除外しないようにすれば、上述したような二度と正しい候補単音節が報知されなくなってしまという不都合を防止することができる。
なお、この所定回数は、上述した通り実験的には3回が最適であるが、音声認識装置が用いられる環境や話者の話し方(くせ)等の要因により、稀ではあるが変更したほうが良い場合も考えられる。そのため、請求項6に記載のように、制御手段は、受付手段が受け付けた話者の操作に基づいて所定回数を変更するようになっているとよい。このようになっていれば、音声認識装置が用いられる環境や話者の話し方(くせ)等に合わせて話者が所定回数を変更することができる。
また、請求項7に記載の音声認識装置は、音声入力手段と、受付手段と、記憶手段と、音声認識手段とを備える。音声入力手段は話者の発声した音声を入力し、受付手段は話者の操作を受け付け、記憶手段は単音節毎に対応づけられた複数音節からなる単音節認識用特定語によって構成される辞書を、その単音節認識用特定語の種別によって分けて複数記憶する。また、音声認識手段は、前記受付手段が受け付けた話者の操作に基づいて前記記憶手段が記憶する前記辞書を選択し、その選択した辞書の中から音声入力手段が入力した音声に対応する単音節認識用特定語を選択し、その選択した単音節認識用特定語に対応する単音節を話者の意図する単音節として決定する。
従来は、話者の発声する、例えば「あいうえおのあ」や「あさひのあ」というような複数の音節からなる単音節認識用特定語の音声から、「あ」という単音節を認識する音声認識装置があった。しかし、このような入力方式の音声認識装置は話者が全ての単音節認識用特定語を記憶しておく必要があり、話者にとって興味の薄い単音節認識用特定語は記憶しておくことが難しかった。
そこで請求項8に記載のような音声認識装置に、予め、様々なジャンル等によって分けられた単音節認識用特定語の辞書が記憶されていれば、話者はそれらの辞書の中から自分が記憶しやすい単音節認識用特定語の辞書を操作により切り替えることができる。このように、話者の好みに応じた辞書を用いることができるようになっていれば、話者は単音節認識用特定語を早く記憶することができ、音声認識装置を早く使いこなせるようになる。
なお、このような辞書の単音節認識用特定語は、請求項8に記載のように、予め話者が受付手段を操作することにより登録できるようになっているとよい。このようになっていれば、更に話者の好みが反映された単音節認識用特定語を用いることができるため、音声認識装置を早く使いこなせるようになる。
また、請求項9に記載の音声認識装置は、話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置であって、話者の発声した音声を入力する音声入力手段と、音声入力手段が入力した同一単音節からなる繰り返し音声を単音節毎の音声に分け、その各音声に基づいて話者の意図する単音節を決定する音声認識手段とを備える。
このようになっていれば、例えば「あああ」と話者が発話すれば「あ」という単音節が認識される。したがって、単に「あ」と話者が発話する場合と比べ認識手がかりが増えるため認識率も向上するし、単音節認識用特定語を記憶する必要も無いため話者の負担も軽い。
また、請求項10に記載の音声認識装置は、話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置であって、話者の発声した音声を入力する音声入力手段を備える。また、音声入力手段が入力した単音節の音声が濁音、拗音、促音又は半濁音の何れかであった場合は、その濁音、拗音、促音又は半濁音に対応する清音を話者の意図する単音節として決定し、音声入力手段が入力した音声が予め定められた濁音を意味する特定語であった場合は、直前に決定した単音節を対応する濁音の単音節に変更し、音声入力手段が入力した音声が予め定められた拗音を意味する特定語であった場合は、直前に決定した単音節を対応する拗音の単音節に変更し、音声入力手段が入力した音声が予め定められた促音を意味する特定語であった場合は、直前に決定した単音節を対応する促音の単音節に変更し、音声入力手段が入力した音声が予め定められた半濁音を意味する特定語であった場合は、直前に決定した単音節を対応する半濁音の単音節に変更する音声認識手段を備える。なお、ここで言う「清音」というのは、濁音、拗音、促音及び半濁音を除いた45個(通常)の基本単音節群を意味する。
一般的に、ある単音節における濁音と濁音でないものを認識することは、異なる単音節同士を認識することよりも難しい。したがって、濁音と濁音でないものをひとくくりに認識し、後から濁音のものに変更するようになっていれば、認識率が向上する。後から変更するというのは、例えば、「てんてん」と話者によって音声が入力された場合に直前に入力された単音節を濁音に変更するようにすればよい。拗音、促音及び半濁音についても同様である。
また、請求項11に記載の音声認識装置は、話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置であって、話者の発声した音声を入力する音声入力手段と、複数音節からなる単音節認識用特定語の組み合わせに対して単音節が対応づけられた辞書を記憶する記憶手段と、音声入力手段が入力した音声を分析して単音節認識用特定語の組み合わせを特定し、特定した組み合わせに対応する単音節を記憶手段が記憶する辞書に基づいて決定する音声認識手段と、を備える。具体例を挙げて説明すると、例えば「ケイ」(K)、「エイ」(A)と話者が発声すると「か」を認識し、「ケイ」(K)、「アイ」(I)と話者が発話すると「き」と認識する音声認識装置である。また、50音表の行番号と列番号とに対応させて「イチ」(1)、「イチ」(1)と話者が発声すると「あ」と認識するようになっていてもよい。
このような音声認識装置は、認識対象の音声長及び音声数が増えるため、認識率が向上する。また、単音節全てに対して単音節認識用特定語を用意する必要がないため(上述した例の通り「ケイ」をカ行全ての単音節を認識する際に利用できるため)、辞書の容量が削減されると共に、話者も覚える単音節認識用特定語が減り使い勝手が向上する。
また、請求項12に記載の音声認識装置は、音声入力手段と、音声認識手段と、表示手段と、制御手段とを備える。音声入力手段は話者の発声した音声を入力し、音声認識手段は音声入力手段が入力した音声を分析して候補単音節を特定し、表示手段は、指定された情報を表示する表示領域を有すると共に、表示領域の表面に対する話者の操作を表示領域内の位置と共に感知するセンサを有する。また、制御手段は、音声認識手段が複数の候補単音節を特定した場合それらの候補単音節に対応する各オブジェクトを表示手段の表示領域に表示領域内で最も大きなオブジェクト群として並べて表示させ、話者に操作されてセンサが感知した位置に表示されているオブジェクトに対応する候補単音節を、話者の意図する単音節として決定する。
このようになっていれば、話者は視覚的に候補単音節を確認することができ、しかも表示領域内で最も大きなオブジェクト群として並べて表示されているため、一瞥して候補単音節を確認することができる。その結果、話者はスムーズに単音節を確定することができる。
ところで、表示手段に表示させる候補単音節に対応するオブジェクトの数はどのような数であってもよいが、請求項13に記載のように、そのオブジェクトに対応する候補単音節の尤度にしたがって高い順に3つだけ選択して表示手段に表示させるようになっているとよい。なぜなら、表示させるオブジェクトの数を増やせば一度の発話で正しい単音節が決定される確率は上がるが、あまり多くのオブジェクトを表示させると今度は一覧性が悪化し、話者がオブジェクトを選択しにくくなるという問題が発生する。そこで、このバランスを保つと共に、表示させたオブジェクトの何れかの中に話者の意図する単音節が入っている確率を鑑みると、表示させるオブジェクトの数は3つが最適である。
なお、表示手段の表示領域に表示する各オブジェクトは皆同じ大きさ、色、形状であってもよいが、請求項14に記載のように、そのオブジェクトに対応する候補単音節の尤度にしたがって視覚的特徴を変えて表示手段に表示されるようになっているとよい。「視覚的特徴を変えて」というのは、具体的には大きさ、色、形状、点滅具合、アニメーション等が考えられる。
このようになっていれば、例えば3つの候補単音節が表示された場合、どの候補単音節が最も尤度が高いのか一瞥してわかり、話者は候補単音節の選択を行いやすい。また、このような音声認識装置を例えば車両に搭載させて用いるような場合、運転者が表示手段を注視する時間を短縮することもできる。
また、請求項15に記載のように、制御手段は、決定の際、表示手段の表示領域における各オブジェクトの占める表示範囲よりも、センサが感知した位置によって各オブジェクトを特定する特定範囲の方が広く扱うようになっているとよい。
このようになっていれば、話者はオブジェクトが表示された位置を正確にタッチする必要がなくなる。したがって、例えば音声認識装置を車両に搭載させて用いるような場合、運転者は表示手段を確認した後、実際に操作する際には表示手段を注視せず、場所を推測して候補単音節を選択しても所望の候補単音節を選択することができる可能性が高まる。
また、請求項16に記載の音声認識装置は、音声入力手段と、音声認識手段と、表示手段と、制御手段とを備える。音声入力手段は、話者の発声した音声を入力し、音声認識手段は、音声入力手段が入力した音声を分析して候補単音節を特定し、表示手段は、指定された情報を表示する表示領域を有すると共に、表示領域の表面に対する話者の操作を表示領域内の位置と共に感知するセンサを有する。また、制御手段は、表示手段の表示領域に50音表に対応させて単音節を示すオブジェクトを表示させると共に、音声認識手段が複数の候補単音節を特定した場合それらの各候補単音節に対応する表示領域中のオブジェクトの視覚的特徴を他のオブジェクトとは変えて表示させ、その視覚的特徴を変えたオブジェクトに限らず話者に操作されてセンサが感知した位置に表示させたオブジェクトの示す候補単音節を、話者の意図する単音節として決定する。
このような音声認識装置であれば、話者は音声認識装置が認識した候補単音節の中から単音節を決定することができるし、また、候補単音節の中に意図する単音節がなければ直接50音表の中から単音節を指定することもでき、使い勝手が良い。
また、請求項17の音声認識装置は、音声入力手段と、音声認識手段と、表示手段と、車両状態取得手段と、請求項12〜請求項15の何れかに記載の音声認識装置の制御手段と、請求項16に記載の音声認識装置の制御手段と、主制御手段とを備える。音声入力手段は話者の発声した音声を入力し、音声認識手段は音声入力手段が入力した音声を分析して候補単音節を特定し、表示手段は、指定された情報を表示する表示領域を有すると共に、表示領域の表面に対する話者の操作を表示領域内の位置と共に感知するセンサを有し、車両状態取得手段は車両が走行中であるか否かの情報を取得する。また、主制御手段は、車両状態取得手段が取得する情報に基づき、車両が走行中であると判断した場合は、請求項12〜請求項15の何れかに記載の音声認識装置の制御手段を機能させ、車両が停止中であると判断した場合は、請求項16に記載の音声認識装置の制御手段を機能させる。
このようになっていれば、話者(運転者)は、運転中であれば表示手段を比較的注視する必要のない方法で単音節の確定をすることができ、運転中でなければ表示手段を注視する必要はあるが入力をスムーズに行う方法で単音節を入力・確定することができる。
また、請求項18に記載の音声認識装置は、音声入力手段と、音声認識手段と、報知手段と、記憶手段と、制御手段とを備える。音声入力手段は話者の発声した音声を入力し、音声認識手段は、音声入力手段が入力した音声を分析して候補単音節を特定し、報知手段は指定された情報を報知し、記憶手段は、単音節毎に対応づけられた複数音節からなる確認用単語によって構成される辞書を記憶する。また、音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を、記憶手段が記憶する確認用単語によって報知手段に報知させる報知処理を実行し、話者より決定を意味する操作を受付手段が受け付けた場合は報知させた候補単音節を話者の意図する単音節として確定する。
このようになっていれば、話者も認識しづらい単音節を正しく把握することができる。
ところでこのように単音節の代わりに確認用単語を報知する場合、話者の好みに応じた確認用単語が用いられるようになっているとよい。つまり、請求項19に記載の音声認識装置のように、記憶手段が、前記辞書を確認用単語の種別によって分けて複数記憶し、制御手段は、受付手段が受け付けた話者の操作に基づいて記憶手段が記憶する辞書を選択し、その選択された辞書を用いて報知処理を実行するようになっているとよい。
このようになっていると、話者は好みの確認用単語によって単音節を確認することができる。
また、確認用単語は、請求項20に記載のように、予め話者が受付手段を操作することにより登録できるようになっているとよい。このようになっていれば、更に話者の好みが反映された確認用単語を報知することができる。
また、候補単音節を表示手段に表示させる場合にも、候補単音節の代わりにそれぞれの候補単音節に対応する確認用単語を用いて表示させるようになっていてもよい。つまり、請求項21に記載のように、更に、指定された情報を表示する表示領域を有すると共に、表示領域の表面に対する話者の操作を表示領域内の位置と共に感知するセンサを有する表示手段を備えるように音声認識装置を構成し、制御手段は、音声認識手段が複数の候補単音節を特定した場合それらの候補単音節に対応する確認用単語を表示手段にオブジェクトとして並べて表示させ、話者に操作されてセンサが感知した位置に表示されているオブジェクトに対応する候補単音節を、話者の意図する単音節として決定するようになっているとよい。
そして更に、このように表示した確認用単語を話者が発話することによって確定するように構成されているとよい。つまり、請求項22に記載のように、制御手段は、音声認識手段が複数の候補単音節を特定した場合それらの候補単音節に対応する確認用単語を表示手段にオブジェクトとして並べて表示させた後、音声認識手段が特定した確認用単語に対応する候補単音節を、話者の意図する単音節として決定するようになっているとよい。
このようになっていれば、話者は発話によって候補単音節を確定させることができると共に、ある程度確実に候補単音節を確定させることができる。
ところで、請求項23に記載のような、請求項1〜請求項5,請求項12〜請求項16,請求項18〜請求項22の何れかに記載の音声認識装置における音声認識手段及び制御手段の少なくとも一方として機能させるプログラムを、音声認識装置が内蔵するコンピュータに実行させるようになっていてもよい。このようになっていれば、例えば、フレキシブルディスク、光磁気ディスク、CD−ROM、ハードディスク、ROM、RAM等のコンピュータが読みとり可能な記録媒体にプログラムを記録し、そのプログラムを必要に応じてコンピュータにロードして起動することにより音声認識装置における音声認識手段及び制御手段の少なくとも一方として機能させることができる。また、プログラムはネットワーク等を用いて流通させることも可能であるため、音声認識装置の機能向上も容易である。
また、請求項24に記載のような、請求項6〜請求項11の何れかに記載の音声認識装置における音声認識手段として機能させるためのプログラムについても同様である。また、請求項25に記載のような、請求項17に記載の音声認識装置における主制御手段として機能させるためのプログラムについても同様である。もちろん、このようなプログラムは、請求項26に記載のように記憶媒体に記憶させてもよい。
ところで、音声認識装置は、請求項27に記載のように、ナビゲーション装置と連携するようになっており、音声認識装置が得る単音節群をナビゲーション装置がナビゲーション処理を実行する際に用いるようになっているとよい。ここで言うナビゲーション処理というのは、例えば、地図を表示させて更にその地図上に現在地を表示させる処理や、設定された経路にしたがって経路案内を実行する経路案内処理等である。
このようになっていれば、ナビゲーション処理において利用者が行う各種操作を音声によって行うことができるようになり、ナビゲーション処理の使い勝手が向上する。
以下、本発明が適用された実施例について図面を用いて説明する。尚、本発明の実施の形態は、下記の実施例に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態を採りうる。
[第1実施例]
図1は、音声認識機能を有するナビゲーション装置20の構成を示すブロック図である。ナビゲーション装置20は車両に搭載され、車両の現在位置を検出する位置検出器21と、ユーザーからの各種指示を入力するための操作スイッチ群22と、操作スイッチ群22と同様に各種指示を入力可能であってナビゲーション装置20とは別体となったリモートコントロール端末(以下、リモコンと称す)23aと、リモコン23aからの信号を入力するリモコンセンサ23bと、地図データや各種の情報を記録した地図記憶媒体から地図データ等を入力する地図データ入力器25と、地図や各種情報の表示を行うための表示部26と、各種のガイド音声等を出力するための音声出力部27と、音声を入力して音声情報を出力するマイクロフォン28と、音声認識関連データを入出力する音声認識関連データ入出力器30と、車内LANと通信を行う車内LAN通信部31と、上述した位置検出器21,操作スイッチ群22,リモコンセンサ23b,地図データ入力器25,マイクロフォン28,音声認識関連データ入出力器30,車内LAN通信部31からの入力に応じて各種処理を実行し、表示部26,音声出力部27,音声認識関連データ入出力器30,車内LAN通信部31を制御する制御部29とを備えている。
位置検出器21は、GPS(Global Positioning System)用の人工衛星からの送信電波をGPSアンテナを介して受信し、車両の位置,方位,速度等を検出するGPS受信機21aと、車両に加えられる回転運動の大きさを検出するジャイロスコープ21bと、車両の前後方向の加速度等から走行した距離を検出するための距離センサ21cと、地磁気から進行方位を検出するための地磁気センサ21dとを備えている。そして、これら各センサ等21a〜21dは、各々が性質の異なる誤差を有しているため、互いに補完しながら使用するように構成されている。
操作スイッチ群22は、表示部26の表示面と一体に構成されたタッチパネル及び表示部26の周囲に設けられたメカニカルなキースイッチ等から構成される。尚、タッチパネルと表示部26とは積層一体化されており、タッチパネルには、感圧方式,電磁誘導方式,静電容量方式,あるいはこれらを組み合わせた方式など各種の方式があるが、その何れを用いてもよい。
地図データ入力器25は、図示しない地図記憶媒体に記憶された各種データを入力するための装置である。地図記憶媒体には、地図データ(道路データ、地形データ、マークデータ、交差点データ、施設のデータ等)、案内用の音声データ、音声認識データ等が記憶されている。このようなデータを記憶する地図記憶媒体の種類としては、CD−ROMやDVD等が一般的であるが、ハードディスクなどの磁気記憶装置やメモリカード等の媒体を用いても良い。
表示部26は、カラー表示装置であり、液晶ディスプレイ,有機ELディスプレイ,CRTなどがあるが、その何れを用いてもよい。表示部26の表示画面には、位置検出器21にて検出した車両の現在位置と地図データ入力器25より入力された地図データとから特定した現在地を示すマーク、目的地までの誘導経路、名称、目印、各種施設のマーク等の付加データとを重ねて表示することができる。また、施設のガイド等も表示できる。
音声出力部27は、地図データ入力器25より入力した施設のガイドや各種案内の音声を出力することができる。
マイクロフォン28は、利用者が音声を入力(発話)するとその入力した音声に基づく電気信号(音声信号)を制御部29に出力するものである。利用者はこのマイクロフォン28に様々な音声を入力することにより、ナビゲーション装置20を操作することができる。
音声認識関連データ入出力器30は、図示しない音声認識関連データ記憶媒体に記憶された各種データを入出力するための装置である。音声認識関連データ記憶媒体には、単音節を認識するための特徴パラメータ、単音節毎に対応づけられた複数音節からなる単音節認識用特定語によって構成される辞書、単音節毎に対応づけられた複数音節からなる確認用単語によって構成される辞書等を記憶されている。このようなデータを記憶する地図記憶媒体の種類としては、ハードディスクなどの磁気記憶装置やメモリカード等の媒体を用いると良い。
車内LAN通信部31は、車内LANに接続され、その車内LANに接続された各種ECUと通信を行うことができる。なお、車内LANとしては、例えばCAN(Control Aria Network)が想定され、各種ECUの1つとしては、エンジンECUやAT−ECUやボデーECUが想定される。
制御部29は、CPU,ROM,RAM,I/O及びこれらの構成を接続するバスラインなどからなる周知のマイクロコンピュータを中心に構成されており、ROM及びRAMに記憶されたプログラムに基づいて各種処理を実行する。例えば、位置検出器21からの各検出信号に基づき座標及び進行方向の組として車両の現在位置を算出し、地図データ入力器25を介して読み込んだ現在位置付近の地図等を表示部26に表示する表示処理や、地図データ入力器25に格納された地点データと、操作スイッチ群22やリモコン23a等の操作に従って設定された目的地とに基づいて、現在位置から目的地までの最適な経路を算出し、その算出した経路を案内する経路案内処理を行う。また、制御部29は後述する音声認識処理を実行することができる。
ここまででナビゲーション装置20の概略構成を説明したが、ナビゲーション装置20の各部と特許請求の範囲に記載の用語との対応を示す。マイクロフォン28が音声入力手段に相当し、音声出力部27が報知手段に相当し、表示部26が報知手段及び表示手段に相当し、操作スイッチ群22及びリモコン23aが受付手段に相当し、制御部29が音声認識手段、制御手段及び主制御手段に相当し、音声認識関連データ記憶媒体が記憶手段に相当し車内LAN通信部31が車両状態取得手段に相当する。
次に制御部29で実行される処理のうち、経路案内処理に先立って目的地等の名称を入力する際等に実行される音声認識処理1について図2のフローチャートを用いて説明する。音声認識処理1は、ナビゲーション装置20への情報入力の際に音声入力が可能な状態で利用者が特に指示した際に実行が開始される。
制御部29は実行を開始すると、まず、操作スイッチ群22又はリモコン23aに設けられたトークSWが利用者によって押下されたか否かによって処理を分岐する(S110)。トークSWが利用者によって押下された場合は次の処理ステップに進み、そうでなければ本ステップにとどまる。
続くS115では、確認音(例えば「ピッ」という電子音や「音声を入力して下さい」という案内音声)を音声出力部27に出力させる。
続くS120では、マイクロフォン28を介して利用者の音声を入力する。
続くS125では、S120で入力した音声を分析(特徴パラメータ等を抽出)し、音声認識関連データ入出力器30を介して取得した単音節の特徴パラメータ等と比較して候補単音節を候補順を付けて複数選択する。
続くS130では、S125で選択した候補単音節のうち、除外バッファ内にある候補単音節を除く。この除外バッファというのは制御部29内に存在し、除外指定された候補単音節を3つ記憶することができるバッファである。なお、除外バッファは音声認識処理1の実行開始時に初期化される。
続くS135では、候補単音節のうち、最も候補順の高い候補単音節を表示部26に表示させたり、音声出力部27に音声出力させたりして報知する。
続いて、操作スイッチ群22又はリモコン23aに設けられた確定SW(上述したトークSWと共用するようになっていても良い)が利用者によって押下されたか否か、又は利用者によって更に音声が入力されたかによって否かによって処理を分岐する(S140)。確定SWが利用者によって押下された場合はS145に進み、確定SWが利用者に操作されることなく、利用者によって更に音声が入力された場合はS150に進む。
S145では、S135で報知した候補単音節を確定単音節として確定し、既に確定した確定単音節群の最後に付加する。そして、除外バッファを初期化する(S153)。そして、除外バッファを初期化すると、操作スイッチ群22又はリモコン23aに設けられた終了SWが利用者によって操作されたか否かによって処理を分岐する(S155)。利用者によって終了SWが操作された場合には本処理(音声認識処理1)を終了し、利用者によって終了SWが操作されることがなければ、上述したS115に処理を戻す。
一方、S150では、S135で報知した候補単音節を除外バッファに入れる。この際、除外バッファの中に既に候補単音節が3つある場合は、最も過去に除外バッファに入れた候補単音節を消去し、新たにS135で報知した候補単音節を除外バッファに入れる。そして、上述したS125に処理を戻す。
なお、便宜的(説明を簡略化するため)に、終了SWが操作されたか否かを判定するステップ(S155)でのみ、終了SWの操作による音声認識処理1を終了するようになっているが、何れのステップにおいても、終了SWが操作された際は直ちに音声認識処理1を終了するようになっている。また、音声の入力ステップ(S120,S140)や利用者の操作待ちステップ(S140)においてに、所定時間(例えば30秒)、音声の入力や利用者の操作がなかった場合も、音声認識処理1を終了するようになっている。
ここまでで音声認識処理1について説明したが、このようにして確定した確定単音節群は、経路案内処理の際の目的地の名称として利用したり、施設の名称として利用したりする。
このようなナビゲーション装置20によれば、利用者は発話した単音節が正しく認識された場合のみ操作を行い単音節を確定させ、正しく認識されていない場合には何ら操作なく正しく認識されるまで続けて単音節を発話することができる。このため利用者は、認識が正しくなされなかった場合に何度も再入力指示をすることなく、続けて再発話するだけでよい。つまり、使い勝手が良い。
また、除外バッファに記憶されている候補単音節は、再発話によって新たに選択された候補単音節から除外するようになっているため、再発話の際に再び前回と同じ不適切な候補単音節が報知されることがなくなり、利用者にとって使い勝手が良い。
なお、上述した除外バッファが候補単音節を3つだけ記憶することができるように構成した理由を説明する。
本願発明者らは次のような実験を行った。その実験は、停止した車室内において20代から60代までの各代の男女各2名(つまり計20名)が、1人ずつ10回繰り返し発話することを3度行う実験である。そしてその実験結果に基づいて、話者による入力回数を横軸とし、その入力回数までに正しい単音節が認識された確率を縦軸に示したグラフが図9に示すものである。このグラフからわかるように、3回目以降は、ほぼ認識率が一定になり(3回目は認識率96%、4回目は認識率98%、5回目は認識率98%)、それ以降はほとんど変化がない。つまり、4回以上発話回数を重ねてもそれ以降に正しい候補単音節が報知されるということはほとんどない。つまり、ほとんどの場合、再発話回数3回時点までに正しい単音節が一度は報知されていることを意味し、再発話回数が3回になった場合には、話者が正しい候補単音節を誤って除外してしまった可能性が高いことを意味する。したがって、再発話回数が3回になった時には、一番はじめに認識されたものを再び認識候補として報知可能にするとよい。
このようになっていれば、候補単音節が報知されたにもかかわらず、利用者が間違えて再発話してしまった場合でも、除外された候補単音節が適切なタイミングで再び報知され得る状態に戻るため、二度と正しい候補単音節が報知されなくなってしまという不都合を防止することができる。
[第2実施例]
次に、第2実施例について説明する。第2実施例の音声認識機能を有するナビゲーション装置は、上述した第1実施例のナビゲーション装置20と同様の構成を有するため、相違点についてのみ説明する。主な相違点は、制御部29で実行される音声認識処理にある。以下、制御部29で実行される音声認識処理2について図3のフローチャートを用いて説明する。
音声認識処理2は、ナビゲーション装置20への情報入力の際に音声入力が可能な状態で利用者が特に指示した際に実行が開始される。
制御部29は実行を開始すると、まず、操作スイッチ群22又はリモコン23aに設けられたトークSWが利用者によって押下されたか否かによって処理を分岐する(S210)。トークSWが利用者によって押下された場合は次の処理ステップに進み、そうでなければ本ステップにとどまる。
続くS215では、確認音(例えば「ピッ」という電子音や「音声を入力して下さい」という案内音声)を音声出力部27に出力させる。
続くS220では、マイクロフォン28を介して利用者の音声を入力する。
続くS225では、S220で入力した音声を分析(特徴パラメータ等を抽出)し、音声認識関連データ入出力器30を介して取得した単音節の特徴パラメータ等と比較して候補単音節を候補順を付けて複数選択する。また、S220で入力した音声が単音節ではなかった場合は、確定を意味する確定語(「次」や「次へ」や「次は」等)であるか否かを判断する。
続くS230では、S220で入力された音声が確定を意味する確定語であったか否かによって処理を分岐する。S220で入力された音声が確定語であった場合はS250に進み、S220で入力された音声が確定語でなければS235に進む。
S235では、S225で選択した候補単音節のうち、除外バッファ内にある候補単音節を除く。この除外バッファというのは制御部29内に存在し、除外指定された候補単音節を3つ記憶することができるバッファである。なお、除外バッファは音声認識処理2の実行開始時に初期化される。
そしてS240では、候補単音節のうち、最も候補順の高い候補単音節を表示部26に表示させたり、音声出力部27に音声出力させたりして報知する。
そしてS245では、S240で報知した候補単音節を除外バッファに入れる。この際、除外バッファの中に既に候補単音節が3つある場合は、最も過去に除外バッファに入れた候補単音節を消去し、新たにS240で報知した候補単音節を除外バッファに入れる。そして、上述したS220に処理を戻す。
一方、S230において、S220で入力された音声が確定語であるとして進むS250では、前回報知した候補単音節を確定単音節として確定し、既に確定した確定単音節群の最後に付加する。そして、除外バッファを初期化する(S253)。そして、除外バッファを初期化すると、操作スイッチ群22又はリモコン23aに設けられた終了SWが利用者によって操作されたか否かによって処理を分岐する(S255)。利用者によって終了SWが操作された場合には本処理(音声認識処理2)を終了し、利用者によって終了SWが操作されることがなければ上述したS215に処理を戻す。
なお、便宜的(説明を簡略化するため)に、終了SWが操作されたか否かを判定するステップ(S255)でのみ、終了SWの操作による音声認識処理2を終了するようになっているが、何れのステップにおいても、終了SWが操作された際は直ちに音声認識処理2を終了するようになっている。また、音声の入力ステップ(S220)において、所定時間(例えば30秒)、音声の入力がなかった場合も、音声認識処理2を終了するようになっている。
ここまでで音声認識処理2について説明したが、このようにして確定した確定単音節群は、経路案内処理の際の目的地の名称として利用したり、施設の名称として利用したりする。
このようなナビゲーション装置20によれば、利用者は発話した単音節が正しく認識された場合のみ確定語(「次へ」)を発話して単音節を確定させ、正しく認識されていない場合には何ら特別な操作や発話することなく正しく認識されるまで認識させたい単音節を続けて発話することができる。このため利用者は、認識が正しくなされなかった場合に何度も再入力指示をすることなく、続けて再発話するだけでよい。つまり、使い勝手がよい。
[第3実施例]
次に、第3実施例について説明する。第3実施例の音声認識機能を有するナビゲーション装置は、上述した第1実施例のナビゲーション装置20と同様の構成を有するため、相違点についてのみ説明する。主な相違点は、制御部29で実行される音声認識処理にある。以下、制御部29で実行される音声認識処理3について図4のフローチャートを用いて説明する。
制御部29は実行を開始すると、まず、操作スイッチ群22又はリモコン23aに設けられたトークSWが利用者によって押下されたか否かによって処理を分岐する(S310)。トークSWが利用者によって押下された場合は次の処理ステップに進み、そうでなければ本ステップにとどまる。
続くS315では、確認音(例えば「ピッ」という電子音や「音声を入力して下さい」という案内音声)を音声出力部27に出力させる。
続くS320では、マイクロフォン28を介して利用者の音声を入力する。
続くS325では、S320で入力した音声を分析(特徴パラメータ等を抽出)し、音声認識関連データ入出力器30を介して取得した単音節の特徴パラメータ等と比較して候補単音節を3つ選択する。
続くS330では、車内LAN通信部31を介して図示しないエンジンECUから車速情報を取得し、車両が走行中であるか否かによって処理を分岐する。車両が走行中であればS335に進み、車両が走行中でなければS340に進む。
S335では、S325で選択した候補単音節を表示部26に表示領域内で最も大きなオブジェクト群として並べて表示させる。この表示の一例を図6に示す。図6に示すように、画面100には、候補単音節オブジェクト101〜103が表示領域内の大部分を占めるように並べて表示されている。そして、候補単音節オブジェクト101よりも広い領域に点線(実際は表示されない、以下同様)で示す操作特定範囲104が設定されている。この操作特定範囲104は、利用者が操作特定範囲104をタッチした際に制御部29が、候補単音節オブジェクト101が利用者によって選択されたと認識する範囲である。同様に、候補単音節オブジェクト102には操作特定範囲105が設定され、候補単音節オブジェクト103には操作特定範囲106が設定されている。
図4に戻り、一方S340では、表示部26に50音表を表示させ、更に、S325で選択した候補単音節のオブジェクトの枠を変える。この表示の一例を図7に示す。図7に示すように、画面111には、50音一覧形式で各単音節がオブジェクトとして並べられ、その中でも「あ」,「は」,「ま」の候補単音節オブジェクト112〜114だけは、他の単音節オブジェクトの枠と異なる枠の太さ及び色となっている。
図4に戻り、続くS345では、表示部26の表面と一体に構成されたタッチパネルから出力された信号に基づき、利用者によって何れかのオブジェクトが選択されたか否かによって処理を分岐する。利用者によって何れかのオブジェクトが選択された場合はS350に進み、利用者によって何れのオブジェクトも選択されることがなければ(例えば30秒間)、上述したS320に処理を戻す。
利用者によって何れかのオブジェクトが選択された場合に進むS350では、選択されたオブジェクトに対応する候補単音節を確定単音節として決定し、既に決定済みの確定単音節群の最後に加える。なお、ここで言う「選択されたオブジェクト」というのは、上記S340で説明した表示(図7参照)を行った場合は、候補単音節のオブジェクトに限らず、利用者によって選択された単音節のオブジェクトの何れも対象とする。
続くS355では、操作スイッチ群22又はリモコン23aに設けられた終了SWが利用者によって操作されたか否かによって処理を分岐する。利用者によって終了SWが操作された場合には本処理(音声認識処理3)を終了し、利用者によって終了SWが操作されることがなければ、上述したS315に処理を戻す。
なお、便宜的(説明を簡略化するため)に、終了SWが操作されたか否かを判定するステップ(S355)でのみ、終了SWの操作による音声認識処理3を終了するようになっているが、何れのステップにおいても、終了SWが操作された際は直ちに音声認識処理3を終了するようになっている。また、音声の入力ステップ(S320)において、所定時間(例えば30秒)、音声の入力がなかった場合も、音声認識処理3を終了するようになっている。
ここまでで音声認識処理3について説明したが、このようにして確定した確定単音節群は、経路案内処理の際の目的地の名称として利用したり、施設の名称として利用したりする。
このようなナビゲーション装置20によれば、車両が走行中の場合は、候補単音節が表示部26の表示領域内で最も大きなオブジェクト群として並べて表示されているため、利用者は一瞥して候補単音節を確認することができる。その結果、利用者はスムーズに単音節を確定することができる。また、その場合、表示部26の表示領域における各オブジェクトの占める表示範囲よりも、センサが感知した位置によって各オブジェクトを特定する特定範囲の方が広く扱うようになっているため、利用者はオブジェクトが表示された位置を正確にタッチする必要がなくなる。したがって、利用者が運転中であっても、利用者は所望の候補単音節を選択しやすい。
一方、車両が停止中の場合は、利用者は候補単音節以外の単音節も選択することができるため、より素早く単音節を確定することができる。
[第4実施例]
次に、第4実施例について説明する。第4実施例の音声認識機能を有するナビゲーション装置は、上述した第1実施例のナビゲーション装置20と同様の構成を有するため、相違点についてのみ説明する。主な相違点は、制御部29で実行される音声認識処理にある。以下、制御部29で実行される音声認識処理4について図5のフローチャートを用いて説明する。
制御部29は実行を開始すると、まず、操作スイッチ群22又はリモコン23aに設けられたトークSWが利用者によって押下されたか否かによって処理を分岐する(S410)。トークSWが利用者によって押下された場合は次の処理ステップに進み、そうでなければ本ステップにとどまる。
続くS415では、確認音(例えば「ピッ」という電子音や「音声を入力して下さい」という案内音声)を音声出力部27に出力させる。
続くS420では、マイクロフォン28を介して利用者の音声を入力する。
続くS425では、S320で入力した音声を分析(特徴パラメータ等を抽出)し、音声認識関連データ入出力器30を介して取得した単音節の特徴パラメータ等と比較して候補単音節を3つ選択する。
S435では、S425で選択した候補単音節に対応する確認用単語を、表示部26の表示領域内にオブジェクト群として並べて表示させると共に音声出力部27を介して音声として順に報知する。ここで言う確認用単語というのは、音声認識関連データ入出力器30を介して取得できるものであり、各単音節に対応してその単音節を先頭に含む単語である。具体的には、例えば、単音節「あ」に対して確認用単語「あさひ」、単音節「は」に対して確認用単語「はがき」、単音節「ま」に対して「まつり」等である。この表示の一例を図8に示す。図8に示すように、画面121には、確認用単語オブジェクト122,123,124が表示領域内の大部分を占めるように並べて表示されている。そして、利用者が確認用単語オブジェクト122〜124の何れかをタッチした際には、制御部29はタッチされた確認用単語オブジェクトが何れであるかを認識できるようになっている。
図5に戻り、S440では、マイクロフォン28を介して利用者の音声を入力する。そして、S440で入力した音声を分析(特徴パラメータ等を抽出)し、S435で表示部26に表示させた確認用単語の何れであるかの特定を試みる(S445)。
続くS450では、S435で表示部26に表示させた確認用単語の何れであるかを特定できた場合はS455に進み、特定できなかった場合はS420に処理を戻す。
S455では、特定できた確認用単語に対応する候補単音節を確定単音節として、既に確定済みの確定単音節群の最後に加える。
続くS460では、操作スイッチ群22又はリモコン23aに設けられた終了SWが利用者によって操作されたか否かによって処理を分岐する。利用者によって終了SWが操作された場合には本処理(音声認識処理4)を終了し、利用者によって終了SWが操作されることがなければ、上述したS415に処理を戻す。
なお、便宜的(説明を簡略化するため)に、終了SWが操作されたか否かを判定するステップ(S460)でのみ、終了SWの操作による音声認識処理4を終了するようになっているが、何れのステップにおいても、終了SWが操作された際は直ちに音声認識処理3を終了するようになっている。また、音声の入力ステップ(S420,S440)において、所定時間(例えば30秒)、音声の入力がなかった場合も、音声認識処理4を終了するようになっている。
ここまでで音声認識処理4について説明したが、このようにして確定した確定単音節群は、経路案内処理の際の目的地の名称として利用したり、施設の名称として利用したりする。
このようなナビゲーション装置20によれば、候補単音節を、確認用単語を用いて利用者に報知するようになっているため、利用者は単音節で報知されるよりも把握しやすい。また、候補の中から音声にて選択する際もその確認用単語を用いて選択できるため、選択を音声にて行った場合でも認識率が高い。
以下、他の実施例について述べる。
(1)上記実施例では、利用者は基本的に音声入力を単音節で行うようになっていたが、単音節に対応づけられた複数音節からなる単音節認識用特定語によって入力するようになっていてもよい。その場合、ナビゲーション装置20は、音声認識関連データ入出力器30を介して入力した音声認識関連データに基づいて、入力された単音節認識用特定語に対応する単音節を特定するようになっていればよい。そして、予め、様々なジャンル等によって分けられた単音節認識用特定語の辞書を音声認識関連データ記憶媒体に記憶させておき、利用者がその辞書を選択できるようになっていれば、利用者の好みによって辞書を選択できるため利用者は単音節認識用特定語を早く記憶して使いこなせるようになる。なお、この単音節認識用特定語は、利用者が登録できるようになっていると、さらに利用者は単音節認識用特定語を早く記憶して使いこなせるようになる。
(2)また、ナビゲーション装置20は、音声を分析する際の手法として、入力した同一単音節からなる繰り返し音声を単音節毎の音声に分け、その各音声に基づいて利用者の意図する単音節を一つ決定するようになっていてもよい。つまり、利用者は単音節を連続して発話(例えば「あああ」)すると、「あ」という単音節が認識される。このようになっていれば、単に「あ」と利用者が発話する場合と比べ認識手がかりが増えるため認識率も向上する。
(3)また、ナビゲーション装置20は、音声を分析する際の手法として、入力した単音節の音声が濁音、拗音、促音又は半濁音の何れかであった場合、その濁音、拗音、促音又は半濁音に対応する清音を利用者の意図する単音節として決定するようになっていてもよい。そして、その場合は更に入力した音声が、例えば、予め定められた濁音を意味する特定語であれば、直前に決定した単音節を対応する濁音の単音節に変更しするようになっているとよい。また、予め定められた拗音を意味する特定語であれば、直前に決定した単音節を対応する拗音の単音節に変更しするようになっているとよい。促音及び半濁音についても同様である。なお、ここで言う「清音」というのは、濁音、拗音、促音及び半濁音を除いた45個(通常)の基本単音節群を意味する。
一般的に、ある単音節における濁音と濁音でないものを認識することは、異なる単音節同士を認識することよりも難しい。したがって、濁音と濁音でないものをひとくくりに認識し、後から濁音や拗音のものに変更するようになっていれば、認識率が向上する。後から変更するというのは、例えば、「てんてん」と利用者によって音声が入力された場合に直前に入力された単音節を濁音に変更するようにすればよい。拗音、促音及び半濁音についても同様である。
(4)また、ナビゲーション装置20は、音声を分析する際の手法として、入力したローマ字読み音声に対応する単音節認識特定語の組み合わせに基づいて利用者の意図する単音節として決定するようになっていてもよい。具体例を挙げると、例えば「ケイ」(K)、「エイ」(A)と利用者が入力すれば「か」と認識し、「ケイ」(K)、「アイ」(I)と利用者が発話すると「き」と認識するナビゲーション装置である。また、50音表の行番号と列番号とに対応させて「イチ」(1)、「イチ」(1)と話者が発声すると「あ」と認識するようになっていてもよい。
このような音声認識装置は、認識対象の音声長及び音声数が増えるため、認識率が向上する。また、単音節全てに対して単音節認識用特定語を用意する必要がないため(上述した例の通り「ケイ」をカ行の全単音節を認識する際に利用できるため)、辞書の容量が削減されると共に、利用者も覚える単音節認識用特定語が減り使い勝手が向上する。
(5)また、ナビゲーション装置20は、音声を入力した際にその音声が音声認識処理の終了を意味する単語(例えば「終了」、「完了」等)であった場合は、音声認識処理を終了するようになっているとよい。このようになっていれば、利用者は発話によっても音声認識処理を終了することができるため、使い勝手が向上する。
(6)上記実施例4では、候補単音節そのものを報知する代わりに確認用単語を報知するようになっていたが、予め、様々なジャンル等によって分けられた確認用単語の辞書を音声認識関連データ記憶媒体に記憶させておき、利用者がその辞書を選択できるようになっていれば、利用者の好みによって辞書を選択できるため利用者は自分の好みの確認用単語を利用することができる。また、更に確認用単語を利用者が登録できるようになっていると、さらに利用者は自分の好みの確認用単語を利用することができる。
ナビゲーション装置の概略構成図である。 音声認識処理1を説明するためのフローチャートである。 音声認識処理2を説明するためのフローチャートである。 音声認識処理3を説明するためのフローチャートである。 音声認識処理4を説明するためのフローチャートである。 画面イメージである。 画面イメージである。 画面イメージである。 入力回数による認識率の変化を示すグラフである。
符号の説明
20…ナビゲーション装置、21…位置検出器、21a…GPS受信機、21b…ジャイロスコープ、21c…距離センサ、21d…地磁気センサ、22…操作スイッチ群、23a…リモコン、23b…リモコンセンサ、25…地図データ入力器、26…表示部、27…音声出力部、28…マイクロフォン、29…制御部、30…音声認識関連データ入出力器、31…車内LAN通信部。

Claims (27)

  1. 話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置であって、
    話者の発声した音声を入力する音声入力手段と、
    前記入力手段が入力した音声を分析して候補単音節を特定する音声認識手段と、
    指定された情報を報知する報知手段と、
    話者の操作を受け付ける受付手段と、
    前記音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を前記報知手段に報知させる報知処理を実行し、話者より決定を意味する操作を前記受付手段が受け付けた場合は直前の前記報知処理の際に報知させた前記候補単音節を話者の意図する単音節として確定する確定処理を実行し、話者から新たな音声が前記音声入力手段に入力されて前記音声認識手段が候補単音節を特定した場合は前記報知処理の実行に戻りその候補単音節の中で最も尤度が高い候補単音節を前記報知手段に報知させる制御手段と、
    を備えることを特徴とする音声認識装置。
  2. 話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置であって、
    話者の発声した音声を入力する音声入力手段と、
    前記入力手段が入力した音声を分析して候補単音節を特定すると共に確定を意味する確定語を認識する音声認識手段と、
    指定された情報を報知する報知手段と、
    前記音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を前記報知手段に報知させる報知処理を実行し、話者から新たな音声が前記音声入力手段に入力されて前記音声認識手段が前記確定語を認識した場合は直前の前記報知処理の際に報知させた前記候補単音節を話者の意図する単音節として確定する確定処理を実行し、話者から新たな音声が前記音声入力手段に入力されて前記音声認識手段が候補単音節を特定した場合は前記報知処理の実行に戻りその候補単音節の中で最も尤度が高い候補単音節を前記報知手段に報知させる制御手段と、
    を備えることを特徴とする音声認識装置。
  3. 請求項1又は請求項2に記載の音声認識装置において、
    前記制御手段は、前記確定処理を実行することなく前記報知処理を連続して2回以上実行する場合、前記報知処理によって過去に報知した前記候補単音節を報知する候補単音節から除外して最も尤度の高い前記候補単音節を報知することを特徴とする音声認識装置。
  4. 請求項3に記載の音声認識装置において、
    前記制御手段は、前記除外について、前記確定処理を実行することなく繰り返し実行した前記報知処理のうち直前を除く所定回数以前に実行した前記報知処理によって報知した候補単音節は除外しないことを特徴とする音声認識装置。
  5. 請求項3に記載の音声認識装置において、
    前記制御手段は、前記除外について、前記確定処理を実行することなく繰り返し実行した前記報知処理のうち過去3回以前に実行した前記報知処理によって報知した候補単音節は除外しないことを特徴とする音声認識装置。
  6. 請求項4に記載の音声認識装置において、
    更に、話者の操作を受け付ける受付手段を備えていなければ備え、
    前記制御手段は、前記受付手段が受け付けた話者の操作に基づいて前記所定回数を変更することを特徴とする音声認識装置。
  7. 話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置であって、
    話者の発声した音声を入力する音声入力手段と、
    話者の操作を受け付ける受付手段と、
    単音節毎に対応づけられた複数音節からなる単音節認識用特定語によって構成される辞書を、その単音節認識用特定語の種別によって分けて複数記憶する記憶手段と、
    前記受付手段が受け付けた話者の操作に基づいて前記記憶手段が記憶する前記辞書を選択し、その選択した辞書の中から前記音声入力手段が入力した音声に対応する単音節認識用特定語を選択し、その選択した前記単音節認識用特定語に対応する単音節を話者の意図する単音節として決定する音声認識手段と、
    を備えることを特徴とする音声認識装置。
  8. 請求項7に記載の音声認識装置において、
    前記記憶手段が記憶する前記辞書の前記単音節認識用特定語は、予め話者が前記受付手段を操作することにより登録できることを特徴とする音声認識装置。
  9. 話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置であって、
    話者の発声した音声を入力する音声入力手段と、
    前記音声入力手段が入力した同一単音節からなる繰り返し音声を単音節毎の音声に分け、その各音声に基づいて話者の意図する単音節を決定する音声認識手段と、
    を備えることを特徴とする音声認識装置。
  10. 話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置であって、
    話者の発声した音声を入力する音声入力手段と、
    前記音声入力手段が入力した単音節の音声が濁音、拗音、促音又は半濁音の何れかであった場合は、その濁音、拗音、促音又は半濁音に対応する清音を話者の意図する単音節として決定し、前記音声入力手段が入力した音声が予め定められた濁音を意味する特定語であった場合は、直前に決定した単音節を対応する濁音の単音節に変更し、前記音声入力手段が入力した音声が予め定められた拗音を意味する特定語であった場合は、直前に決定した単音節を対応する拗音の単音節に変更し、前記音声入力手段が入力した音声が予め定められた促音を意味する特定語であった場合は、直前に決定した単音節を対応する促音の単音節に変更し、前記音声入力手段が入力した音声が予め定められた半濁音を意味する特定語であった場合は、直前に決定した単音節を対応する半濁音の単音節に変更する音声認識手段と、
    を備えることを特徴とする音声認識装置。
  11. 話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置であって、
    話者の発声した音声を入力する音声入力手段と、
    複数音節からなる単音節認識用特定語の組み合わせに対して単音節が対応づけられた辞書を記憶する記憶手段と、
    前記音声入力手段が入力した音声を分析して前記単音節認識用特定語の組み合わせを特定し、特定した組み合わせに対応する単音節を記憶手段が記憶する辞書に基づいて決定する音声認識手段と、
    を備えることを特徴とする音声認識装置。
  12. 話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置であって、
    話者の発声した音声を入力する音声入力手段と、
    前記音声入力手段が入力した音声を分析して候補単音節を特定する音声認識手段と、
    指定された情報を表示する表示領域を有すると共に、前記表示領域の表面に対する話者の操作を前記表示領域内の位置と共に感知するセンサを有する表示手段と、
    前記音声認識手段が複数の候補単音節を特定した場合それらの候補単音節に対応する各オブジェクトを前記表示手段の前記表示領域に表示領域内で最も大きなオブジェクト群として並べて表示させ、話者に操作されて前記センサが感知した位置に表示されている前記オブジェクトに対応する前記候補単音節を、話者の意図する単音節として決定する制御手段と、
    を備えることを特徴とする音声認識装置。
  13. 請求項12に記載の音声認識装置において、
    前記制御手段は、前記表示手段に表示させる前記各オブジェクトを、そのオブジェクトに対応する候補単音節の尤度にしたがって高い順に3つだけ選択して前記表示手段に表示させることを特徴とする音声認識装置。
  14. 請求項12又は請求項13に記載の音声認識装置において、
    前記制御手段は、前記表示手段に表示させる前記各オブジェクトを、そのオブジェクトに対応する候補単音節の尤度にしたがって視覚的特徴を変えて前記表示手段に表示させることを特徴とする音声認識装置。
  15. 請求項12〜請求項14の何れかに記載の音声認識装置において、
    前記制御手段は、前記決定の際、前記表示手段の前記表示領域における前記各オブジェクトの占める表示範囲よりも、前記センサが感知した位置によって前記各オブジェクトを特定する特定範囲の方を広く扱うことを特徴とする音声認識装置。
  16. 話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置であって、
    話者の発声した音声を入力する音声入力手段と、
    前記音声入力手段が入力した音声を分析して候補単音節を特定する音声認識手段と、
    指定された情報を表示する表示領域を有すると共に、前記表示領域の表面に対する話者の操作を前記表示領域内の位置と共に感知するセンサを有する表示手段と、
    前記表示手段の前記表示領域に50音表に対応させて単音節を示すオブジェクトを表示させると共に、前記音声認識手段が複数の前記候補単音節を特定した場合それらの各候補単音節に対応する前記表示領域中の前記オブジェクトの視覚的特徴を他のオブジェクトとは変えて表示させ、その視覚的特徴を変えたオブジェクトに限らず話者に操作されて前記センサが感知した位置に表示させた前記オブジェクトの示す前記候補単音節を、話者の意図する単音節として決定する制御手段と、
    を備えることを特徴とする音声認識装置。
  17. 話者によって入力された音声に基づいて、話者の意図する単音節を決定する車両に搭載された音声認識装置であって、
    話者の発声した音声を入力する音声入力手段と、
    前記音声入力手段が入力した音声を分析して候補単音節を特定する音声認識手段と、
    指定された情報を表示する表示領域を有すると共に、前記表示領域の表面に対する話者の操作を前記表示領域内の位置と共に感知するセンサを有する表示手段と、
    前記車両が走行中であるか否かの情報を取得する車両状態取得手段と、
    請求項12〜請求項15の何れかに記載の音声認識装置の前記制御手段と、
    請求項16に記載の音声認識装置の前記制御手段と、
    前記車両状態取得手段が取得する前記情報に基づき、前記車両が走行中であると判断した場合は、請求項12〜請求項15の何れかに記載の音声認識装置の前記制御手段を機能させ、前記車両が停止中であると判断した場合は、請求項16に記載の音声認識装置の前記制御手段を機能させる主制御手段と、
    を備えることを特徴とする音声認識装置。
  18. 話者によって入力された音声に基づいて、話者の意図する単音節を決定する音声認識装置であって、
    話者の発声した音声を入力する音声入力手段と、
    前記音声入力手段が入力した音声を分析して候補単音節を特定する音声認識手段と、
    指定された情報を報知する報知手段と、
    話者の操作を受け付ける受付手段と、
    単音節毎に対応づけられた複数音節からなる確認用単語によって構成される辞書を記憶する記憶手段と、
    前記音声認識手段が特定した候補単音節の中で最も尤度が高い候補単音節を、前記記憶手段が記憶する前記確認用単語によって前記報知手段に報知させる報知処理を実行し、話者より決定を意味する操作を前記受付手段が受け付けた場合は前記報知処理の際に報知させた前記候補単音節を話者の意図する単音節として確定する制御手段と、
    を備えることを特徴とする音声認識装置。
  19. 請求項18に記載の音声認識装置において、
    前記記憶手段は、前記辞書を前記確認用単語の種別によって分けて複数記憶し、
    前記制御手段は、前記受付手段が受け付けた話者の操作に基づいて前記記憶手段が記憶する前記辞書を選択し、その選択された辞書を用いて前記報知処理を実行することを特徴とする音声認識装置。
  20. 請求項18又は請求項19に記載の音声認識装置において、
    前記記憶手段が記憶する前記辞書の前記確認用単語は、予め話者が前記受付手段を操作することにより登録できることを特徴とする音声認識装置。
  21. 請求項18〜請求項20の何れかに記載の音声認識装置において、
    更に、指定された情報を表示する表示領域を有すると共に、前記表示領域の表面に対する話者の操作を前記表示領域内の位置と共に感知するセンサを有する表示手段を備え、
    前記制御手段は、前記音声認識手段が複数の候補単音節を特定した場合それらの候補単音節に対応する前記確認用単語を前記表示手段にオブジェクトとして並べて表示させ、話者に操作されて前記センサが感知した位置に表示されている前記オブジェクトに対応する前記候補単音節を、話者の意図する単音節として決定する制御手段と、
    を備えることを特徴とする音声認識装置。
  22. 請求項21に記載の音声認識装置において、
    前記制御手段は、前記音声認識手段が複数の候補単音節を特定した場合それらの候補単音節に対応する前記確認用単語を前記表示手段にオブジェクトとして並べて表示させた後、前記音声認識手段が特定した前記確認用単語に対応する前記候補単音節を、話者の意図する単音節として決定することを特徴とする音声認識装置
  23. コンピュータを、請求項1〜請求項5,請求項12〜請求項16,請求項18〜請求項22の何れかに記載の音声認識装置における音声認識手段又は制御手段の少なくとも一方として機能させるためのプログラム。
  24. コンピュータを、請求項6〜請求項11の何れかに記載の音声認識装置における音声認識手段として機能させるためのプログラム。
  25. コンピュータを、請求項17に記載の音声認識装置における主制御手段として機能させるためのプログラム。
  26. 請求項23〜請求項25の何れかに記載のプログラムを記憶する記憶媒体。
  27. 所定のナビゲーション処理を実行するナビゲーション装置であって、
    請求項1〜請求項22の何れかに記載の音声認識装置を備え、その音声認識装置によって得られた話者の意図する単音節群を前記ナビゲーション処理に用いることを特徴とするナビゲーション装置。
JP2004023881A 2004-01-30 2004-01-30 音声認識装置、プログラム及びナビゲーション装置 Expired - Fee Related JP4453377B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004023881A JP4453377B2 (ja) 2004-01-30 2004-01-30 音声認識装置、プログラム及びナビゲーション装置
KR1020040110491A KR100677711B1 (ko) 2004-01-30 2004-12-22 음성 인식 장치, 기억 매체 및 네비게이션 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004023881A JP4453377B2 (ja) 2004-01-30 2004-01-30 音声認識装置、プログラム及びナビゲーション装置

Publications (2)

Publication Number Publication Date
JP2005215474A true JP2005215474A (ja) 2005-08-11
JP4453377B2 JP4453377B2 (ja) 2010-04-21

Family

ID=34906753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004023881A Expired - Fee Related JP4453377B2 (ja) 2004-01-30 2004-01-30 音声認識装置、プログラム及びナビゲーション装置

Country Status (2)

Country Link
JP (1) JP4453377B2 (ja)
KR (1) KR100677711B1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007019477A1 (en) * 2005-08-05 2007-02-15 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
JP2008234154A (ja) * 2007-03-19 2008-10-02 Nec Corp 入力文字候補を音声により変換する機能を備える情報処理装置及びその文字入力プログラム
US7881940B2 (en) 2006-08-10 2011-02-01 Denso Corporation Control system
JP2013045282A (ja) * 2011-08-24 2013-03-04 Kyushu Institute Of Technology コミュニケーション支援システム
CN109903770A (zh) * 2017-12-07 2019-06-18 现代自动车株式会社 用于校正用户的话语错误的装置及其方法
US20210357588A1 (en) * 2020-05-15 2021-11-18 Robert Bosch Gmbh Device and method for determining at least one part of a knowledge graph

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007019477A1 (en) * 2005-08-05 2007-02-15 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
US7881940B2 (en) 2006-08-10 2011-02-01 Denso Corporation Control system
JP2008234154A (ja) * 2007-03-19 2008-10-02 Nec Corp 入力文字候補を音声により変換する機能を備える情報処理装置及びその文字入力プログラム
JP2013045282A (ja) * 2011-08-24 2013-03-04 Kyushu Institute Of Technology コミュニケーション支援システム
CN109903770A (zh) * 2017-12-07 2019-06-18 现代自动车株式会社 用于校正用户的话语错误的装置及其方法
US20210357588A1 (en) * 2020-05-15 2021-11-18 Robert Bosch Gmbh Device and method for determining at least one part of a knowledge graph
US11947910B2 (en) * 2020-05-15 2024-04-02 Robert Bosch Gmbh Device and method for determining at least one part of a knowledge graph

Also Published As

Publication number Publication date
JP4453377B2 (ja) 2010-04-21
KR20050078195A (ko) 2005-08-04
KR100677711B1 (ko) 2007-02-02

Similar Documents

Publication Publication Date Title
JP4736982B2 (ja) 作動制御装置、プログラム
EP1450349A1 (en) In-vehicle controller and program for instructing computer to execute operation instruction method
JP5673330B2 (ja) 音声入力装置
US7835901B2 (en) Speech recognition apparatus and navigation system
JP4466379B2 (ja) 車載音声認識装置
JP2008196998A (ja) ナビゲーション装置
JP2008282224A (ja) 車載情報検索装置
JP2010039099A (ja) 音声認識および車載装置
JP5217838B2 (ja) 車載機器の操作装置及び車載機器の操作方法
JP4914632B2 (ja) ナビゲーション装置
JP4453377B2 (ja) 音声認識装置、プログラム及びナビゲーション装置
JP5218459B2 (ja) 車両用情報端末及びプログラム
JP4770374B2 (ja) 音声認識装置
JP2000338993A (ja) 音声認識装置、その装置を用いたナビゲーションシステム
JP5455355B2 (ja) 音声認識装置及びプログラム
JP2008164809A (ja) 音声認識装置
JP4942406B2 (ja) ナビゲーション装置及びその音声出力方法
JP2011232668A (ja) 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法
JP3700533B2 (ja) 音声認識装置及び処理システム
JP2007057805A (ja) 車両用情報処理装置
JP2006039954A (ja) データベース検索装置、プログラム及びナビゲーション装置
JP2007025076A (ja) 車載用音声認識装置
JP2002062893A (ja) 車載ナビゲーション装置
JP2000020086A (ja) 音声認識装置、その装置を用いたナビゲーションシステム及び自動販売システム
JP2008310344A (ja) 提示装置及び提示方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100112

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140212

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees