JPH11184495A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH11184495A
JPH11184495A JP9354679A JP35467997A JPH11184495A JP H11184495 A JPH11184495 A JP H11184495A JP 9354679 A JP9354679 A JP 9354679A JP 35467997 A JP35467997 A JP 35467997A JP H11184495 A JPH11184495 A JP H11184495A
Authority
JP
Japan
Prior art keywords
recognition
word
input
monosyllable
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9354679A
Other languages
English (en)
Inventor
Ryuji Yamaguchi
竜司 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP9354679A priority Critical patent/JPH11184495A/ja
Publication of JPH11184495A publication Critical patent/JPH11184495A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声入力にて単音節を特定する処理を確実に
行う。 【解決手段】 音声認識ユニット14には、各単音節と
対応づけて、複数音節からなる単音節認識用特定語が記
憶されている。例えば「あ」と対応づけて「あいうえお
のあ」が記憶されている。話者は、入力したい単音節の
代わりに上記特定語を発声する。その特定語をパターン
マッチングにより認識することにより、単音節が特定さ
れる。さらに、この機能を用いて、ナビゲーション目的
地としての施設名の50音検索が行われる。施設名の先
頭部分の単音節が音声入力される。この単音節を基に施
設名が所定数以下に絞り込まれる。次に、単語全体が音
声入力される。所定数以下の施設名が認識語彙になるの
で、認識性能を高くすることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置、特
に、単音節の音声入力作業を好適に行える装置に関し、
さらに、単音節入力を利用して50音検索を行う装置に
関する。
【0002】
【従来の技術】従来より、人間の発声した音声を認識す
る音声認識装置が周知である。音声認識装置が単語認識
機能をもつ場合、認識対象の単語(以下、認識対象単語
という)が予め複数個設定されている。そして、話者が
発声した単語を認識対象単語と比較することにより、音
声認識が行われる。例えば、各認識対象単語のテンプレ
ートが用意される。そして、入力音声データと各テンプ
レートのパターンマッチングが行われ、最も一致度(類
似度)の高い認識対象単語が選ばれる。このようにし
て、入力された単語がどの認識対象単語と一致するかが
求められる。
【0003】上記の音声認識装置を移動体用ナビゲーシ
ョン装置に搭載することも提案されている。ここでは、
代表的な移動体としての車両を取り上げて説明する。音
声認識機能が設けられていれば、運転者は、音声を発声
することにより、ナビゲーション装置を操作できる。手
でスイッチ操作をする必要がないので、ナビゲーション
装置を容易に操作することができる。特に、車両走行中
においても、運転しながらナビゲーション装置を操作で
きる、という利点がある。
【0004】ナビゲーション装置に対してユーザが入力
する項目には、目的地や、地図表示場所が含まれる。こ
の種の入力項目は、地名というかたちで入力されたり、
施設名(建築物の名称や公園の名称など)というかたち
で入力される。このような入力項目についても、音声認
識の対象とすることが望まれる。
【0005】しかしながら、地名や施設名は、その数が
多いため、これらを認識することは困難であった。認識
対象の単語数が多すぎると、処理時間が増大したり認識
正解率が低下したりして、認識性能が低くなる可能性が
あるからである。あるナビゲーション装置では、目的地
の候補として数万件の施設名が用意されている。
【0006】上記の如く地名や施設名の数が多いので、
手動操作によっても入力作業は容易でない。そこで、特
開平9−280883号公報では、いわゆる50音検索
手法を用いて、目的地を入力することが提案されてい
る。ここでは、まず、ユーザにより、先頭から順に一文
字ずつ目的地が手動で入力される。入力された文字を含
む目的地名が検索され、検索結果が表示される。ユーザ
は、所望の目的地名の表示を見つけると、その目的地名
を選択する。このようにして、手動操作では、50音検
索の利用により地名等の入力作業が容易になる。
【0007】
【発明が解決しようとする課題】地名入力のように単語
数が多い場合でも、音声入力を可能にすることが望まれ
る。また、上記の50音検索は、県名がわからずそれ以
下の地名(市町村名等)を入力する場合の絞り込み手法
として有効でありまた、施設種別がわからず施設名のみ
わかっている場合等に有効である。そこで、上記の50
音検索手法を、音声入力に適用することが考えられる。
しかしながら、この場合には、下記のような問題があ
る。50音検索では、ユーザが入力したい単語が、一文
字ずつ、すなわち、単音節ずつ入力される(頭文字入
力)。この単音節を認識することは、音声認識装置にと
っては困難である。単音節の認識が困難なので、一文字
入力を使う50音検索を音声認識装置で実現することが
困難であった。
【0008】ここで、単音節の認識において、母音の認
識は比較的容易である。周知のように、音声の基本パラ
メータとしてのホルマントを利用すれば、母音を正確に
認識できる。しかし、子音は、母音の前に付加されるも
のであり、その発声時間が短く、子音は一種の雑音とし
かみなされない。そのため、例えば、話者が「と」と発
声したときに、子音「t」の代わりに「m」が検出さ
れ、「も」という誤った認識結果が出力される。
【0009】参考技術として、特公平7−66275号
公報に記載の音声認識装置では、単音節が入力されたと
きに、認識結果として複数の単音節候補が求められ、表
示される。話者は、表示された単音節候補から、自分の
発声した単音節を選ぶ。従って、単音節入力が確実に行
われる。しかしながら、この装置では、話者は表示装置
を見て自分の発声した単語を見つけなければならず、そ
して、結局は手動操作で候補の一つを選択しなければな
らない。特に、ナビゲーション装置に音声認識装置を設
ける場合には、表示画面の確認や手動操作を不要にする
ことが求められるのであり、この点で上記の参考技術に
示される装置は適当ではない。
【0010】本発明は上記課題に鑑みてなされたもので
あり、その目的は、単音節の音声入力を確実に行うこと
ができる音声認識装置を提供することにある。本発明の
さらなる目的は、確実に入力された単音節を用いて、単
語の認識を好適に行える音声認識装置を提供することに
ある。
【0011】
【課題を解決するための手段】本発明の音声認識装置
は、話者の発声した音声を入力する音声入力手段と、そ
れぞれ異なる単音節と対応づけて設定され複数音節で構
成された複数の単音節認識用特定語を記憶した記憶手段
と、入力音声データを前記複数の単音節認識用特定語と
比較し、入力音声と一致する単音節認識用特定語を入力
特定語として求める音声認識手段と、を含み、音声認識
手段により求められた入力特定語と対応する単音節を、
話者の指定する単音節であると決定する。
【0012】本発明によれば、単音節の入力作業におい
て、単音節そのものではなく、上記の単音節認識用特定
語が入力される。単音節認識用特定語は、複数音節から
構成されているので、単音節よりも大幅に高い確率で正
しく認識される。そして、この正しく認識された特定語
と対応する単音節を求めるので、単音節の入力を確実に
行うことができる。
【0013】好ましくは、前記単音節認識用特定語は、
50音内で同行に属する複数音節と、それらの複数音節
中の一の単音節とを含む。例えば、単音節が「あ」
「か」の場合に、単音節認識用特定語は、それぞれ、
「あいうえおのあ」「かきくけこのか」である。「かき
くけこ」と連続して発声されれば、子音が「k」である
ことが確実に分かる。そして、続けて入力される「か」
により母音「a」が分かる。従って、話者が指定した単
音節は、か行あ段の「か」であることが分かる。これに
より、一度の音声入力にて、非常に高い確率で正しく一
の単音節を特定可能になる。
【0014】また、好ましくは、本発明の音声認識装置
は、複数の単語を記憶した単語記憶手段と、前記単語記
憶手段に記憶された単語から、話者が指定したものと決
定された単音節を先頭部分に含んだ単語を抽出する単語
抽出手段と、抽出された単語を音声認識の対象に設定す
る認識対象設定手段と、を含む。
【0015】また、本発明の別の態様は、話者の発声し
た音声を入力する音声入力手段と、入力音声データと認
識対象単語を比較することによって音声認識を行う音声
認識手段と、を含む音声認識装置において、それぞれ異
なる単音節と対応づけて設定され複数音節で構成された
複数の単音節認識用特定語を記憶した記憶手段と、話者
に対して、入力したい単語を構成する単音節に対応する
前記単音節認識用特定語を入力することを要求する特定
語発声要求手段と、要求に応えて入力された音声データ
を前記複数の単音節認識用特定語と比較する音声認識の
結果を基に、入力音声と一致した単音節認識用特定語に
対応する単音節を特定する単音節特定手段と、特定され
た単音節を含むか否かを基準にして、複数の所定の単語
から認識対象単語を絞り込む認識対象設定手段と、1以
上の前記特定された単音節を用いた絞り込みの結果、認
識対象単語が所定数以下になった否かを判定する単語数
判定手段と、認識対象単語が所定数以下になった場合
に、話者に対して、入力したい単語の全体を発声するこ
とを要求する単語発声要求手段と、を含む。
【0016】この態様によれば、単語全体を入力するま
での過程において、表示装置を確認する作業や手動操作
が削減される。確実に入力された単音節を利用し、音声
入力装置にて、手動操作と同様に便利な50音検索を実
現できる。
【0017】なお、認識対象単語の絞り込みの際、特定
された単音節を先頭部分に含む単語のみが抽出されても
よい。特定された単音節を途中部分や末尾部分に含む単
語もさらに抽出されてもよい。
【0018】
【発明の実施の形態】以下、本発明の好適な実施の形態
(以下、実施形態という)について、図面を参照し説明
する。本実施形態では、車両用のナビゲーション装置に
本発明の音声認識装置が設けられる。
【0019】図1は、ナビゲーション装置の全体構成を
示すブロック図である。ナビゲーション装置10にはナ
ビゲーションECU12が設けられており、ナビゲーシ
ョンECU12は装置全体を制御している。ナビゲーシ
ョンECU12には、音声認識ユニット14が接続され
ている。音声認識ユニット14は、ナビゲーション装置
10の入力手段として機能し、ユーザは音声認識ユニッ
ト14を介してナビゲーション装置10に対して各種の
指示を入力する。また、ナビゲーションECU12には
操作スイッチ16が接続されており、操作スイッチ16
は、ユーザにより手動で操作される入力手段として機能
する。さらにナビゲーションECU12には、出力手段
としてのディスプレイ18およびスピーカ20が接続さ
れている。
【0020】また、GPS(グローバルポジショニング
システム)装置22は、人工衛星から送られた電波を基
に車両の現在位置を検出してナビゲーションECU12
に送る。地図データ記憶部24は、全国の道路形状など
の地図情報を記憶している。記憶部24には、地図情報
の一部として、全国の地名や施設名称が、それらの位置
する場所(座標)と対応づけて記憶されている。地図情
報は、ナビゲーションECU12により、経路案内に関
する各種の処理に利用される。例えば、現在位置周辺の
地図が地図データ記憶部24から読み出され、ディスプ
レイ18に表示される。目的地が設定されると、地図情
報を用いて目的地までの経路を探索する経路計算が行わ
れる。計算結果の経路を用いて経路案内が行われる。
【0021】前述のように、音声認識ユニット14はナ
ビゲーション装置10の入力装置として機能する。音声
認識ユニット14を用いて、ユーザにより音声というか
たちでナビゲーション装置10に対する各種の指示が入
力される。例えば、上記の経路案内用の目的地が入力さ
れる。この入力処理のため、適宜、音声認識ユニット1
4は、ナビゲーションECU12をはじめとする他の構
成と一体になって機能する。また、音声認識ユニット1
4をナビゲーションECU12の内部に組み込むことも
好適である。
【0022】図2は、音声認識ユニット14の構成を示
すブロック図である。音声認識ユニット14には信号処
理制御部30が設けられている。信号処理制御部30は
CPUを有し、装置14全体を制御している。
【0023】信号処理制御部30には音響処理部32が
接続され、音響処理部32にはマイク34が接続されて
いる。ユーザが発声した音声は、マイク34にてアナロ
グ電気信号に変換され、音響処理部32に入力される。
音響処理部32では、音声データがデジタル信号に変換
される。さらに、音響処理部32では、音声認識に必要
なデータ処理が施される。本実施形態では、窓関数処理
やフーリエ変換処理が行われ、音声データのケプストラ
ムが求められる。処理後の音声データは信号処理制御部
30へ出力される。
【0024】信号処理制御部30にはトリガースイッチ
16aが接続されている。トリガースイッチ16aはユ
ーザにより操作される。信号処理制御部30は、トリガ
ースイッチ16aが押されると、その後に発声された音
声のデータを、マイク34から音響処理部32を経由し
て取り込む。変形例として、トリガースイッチ16aの
代わりに、いわゆるプレス・トークスイッチが設けられ
てもよい。プレス・トークスイッチを押し続けている間
に発声された音声が、マイク34から信号処理制御部3
0に取り込まれる。また、別の変形例として、音声認識
装置が、常時認識タイプの装置であってもよい。トリガ
ースイッチやプレス・トークスイッチの操作がなくと
も、ユーザによる発声の有無が監視され、検出される。
【0025】また、信号処理制御部30には音声認識部
36が接続されている。信号処理制御部30は、音響処
理部32から取り込んだ音声データを音声認識部36に
送る。音声認識部36はいわゆるDSPであり、ユーザ
の発声した音声データを解析して、音声認識を行う。認
識辞書メモリ38はRAMからなり、複数の認識対象単
語を記憶する。各認識対象単語のテンプレートデータ
(標準データ)が用意される。音声認識部36は、入力
音声データと、一つ一つの認識対象単語のテンプレート
データとのパターンマッチングを行う。マッチング結果
の最もよい単語が、入力された単語であると決定され
る。その単語を示す情報が、認識結果として、信号処理
制御部30へ送られる。これにより、信号処理制御部3
0は、ユーザが何をいったのかが分かる。さらに、認識
された単語を示す情報が、ナビゲーションECU12に
出力される。ナビゲーションECU12は、入力情報に
基づいたナビゲーション処理を行う。例えば、目的地が
入力されると、目的地までの経路計算を行う。また、地
図を表示したい場所が入力されると、その場所の地図が
検索され、表示される。
【0026】なお、本実施形態においては、任意の音声
認識技術を適用可能である。例えば、ダイナミックプロ
グラミング法(動的計画法、DP法)や、ヒドンマルコ
フモデル(隠れマルコフモデル、HMM)を使う確率手
法が適用可能である。
【0027】音声入力処理は、原則として、まず、ユー
ザに対して発声すべき音声内容を指示し、これに応えて
入力された音声を認識する、という手順で行われる。ナ
ビゲーションECU12は、次にどのような単語の発声
をユーザに要求するか(入力項目)を決定する。ナビゲ
ーションECU12の認識対象単語設定部40は、決定
された入力項目に対応する単語を、地図データ記憶部2
4から検索する。検索された単語は、認識対象単語に設
定される。
【0028】上記の決定された入力項目と認識対象単語
群が音声認識ユニット14の信号処理制御部30に通知
される。制御部30は、音声合成部42に対して、入力
項目を示す合成音声を生成させ、生成された合成音声は
スピーカ20から出力される。このようにして、音声入
力がユーザに要求される。また、制御部30は、認識対
象単語を認識辞書メモリ38に書き込む。音素データを
組み立てることによって認識対象単語のテンプレートデ
ータが作成される。要求に応えてユーザが発声すると、
入力音声データと上記テンプレートデータのパターンマ
ッチングによって、音声認識が行われる。
【0029】音声合成部42は、上記の発声要求の他、
ユーザに対する各種の音声案内にも用いられる。音声合
成部42は、トークバック用の合成音声の生成にも利用
される。トークバック音声においては、音声認識部36
により認識された音声の内容が反復される。トークバッ
ク音声の出力により、装置内での認識結果がユーザに提
示される。
【0030】「地名や施設名の音声認識」地名や施設名
といった場所に関係する単語は、例えば、目的地の設定
のために入力される。また例えば、地図表示場所を指定
するために入力されたり、ユーザが特定の場所や施設の
案内を受けようとするときに入力される。ここでは、目
的地として施設名を音声入力するときの処理を取り上げ
て説明するが、他の場合の処理も同様である。
【0031】地図データ記憶部24には全国の多数の施
設名が記憶されており、この施設名のすべてを認識対象
にすると、低い認識性能しか得られない。単語数が多す
ぎるために、処理時間が長くなり、認識正解率も低くな
る。例えば、10万件の施設名が登録されているとす
る。入力された施設名と10万の登録施設名とのパター
ンマッチングを行って好適な音声認識処理を行うことは
容易でない。
【0032】そこで、本実施形態では、図3に示すよう
にして、50音検索の手法を用いて、施設名の音声認識
を行う。ここでは、施設名の先頭部分の1または複数の
カナ文字の音声入力処理が行われ、入力された文字を基
に認識対象語彙が絞り込まれる。絞り込み後の単語群を
認識対象にすることにより、高い認識性能が実現され
る。
【0033】図3において、音符記号を付けたステップ
では、ユーザが発声した音声を認識する処理が行われ
る。まず、ユーザにより、トリガースイッチ16aが押
される(S10)。音声合成部42により発声要求メッ
セージ「音声コマンドをお話し下さい」が生成され、メ
ッセージはスピーカ20から出力される(S12)。要
求に応えたユーザの発声「目的地設定」が認識されると
(S14)、発声要求メッセージ「目的地の設定方法を
お話し下さい」が出力される(S16)。この要求に応
えたユーザの発声「50音」が認識されると(S1
8)、本実施形態に特徴的な50音検索処理に入る。
【0034】まず、「50音」という発声の認識結果が
ナビゲーションECU12に送られる。ナビゲーション
ECU12は、本発明の特定語発声要求手段として機能
し、「施設名称の第n文字目を「かきくけこのく」のよ
うにお話しください」という単音節要求メッセージの出
力を、音声認識ユニット14に指示する。この指示に応
え、信号処理制御部30は上記単音節要求メッセージを
音声合成部42に生成させ、生成されたメッセージはス
ピーカ20から出力される(S20)。単音節要求メッ
セージ中の「n」の初期値は1である。従って、ここで
は、1文字目の入力が要求される。
【0035】上記の「かきくけこのく」は、本実施形態
に特徴的な単音節認識用特定語(以下、特定語という)
の例をユーザに提示するために、メッセージ中に含めら
れている。図4および図5には、各単音節と対応する特
定語が示されている。図4と図5のどちらのテーブルが
適用されてもよく、また、これらに類似する他のテーブ
ルが適用されてもよい。各特定語の構成は、「単音節が
属する行の5音」+「の」+「単音節」である。単音節
「あ」に対応する特定語は、「あいうえお・の・あ」で
ある。なお、図4のテーブル(51語)では、だくてん
(″)、はんだくてん(°)、「ゃ」、「ゅ」、
「ょ」、「っ」については、そのものは発音されずに、
制御コードとして扱われる。また、図5のテーブル(9
9語)では、「っ」以外は全て実際に発音される。
【0036】全ての特定語を含んだ特定語辞書が、音声
認識ユニット14の認識辞書メモリ38に記憶されてい
る。そして、S20では、信号処理制御部30の制御の
基で、特定語辞書が展開され、各特定語のテンプレート
データが用意される。なお、特定語辞書は、地図データ
記憶部24等の他の記憶媒体に用意され、使用時に認識
辞書メモリ38に移されてもよい。また、特定語が、テ
ンプレートの形態で認識辞書メモリ38内に常備されて
もよい。
【0037】ユーザは、目的地として「東京ドーム」を
入力したいときは、メッセージに応えて第1文字目の
「と」に対応する特定語「たちつてとのと」を発声する
(S22)。入力音声データは、音響処理を経て音声認
識部36へ送られる。音声認識部36では、特定語のテ
ンプレートを用いて音声認識が行われる(S24)。
【0038】従来の単音節認識では、子音「t」を確実
に認識することは困難であった。本実施形態では、子音
「t」を含む単音節が連続して入力されるので、子音
「t」が正確に認識される。最後の「と」から母音
「o」が分かる。従って、入力された単音節が、た行お
段の「と」であることが正確に分かる。このように、本
実施形態では、音声認識部36および信号処理制御部3
0が本発明の単音節特定手段として機能する。
【0039】認識結果は、ナビゲーション装置12の認
識対象単語設定部40へ送られる。設定部40は、単語
抽出手段、認識対象設定手段および単語数判定手段とし
て機能する。設定部40は、先頭に「と」をもつ施設名
を検索し、検索した施設名を認識対象単語に設定する。
そして、検索された施設名が所定しきい単語数以下であ
るか否かが判定される(S26)。所定しきい単語数
は、適当な認識性能が得られる範囲の単語数に基づいて
設定されており、装置の仕様に応じて適当に設定され
る。すなわち、所定しきい単語数は、その数以下の数の
単語が認識対象であれば高い認識性能が得られるよう
に、設定されている。本実施形態では、所定しきい単語
数は5000である。
【0040】S26でNOの場合、nに1が加えられ
(S28)、S20に戻る。従って、ナビゲーションE
CU12の指示により、2番目のカナ文字の入力が行わ
れる。このようにして、順次、一文字ずつ(単音節ず
つ)音声入力が行われる。そして、n番目の文字が入力
されると、その文字をn番目にもつ施設名が検索され
る。従って、一文字入力されるたびに、認識対象単語設
定部40では、施設名が絞り込まれる。
【0041】S26にて施設名の数が所定しきい単語数
以下になったと判定されると、S30に進む。ナビゲー
ションECU12は、単語発声要求手段として機能し、
「施設名称をお話しください」という単語要求メッセー
ジの出力を、音声認識ユニット14に指示する。この指
示に応え、信号処理制御部30は上記単語要求メッセー
ジを音声合成部42に生成させ、生成されたメッセージ
はスピーカ20から出力される。このようにして、本実
施形態では、認識対象単語数が所定しきい単語数以下に
絞り込みまれてから、単語の全体の発声が要求される。
【0042】上記のS30では、認識対象単語設定部4
0により設定された認識対象単語(施設名)が、音声認
識ユニット14に送られ、認識辞書メモリ38に書き込
まれる。制御部30の制御の下で辞書展開が行われ、音
素データを組み立てることにより各施設名のテンプレー
トが作成される。
【0043】今度は、ユーザは、入力したい施設名の全
体「東京ドーム」を発声する(S32)。入力音声デー
タは、音響処理を経て音声認識部36へ送られる。音声
認識部36では、施設名のテンプレートを用いて音声認
識が行われる。
【0044】ここでは、認識装置の性能範囲に単語数が
収まるように認識対象語彙を限定した効果により、高い
認識性能が得られる。従って、正しい認識結果が短時間
で得られる。認識結果は、ナビゲーションECU12に
送られ、以降のナビゲーション処理に利用される。ナビ
ゲーションECU12は、音声認識ユニット14を制御
して、メッセージ「目的地を東京ドームに設定します」
を出力させる。そして、目的地までの経路設定が行わ
れ、設定経路を用いた経路案内が行われる。
【0045】以上、本発明の好適な実施形態を説明し
た。上記のように、本実施形態では、「あいうえおの
あ」というような単音節認識用特定語を利用することに
より、単音節(カナ一文字)の正確な特定が可能にな
る。そして、このような単音節の特定機能を利用して、
50音検索機能を音声認識装置で好適に実現することが
できる。ユーザである運転者にとっては、ディスプレイ
を見たり、スイッチを頻繁に操作したりすることなく、
施設名や地名を容易に入力することが可能となる。
【0046】なお、本実施形態の単音節認識用特定語
(「あいうえおのあ」)は、特別に記憶する必要がな
く、発声しやすく、かつ、確実に一つの単音節を特定可
能にする、という点で好適である。そして、このような
特定語の設定により、ユーザは、大変容易に単音節を音
声入力できる。ただし、特定語としては、上記のタイプ
に限定されず、他のタイプの特定語が用いられてもよ
い。例えば、本実施形態の特定語が、「あいうのあ」と
いうように短縮されてもよい。また、「あああのあ」と
いうような特定語が用いられてもよい。また、「あさひ
のあ」というように、覚えやすい単語やフレーズを含ん
だ特定語が用いられてもよい。
【0047】本実施形態の音声認識部等の各種の構成
は、ハードウエアによって実現されても、ソフトウエア
によって実現されてもよい。
【0048】また、本発明の音声認識装置をナビゲーシ
ョン装置以外の装置に適用可能であることはもちろんで
ある。
【図面の簡単な説明】
【図1】 本発明の実施形態のナビゲーション装置の全
体構成を示すブロック図である。
【図2】 図1のナビゲーション装置の音声認識ユニッ
トの構成を示すブロック図である。
【図3】 施設名や地名の認識処理を示すフローチャー
トである。
【図4】 本実施形態における単音節認識用特定語の一
例を示す図である。
【図5】 本実施形態における単音節認識用特定語の第
2の例を示す図である。
【符号の説明】
10 ナビゲーション装置、12 ナビゲーションEC
U、14 音声認識ユニット、20 スピーカ、24
地図データ記憶部、30 信号処理制御部、32 音響
処理部、34 マイク、36 音声認識部、38 認識
辞書メモリ、40 認識対象単語設定部、42 音声合
成部。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 話者の発声した音声を入力する音声入力
    手段と、 それぞれ異なる単音節と対応づけて設定され複数音節で
    構成された複数の単音節認識用特定語を記憶した記憶手
    段と、 入力音声データを前記複数の単音節認識用特定語と比較
    し、入力音声と一致する単音節認識用特定語を入力特定
    語として求める音声認識手段と、 を含み、音声認識手段により求められた入力特定語と対
    応する単音節を、話者の指定する単音節であると決定す
    ることを特徴とする音声認識装置。
  2. 【請求項2】 請求項1に記載の装置において、 前記単音節認識用特定語は、50音内で同行に属する複
    数音節と、それらの複数音節中の一の単音節とを含むこ
    とを特徴とする音声認識装置。
  3. 【請求項3】 請求項1または2のいずれかに記載の装
    置において、 複数の単語を記憶した単語記憶手段と、 前記単語記憶手段に記憶された単語から、話者が指定し
    たものと決定された単音節を先頭部分に含んだ単語を抽
    出する単語抽出手段と、 抽出された単語を音声認識の対象に設定する認識対象設
    定手段と、 を含むことを特徴とする音声認識装置。
  4. 【請求項4】 話者の発声した音声を入力する音声入力
    手段と、 入力音声データと認識対象単語を比較することによって
    音声認識を行う音声認識手段と、 を含む音声認識装置において、 それぞれ異なる単音節と対応づけて設定され複数音節で
    構成された複数の単音節認識用特定語を記憶した記憶手
    段と、 話者に対して、入力したい単語を構成する単音節に対応
    する前記単音節認識用特定語を入力することを要求する
    特定語発声要求手段と、 要求に応えて入力された音声データを前記複数の単音節
    認識用特定語と比較する音声認識の結果を基に、入力音
    声と一致した単音節認識用特定語に対応する単音節を特
    定する単音節特定手段と、 特定された単音節を含むか否かを基準にして、複数の所
    定の単語から認識対象単語を絞り込む認識対象設定手段
    と、 1以上の前記特定された単音節を用いた絞り込みの結
    果、認識対象単語が所定数以下になった否かを判定する
    単語数判定手段と、 認識対象単語が所定数以下になった場合に、話者に対し
    て、入力したい単語の全体を発声することを要求する単
    語発声要求手段と、 を含むことを特徴とする音声認識装置。
JP9354679A 1997-12-24 1997-12-24 音声認識装置 Pending JPH11184495A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9354679A JPH11184495A (ja) 1997-12-24 1997-12-24 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9354679A JPH11184495A (ja) 1997-12-24 1997-12-24 音声認識装置

Publications (1)

Publication Number Publication Date
JPH11184495A true JPH11184495A (ja) 1999-07-09

Family

ID=18439181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9354679A Pending JPH11184495A (ja) 1997-12-24 1997-12-24 音声認識装置

Country Status (1)

Country Link
JP (1) JPH11184495A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003510662A (ja) * 1999-09-29 2003-03-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識器における綴りモード
JP2007535692A (ja) * 2004-03-09 2007-12-06 ラオ、アシュウィン 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法
US7809563B2 (en) 2005-10-14 2010-10-05 Hyundai Autonet Co., Ltd. Speech recognition based on initial sound extraction for navigation and name search
JP2011085805A (ja) * 2009-10-16 2011-04-28 Doshisha 音声入力を用いた口腔診査記録システム及びプログラム
WO2017203764A1 (ja) * 2016-05-23 2017-11-30 ソニー株式会社 情報処理装置および情報処理方法
CN110111781A (zh) * 2018-01-31 2019-08-09 丰田自动车株式会社 信息处理装置和信息处理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003510662A (ja) * 1999-09-29 2003-03-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識器における綴りモード
JP2007535692A (ja) * 2004-03-09 2007-12-06 ラオ、アシュウィン 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法
US7809563B2 (en) 2005-10-14 2010-10-05 Hyundai Autonet Co., Ltd. Speech recognition based on initial sound extraction for navigation and name search
JP2011085805A (ja) * 2009-10-16 2011-04-28 Doshisha 音声入力を用いた口腔診査記録システム及びプログラム
WO2017203764A1 (ja) * 2016-05-23 2017-11-30 ソニー株式会社 情報処理装置および情報処理方法
CN110111781A (zh) * 2018-01-31 2019-08-09 丰田自动车株式会社 信息处理装置和信息处理方法
CN110111781B (zh) * 2018-01-31 2023-02-17 丰田自动车株式会社 信息处理装置和信息处理方法

Similar Documents

Publication Publication Date Title
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP3943492B2 (ja) ディクテーションとコマンドの区別を向上させる方法
EP1936606B1 (en) Multi-stage speech recognition
JP6080978B2 (ja) 音声認識装置および音声認識方法
US20070156405A1 (en) Speech recognition system
EP0840286A2 (en) Method and system for displaying a variable number of alternative words during speech recognition
EP0840289A2 (en) Method and system for selecting alternative words during speech recognition
EP0965979A1 (en) Position manipulation in speech recognition
US9997155B2 (en) Adapting a speech system to user pronunciation
EP0840288A2 (en) Method and system for editing phrases during continuous speech recognition
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JPH11505037A (ja) 言語認識装置の信頼性向上方法
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2003308090A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2003022089A (ja) オーディオ専用インターフェースにおけるボイス・スペリング
JP2003114696A (ja) 音声認識装置、プログラム及びナビゲーションシステム
US20170270923A1 (en) Voice processing device and voice processing method
JPH11184495A (ja) 音声認識装置
EP0840287A2 (en) Method and system for selecting recognized words when correcting recognized speech
JP3058125B2 (ja) 音声認識装置
JP3277579B2 (ja) 音声認識方法および装置
JP4930014B2 (ja) 音声認識装置、および音声認識方法
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
JPH11109989A (ja) 音声認識装置