JPH11338495A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH11338495A
JPH11338495A JP10164323A JP16432398A JPH11338495A JP H11338495 A JPH11338495 A JP H11338495A JP 10164323 A JP10164323 A JP 10164323A JP 16432398 A JP16432398 A JP 16432398A JP H11338495 A JPH11338495 A JP H11338495A
Authority
JP
Japan
Prior art keywords
voice
input
word
speech
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10164323A
Other languages
English (en)
Inventor
Koji Sumiya
孝二 角谷
Tomoki Kubota
智氣 窪田
Koji Hori
孝二 堀
Manabu Matsuda
松田  学
Kazuhide Adachi
和英 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AQUEOUS Research KK
AQUEOUS RESERCH KK
Original Assignee
AQUEOUS Research KK
AQUEOUS RESERCH KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AQUEOUS Research KK, AQUEOUS RESERCH KK filed Critical AQUEOUS Research KK
Priority to JP10164323A priority Critical patent/JPH11338495A/ja
Publication of JPH11338495A publication Critical patent/JPH11338495A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 入力された音声を良好に認識できる音声認識
装置を提供すること。 【解決手段】 マイクから入力される音声に対応する単
語を特定する入力音声判別手段を有す得る音声認識装置
において、番号入力時に、ディスプレイ21aにテンキ
ー21fを表示し、テンキー21fの各数字について、
他の数字の称呼と類似しない称呼を各数字に対応させて
表示する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力された音声を認識
し認識結果に基づく出力を行う音声認識装置に係り、詳
細には、入力された音声を正しく特定・認識できる音声
認識装置に関する。
【0002】
【従来の技術】近年、マイク等から入力された音声を言
葉として認識し認識結果に基づく出力を行う音声認識装
置が、各種方面で実用化されている。この音声認識装置
は、工場における各種装置に対する指示を離れた場所か
ら音声により指示する装置や、自動車のナビゲーション
装置において目的地や指示情報等を音声により入力する
装置として、実用化されている。
【0003】このような音声認識装置は、音声入力手段
により入力された音声について、以下のような入力音声
判別手段により言葉として認識し、認識結果を出力して
いる。即ち、入力音声判別手段は、予め認識対象となる
音声の周波数分布を分析することでスペクトルや基本周
波数の時系列情報等を当該音声の特徴として抽出し、そ
のパターンを各単語に対応させて格納する音声認識用辞
書を備えている。そして、音声入力手段により入力され
た音声について周波数分布の分析によるパターンを取得
し、入力音声のパターンと辞書に格納された各単語のパ
ターンとをパターンマッチングにより比較照合し、入力
された音声のパターンと最も類似する音声認識用辞書中
のパターンの単語を、入力された音声の単語として認識
して出力する。
【0004】図6は、この様な従来技術において用いら
れる音声認識の手法を概念的に表したものである。い
ま、認識対象となる単語として「いち」、「しち」、お
よび「はち」があるものとし、図6(a)は辞書に格納
された各音声に対する周波数分布のパターンを概念的に
表したものである。
【0005】ここで、音声入力手段から音声“いち”が
入力されると、入力音声についての周波数分布を分析し
て、図6(b)に示すように、入力された音声データの
パターンを作成する。そして、辞書に格納されている各
単語のパターンとの類似度を算出する。すなわち、入力
音声のパターン(b)と辞書(a)に格納されている
「いち」のパターンとを比較した場合、A、B、D、
E、a、b、c、d、eの9箇所が一致するため、一致
箇所を1点として計算すると、類似度が9点となる。同
様にして、辞書(a)に格納された各単語に対して算出
した類似度を表にまとめたものが図6(c)である。そ
して、入力音声のパターンは、辞書(a)の「いち」の
パターンとの類似度が9点で最も高く、音声入力手段か
らの音声は、単語「いち」であると特定する。
【0006】
【発明が解決しようとする課題】しかし、上述のような
従来技術による音声認識では、マイク等から入力される
音声どうしが類似している場合、即ち分離度が低い場
合、類似度の近似する単語が2つ以上存在する可能性が
あり、どちらが認識されるべき単語かを判定することが
できなかったり、誤認識される可能性がある。
【0007】図7は、前述の図7と同様のパターンを格
納する辞書(a)により、(b)に示す入力音声パター
ン“しち”を認識する場合について表したものである。
この場合、図6と同様に類似度を算出すると(c)のよ
うになり、「いち」と「しち」の両パターンにおいて類
似度が8点となるため、入力音声がどちらの単語である
かを特定することができない。この様に、従来技術の音
声認識装置においては、類似度が近似するために明確に
1単語を特定することができない可能性がある。
【0008】更に、上述のような従来技術においては、
マイク等により周囲の雑音が言葉として認識され所定の
出力が行われてしまうおそれがある。
【0009】本発明は、このような従来の音声認識装置
の課題を解決するためになされたもので、入力された音
声を正しく特定・認識できる音声認識装置を提供するこ
とを第1の目的とする。また、本発明は、雑音による誤
認識を回避できる音声認識装置を提供することを第2の
目的とする。
【0010】
【課題を解決するための手段】請求項1記載の発明で
は、音声を入力する音声入力手段と、該入力された音声
に対応する単語を特定する入力音声判別手段とを有する
音声認識装置において、表示装置と、前記表示装置の表
示面に前記入力音声判別手段による特定の対象となる単
語を表示する認識対象語表示手段と、前記認識対象語表
示手段により表示される単語が複数の称呼を有する場
合、該単語の称呼のうち、前記認識対象語表示手段によ
り同時に表示される他の単語の称呼と類似しない称呼
を、前記表示装置の表示面に表示する称呼表示手段と、
を具備させて前記第1の目的を達成する。請求項2記載
の発明では、音声を入力する音声入力手段と、該入力さ
れた音声に対応する単語を特定する入力音声判別手段
と、を有する音声認識装置において、表示装置と、前記
表示装置の表示面に前記入力音声判別手段による特定の
対象となる単語を表示する認識対象語表示手段と、前記
認識対象語表示手段により表示される単語について、前
記入力音声判別手段による特定の対象となる他の単語の
読み方と類似しない読み方を前記表示装置の表示面に表
示する読み方表示手段と、を具備させて前記第1の目的
を達成する。請求項3記載の発明では、請求項2に記載
の音声認識装置において、前記読み方表示手段が、前記
認識対象語表示手段により前記表示装置に表示される単
語の読み方として、それらの単語のアクセントの位置を
表示する。請求項4記載の発明では、請求項1から請求
項3のうちのいずれか1項に記載の音声認識装置におい
て、音声出力手段と、前記音声入力手段から入力された
音声について前記入力音声判別手段により特定された単
語について、前記表示装置の表示面に表示される称呼ま
たは読み方に従った音声で前記音声出力手段から出力す
るアンサーバック手段とを備える。請求項5記載の発明
では、音声を入力する音声入力手段と、該入力された音
声に対応する単語を特定する入力音声判別手段と、を有
する音声認識装置において、前記音声入力手段から入力
された音声が雑音であるか否かを判断する雑音判定手段
を備え、前記入力音声判別手段は、前記雑音判定手段に
より雑音と判定された音声については単語を特定しない
音声認識装置により前記第2の目的を達成する。
【0011】
【発明の実施の形態】以下、本発明の音声認識装置の好
適な実施の形態について、図1から図5を参照して詳細
に説明する。尚、本実施形態は、本発明の音声認識装置
をカーナビゲーション装置に適用したものである。
【0012】(1)実施形態の概要 本実施形態の音声認識装置(カーナビゲーション装置)
においては、目的地を、電話番号の入力により設定でき
るようになっている。この電話番号の入力は、マイクか
らの音声入力と、表示装置のディスプレイを利用したタ
ッチパネルを押すことによる入力が可能となっている。
電話番号入力時には、ディスプレイ(タッチパネル)2
1aに番号入力画面が表示される。この番号入力画面に
は、テンキー21fが表示されており、各テンキー21
fに、他の数字と類似しない称呼が教示手段として付さ
れている。従って、ユーザがこの表示を参照することに
より、他の数字と類似しない称呼により効率的に音声入
力を行って、高い音声認識率を得ることができる。ま
た、無意識のうちに他の数字と類似しない称呼による音
声入力が促され、高い音声認識率を得ることができる。
尚、教示手段は、マイク等の音声入力手段から称呼やア
クセント、音声の大きさ、読みの早さ等の異なる複数種
類の音声の入力に対して同一の単語が特定される場合
に、認識対象となっている他の単語と類似しない称呼
等、前記複数種類のうち音声認識率の高い種類の音声を
教示する機能を有するものである。この教示手段として
は、表示パネルへの称呼やアクセントの表示や、当該称
呼やアクセント、大きさ、早さ等の音声によるアンサー
バック、大きさや早さの比較表示、「この次はもう少し
ゆっくりお願いします」等の音声によるアドバイス等が
挙げられる。
【0013】(2)実施形態の詳細 図1は、本発明の音声認識装置の一実施形態の構成を示
すブロック図である。この図1に示すように、本実施形
態の音声認識装置(カーナビゲーション装置)は、演算
部30を備えており、この演算部30に、表示装置21
と、スイッチ入力類管理部22と、現在位置測定部23
と、地図情報記憶部25と、音声認識部(入力音声判別
手段)26と、音声出力部27とが接続されている。
【0014】表示装置21は、ディスプレイ(表示面)
21aとその周囲に配置された操作用スイッチ21bと
を備えている。ディスプレイ21aは、経路案内用の道
路地図の他、各種画像や文字情報を表示するようになっ
ており、液晶表示装置、CRT、プラズマディスプレイ
等の各種表示装置が使用される。またこのディスプレイ
21aはタッチパネルとしても機能するようになってお
り、ディスプレイの画面に表示されたキーやメニューを
指等で触れることにより、触れた位置に表示されている
キーの項目等が入力されるようになっている。タッチパ
ネルとして機能する場合にディスプレイ21aに表示さ
れる画面は、階層構造となっており、最上位層がメニュ
ー画面となっている。ナビゲーション用のメニュー画面
には、例えば、経路探索のための目的地設定か、画面や
音声の設定のためのシステム設定のいずれかのモードを
選択する設定モード選択キーが表示され、目的地設定が
選択されると、更にその下位層の画面として、目的地の
設定の方法を電話番号による設定、50音による設定、
レストランや公園等のジャンル別による設定から選択す
る選択キーが表示されるようになっており、各キーから
触れて選択することによって最下層の画面まで順次表示
されるようになっている。
【0015】図2は、表示装置21のディスプレイ21
aの番号入力画面を示す図である。この図2に示される
様に、本実施形態の表示装置21のディスプレイ21a
には、番号入力画面において、テンキーの描画が表示さ
れる。そして描画されたテンキー21fそれぞれに、各
テンキーの数字と、その数字の称呼とが表示される。表
示される称呼は、他の数字の称呼と最も類似しない称呼
となっている。例えば、「7」は“なな”及び“しち”
の2通りの称呼があり、どちらの称呼による音声を認識
した場合も対応する出力は同じである。しかし、“し
ち”は、番号入力画面において表示される他の数字の称
呼である“し”や“はち”と類似しており、“しち”と
音声入力して「7」として特定され対応する出力が行わ
れる割合よりも、“なな”と音声入力して「7」として
特定され対応する出力が行われる割合が高いため、
「7」の称呼としては“なな”が表示される。ここで称
呼の類似とは、音声認識装置がある称呼の音声を誤認識
する確率が高いことをいい、2つの音声を混同して認識
する確率が高いほど称呼は類似している。この称呼の類
似は、分離度としても捉えることができる。この分離度
は、本実施形態においては、それぞれの音声から取得さ
れる音声の周波数分布のパターンどうしが似ているほど
低く、異なるほど高くなる。そして、入力音声が他の音
声と分離度が高いほど音声認識率(入力音声が正しく特
定される割合)が高くなる。
【0016】更に、本実施形態においては、表示される
称呼は、ホワイトノイズも考慮されて決定されている。
即ち、表示される称呼は、ホワイトノイズとも類似しな
い称呼となっており、例えば、「4」には“し”及び
“よん”との称呼がある。“し”は“しち”とも類似し
ているので、「7」の称呼として“なな”を表示し、
「4」の称呼として“よん”を表示している。そして
「4」を“よん”と表示することは、ホワイトノイズと
も類似しない称呼を表示していることにもなる。
【0017】また、他の数字の称呼及びホワイトノイズ
と類似しない称呼(例えば辞書に格納される他の数字の
各パターンとの類似度が全て所定のしきい値以下であ
る)が複数ある場合には、パターンの特徴が明瞭で個人
差が出にくく、入力音声と辞書の対応する音声とが一致
しやすく(本実施形態においては入力音声により取得さ
れる周波数分布のパターンと辞書に格納される対応する
周波数分布のパターンとが一致しやすく)、音声認識率
の高い称呼が表示されている。例えば、「0」は“ぜ
ろ”、“れい”、“れー”、及び“まる”の称呼がある
が、“ぜろ”が最もパターンの特徴が明瞭であるため、
「0」の称呼として“ぜろ”が表示される。
【0018】スイッチ21bには、ナビゲーションのメ
ニュー画面を指定するためのスイッチ、エアコンの調整
用のスイッチ、オーディオの操作を行うためのスイッチ
等の各種スイッチが配設されており、ナビゲーションの
メニュー画面を指定するスイッチを押すと、対応するメ
ニュー画面がディスプレイ21aに表示されるようにな
っている。
【0019】スイッチ入力類管理部22は、表示装置2
1のディスプレイ21a(タッチパネル)やスイッチ2
1bからの入力を管理する。現在位置測定部23は、緯
度と経度による座標データを検出することで、車両が現
在走行または停止している現在位置を検出する。この現
在位置測定部23は、人工衛星を利用して車両の位置を
測定するGPS(Global Position System)レシーバと、
路上に配置されたビーコンからの位置情報を受信するビ
ーコン受信装置と、方位センサと、距離センサを備えて
おり、これらからの情報を用いて車両の現在位置を測定
するようになっている。
【0020】地図情報記憶部25は、フロッピーディス
ク、ハードディスク、CD−ROM、光ディスク、磁気
テープ、ICカード、光カード等の各種記録媒体と、そ
の駆動装置が使用される。この地図情報記憶部25の記
憶媒体には、経路案内等で使用される各種データファイ
ルとして、描画地図データファイル、道路データファイ
ル、その他のデータファイルが格納されるようになって
いる。なお、地図情報記憶部25は、複数種類の異なる
記録媒体とその駆動装置とで構成するようにしてもよ
い。例えば、描画地図データファイル及び道路データフ
ァイルをCD−ROMで、その他のファイルをハードデ
ィスクで構成し、駆動装置としてそれらの駆動装置を用
いるようにする。
【0021】この地図情報記憶部25の描画地図データ
ファイルには、表示装置21に描画される地図データが
格納されている。この地図データは、階層化された地
図、例えば最上位層から日本、関東地方、東京、神田と
いった階層ごとの地図データが格納されており、現在位
置測定部23で検出される車両の現在位置を含む各階層
の地図データが選択されるようになっている。各階層の
地図データは、それぞれ地図コードが付されている。道
路データファイルには、道路番号や、各道路の太さ、各
道路の始点となる交差点の交差点番号、各道路の終点と
なる交差点の交差点番号、各交差点の座標、各交差点で
の信号の有無、各交差点での進入禁止の情報、電話番号
や地名とその位置(緯度、経度)との対応データ等の各
種データが格納されており、これらの各種データに基づ
いて目的地までの走行経路が探索されるようになってい
る。
【0022】図3は、音声認識部26の構成を表したも
のである。この図3に示すように、音声認識部26は、
音声入力手段としてのマイク24から入力された音声を
判定する音声判定部261、および音声認識辞書262
を備えている。
【0023】音声判定部261は、マイク24から入力
されるアナログの音声信号をディジタル信号に変換する
A/D変換器2611、及び、ディジタル信号に変換さ
れた音声信号から入力音声のパターンを作成するパター
ン作成部2612を備えている。パターン作成部261
2は、音声の周波数分布を分析することで、例えば、ス
ペクトルや基本周波数の時系列情報を特徴として抽出
し、そのパターンを入力音声の単語パターンとする。ま
た、時系列情報を統計的特徴(平均、標準偏差、相関行
列など)に変換した情報を特徴としてもよい。さらに、
パワースペクトル、LPC係数、ケプストラムを特徴と
してもよい。音声判定部261は、さらに、このパター
ン作成部2612で作成されたパターンと音声認識辞書
262に格納された各単語または雑音のパターンとのパ
ターンマッチングを行って類似度を算出するパターンマ
ッチング部2613と、算出された類似度から入力音声
の単語を特定し、特定結果に従って、演算部30に対す
る音声入力信号を生成して、演算部30の入力管理部3
5へ出力する単語判定部2614とを備えている。この
単語判定部2614は、入力音声のパターンがパターン
マッチング部2613において後述する雑音辞書262
2に格納されるパターンと最も類似するとされた場合に
は入力音声は雑音であると特定する雑音判定手段として
機能し、雑音と判定された音声については、音声入力信
号を演算部30に出力しないよういなっている。
【0024】音声判定部261は、図示しないCPU
(中央処理装置)、DSP(ディジタル・シグナル・プ
ロセッサ)、ROM(リード・オンリ・メモリ)、RA
M(ランダム・アクセス・メモリ)等を備え、CPUが
RAMをワーキングエリアとしてROMに格納されたプ
ログラムを実行することによって、上記の各構成を実現
するようになっている。図示しないRAMには、パター
ンマッチング部2613で算出した類似度を格納する類
似度エリア等の各種エリアが確保されている。
【0025】音声認識辞書262には、認識対象となる
各単語についてのパターンが格納された単語辞書262
1と、雑音辞書2622とを備えている。単語辞書26
21において認識対象となる単語は、複数種類の称呼が
ある場合には、それぞれの称呼についてパターンが格納
されている。例えば、上述の「7」に対して“なな”及
び“しち”の2通りの称呼それぞれについてパターンが
格納されており、“なな”との音声が入力されても“し
ち”との音声が入力されても「7」として特定・認識さ
れ、演算部30に出力され得るようになっている。
【0026】雑音辞書2622には、ホワイトノイズや
ドアを閉めた場合の音(「バン」に相当する音)、雨音
等の雑音のパターンが格納されている。そのため、ホワ
イトノイズやドア締め音等が入力されると、これらはこ
の雑音辞書2622のパターンと最も類似度が高く、単
語判定部2614において雑音として判断されるように
なっている。
【0027】音声出力部27は、音声を電気信号として
出力する音声出力用ICと、この音声出力用ICの出力
をディジタル−アナログ変換するD/Aコンバータと、
このD/Aコンバータからのアナログの出力を増幅する
アンプとを備えている。このアンプの出力端子にはスピ
ーカ29が接続されている。
【0028】演算部30は、地図情報記憶部25に接続
された地図データ読込部31と、地図描画部32と、地
図データ読込部31および地図描画部32を管理する地
図管理部33と、地図描画部32および表示装置21に
接続された画面管理部34と、スイッチ入力類管理部2
2および音声認識部26に接続された入力管理部35
と、音声出力部27に接続された音声出力管理部36
と、地図管理部33、画面管理部34、入力管理部35
および音声出力管理部36を管理する全体管理部37と
を備えている。この演算部30は、CPU(中央処理装
置)、ROM(リード・オンリ・メモリ)、RAM(ラ
ンダム・アクセス・メモリ)等を備えている。そして、
CPUがRAMをワーキングエリアとしてROMに格納
されたプログラムを実行することによって、上記の各構
成を実現するようになっており、演算部30は、画面管
理部34を介して、番号入力時に表示装置21のディス
プレイ21aに特定の対象となる単語である数字を表示
させる認識対象語表示手段として機能し、且つ、この各
数字について、同時に表示される他の数字の称呼と類似
しない称呼を表示させる称呼表示手段として機能するよ
うになっている。そしてこの演算部30は、マイク24
からの音声入力やタッチパネル(ディスプレイ21a)
からの入力に基づいて出発地(現在位置)から目的地ま
での走行経路を探索する経路探索処理(経路探索手段)
や、探索した走行経路をディスプレイ21aの画像やス
ピーカ29からの音声によりユーザに案内する経路案内
処理、装置全体の制御・演算処理等を行う。
【0029】次に、このように構成された実施形態にお
ける音声入力動作の一例として、経路検索の目的地を音
声入力により設定する場合の動作について説明する。図
4は、本実施形態の音声認識装置(カーナビゲーション
装置)の使用状態を示す図である。
【0030】経路検索の目的地設定に際して、ユーザに
よりスイッチ21bからナビゲーションのメニュー画面
が指定されると、図4(a)に示されるように、表示装
置21のディスプレイ21aにメニュー設定画面が表示
される。このメニュー設定画面は、タッチパネルとして
も機能できるようになっている。
【0031】そして、このメニュー設定画面から、ユー
ザにより「目的地設定」が選択される。この選択は、デ
ィスプレイ21aの「目的地設定」の表示が押される
か、マイク24から「目的地設定(もくてきちせって
い)」との音声入力により行われる。ディスプレイ21
aからの入力は、スイッチ入力類管理部22を介して演
算部30の入力管理部35に出力される。また、マイク
24からの入力は、音声認識部26において、音声認識
処理により入力音声が認識され、認識された音声に対応
する出力信号が入力管理部35に出力される。
【0032】図5は音声認識部26における音声認識処
理を示すフローチャートである。この図5に示すよう
に、音声判定部261は、マイク24から音声が入力さ
れたか否かを監視しており(ステップ11)、音声入力
があると(ステップ11;Y)、入力されたアナログの
音声信号をA/D変換器2611でディジタル信号に変
換した後、パターン作成部2612で入力音声の周波数
分布に基づくパターンを作成する(ステップ12)。そ
して、パターンマッチング部2613は、この入力音声
のパターンを、単語辞書2621に格納されるパターン
(単語パターン)及び雑音辞書2622に格納されるパ
ターン(雑音パターン)それぞれと、順次パターンマッ
チングにより対比し、単語パターン及び雑音パターンそ
れぞれ毎に類似度を算出する(ステップ13)。
【0033】次に、パターンマッチング部2613は、
両辞書の各パターンに対する類似度から、入力音声のパ
ターンと類似度の最も大きいパターンを検出する(ステ
ップ14)。単語判定部3614は、入力音声のパター
ンと最も類似度の大きいパターンが単語パターンか、雑
音パターンかを判定し(ステップ15)、単語パターン
である場合(ステップ15;Y)には、入力音声はこの
単語パターンの単語であると特定し、この単語に対応す
る出力信号を演算部30へ出力し(ステップ16)、音
声認識処理を終了してメインルーチンにリターンする。
雑音辞書2622に格納されている単語である場合(ス
テップ15;N)には、入力音声は雑音と判定し、何も
出力せず、そのまま音声認識処理を終了してメインルー
チンにリターンする。
【0034】タッチパネル(ディスプレイ21a)また
はマイク24からの入力により「目的地設定」が選択さ
れると、続いて、ディスプレイ21aには、図4(b)
に示されるように、設定方法選択画面が表示される。こ
の設定方法選択画面においては、目的地の設定の方法と
して、電話番号入力による設定、50音による名称入力
設定、レストランや公園等のジャンル別表示からの選択
による設定、住所の入力による設定、の4つの設定方法
から選択する選択キーが表示される。
【0035】そして、ユーザがディスプレイ21aまた
はマイクからの音声の入力により「電話番号」を選択す
ると、前述の「目的地設定」と同様の処理が行われ、続
いて、ディスプレイ21aには、図2に示す、テンキー
画面が表示される。このテンキー画面では、各テンキー
の数字とその称呼とが、各テンキー21fに表示されて
いる。表示される称呼は、他の数字の称呼と類似せずま
たパターンの特徴が明瞭で、音声認識率の高い称呼とな
っている。更にこのテンキー画面には、入力された数字
を表示する番号表示部21cと、番号入力終了を入力す
るための入力終了キー21d、及び直前に入力された数
字を取り消す訂正キー21eが表示されている。そし
て、ユーザにより、ディスプレイ21aに表示されるテ
ンキー21fが押されるか、またはマイク24からの音
声により、目的地の電話番号が入力される。ユーザによ
るディスプレイ21aからの電話番号の入力は、各数字
毎に、スイッチ入力類管理部22を介して演算部30の
入力管理部35に出力される。また、マイク24からの
入力は、音声認識部26において、前述した図5の音声
認識処理により入力音声が認識され、認識された音声に
対応する出力信号が演算部30に出力される。
【0036】マイク24からの音声入力のとき、電話番
号「072…」は、“ぜろ、なな、にー、…”、“れ
い、なな、にー、…”、“ぜろ、しち、に、…”等の称
呼があるが、単語辞書2621には、“ぜろ”、“れ
い”、“まる”、“なな”、“しち”、“にー”、
“に”等いずれの称呼についてもその単語パターンが格
納されており、該当する番号として認識され得る。しか
し、“れい”よりも“ぜろ”の方が音声認識率が高く、
“しち”よりも“なな”の方が音声認識率が高く、正し
く認識され対応する出力信号が出力される可能性が高
い。そして、ユーザが、意識的にまた無意識にテンキー
21fの表示に従った称呼をすることにより、入力音声
について、高い音声認識率が得られる。
【0037】目的地設定動作中等において、ドア締め音
等は、ステップ13のパターンマッチングにより雑音辞
書2622に格納されているパターンと一致し、音声認
識部26において雑音として認識され、演算部30へは
信号が出力されない。
【0038】そして、演算部30では、入力管理部35
に入力された信号に基づいて、認識された番号を画面管
理部34によりディスプレイ21aの番号表示部21c
に表示させ、次の入力に対して待機する。ドア締め音等
については単語判定部2614から入力管理部35への
出力が無いため、何も表示されず、次の入力に対して待
機する。ディスプレイ21aまたは音声により番号入力
の終了が入力された場合には、電話番号に基づいて目的
地が設定される。
【0039】上述のように目的地が設定された後は、演
算部30は、設定された目的地までの走行経路を探索
し、この走行経路に従って経路誘導を行う。この経路誘
導の際には、現在位置測定部23の測定結果を基にし
て、地図管理部25が必要な地図データを地図データ読
込部31より入力し、地図描画部32を用いて地図を描
画し、画面管理部34によってディスプレイ21a上に
地図を表示する。また、この画面上に、走行経路や車両
の現在位置、進行方向を示す矢印等も表示する。更に、
スピーカ29から「次の交差点を右折してください」と
いった音声を出力することで、音声による経路案内を行
う。
【0040】このように、本実施形態によれば、表示装
置21のディスプレイ21aに表示される番号入力画面
において、表示されるテンキー21fそれぞれに、他の
数字の称呼と類似せず特徴パターンの明瞭な称呼が各テ
ンキーの数字とともに表示されているので、ユーザがこ
の表示を参照することにより、音声認識率の高い称呼に
より効率的に音声入力を行って、高い音声認識率を得る
ことができる。また、無意識のうちに音声認識率の高い
称呼による音声入力が促され、高い認識率を得ることが
できる。本実施形態によれば、単語辞書2621には、
音声認識率の高い称呼とその他の称呼とのいずれもにつ
いてパターンが格納されているので、テンキーに表示さ
れる称呼と異なる称呼による音声入力も可能である。
【0041】本実施形態によれば、音声認識辞書262
1として、ドア締め音等の雑音のパターンを格納する雑
音辞書2622を備えているので、雑音が他の単語と特
定され難く、雑音辞書2622のパターンと同一と特定
されて出力が行われないので、雑音により誤った出力を
良好に回避できる。そして、雑音を雑音として積極的に
認識することにより雑音に基づく出力が確実に回避され
るので、音声認識の感度を高めて設定することが可能と
なる。
【0042】尚、本発明は上述した実施形態に限定され
るものではなく、本発明の趣旨を逸脱しない限りにおい
て適宜変更が可能である。例えば、上述の実施形態にお
いては、表示装置21に称呼を表示しているが、これに
加えて、例えば“しち”との音声入力に対して「“な
な”ですか」というように、特定された単語について、
特定の対象となっている他の単語の称呼と類似しない称
呼即ち表示装置21に表示される称呼で音声出力部27
からアンサーバック(音声認識結果についての問い返し
による確認)出力する、アンサーバック手段を備えても
よい。
【0043】このアンサーバック手段により出力される
音声は、特定の対象となっている他の単語の称呼と類似
しない称呼の音声であることに加えて、特定の対象とな
っている他の単語の読み方に類似しない読み方の音声と
することができる。この読み方としては、アクセントの
位置等が挙げられる。更に、音の大きさや読みの早さ当
等、他の単語とは関係なく、音声認識率の高い(単語辞
書のパターンと一致しやすい)読み方の音声とすること
もできる。アンサーバック出力の音声をこのような読み
方の音声とすることにより、以降の音声入力においてこ
の読み方に従った音声での入力が促され、より効率的
に、一層高い音声認識率を得ることができる。尚、表示
手段には称呼や読み方を表示せず、上述のアンサーバッ
ク手段を備えることのみによっても、以降の音声入力に
おいて、ユーザがこの出力音声を参照することにより意
識的に、または無意識に、アンサーバック出力の音声に
従った音声での音声入力が促されるため、ある程度良好
な音声認識率を得ることは可能である。
【0044】本実施形態においては表示装置21に表示
される称呼は、ホワイトノイズとの類似を考慮して決定
されているが、ホワイトノイズとの類似は考慮しないで
称呼を決定して表示してもよい。この場合、ホワイトノ
イズについて差し引いてパターンを決定するか、辞書パ
ターンをホワイトノイズを加味したパターンとすると、
ホワイトノイズの影響を極力回避して音声を特定・認識
できる。
【0045】また、音声認識部26に、表示装置21に
表示される称呼(特定の対象となっている他の単語の称
呼と類似せず、パターンの特徴が最も明瞭な称呼)以外
の称呼の入力音声は上述の雑音と同様に出力を行わない
ようにする受付拒否手段を備えてもよい。この受付拒否
手段は、表示装置21に表示される称呼以外の称呼を単
語辞書2621に含めず、雑音辞書2622に含めてお
くことによって実現してもよいし、単語辞書2621に
含め且つ他の単語との識別の符号を付しておきこの符号
の付されたパターンについては単語判定部2614にお
いて出力をしないようにしておくことによって実現して
もよい。
【0046】上述の実施形態においては表示装置21に
は、特定対象となっている単語の称呼のうち他の単語の
称呼と類似しない称呼を表示しているが、称呼に限られ
るものではなく、例えば、アクセント等の、特定の対象
となっている単語の読み方について、他の単語と類似し
ないものを表示してもよい。この場合にも、上述の称呼
と同様に、他の単語と類似しない読み方によるアンサー
バック手段を設けたり、他の単語と類似しない読み方以
外の読み方においては出力が行われない受付拒否手段を
設けることができる。アンサーバック手段により出力さ
れる音声は、表示された読み方に従った音声であること
に加えて、音の大きさや読みの早さ当等、他の単語とは
関係なく音声認識率の高い(単語辞書のパターンと一致
しやすい)読み方の音声でもあるものとすることもでき
る。アンサーバック出力の音声をこのような読み方の音
声とすることにより、以降の音声入力においてこの読み
方に従った音声での入力が促され、より効率的に、一層
高い音声認識率を得ることができる。
【0047】本実施形態においては番号入力画面におい
ては常にテンキー21fに、特定の対象となっている他
の単語の称呼と類似せず、パターンの特徴が最も明瞭な
称呼が表示されるようになっているが、ユーザの選択に
よりまたはユーザの使用履歴等により自動的に、称呼が
表示される設定と称呼が表示されない設定のそれぞれが
選択され設定されるようにしてもよい。本実施形態にお
いては番号入力画面において全てのテンキー21fに称
呼が表示されているが、複数の称呼の可能性のある数字
についてのみ称呼を付してもよい。また、タッチパネル
として機能しない画面において称呼を教示してもよい。
ユーザによって同じ称呼や読み方でも音声認識率が異な
る可能性があるので、各ユーザ毎に、音声認識率等を学
習し、該ユーザによる音声において最も音声認識率の高
い称呼や読み方がユーザ別に表示されるようにしてもよ
い。
【0048】本実施形態においては数字の称呼を表示し
ているが、これに限られるものではなく、地名、施設名
等について、特定の対象となっている他の単語の称呼や
読み方と類似せず、パターンの特徴が最も明瞭な称呼や
読み方を表示するようにしてもよい。例えば、水族館に
ついて“すいぞくかん”よりも実際上の称呼の音声であ
り音声認識率の高い“すいぞっかん”との表示をしても
よい。アンサーバック等により音声認識の結果を出力し
てこの出力に対する反応から音声認識率を取得していき
(アンサーバックに対するユーザの反応に基づいた音声
認識率の学習)、この音声認識率に基づいて音声認識率
の高い称呼を、特定の対象となっている他の単語の称呼
や読み方と類似せず、パターンの特徴が最も明瞭な称呼
や読み方として表示するようにしてもよい。この場合、
ユーザによって音声認識率の高い称呼が異なる場合につ
いて各ユーザに対応して高い音声認識率を取得すること
が可能となる。アンサーバック等の出力に対するユーザ
の反応は、マイクやタッチパネルからの入力等ユーザか
ら直接取得する他、心拍数センサや発汗センサ、脳波セ
ンサ、車内カメラ等のユーザの状態を取得する各種状態
センサとこの状態センサからの出力に基づきユーザの反
応を判定する反応判定手段とを備え、これらにより間接
的に取得することができる。
【0049】単語辞書2621は、音声認識率の高い称
呼のパターンのみを格納した辞書とし、音声認識率の高
い称呼以外による音声入力については認識不可能として
もよい。また、単語辞書として、音声認識率の高い称呼
のパターンのみを格納した高認識辞書と、音声認識率の
高くない称呼のパターンも含めて格納した総合辞書の2
通りの辞書を備えるようにしてもよい。この場合、ユー
ザの選択により、または使用歴等に応じて自動的に、辞
書が選択されるようにする。また、上述の実施形態で説
明した、画面に図2の番号入力画面が表示される場合等
のように、特定のグループに纏められた単語(音声)群
のみが音声認識の対象となる場合には、単語辞書262
1の内容をそれらの単語群のパターン毎に纏め、対象と
なっている単語群のパターンのみをマッチングするよう
にしてもよい。このように、特定のグループの中から順
次音声を認識させることで、1度の音声認識の対象とな
る単語の範囲が狭くなり、より確実且つ迅速な音声認識
が可能になる。本実施形態においては音声認識部26
は、入力音声から直接単語毎のパターンを取得しパター
ンマッチングを行って単語を判定しているが、入力音声
から音素や単音節を認識して、音素又は音節の組み合わ
せから単語を判定してもよい。
【0050】入力された音声から作成したパターンを雑
音辞書2622に追加格納する雑音パターン追加手段を
備え、車両や走行環境によって異なるドア閉め音等の雑
音の雑音パターンを必要に応じて追加したり格納しなお
すようにし、雑音の音声認識率を向上させてもよい。番
号入力中にドア締め音等が雑音として認識された場合に
は雑音としての信号が出力され、この信号に基づいて
「認識できませんでした。」等の受付拒否語であること
を知らせる表示や音声を出力するようにしてもよい。
【0051】本実施形態の音声判定部261や雑音辞書
2622を利用し、更に、パターンマッチング部261
3において入力音声が雑音パターンと最も類似するとさ
れた場合に雑音に応じて信号を出力する雑音信号出力手
段と、この雑音信号出力手段の信号に基づいて状況を判
断し車両内の装置等を作動・停止させる判断・操作手段
とを備えてもよい。この判断・操作手段による車両内の
装置当の作動・停止の例としては、ドア閉め音が認識さ
れたら自動的にドアロックをしたり、雨音を認識したら
ワイパを起動する等が挙げられる。
【0052】本発明のような音声認識機能を備えた音声
認識装置は、迅速かつ手を使わずに入力できる点で、ナ
ビゲーション装置に用いると特に有用であるが、本発明
の音声認識装置は特にナビゲーション装置に限定される
ものではない。
【0053】
【発明の効果】以上説明したように、請求項1に記載の
発明に係る音声認識装置によれば、称呼表示手段によ
り、特定の対象となる単語が複数の称呼を有する場合
に、特定の対象となる他の単語の称呼と類似しない称呼
が表示され、この表示に従った音声入力が促されるの
で、他の単語に誤認識され難くなり、入力された音声が
正しく特定・認識されやすくなる。請求項2に記載の発
明に係る音声認識装置によれば、読み方表示手段によ
り、特定の対象となる単語について、他の単語の読み方
と類似しない読み方が表示され、この表示に従った音声
入力が促されるので、他の単語に誤認識され難くなり、
入力された音声が正しく特定・認識されやすくなる。
【0054】請求項3に記載の発明に係る音声認識装置
によれば、読み方表示手段により、特定の対象となる単
語について、他の単語の読み方と類似しないアクセント
の位置が表示されるので、この表示に従ったアクセント
による音声入力が促され、入力された音声が正しく特定
・認識されやすい。請求項4に記載の発明に係る音声認
識装置によれば、アンサーバック手段により、入力され
た音声について特定された単語について、前記表示装置
の表示面に表示される称呼または読み方に従った音声が
出力されるので、以降の音声入力において、表示される
称呼または読み方による音声入力が促され、入力音声の
一層適正な特定・認識が可能となる。
【0055】請求項5に記載の発明に係る音声認識装置
によれば、雑音判定手段により雑音が他の入力音声が識
別され、単語が特定されないので、雑音による誤認識を
良好に回避できる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の一実施形態の構成を示
すブロック図である。
【図2】同上、実施形態の表示装置のディスプレイの番
号入力画面を示す図である。
【図3】同上、実施形態の音声認識部の構成を表したも
のである。
【図4】同上、実施形態のの使用状態を示す図である。
【図5】同上、実施形態による音声認識動作を示すフロ
ーチャートである。
【図6】従来技術の音声認識装置において用いられる音
声認識の手法を概念的に表す説明図である。
【図7】図6の音声認識の手法において、単語が特定で
きない場合を概念的に表わす説明図である。
【符号の説明】
21 表示装置 21a ディスプレイ 24 マイク 26 音声認識部 261 音声判定部 2611 A/D変換部 2612 パターン作成部 2613 パターンマッチング部 2614 単語判定部 262 音声認識辞書 2621 単語辞書 2622 雑音辞書 30 演算部 35 入力管理部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松田 学 東京都千代田区外神田2丁目19番12号 株 式会社エクォス・リサーチ内 (72)発明者 足立 和英 東京都千代田区外神田2丁目19番12号 株 式会社エクォス・リサーチ内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力する音声入力手段と、該入力
    された音声に対応する単語を特定する入力音声判別手段
    と、を有する音声認識装置において、 表示装置と、 前記表示装置の表示面に前記入力音声判別手段による特
    定の対象となる単語を表示する認識対象語表示手段と、 前記認識対象語表示手段により表示される単語が複数の
    称呼を有する場合、該単語の称呼のうち、前記認識対象
    語表示手段により同時に表示される他の単語の称呼と類
    似しない称呼を、前記表示装置の表示面に表示する称呼
    表示手段と、を備えることを特徴とする音声認識装置。
  2. 【請求項2】 音声を入力する音声入力手段と、該入力
    された音声に対応する単語を特定する入力音声判別手段
    と、を有する音声認識装置において、 表示装置と、 前記表示装置の表示面に前記入力音声判別手段による特
    定の対象となる単語を表示する認識対象語表示手段と、 前記認識対象語表示手段により表示される単語につい
    て、前記入力音声判別手段による特定の対象となる他の
    単語の読み方と類似しない読み方を前記表示装置の表示
    面に表示する読み方表示手段と、を備えることを特徴と
    する音声認識装置。
  3. 【請求項3】 前記読み方表示手段は、前記認識対象語
    表示手段により前記表示装置に表示される単語の読み方
    として、それらの単語のアクセントの位置を表示するも
    のであることを特徴とする請求項2に記載の音声認識装
    置。
  4. 【請求項4】 音声出力手段と、 前記音声入力手段から入力された音声について前記入力
    音声判別手段により特定された単語について、前記表示
    装置の表示面に表示される称呼または読み方に従った音
    声で前記音声出力手段から出力するアンサーバック手段
    と、を備えることを特徴とする請求項1から請求項3の
    うちのいずれか1の請求項に記載の音声認識装置。
  5. 【請求項5】 音声を入力する音声入力手段と、該入力
    された音声に対応する単語を特定する入力音声判別手段
    と、を有する音声認識装置において、 前記音声入力手段から入力された音声が雑音であるか否
    かを判断する雑音判定手段を備え、 前記入力音声判別手段は、前記雑音判定手段により雑音
    と判定された音声については単語を特定しないことを特
    徴とする音声認識装置。
JP10164323A 1998-05-28 1998-05-28 音声認識装置 Pending JPH11338495A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10164323A JPH11338495A (ja) 1998-05-28 1998-05-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10164323A JPH11338495A (ja) 1998-05-28 1998-05-28 音声認識装置

Publications (1)

Publication Number Publication Date
JPH11338495A true JPH11338495A (ja) 1999-12-10

Family

ID=15790986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10164323A Pending JPH11338495A (ja) 1998-05-28 1998-05-28 音声認識装置

Country Status (1)

Country Link
JP (1) JPH11338495A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242183A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242183A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム

Similar Documents

Publication Publication Date Title
US7826945B2 (en) Automobile speech-recognition interface
JP4292646B2 (ja) ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
US9188456B2 (en) System and method of fixing mistakes by going back in an electronic device
US10515634B2 (en) Method and apparatus for searching for geographic information using interactive voice recognition
JP2006195576A (ja) 車載音声認識装置
US20200286479A1 (en) Agent device, method for controlling agent device, and storage medium
JP2003032388A (ja) 通信端末装置及び処理システム
WO2006137246A1 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
US20040015354A1 (en) Voice recognition system allowing different number-reading manners
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
JPH0926799A (ja) 音声認識装置
JP3818352B2 (ja) ナビゲーション装置及び記憶媒体
JPH11338495A (ja) 音声認識装置
KR100677711B1 (ko) 음성 인식 장치, 기억 매체 및 네비게이션 장치
JPH1063288A (ja) 音声認識装置
JP4682199B2 (ja) 音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体
JP3340163B2 (ja) 音声認識装置
JPH1049194A (ja) 音声認識装置
JP3759313B2 (ja) 車載用ナビゲーション装置
JPH0844387A (ja) 音声認識装置
JPH11231892A (ja) 音声認識装置
JPH1049195A (ja) 音声認識装置
JP5522679B2 (ja) 検索装置
CN114964300B (zh) 一种语音识别方法及导航装置
JPH09274497A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081118