JPH0926799A

JPH0926799A - 音声認識装置

Info

Publication number: JPH0926799A
Application number: JP7200362A
Authority: JP
Inventors: Shoji Yokoyama; 昭二横山; Hiroyuki Yamakawa; 博幸山川; Yumi Murakami; ユミ村上
Original assignee: Equos Research Co Ltd
Current assignee: Equos Research Co Ltd
Priority date: 1995-07-12
Filing date: 1995-07-12
Publication date: 1997-01-28

Abstract

(57)【要約】【目的】辞書の記憶容量を効率的に使用でき、操作性
の良い音声認識装置を提供する。【構成】ある操作がタッチパネル等で初めて指定され
ると、指定操作を示す単語の標準パターンを、辞書部１
６７に格納されている各音素の特徴を表す音素パターン
に基づいて作成し、辞書バッファ１６３の特定辞書１６
３ｂに格納する。そして、特徴抽出部１６２でマイク２
４からの入力音声の特徴を抽出して単語パターンが作成
され、ＲＡＭ１６４、辞書バッファ１６３に格納されて
いる標準パターンとパターンマッチング部１６５で比較
し、音声認識する。また、特徴抽出部１６２で作成した
単語パターンを特定話者用標準パターンとしてＲＡＭ１
６４および特定辞書１６３ｂに格納する。ユーザが必要
な単語のみ標準パターン登録するので効率的な辞書が作
成でき、音声認識対象も容易に理解できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識装置に係り、詳
細には、特定の語句について発声された音声を認識する
音声認識装置に関する。

【０００２】

【従来の技術】人間の話した音声を言葉として認識する
音声認識装置が各種方面で実用化されている。この音声
認識装置は、例えば、工場における各種装置に対応する
指示をはなれた場所から音声で指示する入力装置として
実用化されており、また、自動車のナビゲーション装置
において、目的地や指示情報等を音声入力する場合の音
声入力装置として用いることが考えられている。このよ
うな音声認識装置では、一般に入力された音声を特定す
るために、予め認識対象となる音声の周波数分布を分析
することで、例えば、スペクトルや基本周波数の時系列
情報等を特徴として抽出し、そのパターンを各単語に対
応させて格納する音声認識用辞書を備えている。この音
声認識辞書に格納される辞書としては、一般に不特定多
数の話者を対象とした音声の周波数分布に対して平均化
処理を行ったものをパターン（以下を標準パターンとす
る）化し、そのパターンを単語と共に登録する不特定話
者辞書及び、特定の話者を対象に入力音声のパターンを
単語と共に登録する特定話者辞書がある。

【０００３】そして、認識するべき音声が入力される
と、入力された音声の周波数パターンと両辞書に格納さ
れた各単語のパターンをパターンマッチングにより比較
照合し、各単語に対する類似度を算出する。つぎに算出
された類似度が最も高い単語（パターンが最も近い単
語）を、入力された音声であると認識し、その単語を出
力するようにしている。つまり、入力された単語の周波
数分布のパターンがどの単語パターンに最もよく似てい
るかを調べることによって、入力音声を判定している。

【０００４】

【発明が解決しようとする課題】しかし、現在の音声認
識装置では、不特定辞書及び特定辞書における標準パタ
ーンの記憶容量に限界があり、語彙数が増すと、多くの
標準パターンを両辞書に蓄積できなかった。このよう
に、標準パターンの記憶容量に限界があるので、予め選
択された単語についての標準パターンのみが、不特定辞
書に登録されている。しかし、選択された登録単語はユ
ーザにとって必ずしも必要なものであるとは限らず、不
要な単語である場合には使用された記憶容量が無駄にな
っていた。また、辞書に予めどういう単語が登録されて
いるか、ユーザにとっては、使用マニュアル等で登録さ
れた単語を確認しない限りわからなかった。このため、
従来の音声認識装置では、ユーザの操作性の面で問題が
あった。

【０００５】そこで、本発明は以上の課題を解決するた
めになされたのもで、辞書の記憶容量を効率的に使用で
き、操作性の良い音声認識装置を提供することを目的と
する。

【０００６】

【課題を解決するための手段】請求項１記載の発明で
は、所定の操作を選択する選択手段と、この選択手段で
選択可能な操作を表す単語を構成する各音素についての
特徴を表す音素パターンが予め格納された音素辞書と、
標準パターンが格納される辞書記憶手段と、前記選択手
段で選択された操作を表す単語の標準パターンを、前記
音素辞書に格納された音素パターンから作成する標準パ
ターン作成手段と、この標準パターン作成手段で作成さ
れた標準パターンを前記辞書記憶手段に格納する不特定
辞書格納手段と、音声を入力する音声入力手段と、この
音声入力手段で入力された音声の特徴を抽出して対応す
る単語パターンを作成する単語パターン作成手段と、こ
の単語パターン作成手段で作成された単語パターンと前
記辞書記憶手段に格納された標準パターンとの類似度か
ら前記音声入力手段で入力された音声を認識する認識手
段と、この認識手段による認識結果を出力する出力手段
と、を音声認識装置に具備させて前記目的を達成する。
請求項２に記載の発明では、請求項１に記載の音声認識
装置において、前記単語パターン作成手段で作成された
単語パターンを、特定話者用の標準パターンとして前記
辞書記憶手段に格納する特定辞書格納手段を、さらに具
備させる。請求項３に記載の発明では、請求項１または
請求項２に記載の音声認識装置において、前記辞書格納
手段に格納された標準パターンが所定数になった場合、
前記不特定辞書格納手段および前記特定辞書格納手段
は、前記認識手段による認識頻度が最も少ない標準パタ
ーンを削除する。請求項４に記載の発明では、請求項
１、請求項２、または請求項３に記載の音声認識装置
を、ナビゲーション装置の入力手段として用いる。

【０００７】

【作用】請求項１に記載の音声認識装置では、では、選
択手段で選択可能な操作を表す単語を構成する各音素に
ついての特徴を表す音素パターンを予め音素辞書に格納
する。そして、選択手段で選択された操作を表す単語の
標準パターンを音素パターンから作成し、辞書記憶手段
に格納する。一方、音声入力手段で入力された音声の特
徴を抽出して対応する単語パターンを作成し、辞書記憶
手段に格納された標準パターンとの類似度から入力され
た音声を認識して、認識結果を出力する。請求項２に記
載の音声認識装置では、入力された音声から作成された
単語パターンを特定話者用の標準パターンとして辞書記
憶手段に格納する。請求項３に記載の音声認識装置で
は、辞書格納手段に格納された標準パターンが所定数に
なった場合、認識頻度が最も少ない標準パターンを削除
する。請求項４に記載の音声認識装置では、ナビゲーシ
ョン装置の入力手段として用いる。

【０００８】

【実施例】以下、本発明の音声認識装置における一実施
例を図１ないし図４を参照して詳細に説明する。実施例の概要本実施例の音声認識装置では、ある操作がタッチパネル
等で初めて指定された時点で、指定された操作を示す単
語の標準パターンを、各音素の特徴を表す音素パターン
に基づいて作成し、不特定話者用の辞書に格納する。音
声が入力されると、入力音声の特徴を抽出して単語パタ
ーンを作成し、辞書に格納されている標準パターンとの
類似度から音声認識する。この音声認識の際に作成した
単語パターンを特定話者用の標準パターンとして辞書に
格納する。このように本実施例では、一度タッチパネル
等から指定された必要な単語についてのみ、標準パター
ンが作成され、次回から音声で入力することができるよ
うになる。音声認識の対象となる単語は、一度ユーザに
よって指定入力された単語なので、ユーザは認識対象を
改めて確認する必要がなくなる。

【０００９】実施例の詳細図１は本発明の一実施例に係る音声認識装置をナビゲー
ション装置に適用した場合のシステム構成を表したもの
である。このナビゲーション装置は、演算部１０を備え
ている。この演算部１０には、タッチパネルとして機能
するディスプレイ１１ａとこのディスプレイ１１ａの周
囲に設けられた操作用のスイッチ１１ｂとを含む表示部
１１と、この表示部１１のタッチパネルやスイッチ１１
ｂからの入力を管理するスイッチ入力類管理部１２が接
続されている。

【００１０】スイッチ１１ｂには、ナビゲーションのメ
ニュー画面を指定するスイッチ、エアコンの調整用のス
イッチ、オーディオの操作を行うためのスイッチ等の各
種スイッチがある。これらのスイッチを押すと、対応す
るメニュー画面がディスプレイ１１ａに表示されるよう
になっている。タッチパネル１１ａに表示される画面
は、階層構造になっており、最上位層にメニュー画面が
ある。そして、ナビゲーション用のメニュー画面には、
例えば、目的地設定や、地名検索等を指定する指定キー
が表示され、目的地設定キーが指定されると、更にその
下位層の画面としてスキー場、ゴルフ場等を指定する指
定キーが表示されるようになっており、各指定キーの指
定によって最下層の画面まで順次表示されるようになっ
ている。本実施例では、これらタッチパネル１１ａの画
面に表示される各種指定キー、およびスイッチ１１ｂの
各種スイッチの内容が、音声認識の対象となる。すなわ
ち、これら各種の指定キーとスイッチが最初に押下され
る毎に、音声認識のための不特定話者辞書が作成され、
それ以後、作成された辞書に基づいて、入力された音声
の認識が行われると共に、入力音声による特定話者辞書
が作成されるようになっている。

【００１１】また、演算部１０には、現在位置測定部１
３と、速度センサ１４と、地図情報記憶部１５と、本実
施例おける音声認識部１６と、音声出力部１７とが接続
されている。現在位置測定部１３は、緯度と経度による
座標データを検出することで、車両が現在走行または停
止している現在位置を検出する。この現在位置測定部１
３には、人工衛星を利用して車両の位置を測定するＧＰ
Ｓ(Global Position System)レシーバ２１と、路上に配
置されたビーコンからの位置情報を受信するビーコン受
信装置２０と、方位センサ２２と、距離センサ２３とが
接続され、現在位置測定部１３はこれらからの情報を用
いて車両の現在位置を測定するようになっている。

【００１２】方位センサ２２は、例えば、地磁気を検出
して車両の方位を求める地磁気センサ、車両の回転角速
度を検出しその角速度を積分して車両の方位を求めるガ
スレートジャイロや光ファイバジャイロ等のジャイロ、
左右の車輪センサを配置しその出力パルス差（移動距離
の差）により車両の旋回を検出することで方位の変位量
を算出するようにした車輪センサ、等が使用される。距
離センサ２３は、例えば、車輪の回転数を検出して計数
し、または加速度を検出して２回積分するもの等の各種
の方法が使用される。なお、ＧＰＳレシーバ２１とビー
コン受信装置２０は単独で位置測定が可能であるが、Ｇ
ＰＳレシーバ２１やビーコン受信装置２０による受信が
不可能な場所では、方位センサ２２と距離センサ２３の
双方を用いた推測航法によって現在位置を検出するよう
になっている。

【００１３】地図情報記憶部１５は、例えばＣＤＲＯＭ
等の大容量記憶装置で構成されている。この地図情報記
憶部１５には、目的地までの経路探索に必要な道路デー
タや、探索した経路をディスプレイ１１ａに表示するた
めの地図データ等の、経路探索および経路案内に必要な
各種データが格納されている。音声認識部１６には、人
間の音声や、電話番号に対応した発信音が入力されるマ
イク２４が接続されている。音声出力部１７は、音声を
電気信号として出力する音声出力用ＩＣ２６と、この音
声出力用ＩＣ２６の出力をディジタル−アナログ変換す
るＤ／Ａコンバータ２７と、変換されたアナログ信号を
増幅するアンプ２８とを備えている。アンプ２８の出力
端にはスピーカ２９が接続されている。

【００１４】演算部１０は、ＣＰＵ（中央処理装置）、
ＲＯＭ（リード・オンリ・メモリ）、ＲＡＭ（ランダム
・アクセス・メモリ）等を備え、ＣＰＵがＲＡＭをワー
キングエリアとしてＲＯＭに格納されたプログラムを実
行することによって、上記の各構成を実現するようにな
っている。すなわち、演算部１０は、速度センサ１４お
よび地図情報記憶部１５に接続された地図データ読込部
３１と、地図描画部３２と、地図データ読込部３１およ
び地図描画部３２を管理する地図管理部３３と、地図描
画部３２および表示部１１に接続された画面管理部３４
と、スイッチ入力類管理部１２および音声認識部１６に
接続された入力管理部３５と、音声出力部１７の音声出
力用ＩＣ２６に接続された音声出力管理部３６、およ
び、地図管理部３３、画面管理部３４、入力管理部３
５、音声出力管理部３６を管理する全体管理部３７とを
備えている。入力管理部３５は、ディスプレイ１１ａの
タッチパネルに表示される各種指定キーや、スイッチ１
１ｂが初めて選択されたものか否かも管理するようにな
っている。そして、スイッチ等の選択が初めて行われた
ものである場合、音声認識部１６に、そのスイッチ等に
応じたタッチパネル等入力信号を入力管理部３５に供給
するようになっている。

【００１５】図２は、図１における音声認識部１６の構
成を示すブロック図である。この図に示すように、音声
認識部１６は、マイク２４から入力される音声信号をデ
ィジタル信号に変換するＡ／Ｄ変換部１６１と、このＤ
／Ａ変換部１６１の出力信号から入力された音声につい
ての特徴を抽出して対応する単語パターンを作成する特
徴抽出部１６２と、所定の音声にする標準パターンが格
納される辞書としての辞書バッファ１６３とＲＡＭ１６
４とを備えている。辞書バッファ１６３は、不特定話者
認識用として一般的な標準パターンが格納される不特定
辞書１６３ａと、マイク２４から入力された特定話者の
音声から作成された単語パターンが標準パターンとして
格納される特定辞書１６３ｂを備えている。ここで、標
準パターンとは、所定単位毎での音声信号についての、
スペクトルや基本周波数の時系列情報である。所定単位
毎の音声信号としては、音節、単語、音素、半音節、単
語間、音素間、音節間、半音節間等の単位毎の音声信号
が使用される。また、特徴抽出部１６２は、多チャネル
・バンドパスフィルタや線形予測分析等によって、この
単語パターンを抽出するようになっている。

【００１６】また、音声認識部１６は、辞書バッファ１
６３とＲＡＭ１６４に格納された標準パターンと、特徴
抽出手部１６２によって抽出された単語パターンとを比
較するパターンマッチング部１６５と、パターンマッチ
ング部１６５の比較結果に基づいてマイク２４から入力
された音声の内容を認識し、その認識内容に従って、演
算部１０に対する音声入力信号を生成して、演算部１０
の入力管理部３５へ出力する認識結果処理部１６６とを
備えている。

【００１７】さらに、音声認識部１６は、辞書部１６７
と、ＲＯＭ１６８、および辞書管理部１６９を備えてい
る。辞書部１６７はＲＯＭで構成され、各音素の特徴を
表す音素パターンが格納されている。この音素パターン
は、不特定辞書を辞書管理部１６９で作成するためのも
ので、複数人のアナウンサー等による発声音を平均化す
ることで各音素毎に作成されたものが格納されている。
なお、辞書部１６７のＲＯＭは各種記憶装置を使用する
ことが可能であるが、ＣＤ（コンパクトディスク）ＲＯ
Ｍを使用するようにしてよもい。

【００１８】ＲＯＭ１６８には、ユーザによって押下さ
れた、ディスプレイ１１ａのタッチパネルに表示された
指定キーや、スイッチ１１ｂのスイッチに応じたタッチ
パネル等入力信号が入力管理部３５から供給されるよう
になっている。そして、ＲＯＭ１６８は、タッチパネル
等入力信号に応じた単語を示す音素指定信号に変換して
辞書管理部１６９に供給するようになっており、そのた
めの変換テーブルを備えている。例えば、ディスプレイ
１１ａのタッチパネルから「目的地設定」の指定キーが
押下され、それに対応するタッチパネル等入力信号が入
力管理部３５から供給された場合、ＲＯＭ１６８は、タ
ッチパネル等入力信号に対応じた単語「もくてきちせっ
てい」を示す音素指定信号に変換して辞書管理部１６９
に供給する。

【００１９】辞書管理部１６９は、ＲＯＭ１６８から供
給された音素指定信号に対応する各音素パターンを辞書
部１６７から読み出して、不特定話者認識用の辞書を合
成し、これを辞書バッファ１６３の不特定辞書１６３ａ
に格納するようになっている。また辞書管理部１６９に
は、マイク２４から入力された音声についての認識が成
功すると、認識結果処理部１６６から音声入力信号が供
給されるようになっている。辞書管理部１６９は、この
音声入力信号が供給されると、その認識された音声につ
いて特徴抽出部１６２で抽出した単語パターンを標準パ
ターンとして、特定辞書１６３ｂとＲＡＭ１６４に格納
するようになっている。ここで、ＲＡＭ１６４は、表示
部１１で押下可能なスイッチと指定キーの数だけ（＝音
声入力信号の数だけ）の単語を格納するエリアが確保さ
れており、各エリアには１つの標準パターンが格納され
る。従って、マイク２４から入力された音声が認識され
る毎に、その入力音声に対応する格納エリアが、新しい
標準パターンによって更新されるようになっている。ま
た、ＲＡＭ１６４には、入力音声の音素パターンも音素
辞書として更新される。すなわち、マイク２４から入力
された音声が認識される毎に、その入力された音声につ
いて特徴抽出部１６２で抽出した単語パターンから各音
素毎の音素パターンを作成し、ＲＡＭ１６４が更新され
る。

【００２０】また特定辞書１６３ｂにも、音声入力信号
の数だけの単語を格納するエリアが確保されており、各
エリアには、複数の標準パターンが格納されるようにな
っている。従って、音声認識される毎に、その入力され
た音声に対応する格納エリアに新しい標準パターンが順
次蓄積されるようになっている。なお、音声入力信号に
対応する格納エリアに、所定数の標準パターンが格納さ
れた以後は、最も古い標準パターンと最新の標準パター
ンとの間で更新が行われる。

【００２１】次に、このように構成された実施例の動作
について説明する。図３は、ユーザによるナビゲーショ
ン装置の使用状態を表したものである。本実施例のナビ
ゲーション装置は、システムの初期状態において、ＲＡ
Ｍ１６４と辞書バッファ１６３の不特定辞書１６３ａ、
特定辞書１６３ｂに、標準パターンが格納されていな
い。従って、システムの初期状態では音声認識を行うこ
とができず、図３（ａ）〜（ｄ）に示すように、順次表
示装置１１のスイッチ１１ｂおよびディスプレイ１１ａ
のタッチパネルから所定の処理を選択する。ここで、ナ
ビゲーション用のメニュー画面（ａ）から、タッチパネ
ルで順次目的地の入力を行う場合について説明する。ま
ず、メニュー画面（ａ）において、ユーザか「目的地設
定」を選択すると、その下位層の目的地設定画面（ｂ）
が表示される。同様に、目的地設定画面（ｂ）において
「ゴルフ場」を選択し、さらに、「千葉県」、「習志野
ＣＣ」というように順次選択することで、全体管理部３
７により、習志野カントリークラブが目的地として設定
される。

【００２２】そして、表示部１１のディスプレイ１１ａ
のタッチパネルやスイッチ１１ｂのスイッチが、初めて
選択される毎に、そのスイッチに対応す単語の標準パタ
ーンが辞書管理部１６９で作成され、辞書バッファ１６
３の不特定辞書１６３に格納される。すなわち、図３
（ａ）〜（ｄ）の順に選択が行われると、選択に対応す
る単語「目的地設定」「ゴルフ場」、「千葉県」、「習
志野カントリークラブ」の標準パターンが順次特定辞書
１６３ａに格納される。

【００２３】このようにして、表示部１１の操作によっ
て目的地設定が行われ、同時に、対応する指定キーやス
イッチが意味する単語の不特定辞書が作成されると、そ
れ以後は、音声による入力が可能になる。すなわち、図
３（ａ）に示すナビゲーション用のメニュー画面におい
て、（ｅ）に示すようにユーザが「目的地設定」と発声
してマイク２４に入力すると、音声認識部１６で認識さ
れ、ディスプレイ１１ａには目的地設定画面（ｂ）を表
示する。更に、ユーザが「ゴルフ場」と発声すると（図
３（ｆ））、ゴルフ場画面が表示される。同様にして、
ユーザが「千葉県」、「習志野カントリークラブ」と順
に発声すると、その音声が認識され、最終的に地習志野
ＣＣが目的地として設定される。

【００２４】ここで、ユーザが発声し認識された音声に
ついては、その音声の単語パターンが特定話者用の標準
パターンとして、特定辞書１３６ｂとＲＡＭ１６４に格
納される。なお、図３（ｇ）において、ユーザが「千葉
県」と発声せずに、「北海道」と発声した場合、北海道
という単語の不特定辞書はまだ作成されていないので、
認識することができない。音声「北海道」についての認
識を可能にするためには、図３（ｃ）のゴルフ場画面ま
たは他の画面に表示されている「北海道」のキーを一度
選択する必要がある。

【００２５】次に動作の詳細について説明する。図４
は、辞書作成および作成した辞書による音声認識の動作
を表したフローチャートである。まず、制御部１０は、
入力管理部３５にデータが入力されたか否かを判断し、
入力があった場合（ステップ３１；Ｙ）、入力されたデ
ータがディスプレイ１１のタッチパネルまたはスイッチ
１１ｂからの入力か否かを判断する（ステップ３２）。

【００２６】タッチパネル等からの入力である場合（ス
テップ３２；Ｙ）、入力管理部３５は、入力されたキー
の使用が初めてか否かを判断することで、選択対象とな
ったキーを表す単語の標準パターンが不特定辞書にある
か否かを判断する（ステップ３３）。選択対象の不特定
辞書がない場合（ステップ３３；Ｙ）、音声認識部１６
は、選択対象の不特定辞書を作成する（ステップ３
４）。すなわち、音声認識部１６のＲＯＭ１６８は、入
力管理部３５から供給されるタッチパネル等入力信号
を、対応する単語を示す音素指定信号に変換して辞書管
理部１６９に供給する。辞書管理部１６９は、供給され
た音素指定信号により辞書部１６７から各音素の音素パ
ターンを読み出し、ステップ３２で入力されたキーを表
す単語に対する不特定話者用辞書を作成して不特定辞書
１６３に格納する。

【００２７】ステップ３４において不特定辞書が作成さ
れた後、または、選択対象の不特定辞書がある場合（ス
テップ３３；Ｎ）、入力管理部３５は、タッチパネル等
からの入力を全体管理部３７に供給する（ステップ３
５）。全体管理部３７は、タッチパネル等からの入力に
応じて、画面管理部３４を制御し、つぎ認識対象語彙を
選択するための画面に切り換えて（ステップ３６）、メ
インルーチンにリターンする。

【００２８】一方、ステップ３２において、タッチパネ
ル等からの入力ではなく音声入力である場合（；Ｙ）、
音声認識部１６は、ユーザによって発声された音声をマ
イク２４から入力し（ステップ３７）、入力音声につい
ての音声認識を行う（ステップ３８）。すなわち、音声
認識部１６は、入力された音声データをＡ／Ｄ変換部１
６１でディジタルデータに変換し、特徴抽出部１６２で
入力音声の単語パターンを抽出して、パターンマッチン
グ部１６５と辞書管理部１６９に供給する。

【００２９】パターンマッチング部１６５では、入力音
声の単語パターンと、まず、ＲＡＭ１６４に格納されて
いる各単語についての最新の標準パターンとを比較し、
各単語との類似度を算出し、類似度が最も高い単語を入
力された音声であると認識する。いずれの単語との類似
度も、所定の閾値以下であった場合には認識不能である
ため、次に特定辞書１６３ｂに格納されている各単語の
標準パターンと比較して類似度を算出し、閾値よりも大
きくて最も類似度が高い単語を音声であると認識する。
特定辞書１６３ｂの標準パターンとの類似度もすべて閾
値以下である場合には、さらに、特定辞書１６３ａに格
納されている、不特定話者用の全標準パターンと比較
し、閾値よりも大きくて最も類似度が高い単語を音声で
あると認識し、いずれも閾値以下である場合には、入力
された音声について認識不可能であると判断する。パタ
ーンマッチング部１６５による認識結果がでると、認識
結果処理部１６６では、認識内容に従って音声入力信号
を生成し、演算部１０の入力管理部３５に供給する。

【００３０】そして、制御部１０の全体管理部３７は、
入力管理部３５に供給された認識結果が認識不能である
場合（ステップ３９；Ｎ）、画面管理部３４を制御し
て、入力された音声に対応する辞書が存在しない旨の表
示をディスプレイ１１ａに表示して（ステップ４０）、
メインルーチンにリターンする。一方、標準パターンと
の類似度が閾値よりも大きく、入力音声の認識が成功し
た場合（ステップ３９；Ｙ）、特定辞書の更新を行う
（ステップ４１）。すなわち、認識結果処理部１６６は
認識した単語に対応する音声入力信号を辞書管理部１６
９にも供給する。辞書管理部１６９では、音声入力信号
が供給されると、ＲＡＭ１６４のその音声入力信号に対
応した格納エリアを、特徴抽出部１６２から供給された
単語パターンに更新する。更に、辞書管理部１６９は、
特徴抽出部１６２から供給された単語パターンを特定辞
書１６３ｂの対応する格納エリアに格納するか、また
は、その格納エリアに格納されている最も古い標準パタ
ーンを供給された単語パターンに書き換える。

【００３１】ステップ４１において、特定辞書の更新が
終了すると、ステップ３５に移行し、全体管理部３７
は、マイク２４から入力され音声認識部１６で認識され
た音声の音声入力信号を、全体管理部３７に供給する。
そして、全体管理部３７は、音声入力信号に応じて、画
面管理部３４を制御し、つぎ認識対象語彙を選択するた
めの画面に切り換えて（ステップ３６）、メインルーチ
ンにリターンする。

【００３２】なお、以上説明した実施例では、ＲＡＭ１
６４と不特定辞書１６３ａおよび特定辞書１６３は、表
示部１１で押下可能なスイッチと指定キーの数だけの単
語を格納するエリアが確保されていたが、これよりも少
ない数、例えば半分や１／３の格納エリアとしてもよ
い。この場合、辞書管理部１６９は、エリア不足になっ
た場合に対応して、各エリアに格納された標準パターン
が示す単語の使用頻度を計数するようにしておき、最も
使用頻度が少ない格納エリアをクリアし、新しい単語パ
ターン、または標準パターンの入力用に確保するように
する。これにより、認識率の低下を抑えつつ、記憶容量
を減らすことができる。また、パターンマッチング分１
６５で比較する辞書数が減少するので、認識速度も向上
させることができる。また、認識語彙数や辞書バッファ
等の記憶容量に制約がある場合でも、使用によって辞書
の再構築を行うことで効率の良いシステムとすることが
できる。

【００３３】また、ＲＯＭ１６８から出力される音素指
定信号を出力したが、その音素指定信号としてテキスト
文字列を示すデータを使用してもよい。

【００３４】また、その音声の入力によって表示される
画面を特定する画面ポインタを、認識音声に対する標準
パターンの各々に対応付けて記憶することで、ダイレク
トに画面を呼び出すことができるようにしてもよい。例
えば、「目的地設定」という音声が認識された場合に対
応する画面として図３（ｂ）が表示される場合には、音
声「目的地設定」の標準パターンに対応付けて図３
（ｂ）を特定する画面ポインタが併せて記憶される。同
様に、音声「ゴルフ場」の標準パターンに対応付けて図
３（ｃ）の画面ポインタが、音声「千葉県」の標準パタ
ーンに対応付けて図３（ｄ）の画面ポインタが併せて記
憶される。以後は、目的地設定、ゴルフ場、千葉県、習
志野ＣＣの順に音声の入力と認識を行わなくても、「ゴ
ルフ場」と音声入力することで、画面ポインタから図３
（ｃ）の画面が表示される。その後、「習志野ＣＣ」と
音声入力することで、習志野ＣＣが目的地として設定さ
れ、入力処理が容易になる。さらに、音声の標準パター
ンに画面を特定する画面ポインタを併せて記憶するので
はなく、音声の標準パターンに、一連の入力処理手順や
入力履歴を併せて格納するようにしてもよい。これによ
って、図３の例の場合、直接「習志野ＣＣ」と音声を出
力するだけで目的地設定が終了するようになり、より入
力処理を容易かつ迅速に行うことができる。

【００３５】

【発明の効果】本発明の音声認識装置によれば、辞書の
記憶容量を効率的に使用でき、操作性を向上させること
ができる。

【図面の簡単な説明】

【図１】本発明の一実施例に係る音声認識装置をナビゲ
ーション装置に適用した場合のシステム構成図である。

【図２】同上、音声認識部の構成を示すブロック図であ
る。

【図３】同上、ユーザによるナビゲーション装置の使用
状態を表す説明図である。

【図４】同上、辞書作成および作成した辞書による音声
認識の動作を表したフローチャートである。

【符号の説明】

１０演算部１１表示部１１ａディスプレイ１３現在１測定部１５地図情報記憶部１６音声認識部１６１Ａ／Ｄ変換部１６２特徴抽出部１６３辞書バッファ１６４ＲＡＭ１６５パターンマッチング部１６６認識結果処理部１６７辞書部１６８ＲＯＭ１６９辞書管理部１７音声出力部２４マイク３３地図管理部３４画面管理部３５入力管理部３７全体管理部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ０９Ｂ 29/10 Ｇ０９Ｂ 29/10 Ａ // Ｇ０１Ｃ 21/00 Ｇ０１Ｃ 21/00 Ｈ

Claims

【特許請求の範囲】

【請求項１】所定の操作を選択する選択手段と、この選択手段で選択可能な操作を表す単語を構成する各
音素についての特徴を表す音素パターンが予め格納され
た音素辞書と、標準パターンが格納される辞書記憶手段と、前記選択手段で選択された操作を表す単語の標準パター
ンを、前記音素辞書に格納された音素パターンから作成
する標準パターン作成手段と、この標準パターン作成手段で作成された標準パターンを
前記辞書記憶手段に格納する不特定辞書格納手段と、音声を入力する音声入力手段と、この音声入力手段で入力された音声の特徴を抽出して対
応する単語パターンを作成する単語パターン作成手段
と、この単語パターン作成手段で作成された単語パターンと
前記辞書記憶手段に格納された標準パターンとの類似度
から前記音声入力手段で入力された音声を認識する認識
手段と、この認識手段による認識結果を出力する出力手段と、を
具備することを特徴とする音声認識装置。
【請求項２】前記単語パターン作成手段で作成された
単語パターンを、特定話者用の標準パターンとして前記
辞書記憶手段に格納する特定辞書格納手段を具備するこ
とを特徴とする請求項１に記載の音声認識装置。
【請求項３】前記辞書格納手段に格納された標準パタ
ーンが所定数になった場合、前記不特定辞書格納手段お
よび前記特定辞書格納手段は、前記認識手段による認識
頻度が最も少ない標準パターンを削除することを特徴と
する請求項１または請求項２に記載の音声認識装置。
【請求項４】ナビゲーション装置の入力手段として用
いたことを特徴とする請求項１、請求項２または請求項
３に記載の音声認識装置。