JPH09274497A

JPH09274497A - 音声認識装置

Info

Publication number: JPH09274497A
Application number: JP11052596A
Authority: JP
Inventors: Takeshi Ono; 健大野; Yasuhide Yamamoto; 泰秀山本; Norimasa Kishi; 則政岸
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 1996-04-05
Filing date: 1996-04-05
Publication date: 1997-10-21

Abstract

(57)【要約】【課題】音声認識が困難な状況でも認識ヒット率を高め
る。【解決手段】音声を入力するマイク１０と、複数の音
声と当該音声に関連する情報が格納されている音声辞書
メモリ２０と、マイクから入力された音声と音声辞書に
格納されている音声との距離を演算し、当該距離の小さ
い順に所定数の音声候補を出力する音声認識手段３０
と、音声候補を表示するディスプレイ４０とを有する音
声認識装置であり、音声を再入力するための再入力スイ
ッチ５０と、音声の再入力回数を計測するカウンタ６０
とをさらに有し、再入力回数の増加に応じて、ディスプ
レイ上へ表示する音声候補数を増加させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置に関
し、特に音声の認識が難しい場合でも認識ヒット率を高
め不満なく使用できる音声認識装置に関する。

【０００２】

【従来の技術】従来この種の音声認識装置としては、例
えば特開平１−１８９，６９９号公報に開示されたもの
が知られている。この音声認識装置は、認識処理におい
てピックアップされた所定数の音声候補をタッチパネル
形ディスプレイ上に表示し、このディスプレイに表示さ
れた複数の音声候補から、使用者が目的とする音声を選
択するものである。

【０００３】

【発明が解決しようとする課題】しかしながら、このよ
うな従来の音声認識装置でも、使用者の周囲の雑音が大
きい場合など、表示された複数の音声候補の中に目的と
する音声が含まれないことが少なくない。このようなと
きは、音声を再入力する他ないが、周囲の雑音が大きい
中で同様の発話を繰り返すこととなるので、やはり目的
とする音声が含まれない結果となってしまう。このよう
に従来の音声認識装置では、初期認識又は再認識時の認
識ヒット率について、何ら考慮がなされていなかった。

【０００４】本発明は、このような従来技術の問題点に
鑑みてなされたものであり、音声認識が困難な状況であ
っても認識ヒット率が高い音声認識装置を提供すること
を目的とする。

【０００５】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の本発明の音声認識装置は、不特定話
者の音声を入力する音声入力手段と、複数の音声と当該
音声に関連する情報が格納されている音声辞書記憶手段
と、前記音声入力手段から入力された音声と前記音声辞
書記憶手段に格納されている音声との距離を演算し、当
該距離の小さい順に所定数の音声候補を出力する音声認
識手段と、前記音声認識手段からの音声候補を表示する
表示手段とを有する音声認識装置において、前記音声を
再入力する旨を入力する音声再入力指示手段と、前記音
声再入力指示手段による音声の再入力回数を計測して前
記音声認識手段へ出力する再入力回数計測手段とをさら
に有し、前記音声認識手段は、前記再入力回数計測手段
からの再入力回数の増加に応じて、前記表示手段へ出力
する音声候補数を増加させることを特徴とする（図１参
照）。

【０００６】この請求項１記載の音声認識装置では、不
特定話者の音声を音声入力手段から入力し、音声認識手
段で、音声入力手段から入力された音声と音声辞書記憶
手段に格納されている音声との距離を演算し、当該距離
の小さい順に所定数の音声候補を表示手段へ出力する。
このとき、表示手段に目的とする音声が表示されなかっ
た場合には、使用者は、音声再入力指示手段から音声を
再入力する旨を入力する。

【０００７】これにより再度の音声入力を行うことにな
るが、本発明の音声認識装置では、かかる音声の再入力
回数を再入力回数計測手段で計測し、音声認識手段で、
再入力回数の増加に応じて表示手段へ出力する音声候補
数を増加させる。

【０００８】したがって、音声認識が困難な状況になれ
ばなる程、表示手段に表示される音声候補数が増加する
ので、認識ヒット率が高くなる。しかも、この音声認識
装置では、認識環境が良好な場合などの常態時において
は、表示手段への音声候補数を最小限とでき、不必要な
音声候補が表示されないので、目的とする音声の発見も
容易である。

【０００９】上記目的を達成するために、請求項２記載
の本発明の音声認識装置は、不特定話者の音声を入力す
る音声入力手段と、複数の音声と当該音声に関連する情
報が格納されている音声辞書記憶手段と、前記音声入力
手段から入力された音声と前記音声辞書記憶手段に格納
されている音声との距離を演算し、当該距離の小さい順
に所定数の音声候補を出力する音声認識手段と、前記音
声認識手段からの音声候補を表示する表示手段とを有す
る音声認識装置において、前記音声を再入力する旨を入
力する音声再入力指示手段と、前記表示手段にこれまで
表示された音声候補を記憶する音声候補記憶手段とをさ
らに有し、前記音声認識手段は、前記音声再入力指示手
段による音声の再入力が行われたとき、前記音声辞書記
憶手段に格納されている音声から前記音声候補記憶手段
に記憶された音声候補を除外した上で、前記音声入力手
段から入力された音声の距離を演算し、当該距離の小さ
い順に所定数の音声候補を出力することを特徴とする
（図２参照）。

【００１０】この請求項２記載の音声認識装置では、不
特定話者の音声を音声入力手段から入力し、音声認識手
段で、音声入力手段から入力された音声と音声辞書記憶
手段に格納されている音声との距離を演算し、当該距離
の小さい順に所定数の音声候補を表示手段へ出力する。
このとき、表示手段に目的とする音声が表示されなかっ
た場合には、使用者は、音声再入力指示手段から音声を
再入力する旨を入力する。

【００１１】これにより再度の音声入力を行うことにな
るが、本発明の音声認識装置では、これまで表示された
音声候補、すなわち目的とする音声ではなかった音声候
補を音声候補記憶手段に記憶しておき、音声認識手段に
おける距離演算の際に、音声辞書から、これら音声候補
を除外した上で、距離を演算し当該距離の小さい順に所
定数の音声候補を出力する。

【００１２】したがって、音声認識が困難な状況であっ
ても、一度表示されてヒットしなかった音声候補は再表
示されることがなくなるので、認識ヒット率が高くな
る。しかも、この音声認識装置では、表示手段へ表示す
る音声候補数は一定とできるので、表示手段が大型化し
たり、コストアップしたりすることを抑制できる。ま
た、表示手段への音声候補数を最小限とすることで、不
必要な音声候補が表示されることがなくなり、目的とす
る音声の発見も容易となる。

【００１３】上記請求項１記載の音声認識装置と請求項
２記載の音声認識装置とを合わせて一つの音声認識装置
とすることもできる。すなわち、上記目的を達成するた
めに、請求項３記載の音声認識装置は、不特定話者の音
声を入力する音声入力手段と、複数の音声と当該音声に
関連する情報が格納されている音声辞書記憶手段と、前
記音声入力手段から入力された音声と前記音声辞書記憶
手段に格納されている音声との距離を演算し、当該距離
の小さい順に所定数の音声候補を出力する音声認識手段
と、前記音声認識手段からの音声候補を表示する表示手
段とを有する音声認識装置において、前記音声を再入力
する旨を入力する音声再入力指示手段と、前記音声再入
力指示手段による音声の再入力回数を計測して前記音声
認識手段へ出力する再入力回数計測手段と、前記表示手
段にこれまで表示された音声候補を記憶する音声候補記
憶手段とをさらに有し、前記音声認識手段は、前記音声
再入力指示手段による音声の再入力が行われたとき、前
記音声辞書記憶手段に格納されている音声から前記音声
候補記憶手段に記憶された音声候補を除外した上で、前
記音声入力手段から入力された音声の距離を演算すると
共に、前記再入力回数計測手段からの再入力回数の増加
に応じて、前記表示手段へ出力する音声候補数を増加さ
せることを特徴とする（図３参照）。

【００１４】この請求項３記載の音声認識装置では、不
特定話者の音声を音声入力手段から入力し、音声認識手
段で、音声入力手段から入力された音声と音声辞書記憶
手段に格納されている音声との距離を演算し、当該距離
の小さい順に所定数の音声候補を表示手段へ出力する。
このとき、表示手段に目的とする音声が表示されなかっ
た場合には、使用者は、音声再入力指示手段から音声を
再入力する旨を入力する。

【００１５】これにより再度の音声入力を行うことにな
るが、本発明の音声認識装置では、これまで表示された
音声候補、すなわち目的とする音声ではなかった音声候
補を音声候補記憶手段に記憶しておき、音声認識手段に
おける距離演算の際に、音声辞書から、これら音声候補
を除外した上で、距離を演算し当該距離の小さい順に所
定数の音声候補を決定する。そして、音声の再入力回数
を再入力回数計測手段で計測し、再入力回数の増加に応
じて表示手段へ出力する音声候補数を増加させる。

【００１６】したがって、音声認識が困難な状況であっ
ても、一度表示されてヒットしなかった音声候補は再表
示されることがなくなり、しかも音声認識が困難な状況
になればなる程、表示手段に表示される音声候補数が増
加するので、相乗的に認識ヒット率が高くなる。さら
に、この音声認識装置では、認識環境が良好な場合など
の常態時においては、表示手段への音声候補数を最小限
とでき、不必要な音声候補が表示されないので、目的と
する音声の発見も容易である。

【００１７】上述した請求項１乃至３記載の音声認識装
置は、再入力時における認識ヒット率を高める機能を有
しているが、本発明は初期入力時の認識ヒット率を高め
る機能を付与することもできる。すなわち、上記目的を
達成するために、請求項４記載の本発明の音声認識装置
は、不特定話者の音声を入力する音声入力手段と、複数
の音声と当該音声に関連する情報が格納されている音声
辞書記憶手段と、前記音声入力手段から入力された音声
と前記音声辞書記憶手段に格納されている音声との距離
を演算し、当該距離の小さい順に所定数の音声候補を出
力する音声認識手段と、前記音声認識手段からの音声候
補を表示する表示手段とを有する音声認識装置におい
て、入力される音声の不明瞭度を検出する音声不明瞭度
検出手段をさらに有し、前記音声認識手段は、前記音声
不明瞭度検出手段による音声の不明瞭度の増加に応じて
前記表示手段へ出力する音声候補数を増加させることを
特徴とする（図４参照）。

【００１８】この請求項４記載の音声認識装置では、不
特定話者の音声を音声入力手段から入力し、音声認識手
段で、音声入力手段から入力された音声と音声辞書記憶
手段に格納されている音声との距離を演算し、当該距離
の小さい順に所定数の音声候補を表示手段へ出力する。

【００１９】このとき、音声不明瞭度検出手段で入力さ
れる音声の不明瞭度を検出し、音声認識手段で、この音
声の不明瞭度の増加に応じて表示手段へ出力する音声候
補数を増加させる。

【００２０】したがって、雑音環境などのように音声認
識が困難な状況になればなる程、表示手段に表示される
音声候補数が増加するので、認識ヒット率が高くなる。
しかも、この音声認識装置では、初期入力時に音声の不
明瞭度に応じた音声候補数の変更を行うので、再入力の
必要がなく、短時間で目的とする音声が得られる。ま
た、認識環境が良好な場合などの常態時においては、表
示手段への音声候補数を最小限とでき、不必要な音声候
補が表示されないので、目的とする音声の発見も容易で
ある。

【００２１】なお、本発明において、請求項４記載の音
声認識装置が有する初期入力時の認識ヒット率の向上機
能と、請求項１乃至３の何れかに記載の音声認識装置が
有する再入力時の認識ヒット率の向上機能とを合わせて
構成することも可能である。このようにすれば、総合的
に認識ヒット率がより高くなる。

【００２２】

【発明の効果】請求項１記載の本発明の音声認識装置に
よれば、音声認識が困難な状況になればなる程、表示手
段に表示される音声候補数が増加するので、認識ヒット
率が高くなる。しかも、この音声認識装置では、認識環
境が良好な場合などの常態時においては、表示手段への
音声候補数を最小限とでき、不必要な音声候補が表示さ
れないので、目的とする音声の発見も容易である。

【００２３】請求項２記載の本発明の音声認識装置によ
れば、音声認識が困難な状況であっても、一度表示され
てヒットしなかった音声候補は再表示されることがなく
なるので、認識ヒット率が高くなる。しかも、この音声
認識装置では、表示手段へ表示する音声候補数は一定と
できるので、表示手段が大型化したり、コストアップし
たりすることを抑制できる。また、表示手段への音声候
補数を最小限とすることで、不必要な音声候補が表示さ
れることがなくなり、目的とする音声の発見も容易とな
る。

【００２４】請求項３記載の本発明の音声認識装置によ
れば、音声認識が困難な状況であっても、一度表示され
てヒットしなかった音声候補は再表示されることがなく
なり、しかも音声認識が困難な状況になればなる程、表
示手段に表示される音声候補数が増加するので、相乗的
に認識ヒット率が高くなる。さらに、この音声認識装置
では、認識環境が良好な場合などの常態時においては、
表示手段への音声候補数を最小限とでき、不必要な音声
候補が表示されないので、目的とする音声の発見も容易
である。

【００２５】請求項４記載の本発明の音声認識装置によ
れば、雑音環境などのように音声認識が困難な状況にな
ればなる程、表示手段に表示される音声候補数が増加す
るので、認識ヒット率が高くなる。しかも、この音声認
識装置では、初期入力時に音声の不明瞭度に応じた音声
候補数の変更を行うので、再入力の必要がなく、短時間
で目的とする音声が得られる。また、認識環境が良好な
場合などの常態時においては、表示手段への音声候補数
を最小限とでき、不必要な音声候補が表示されないの
で、目的とする音声の発見も容易である。

【００２６】

【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。第１実施形態図３は本発明の音声認識装置の第１実施形態を示すブロ
ック図、図５は当該音声認識装置のハードウェア構成を
示す図、図７は同実施形態に係る音声辞書を示すフォー
マット図、図９は同実施形態に係る表示手段を示す概念
図である。

【００２７】本実施形態は、駅名を音声で探索する音声
認識装置に本発明を適用した例であり、図３に示すよう
に、機能的構成として、音声入力手段１０、音声辞書記
憶手段２０、音声認識手段３０、表示手段４０、音声再
入力指示手段５０、再入力回数計測手段６０及び音声候
補記憶手段７０を有している。

【００２８】音声入力手段１０は、不特定話者の音声を
入力するもので、出力信号は音声認識手段３０に送出さ
れる。具体的なハードウェアとしては、図５に示される
ように、マイク１２と、帯域フィルタ１４と、マイク１
２に入力されたアナログ信号をディジタル信号に変換す
るＡ／Ｄコンバータ１６から構成されており、変換され
たディジタル信号は入力部３２を介して音声認識手段３
０であるＣＰＵ３４に送出される。フィルタ１４の帯域
は、例えば１００Ｈｚ〜７ｋＨｚに設定されている。

【００２９】音声辞書記憶手段２０は、複数の音声と当
該音声に関連する情報を格納したもので、ＣＰＵ３４と
接続されて音声情報の交換が行われる。この音声辞書記
憶手段２０は、ＲＯＭ或いはＲＡＭなどの各種メモリ
や、ＣＤ，ＦＤなどの記録媒体等、記憶形態や書き込み
の可否に拘わらず各種の記憶手段を適用できるが、本実
施形態では、後述する制限フラグ２０４を設ける必要が
あるため、図５に示すように書き込み可能なメモリ２２
を使用している。音声に関連する情報としては、表示手
段４０に表示する際の漢字や、その文字に関連するデー
タ、或いは制限フラグなどの制御情報などが挙げられ
る。本実施形態の音声辞書記憶手段２０は、図７に示す
ように、駅名に関連する情報のうち、音声の読み２０
１、漢字２０２、駅名のデータ２０３及び制限フラグ２
０４が図示する如くフォーマットされて、記憶されてい
る。

【００３０】音声認識手段３０は、音声入力手段１０か
ら入力された音声と、音声辞書記憶手段２０に格納され
ている音声との距離を演算し、当該距離の小さい順に所
定数の音声候補を出力するもので、演算を実行するＣＰ
Ｕ３４（中央演算処理装置）と当該演算のプログラムが
格納されたメモリ２２から構成されている。ただし、演
算中のデータを一時的に記憶するためにメモリ２２を使
用する場合もある。

【００３１】この音声認識手段３０では、上述した距離
演算の他、音声の再入力が行われたときに、比較すべき
音声辞書記憶手段２０内の音声情報から、音声候補記憶
手段７０に記憶された音声候補を除外する処理と、再入
力回数計測手段６０からの再入力回数の増加に応じて、
表示手段４０へ出力する音声候補数を増加させる処理も
行われる。なお、音声入力手段１０から入力された音声
と、音声辞書記憶手段２０に格納されている音声との距
離演算法には、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏ
ｖＭｏｄｅｌｓ）を用いることができる。

【００３２】表示手段４０は、音声認識手段３０からの
音声候補を表示するもので、例えば図９に示すような液
晶タッチパネル形ディスプレイ４２を用いることができ
る。この表示手段４０では、音声認識手段３０から出力
された音声候補数に応じて、表示される漢字数が可変と
なっており、例えば図９（Ａ）に示すように４つの音声
候補が音声認識手段３０から出力された場合には、当該
４つの音声候補を、また図９（Ｂ）に示すように６つの
音声候補が出力された場合には、当該６つの音声候補を
表示できるように構成されている。

【００３３】本実施形態の音声認識装置では、音声を再
入力する旨を入力する音声再入力指示手段５０と、音声
再入力指示手段５０による音声の再入力回数を計測して
音声認識手段３０へ出力する再入力回数計測手段６０
と、表示手段４０にこれまで表示された音声候補を記憶
する音声候補記憶手段７０とをさらに有している。

【００３４】音声再入力指示手段５０は、図９に示され
るように、タッチパネル形ディスプレイ４２の一部に設
けられたスイッチ５２であって、使用者がディスプレイ
４２上に表示された駅名中に目的とする駅名が含まれて
いなかった場合に、この細流力スイッチ５２を押し、マ
イク１２から音声を再入力する。なお、本実施形態では
表示手段４０内に音声再入力指示手段５０を設けたが、
本発明では別に音声再入力指示手段５０を設けても良
い。

【００３５】再入力回数計測手段６０は、音声再入力指
示手段５０による音声の再入力回数を計測して音声認識
手段３０へ出力するものであり、再入力スイッチ５２の
ＯＮ回数を計測するカウンタから構成することができ
る。

【００３６】音声候補記憶手段７０は、表示手段４０に
これまで表示された音声候補を記憶するもので、図５に
示すメモリ２２の一部を用いることができる。本実施形
態では、メモリ２２内に格納された音声辞書フォーマッ
トの制限フラグ２０４を用い、一度表示された駅名につ
いてはフラグ「１」をたて、未表示の駅名についてはフ
ラグ「０」をたてる。

【００３７】一度音声認識が行われて、その音声候補が
表示手段４０に表示されたのち、音声の再入力が行われ
る場合は、今まで表示された駅名が全て誤認識であった
ことであるので、この音声候補記憶手段７０は、今まで
誤認識された音声候補を一時的に記憶しておき、これを
音声認識手段３０へ出力することにより、音声認識手段
３０では、これら誤認識された音声候補を除外して次の
再認識処理を行う。これにより、再度表示される駅名中
には、誤認識された駅名が含まれないこととなる。

【００３８】次に、認識処理動作を説明する。図８は本
発明の音声認識装置の第１実施形態の動作を示すフロー
チャートであり、まずステップ５０１にて音声認識手段
３０の初期化が行われる。初期化状態では、再入力回数
ｋを０、表示手段４０へ表示する音声候補数ｎを４、音
声辞書フォーマット内の制限フラグ２０４を０とする。
ただし、この音声候補数は具体例であって、ディスプレ
イ４２の大きさや認識対象などの諸条件に応じて適宜変
更することができる。

【００３９】初期化終了後、ステップ５０２にて、マイ
ク１２、帯域フィルタ１４及びＡ／Ｄコンバータ１６を
通して、使用者の音声を音声認識手段３０に入力する。
フィルタ１４の帯域は既述したように１００Ｈｚ〜７ｋ
Ｈｚである。

【００４０】ステップ５０３にて、音声認識手段３０
は、入力された音声信号に対し単語認識処理を行う。す
なわち、ＣＰＵ３４にて、入力された音声と、制限フラ
グが０である音声辞書の各読みとの距離をＨＭＭ距離演
算法で演算し、距離の小さいものから所定数ｎ（＝４）
の音声候補を、読み部２０１、漢字部２０２、データ部
２０３を１セットとして表示手段４０へ出力する。

【００４１】ステップ５０４にて、表示手段４０上に、
４個の音声候補の漢字部２０２と、再入力スイッチ５２
が表示される。この表示画面４２には、図９（Ａ）に示
すように、入力音声「しぶや（渋谷）」に対して、「日
比谷」「四谷」「千葉」「新橋」の４つの音声候補４２
１〜４２４が表示されている。この場合、もし表示画面
中に目的とする「渋谷」が表示されていれば、ステップ
５０５にてタッチパネルディスプレイ４２上の「渋谷」
の部分を押し、ステップ５０６にて再入力の必要もない
ので、ステップ５０７へ進んで結果をディスプレイ４２
上に表示し、さらにステップ５０８にて出力部３６から
外部装置などへ、この音声認識結果を読み部２０１、漢
字部２０２及びデータ部２０３を１セットとして出力す
る。

【００４２】また、図９（Ａ）に示すように、「しぶや
（渋谷）」と発話したにも拘わらず、目的とする「渋
谷」が表示されていない場合には、ディスプレイ４２上
の再入力スイッチ５２を押し、ステップ５０９へ進む。
このステップ５０９では、再入力スイッチ５２のＯＮ回
数を計測し、１回押される度にｋに１を加算する。

【００４３】また、ステップ５１０では、ディスプレイ
４２上へ表示する音声候補数を再入力回数に応じて増加
させるために、ステップ５０９で再入力回数ｋに係数ａ
を乗じ、それまでの音声候補数にこのａ×ｋを加算す
る。本実施形態では係数ａを２とし、初回の認識時の音
声候補数が４であるので、次に表示される音声候補数は
ｎ＝４＋２×１で、６つの駅名となる（図９（Ｂ）参
照）。

【００４４】ただし、タッチパネルディスプレイ４２の
表示面積には限りがあるので、ステップ５１１にて、表
示可能な最大数ｎ_maxでｎを制限する。ｎがｎ_maxを越
えない場合には、後述するステップ５１２を経てステッ
プ５０２に戻り、音声の再入力を行う。本実施形態にお
けるｎ_maxは８である。ステップ５１１にて、ｎがｎ
_maxを越える場合には、音声認識手段３０は、認識不能
である旨の表示をディスプレイ４２に出力し、認識不能
であることが使用者に喚起される。

【００４５】ｎがｎ_maxを越えない場合には、ステップ
５１２にて、現在表示されている音声候補、すなわち図
９（Ａ）に示す「日比谷」「四谷」「千葉」「新橋」の
４つの音声候補４２１〜４２４について、その音声辞書
フォーマット内の制限フラグ２０４に「１」をたてる。
すなわち、目的とする「渋谷」が表示されなかったの
で、表示された４候補４２１〜４２４については、次回
の距離演算に用いないこととする。

【００４６】ステップ５０２に戻り、音声の再入力が行
われると、ステップ５０４にてディスプレイ４２上に表
示される音声候補数は、図９（Ｂ）に示すように前回よ
りも増加することになる。この場合にも、再入力スイッ
チ５２は表示しておく。

【００４７】このように、本実施形態の音声認識装置で
は、これまで表示された音声候補、すなわち目的とする
音声ではなく、誤認識された音声候補を音声候補記憶手
段７０に記憶しておき、再入力の距離演算の際に、音声
辞書から、これらの音声候補を除外した上で再度音声候
補を決定し、しかも、再入力回数に応じて表示手段４０
へ出力する音声候補数を増加させる。したがって、音声
認識が困難な状況であっても、一度表示されてヒットし
なかった音声候補は再表示されることがなくなり、しか
も音声認識が困難な状況になればなる程、表示手段４０
に表示される音声候補数が初期状態の４から、６，１
０，…と増加するので、相乗的に認識ヒット率が高くな
る。なお、この音声認識装置では、認識環境が良好な場
合などの常態時においては、表示手段４０への音声候補
数を４つに限定するなど最小限とすることができ、不必
要な音声候補が表示されないので、目的とする音声の発
見も容易である。

【００４８】第２実施形態本発明の音声認識装置は、上述した第１実施形態にのみ
限定されず、種々に改変することができる。図４は本発
明の音声認識装置の第２実施形態を示すブロック図、図
６は当該音声認識装置のハードウェア構成を示す図であ
り、同実施形態に係る音声辞書のフォーマット及び同実
施形態に係る表示手段は、第１実施形態とそれぞれ同じ
であるため図７及び図９を用いて説明する。

【００４９】本実施形態も、第１実施形態と同様、駅名
を音声で探索する音声認識装置に本発明を適用した例で
あり、図４に示すように、機能的構成として、音声入力
手段１０、音声辞書記憶手段２０、音声認識手段３０、
表示手段４０及び音声不明瞭度検出手段８０を有してい
る。

【００５０】音声入力手段１０は、不特定話者の音声を
入力するもので、出力信号は音声認識手段３０に送出さ
れる。具体的なハードウェアとしては、図６に示される
ように、マイク１２と、帯域フィルタ１４と、マイク１
２に入力されたアナログ信号をディジタル信号に変換す
るＡ／Ｄコンバータ１６から構成されており、変換され
たディジタル信号は入力部３２を介して音声認識手段３
０であるＣＰＵ３４に送出される。フィルタ１４の帯域
は、例えば１００Ｈｚ〜７ｋＨｚに設定されている。

【００５１】音声辞書記憶手段２０は、複数の音声と当
該音声に関連する情報を格納したもので、ＣＰＵ３４と
接続されて音声情報の交換が行われる。この音声辞書記
憶手段２０は、ＲＯＭ或いはＲＡＭなどの各種メモリ
や、ＣＤ，ＦＤなどの記録媒体等、記憶形態や書き込み
の可否に拘わらず各種の記憶手段を適用できるが、本実
施形態では、後述する制限フラグ２０４を設ける必要が
あるため、図６に示すように書き込み可能なメモリ２２
を使用している。音声に関連する情報としては、表示手
段４０に表示する際の漢字や、その文字に関連するデー
タ、或いは制限フラグなどの制御情報などが挙げられ
る。本実施形態の音声辞書記憶手段２０は、図７に示す
ように、駅名に関連する情報のうち、音声の読み２０
１、漢字２０２、駅名のデータ２０３及び制限フラグ２
０４が図示する如くフォーマットされて、記憶されてい
る。

【００５２】音声認識手段３０は、音声入力手段１０か
ら入力された音声と、音声辞書記憶手段２０に格納され
ている音声との距離を演算し、当該距離の小さい順に所
定数の音声候補を出力するもので、演算を実行するＣＰ
Ｕ３４（中央演算処理装置）と当該演算のプログラムが
格納されたメモリ２２から構成されている。ただし、演
算中のデータを一時的に記憶するためにメモリ２２を使
用する場合もある。

【００５３】この音声認識手段３０では、上述した距離
演算の他、音声不明瞭度検出手段８０による音声の不明
瞭度の増加に応じて、表示手段４０へ出力する音声候補
数を増加させる処理も行われる。なお、音声入力手段１
０から入力された音声と、音声辞書記憶手段２０に格納
されている音声との距離演算法には、例えばＨＭＭ（Ｈ
ｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ）を用いるこ
とができる。

【００５４】表示手段４０は、音声認識手段３０からの
音声候補を表示するもので、例えば図９に示すような液
晶タッチパネル形ディスプレイ４２を用いることができ
る。この表示手段４０では、音声認識手段３０から出力
された音声候補数に応じて、表示される漢字数が可変と
なっており、例えば図９（Ａ）に示すように４つの音声
候補が音声認識手段３０から出力された場合には、当該
４つの音声候補を、また図９（Ｂ）に示すように６つの
音声候補が出力された場合には、当該６つの音声候補を
表示できるように構成されている。

【００５５】本実施形態の音声認識装置では、入力され
る音声の不明瞭度を検出する音声不明瞭度検出手段８０
をさらに有しており、図４には示さないが、音声を再入
力する旨を入力する音声再入力指示手段５０も設けられ
ている。

【００５６】音声再入力指示手段５０は、図９に示され
るように、タッチパネル形ディスプレイ４２の一部に設
けられたスイッチ５２であって、使用者がディスプレイ
４２上に表示された駅名中に目的とする駅名が含まれて
いなかった場合に、この細流力スイッチ５２を押し、マ
イク１２から音声を再入力する。なお、本実施形態では
表示手段４０内に音声再入力指示手段５０を設けたが、
本発明では別に音声再入力指示手段５０を設けても良
い。

【００５７】音声不明瞭度検出手段８０は、音声入力時
における音声の不明瞭度をある擬制値を用いて評価し、
音声認識手段における認識ヒット率が低下する場合には
表示手段４０への音声候補数を増加させるものである。
本実施形態では、音声の不明瞭度を雑音で擬制し、雑音
が大きい場合には認識ヒット率も低くなることに鑑み、
音声候補数を増加させる。音声不明瞭度検出手段８０
は、具体的には、図６に示すように、ノイズを入力する
マイク８２と、帯域フィルタ８４と、ノイズの入力アナ
ログ信号をディジタル信号に変換するＡ／Ｄコンバータ
８６とからなり、ノイズを入力するマイク８２は、極力
ノイズのみを拾う位置に置かれている。

【００５８】次に、認識処理動作を説明する。図１０は
本発明の音声認識装置の第２実施形態の動作を示すフロ
ーチャートであり、初期化状態では、表示手段４０へ表
示する音声候補数ｎ₀を４とする。ただし、この音声候
補数は具体例であって、ディスプレイ４２の大きさや認
識対象などの諸条件に応じて適宜変更することができ
る。

【００５９】初期化終了後、ステップ６０１にて、マイ
ク１２、帯域フィルタ１４及びＡ／Ｄコンバータ１６を
通して、使用者の音声を音声認識手段３０に入力する。
フィルタ１４の帯域は既述したように１００Ｈｚ〜７ｋ
Ｈｚである。

【００６０】ステップ６０２にて、マイク８２、フィル
タ８４及びＡ／Ｄコンバータ８６を通してノイズを入力
する。フィルタ８４の帯域は、１００ｋＨｚ〜７ｋＨｚ
である。そして、ステップ７０３にて、マイク８２から
入力されたノイズのパワーＰｎをＣＰＵ３４で計測す
る。ここで計測されたノイズパワーＰｎは、ステップ７
０４にて、次式に代入され、これにより表示手段４０へ
表示する音声候補数ｎが決定される。

【００６１】

【数１】ｎ＝ｍａｘ（ｎ₀＋ｉｎｔ（ｂ×Ｐｎ），ｎ_max） …（１）（１）式においてｂは定数、ｎ_maxは表示手段４０への
最大表示可能数であり、ｉｎｔ（ｆ）はｆの整数化、ｍ
ａｘ（ａ，ｂ）はａとｂのうちの大きい数を表す。すな
わち、（１）式は、ノイズパワーＰｎに定数ｂを乗じた
ものにｎ₀を加算し、これとｎ_maxの大きい方をｎとす
る意味である。これにより、ｎはノイズの大きさに応じ
てその値が増加することになる。またｎは、表示可能な
最大数ｎ_maxで制限されることになる。

【００６２】表示手段４０へ表示する音声候補数ｎが決
定されると、次にステップ６０５にて、音声認識手段３
０は、入力された音声信号に対し単語認識処理を行う。
すなわち、ＣＰＵ３４にて、入力された音声と音声辞書
の各読みとの距離をＨＭＭ距離演算法で演算し、距離の
小さいものから所定数ｎの音声候補を、読み部２０１、
漢字部２０２、データ部２０３を１セットとして表示手
段４０へ出力する。

【００６３】ステップ６０６にて、表示手段４０上に、
ｎ個の音声候補の漢字部２０２と、再入力スイッチ５２
が表示されるが、本実施形態では、ノイズパワーＰｎが
大きい場合には音声候補数が多くなるので、認識ヒット
率も増加することになる。

【００６４】この表示画面４２には、図９（Ａ）に示す
ように、入力音声「しぶや（渋谷）」に対して、「日比
谷」「四谷」「千葉」「新橋」の４つの音声候補４２１
〜４２４が表示されている。この場合、もし表示画面中
に目的とする「渋谷」が表示されていれば、ステップ６
０７にてタッチパネルディスプレイ４２上の「渋谷」の
部分を押し、ステップ６０８にて再入力の必要もないの
で、ステップ６０９へ進んで結果をディスプレイ４２上
に表示し、さらにステップ６１０にて出力部３６から外
部装置などへ、この音声認識結果を読み部２０１、漢字
部２０２及びデータ部２０３を１セットとして出力す
る。

【００６５】また、図９（Ａ）に示すように、「しぶや
（渋谷）」と発話したにも拘わらず、目的とする「渋
谷」が表示されていない場合には、ディスプレイ４２上
の再入力スイッチ５２を押し、ステップ６０１へ戻り、
音声の再入力を行う。

【００６６】このように、本実施形態の音声認識装置で
は、音声不明瞭度検出手段８０で入力される音声の不明
瞭度を検出し、音声認識手段３０で、この音声の不明瞭
度の増加に応じて表示手段４０へ出力する音声候補数を
増加させる。したがって、雑音環境などのように音声認
識が困難な状況になればなる程、表示手段４０に表示さ
れる音声候補数ｎが増加するので、認識ヒット率が高く
なる。しかも、この音声認識装置では、初期入力時に音
声の不明瞭度に応じた音声候補数の変更を行うので、再
入力の必要がなく、短時間で目的とする音声が得られ
る。また、認識環境が良好な場合などの常態時において
は、表示手段４０への音声候補数ｎを最小限とでき、不
必要な音声候補が表示されないので、目的とする音声の
発見も容易である。

【００６７】なお、以上説明した実施形態は、本発明の
理解を容易にするために記載されたものであって、本発
明を限定するために記載されたものではない。したがっ
て、上記の実施形態に開示された各要素は、本発明の技
術的範囲に属する全ての設計変更や均等物をも含む趣旨
である。

【図面の簡単な説明】

【図１】請求項１記載の音声認識装置を示すブロック図
である。

【図２】請求項２記載の音声認識装置を示すブロック図
である。

【図３】請求項３記載の音声認識装置を示すブロック図
である。

【図４】請求項４記載の音声認識装置を示すブロック図
である。

【図５】本発明の音声認識装置の第１実施形態を示すハ
ードウェア構成図である。

【図６】本発明の音声認識装置の第２実施形態を示すハ
ードウェア構成図である。

【図７】本発明に係る音声辞書の実施形態を示すフォー
マット図である。

【図８】本発明の音声認識装置の第１実施形態の動作を
示すフローチャートである。

【図９】本発明に係る表示手段の実施形態を示す概念図
である。

【図１０】本発明の音声認識装置の第２実施形態の動作
を示すフローチャートである。

【符号の説明】

１０…音声入力手段１２…マイク１４…帯域フィルタ１６…Ａ／Ｄコンバータ２０…音声辞書記憶手段２２…メモリ２４…音声辞書フォーマット３０…音声認識手段３２…入力部３４…ＣＰＵ３６…出力部４０…表示手段４２…タッチパネル形ディスプレイ５０…音声再入力指示手段５２…再入力タッチスイッチ６０…再入力回数計測手段７０…音声候補記憶手段８０…音声不明瞭度検出手段８２…マイク８４…帯域フィルタ８６…Ａ／Ｄコンバータ

Claims

【特許請求の範囲】

【請求項１】不特定話者の音声を入力する音声入力手段
と、複数の音声と当該音声に関連する情報が格納されて
いる音声辞書記憶手段と、前記音声入力手段から入力さ
れた音声と前記音声辞書記憶手段に格納されている音声
との距離を演算し、当該距離の小さい順に所定数の音声
候補を出力する音声認識手段と、前記音声認識手段から
の音声候補を表示する表示手段とを有する音声認識装置
において、前記音声を再入力する旨を入力する音声再入力指示手段
と、前記音声再入力指示手段による音声の再入力回数を
計測して前記音声認識手段へ出力する再入力回数計測手
段とをさらに有し、前記音声認識手段は、前記再入力回数計測手段からの再
入力回数の増加に応じて、前記表示手段へ出力する音声
候補数を増加させることを特徴とする音声認識装置。
【請求項２】不特定話者の音声を入力する音声入力手段
と、複数の音声と当該音声に関連する情報が格納されて
いる音声辞書記憶手段と、前記音声入力手段から入力さ
れた音声と前記音声辞書記憶手段に格納されている音声
との距離を演算し、当該距離の小さい順に所定数の音声
候補を出力する音声認識手段と、前記音声認識手段から
の音声候補を表示する表示手段とを有する音声認識装置
において、前記音声を再入力する旨を入力する音声再入力指示手段
と、前記表示手段にこれまで表示された音声候補を記憶
する音声候補記憶手段とをさらに有し、前記音声認識手段は、前記音声再入力指示手段による音
声の再入力が行われたとき、前記音声辞書記憶手段に格
納されている音声から前記音声候補記憶手段に記憶され
た音声候補を除外した上で、前記音声入力手段から入力
された音声の距離を演算し、当該距離の小さい順に所定
数の音声候補を出力することを特徴とする音声認識装
置。
【請求項３】不特定話者の音声を入力する音声入力手段
と、複数の音声と当該音声に関連する情報が格納されて
いる音声辞書記憶手段と、前記音声入力手段から入力さ
れた音声と前記音声辞書記憶手段に格納されている音声
との距離を演算し、当該距離の小さい順に所定数の音声
候補を出力する音声認識手段と、前記音声認識手段から
の音声候補を表示する表示手段とを有する音声認識装置
において、前記音声を再入力する旨を入力する音声再入力指示手段
と、前記音声再入力指示手段による音声の再入力回数を
計測して前記音声認識手段へ出力する再入力回数計測手
段と、前記表示手段にこれまで表示された音声候補を記
憶する音声候補記憶手段とをさらに有し、前記音声認識手段は、前記音声再入力指示手段による音
声の再入力が行われたとき、前記音声辞書記憶手段に格
納されている音声から前記音声候補記憶手段に記憶され
た音声候補を除外した上で、前記音声入力手段から入力
された音声の距離を演算すると共に、前記再入力回数計
測手段からの再入力回数の増加に応じて、前記表示手段
へ出力する音声候補数を増加させることを特徴とする音
声認識装置。
【請求項４】不特定話者の音声を入力する音声入力手段
と、複数の音声と当該音声に関連する情報が格納されて
いる音声辞書記憶手段と、前記音声入力手段から入力さ
れた音声と前記音声辞書記憶手段に格納されている音声
との距離を演算し、当該距離の小さい順に所定数の音声
候補を出力する音声認識手段と、前記音声認識手段から
の音声候補を表示する表示手段とを有する音声認識装置
において、入力される音声の不明瞭度を検出する音声不明瞭度検出
手段をさらに有し、前記音声認識手段は、前記音声不明瞭度検出手段による
音声の不明瞭度の増加に応じて前記表示手段へ出力する
音声候補数を増加させることを特徴とする音声認識装
置。