JP2000029486A

JP2000029486A - 音声認識システムおよび方法

Info

Publication number: JP2000029486A
Application number: JP10193850A
Authority: JP
Inventors: Shinji Wakizaka; 新路脇坂; Kazuo Kondo; 和夫近藤; Hiroaki Kokubo; 浩明小窪
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-07-09
Filing date: 1998-07-09
Publication date: 2000-01-28

Abstract

(57)【要約】【課題】実際に使用する環境下で、雑音と音声を正しく
見極める。【解決手段】入力された音声に対して、音声の始まりか
ら終わりまでの音声区間を、音声ではない区間と区別す
るために、音声ではない区間の情報を検出しながら音声
区間を検出する音声区間検出部を設ける。この検出部は
定常、又は非定常の雑音や、その他の音全てに対してパ
ワーレベルを検出し、時々刻々と変化するパワーレベル
に合わせて、音声の始まりと終わりを示す音声のパワー
レベルを決めて、入力された音声が、音声のパワーレベ
ルを超えたら音声の始まりと判断し、音声のパワーレベ
ルを一定以上の時間下回ったら音声の終わりと判断す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識システム
および方法に係わり、カーナビゲーションシステム、車
載用ＰＣ、ＰＤＡ、ハンドヘルドＰＣに代表される小型
情報機器、携帯型音声翻訳機、ゲーム、家電機器に用い
る音声認識システム及び方法に関する。本発明は、特
に、カーナビゲーションシステムや車載用ＰＣ等のよう
に、時間的に変動する雑音環境下での音声認識システム
および方法に適用して好適である。

【０００２】

【従来の技術】近年、音声認識技術を用いた小型情報シ
ステムが普久しつつある。カーナビゲーションシステム
をはじめとして、ＰＤＡに代表される小型情報機器、携
帯型翻訳機等である。このような音声認識システムの例
として、特開平５ー３５７７６号公報の「言語自動選択
機能付翻訳装置」には、マイクから入力した操作者の音
声を認識して、翻訳し、翻訳した言語の音声を出力する
ようにした携帯用の翻訳装置に関する技術が開示されて
いる。

【０００３】以下、図７を用いてこのような従来技術に
係わる音声翻訳装置の概要について説明する。図７は、
従来技術に係わる音声翻訳装置の構成を示すブロック図
である。制御部７０１は、マイクロプロセッサ等からな
り、装置の各部を制御する。音声区間切出し部７０２
は、マイク７０９から入力された音声をデジタル信号に
変換して切り出し、音声認識部７０３に送る。音声認識
部７０３は、キーボード又はスイッチ等により線路７１
１を介して入力された操作信号に基づく制御部７０１か
らの指示によって、マイク７０９、音声区間切出し部７
０２を経て、切り出された音声を分析する。そしてその
分析結果を、音声認識辞書部７０７に格納された標準音
声パターンと比較することにより、音声認識をおこな
う。音声合成部７０５は、音声認識部７０３により認識
された音声に対応した翻訳語を、翻訳語データ用メモリ
カード７０６から読み込み、音声信号に変換してスピー
カアンプ７１０、スピーカ７０８を経て出力する。

【０００４】表示部７０４は、翻訳装置の使用者への指
示や翻訳語の文字による表示等をおこなう。翻訳語デー
タ用メモリカード７０６は、ＲＯＭカード等からなり、
翻訳語を音声合成して出力する場合には、音声データを
格納している。また、この翻訳語データ用メモリカード
７０６から、翻訳語に対応したキャラクターコードを読
み込み、表示部７０４に文字として表示する。そして、
この翻訳語データ用メモリカード７０６を他の言語のも
のと交換することにより、複数の言語に翻訳することが
可能となる。音声認識辞書部７０７は、ＲＡＭ等からな
り、操作者の発声に応じた標準音声パターンを格納して
いる。この標準音声パターンは、操作者があらかじめ格
納しておく。

【０００５】

【発明が解決しようとする課題】このような音声認識、
音声合成技術の分野は、半導体技術の向上を背景とし
て、システムがより人間的なユーザインタフェースを提
供すべきであるという要望から、その発展が期待されて
いる。上記従来の音声認識技術を用いた小型情報システ
ムにおいても、カーナビゲーションシステムをはじめと
して、ＰＤＡに代表される携帯型情報機器、携帯型翻訳
機、さらに、音声インタフェースを持った情報家電とし
て、今後ますます普及してくることが予想される。しか
しながら、音声認識は、処理すべき情報量が膨大なもの
になるため、従来の技術では、認識率や認識応答時間の
性能を低下させないために、認識する語数に制約を設け
る必要がある。そのためには、あらかじめ登録しておい
た単語、文に対して、その文字列が持つ統計的な話者の
音声の特徴と、実際に話者が発声した音声の特徴とを比
較し、確率的に一番近い値を認識結果としている。今
後、音声認識における技術革新や、それを実現するソフ
トウエア、ハードウエアの性能向上により、認識率や認
識応答時間の性能は向上すると考えられる。しかしなが
ら、音声認識システムの実用的な観点から、実際に使用
する環境での認識性能が問題となる。例えば、カーナビ
ゲーションシステムにおける音声認識システムでは、エ
ンジンを停止している場合、アイドリングの場合、一般
道路、市街地、高速道路、トンネル内を走行している場
合等で環境は異なり、しかも比較的短い時間で環境が変
化する。このような環境下において、音声区間の検出を
前提とする音声認識システムでは、音声区間検出精度が
低下する。

【０００６】本発明の目的は、上記欠点を解決し、実際
に使用する環境において、認識性能が劣化しない音声認
識システムを提供することにある。

【０００７】

【課題を解決するための手段】本発明の目的を達成する
ために、音声認識の対象となる単語や文章を集めた辞書
と、音声認識結果として前記辞書から得られた内容を表
示又は音声として出力する本発明による音声認識システ
ムにおいては、検出された非音声区間の情報に基づいて
音声区間を検出する音声検出部を設け、前記検出された
音声区間の音声認識を行なっている。

【０００８】この音声認識システムにおいて、前記非音
声区間のパワーからノイズしきい値を求める。また、こ
の音声認識システムにおいて、前記ノイズしきい値と前
記音声区間のパワーとを比較し、前記音声区間の前記パ
ワーが前記ノイズしきい値に達した時点近傍から音声認
識処理を開始する。この音声認識システムにおいて、前
記ノイズしきい値と前記音声区間のパワーとを比較し、
前記音声区間の前記パワーが前記ノイズしきい値に達し
た時点からあらかじめ定められた時間遡って音声認識処
理を行う。また、この音声認識システムにおいて、前記
ノイズしきい値は、音声又はノイズのパワーを分析する
単位であるフレームのあらかじめ定められた数の集合体
の平均のパワーに基づいて求められる。この音声認識シ
ステムにおいて、前記ノイズしきい値に基づいてパワー
しきい値を求める。さらにまた、この音声認識システム
において、前記音声区間のパワーが前記ノイズしきい値
を超え、前記パワーしきい値に到達した時に音声の始ま
りと判断して、この時点から予め定められた時間前から
音声認識処理を行う。この音声認識システムにおいて、
音声入力用ボタンを設け、前記ボタンが押された以降
で、前記音声区間のパワーが前記ノイズしきい値に達し
た時に、その時点の音声の分析単位であるフレームを記
憶する。また、この音声認識システムにおいて、前記音
声区間のパワーが前記パワーしきい値に達した時、少な
くとも前記記憶された前記フレームから音声認識処理を
する。

【０００９】上述の音声認識システムにおいて、前記音
声区間のパワーが前記パワーしきい値より低下する期間
が、予め定められた時間以下の場合、音声と音声の間の
無声音部分と判断する。また、この音声認識システムに
おいて、前記音声区間の前記パワーが前記パワーしきい
値以下に低下した後、予め定められた時間、前記音声区
間の前記パワーが前記パワーしきい値よりも低い値に保
たれている時には音声区間が終了したと判断する。音声
認識結果として、音声認識の対象となる単語や文章を集
めた辞書からピックアップされた内容を表示又は音声と
して出力する本発明による音声認識方法において、検出
された非音声区間の情報に基づいて音声区間を検出する
ステップと、前記検出された音声区間の音声認識を行う
ステップとを有する。この音声認識方法において、前記
非音声区間のパワーからノイズしきい値を求めるステッ
プを設ける。

【００１０】この音声認識方法において、前記ノイズし
きい値と前記音声区間のパワーとを比較し、前記パワー
が前記ノイズしきい値に達した時点近傍から音声認識処
理を開始するステップを有する。この音声認識方法にお
いて、前記非音声区間のパワーからノイズしきい値を求
めるステップと、前記ノイズしきい値に基づいてパワー
しきい値を求めるステップとを有する。この音声認識方
法において、前記音声区間のパワーが前記パワーしきい
値より低下する期間が予め定められた時間以下の場合、
音声と音声の間の無声音部分と判断するステップを有す
る。この音声認識方法において、前記音声区間のパワー
が前記パワーしきい値以下に低下した後、この状態を保
って予め定められた時間が経過した時には音声区間が終
了したと判断するステップを有する。

【００１１】音声認識の対象となる単語や文章を集めて
辞書として定義し、音声認識された単語や文章を辞書か
らピックアップして、文字列表示や、単語が示す画像
や、音声合成を用いて音声として出力する本発明による
音声認識システムにおいては、入力された音声に対し
て、音声の始まりから終わりまでの音声区間を、音声を
含まない非音声区間と区別するために、非音声区間の情
報を検出しながら音声区間を検出する音声区間検出部
と、取り込んだ音声に対して、音声分析処理を行う音声
分析部と、音声のパターンを音素単位でもつ音響モデル
と、音声分析結果に対して、音響モデルと辞書を連結し
て、音声認識処理を行う音声認識部とを備え、音声区間
で検出された音声に対して音声認識を行う。

【００１２】また、音声認識システムにおいて、前記音
声区間検出部は、非音声区間の音に対してパワーレベル
を検出し、時々刻々と変化するパワーレベルに合わせ
て、音声の始まりと終わりを示す音声のパワーレベルを
決めて、入力された音声が、前記音声の前記パワーレベ
ルを超えたら音声の始まりと判断し、音声のパワーレベ
ルを一定以上の時間下回ったら音声の終わりと判断す
る。また、音声認識システムにおいて、前記音声区間検
出部は非音声区間の音に対して、パワーレベルを検出
し、前記パワーレベルからノイズしきい値と、パワーし
きい値のしきい値を計算し、入力された音声がノイズし
きい値を超え、さらに、パワーしきい値を超えた場合、
音声の始まりと判断する。この音声認識システムにおい
て、前記音声の前記パワーレベルが前記しきい値を一定
時間以上下回ったら音声の終わりと判断する。この音声
認識システムにおいて、前記パワーレベルは、予め定め
られた時間単位で区切られたフレームのパワーを複数フ
レーム亘って求めた平均のパワーとし、前記ノイズしき
い値は前記平均パワーのN倍に設定する。また、音声認
識システムにおいて、前記パワーしきい値ＰＴＨは、ノ
イズしきい値ＮＴＨに比べて、ＰＴＨ＞ＮＴＨの関係を
満足するように設定する。この音声認識システムにおい
て、ノイズしきい値ＮＴＨとパワーしきい値ＰＴＨの関
係は、比較的静かな環境下では、ΔＰＴＨ＝ＰＴＨ−Ｎ
ＴＨが小さくなるように設定し、逆に、雑音の大きな環
境下では、ΔＰＴＨ＝ＰＴＨ−ＮＴＨが大きくなるよう
に設定する。

【００１３】音声認識の対象となる単語や文章を集めて
辞書として定義し、音声認識された単語や文章を辞書か
らピックアップして、文字列表示や、単語が示す画像
や、音声合成を用いて音声として出力する音本発明によ
る声認識方法においては、入力された音声に対して、音
声の始まりから終わりまでの音声区間を、音声を含まな
い非音声区間と区別するために、非音声区間の情報を検
出しながら音声区間を検出するステップと、音声区間で
検出された音声に対して、音声分析処理を行うステップ
と、音声のパターンを音素単位でもつ音響モデルと前記
辞書とを連結して、音声分析結果に対して、音声認識処
理を行うステップとを有する。

【００１４】この音声認識方法において、非音声区間の
音に対してパワーレベルを検出するステップと、時々刻
々と変化するパワーレベルに合わせて、音声の始まりと
終わりを示す音声のパワーレベルを決めて、入力された
音声のパワーレベルが、前記音声の前記パワーレベルを
超えたら音声の始まりと判断し、前記音声の前記パワー
レベルを一定時間以上下回ったら音声の終わりと判断す
るステップを有する。また、この音声認識方法におい
て、前記非音声区間の音に対して、パワーレベルを検出
し、前記パワーレベルからノイズしきい値と、パワーし
きい値を計算するステップと、入力された音声のパワー
レベルがが前記ノイズしきい値を超え、さらに、前記パ
ワーしきい値を超えた場合、音声の始まりと判断するス
テップとを有する。この音声認識方法において、前記入
力された音声のパワーレベルが前記パワーしきい値を一
定以上の時間下回ったら音声の終わりと判断するステッ
プを有する。この音声認識方法において、予め定められ
た時間単位で区切られたフレームのパワーを複数フレー
ム亘って求めた平均のパワー前記パワーレベルとして求
めるステップと、前記ノイズしきい値は前記平均パワー
のN倍に設定するステップとを有する。この音声認識方
法においては、前記パワーしきい値ＰＴＨをノイズしき
い値ＮＴＨに比べて、ＰＴＨ＞ＮＴＨの関係を満足する
ように設定するステップを有する。また、音声認識方法
において、ノイズしきい値ＮＴＨとパワーしきい値ＰＴ
Ｈの関係を、比較的静かな環境下では、ΔＰＴＨ＝ＰＴ
Ｈ−ＮＴＨが小さくなるように設定し、逆に、雑音の大
きな環境下では、ΔＰＴＨ＝ＰＴＨ−ＮＴＨが大きくな
るように設定するステップとを有する。

【００１５】上記目的を達成するために、本発明の音声
認識システムは、音声認識の対象となる単語や文章を集
めて辞書として定義し、音声認識結果として、それらの
単語や文章をピックアップして、文字列表示や、単語が
示す画像や、音声合成を用いて認識結果を音声として出
力する音声認識システムにおいて、入力された音声に対
して、音声の始まりから終わりまでの音声区間を、音声
ではない区間と区別するために、常に、音声ではない区
間の情報を検出しながら音声区間を検出する音声区間検
出部と、取り込んだ音声に対して、音声分析処理を行う
音声分析部と、音声のパターンを音素単位でもつ音響モ
デルと、音声分析結果に対して音響モデルと辞書を連結
して、音声認識処理を行う音声認識部とを備え、音声区
間検出された音声に対して音声認識するようにしたもの
である。

【００１６】より詳しくは、入力された音声に対して、
音声の始まりから終わりまでの音声区間を、音声ではな
い区間と区別するために、常に音声ではない区間の情報
を検出しながら音声区間を検出する音声区間検出部は、
音声でない定常の雑音や、非定常の雑音や、静かな環境
での音全てに対してパワーレベルを検出し、時々刻々と
変化するパワーレベルに合わせて、音声の始まりと終わ
りを示す音声のパワーレベルを決めて、入力された音声
が、音声のパワーレベルを超えたら音声の始まりと判断
し、音声のパワーレベルを一定以上の時間下回ったら音
声の終わりと判断するようにしたものである。

【００１７】また詳しくは、音声区間検出部は、音声で
ない定常の雑音や、非定常の雑音や、静かな環境での音
全てに対して、常に、パワーレベルを検出し、音声の始
まりと終わりを示す音声のパワーレベルとして、ノイズ
しきい値ＮＴＨと、パワーしきい値ＰＴＨの二つのしき
い値を計算し、入力された音声がノイズしきい値ＮＴＨ
を超えて、さらに、パワーしきい値ＰＴＨを超えた場
合、音声の始まりと判断し、また、パワーしきい値ＰＴ
Ｈを一定以上の時間下回ったら音声の終わりと判断する
ようにしたものである。

【００１８】また詳しくは、ノイズしきい値ＮＴＨは、
常に入力されてくる音声でない定常の雑音や、非定常の
雑音や、静かな環境での音に対してパワーを計算し、短
い時間単位で区切られたフレームパワーＰＷの平均のN
倍とし、また、パワーしきい値ＰＴＨは、ノイズしきい
値ＮＴＨに比べて、ＰＴＨ > ＮＴＨの関係になるよう
に設定するようにしたものである。さらに詳しくは、ノ
イズしきい値ＮＴＨとパワーしきい値ＰＴＨの関係は、
比較的静かな環境下では、ΔＰＴＨ＝ＰＴＨ-ＮＴＨが
小さくなるように設定し、逆に、雑音の大きな環境下で
は、ΔＰＴＨ＝ＰＴＨ-ＮＴＨが大きくなるように設定
するようにしたものである。

【００１９】

【発明の実施の形態】以下、本発明による音声認識シス
テム及び方法に係る実施の形態を、図１から図６に示す
幾つかの実施例を用いて説明する。図１は本発明による
音声認識システムの各機能とその処理の流れを示すブロ
ック図である。実際に使用する環境下においては、図１
に示されるマイク１０１から、環境に応じた雑音や音声
が取り込まれる。取り込まれた雑音や音声であるアナロ
グ信号は、アナログ信号をデジタル信号に変換するＡ／
Ｄ変換器１０２によって、任意に決められたサンプリン
グ周期により、アナログデータからデジタルデータに変
換される。このアナログデータからデジタルデータに変
換する過程において、変換前あるいは変換後に、例え
ば、定常的な雑音を除去するために、ハイパスフィルタ
（ＨＰＦ）（図示せず）等が用いられる。

【００２０】変換された非定常な雑音や、ハイパスフィ
ルタで除去しきれなかった雑音や、音声のデジタルデー
タは音声区間検出部１０３により、フレーム単位にパワ
ーが計算される。フレーム単位とは、入力されてくる雑
音や音声を短い時間（５〜２０ｍｓ）ごとに、入力され
てくる時間順に区切られた単位である。パワーとは、そ
のフレーム単位にサンプリングされたデータの０次の自
己相関である。したがって、サンプリングされたデータ
は、電気的には、時間に対する電圧値である。これらを
正規化して、各サンプリングポイントの値を２乗した値
が各フレームのパワー値である。各サンプリングポイン
トの２乗の値を加算した値が全フレームのパワー値の合
計である。計算されたパワー値は、例えば、１フレーム
からｉフレーム（ｉ＝３２）の合計のパワー値をＰＷと
すると１フレームからｉフレームの平均のパワー値はＰ
Ｗ／ｉで求められる。１フレーム経過する毎に前のデー
タが捨てられ、新たな１フレームのデータを加えること
によって、平均のパワー値のデータが更新される。この
ようにして求められた平均パワーＰＷ／ｉから、音声区
間検出に必要なパラメータ、ノイズしきい値ＮＴＨ、パ
ワーしきい値ＰＴＨを決定する。ノイズしきい値ＮＴ
Ｈ、パワーしきい値ＰＴＨについては、後で詳細に説明
する。

【００２１】さらに、変換された音声のデジタルデータ
は、音声分析部１０４によって、雑音処理や音声分析や
話者適応などの前処理がなされ、音声認識部１０５によ
り、音声分析結果を用いて、音声の照合を行う。ここ
で、音声認識とは、２つの処理を実行する。第１の処理
は、音声区間検出部１０３により、雑音環境下において
音声を正しく検出する音声区間検出処理である。第２の
処理は、音声分析部１０４並びに音声認識部１０５によ
り、音声信号を解析して、それを短い時間（５〜２０ｍ
ｓ）ごとの音素として分析して、そのパターンを解析
し、該当する単語や文章を辞書から選択することであ
る。以上の２つの処理から、音声認識システムとして、
音声認識結果１０９を出力する。

【００２２】音声認識部１０５は、音声分析部１０４で
分析された入力音声の音声分析結果に対して、音響モデ
ル１０６、単語辞書１０７をモデル連結部１０８によっ
て連結された音素単位で照合して、登録した単語辞書１
０７の中で、一番近い単語をピックアップする。音響モ
デル１０６は、音声認識に用いられるモデルであり、具
体的には、単語辞書１０７に用いられている文字と音素
との対応であり、音素の特徴が出現する確率の分布、出
現した音素の特徴が次のどの特徴が現れる状態に遷移す
るかの確率の分布を記憶したものである。実際には、分
布を示すパラメータが記憶されており、音声認識処理毎
にパラメータから分布を計算する。これにより、音声認
識システム全体のメモリ容量が削減できる。音響モデル
１０６は、あらかじめ声を登録しなくても、誰が話し手
でもその声を認識できる、いわゆる「不特定話者対応」
が、一般的になってきている。このような音響モデルと
しては、例えば、隠れマルコフモデル（ＨＭＭ：Ｈｉｄ
ｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いることがで
きる。

【００２３】単語辞書１０７は、言葉、単語（名詞、動
詞等）、文章を集めたものである。例えば、カーナビゲ
ーションシステムにおいては、通り名、地名、建造物
名、町名、番地、交差点名、個人住宅（個人名）、電話
番号等や、必要最小限の会話に必要な言葉の集合体であ
る。この単語辞書１０７は、システムの能力に応じて一
つの辞書あたり、例えば１０〜５０００語の単語で構成
する。以上から、実際の環境で使用する音声認識システ
ムとは、雑音と音声とを正しく見極める音声区間検出
と、音声信号を解析して、それを短い時間ごとの音素と
して分析して、そのパターンを解析し、該当する単語や
文章を辞書から選択することである。なお、図１に示す
各処理ブロックは、複数のＬＳＩやメモリで構成された
システムであっても、半導体素子上に構成された一つな
いし複数のシステムオンチップであってもよい。また、
各処理は、専用ＬＳＩや専用ＩＣで処理するハードウエ
アであっても、ＤＳＰやＲＩＳＣマイコン等のソフトウ
エアで実現したミドルウエアであってもよい。

【００２４】図２（ａ）は音声入力波形図、図２（ｂ）
は音声パワーを示す特性図である。図２において、横軸
は時間ｔを示し、図２（ａ）の縦軸は電圧Ｖを、図２
（ｂ）の縦軸はパワーＰを示す。図２は図１で説明した
音声認識システムをカーナビゲーションシステムで使用
した場合、話者が車内で発声した音声、「渋谷（しぶ
や）ｓｈｉｂｕｙａ」の音声入力波形と音声のパワーを
示す。図２（ａ）の音声入力波形２０１は話者が平常の
音声で「しぶや」と発声したときの音声波形を示す。音
声信号は、時々刻々と変化する非定常な信号である。

【００２５】このときの周囲の環境は、比較的静かな一
般道路を４０ｋｍ／ｈで走行している乗用車の車内であ
る。車の窓はすべて閉められており、ラジオやカーステ
レオもオフされ、エアコンの出力は低い値に設定されて
いる。この音声信号を２０ｍｓの短時間で切り出して見
ると、定常信号と同様なスペクトル音声分析ができる。
切り出された音声信号のサンプル値から、例えば、音声
分析で広く用いられているＬＰＣ分析において、自己相
関関数を計算すると、音声の特徴パラメータの一つとし
て、音声のパワーが求められる。曲線２０２は音声波形
２０１の音声信号から計算されたパワーであり、時間ｔ
に対するパワーの変化を表わしている。

【００２６】ここで、この「ｓｈｉｂｕｙａ」の音声に
対して音声認識を正しく行うためには、音声区間検出を
する必要がある。そのためには、このパワー情報に対し
て、しきい値を任意に、すなわち、予め定められた計算
式で計算した値や実験から得られる値に設定し、入力さ
れた雑音および音声毎にこのしきい値を超えたかどうか
を観測する。この観測は、音声区間検出部１０３で行
う。

【００２７】雑音および音声を常に入力して以上の観測
を行ってもよいが、特に、カーナビゲーションシステム
に代表されるような複数の処理を実行しているシステム
ではできるだけＣＰＵの負荷を軽減して低消費電力化し
たい。よって、音声認識を行うときだけ雑音や音声を取
り込むようにするために、音声入力ボタンを押した時点
から雑音や音声が入力されるようにする。図２（ａ）に
おいて、２０４は音声入力ボタンが押された時点をしめ
す。音声入力ボタンとしては音声を取り入れる間ボタン
を押し続ける様にしてもよいし、最初に音声入力用ボタ
ンを押して音声を取り入れ、音声及び雑音が予め定めれ
れた値以下になるとこれを検知して自動的に音声の入力
がオフされるようにしてもい。

【００２８】図２（ｂ）において、レベルＮＴＨは雑音
と音声を区別する第１段階のしきい値を示し、ノイズし
きい値と称する。この音声の始まり近傍は、雑音と音声
とが同じパワーレベルであり、音声なのか雑音なのか区
別が困難である。そこで、ノイズしきい値ＮＴＨを超え
たら音声の始まりの可能性が高いと判断し、ノイズしき
い値ＮＴＨとパワー値Ｐを示す曲線２０２とが交わる時
点（又は交点）２０５のフレーム位置を記憶しておく。
つぎに、ＰＴＨは音声であることを見極めるための第２
段階のしきい値であり、パワーしきい値と称する。ここ
では、かなりのパワーレベルを検出することから、音声
であることが分かる。その時点、すなわち、パワーしき
い値ＰＴＨとパワー値Ｐを示す曲線２０２とが交わる時
点（又は交点）２０６は音声であることが分かる。した
がって、音声であることを検出した時点２０６におい
て、時点２０５で記憶したフレーム位置から認識処理を
開始する。あるいは、記憶したフレームよりもkフレー
ム前のフレームから認識処理を開始する。これにより、
雑音に埋もれた音声の始まりを検出して正しい認識が可
能となる。

【００２９】ノイズしきい値ＮＴＨの計算は音声入力用
ボタンを押さなくても、雑音及び音声はマイク１０１を
通して入力され、後述するＲＡＭに書き込まれるように
して常にノイズしきい値ＮＴＨを計算するようにし、音
声入力用ボタンが押される直前のＮＴＨの値を採用す
る。このように入力ボタンを押す前のｉフレーム分のデ
ータからノイズしきい値ＮＴＨを求め、ノイズしきい値
ＮＴＨとパワー値の比較を１フレーム毎に行うことによ
って、時点２０５を検出することができるし、この時点
２０５より前から認識処理を開始することができる。ま
た、音声には必ず文字と文字の間に無音声部分が存在す
る。例えば「渋谷」では、「ｓｈｉ」と「ｂｕ」、「ｂ
ｕ」と「ｙａ」の間に無音声部分が存在する。このと
き、音声のパワーレベルは、パワーしきい値ＰＴＨより
も低くなる。ところが音声はまだ終了していないことか
ら、音声が終了したと判断しては誤りである。よって、
音声のパワーレベルがパワーしきい値ＰＴＨより低くな
っても、その期間がある設定フレーム数未満ならば、ま
だ音声が終了していないとして認識処理を継続する。逆
に、その期間がある設定フレーム数以上ならば、音声が
終了したと判断して認識処理を終了する。図２（ｂ）に
おいて、時点２０７は音声が終了したと判断した時点で
あり、認識処理はその時点からｊフレーム後に終了する
ものとする。音声が終了したと判断した時点からｊフレ
ーム後まで音声パワーをパワーしきい値と比較するの
は、実際に音声が終了したのか、又は音声と音声の間の
無音部分なのかを判断するためである。なお、ｊフレー
ムの値は実験によって予め定められる。これにより、音
声の始まりと同様に、雑音に埋もれた音声の終わりを検
出して正しい認識が可能となる。この場合、ノイズしき
い値ＮＴＨはパワーしきい値ＰＴＨを超えないように設
定する。以上のようにして、正しい音声認識に必要な音
声区間検出である音声区間２０３が検出される。

【００３０】図３（ａ）は音声入力波形図、図３（ｂ）
は音声パワーを示す特性図である。図３（ａ）、（ｂ）
において、横軸は時間ｔを示し、図３（ａ）の縦軸は電
圧Ｖを、図３（ｂ）の縦軸はパワーＰを示す。図３
（ａ）は、図１で説明したカーナビゲーションシステム
に適用した音声認識システムにおいて、話者が車内で発
声した音声「渋谷（しぶや）ｓｈｉｂｕｙａ」の音声入
力波形と音声のパワーを示しており、このときの周囲の
環境は、かなり静かなパーキングに車を止めてアイドリ
ング状態にしている乗用車の車内であり、窓はすべて閉
められており、ラジオやカーステレオもオフされ、エア
コンの出力も低い値に設定されている。図３（ａ）の音
声入力波形３０１はこのような環境下における波形を示
している。図２で説明した環境下、すなわち比較的静か
な一般道路を、すべての窓は閉められ、ラジオやカース
テレオはオフされ、エアコンも低い値に押さえられてい
る状態で４０ｋｍ／ｈで走行している乗用車の車内とい
う環境下の音声のパワーレベルに比べて、図３（a）に
示す音声のパワーレベルは低くなる。この現象は、話者
の周囲の雑音のパワーレベルが低くなり、話者自身の音
声が小さくてもよく聞こえることから、音声のパワーレ
ベルが低くなるためである。よって、雑音のパワーレベ
ルが低くなり、音声のパワーレベルも低くなる環境下
で、正しい音声区間検出を行うためには、ノイズしきい
値ＮＴＨ、パワーしきい値ＰＴＨを下げる必要がある。
さらに、ＰＴＨとＮＴＨの差ΔＰＴＨも小さくなる。

【００３１】この音声信号を２０ｍｓの短時間で切り出
して見ると、定常信号と同様なスペクトル音声分析がで
きる。切り出された音声信号のサンプル値から、例え
ば、音声分析で広く用いられているＬＰＣ分析におい
て、自己相関関数を計算すると、音声の特徴パラメータ
の一つとして、音声のパワーが求められる。

【００３２】図３（ｂ）において、３０２は音声波形３
０１の音声信号から計算されたパワーＰを示す曲線であ
り、時間ｔに対するパワーの変化を表わしている。ここ
で、この「ｓｈｉｂｕｙａ」の音声に対して音声認識を
正しく行うためには、音声区間を検出をする必要があ
る。そのためには、このパワー情報に対して、しきい値
を任意に設定し、入力された雑音および音声毎にこのし
きい値を超えたかどうかを観測する。この観測は、音声
区間検出部１０３で行う。そこで、雑音および音声を常
に入力して前述の観測を行ってもよいが、特に、カーナ
ビゲーションシステムに代表されるような複数の処理を
実行しているシステムではできるだけＣＰＵの負荷を軽
減させて低消費電力化したい。よって、音声認識すると
きだけ雑音や音声を取り込むために、音声入力用ボタン
を押した時点から雑音や音声が入力されるものとする。
３０４が音声入力用ボタンが押された時点である。

【００３３】ＮＴＨは雑音と音声を区別する第１段階の
しきい値であり、ノイズしきい値と称する。この音声の
始まり近傍は、雑音と音声とが同じパワーレベルであ
り、音声なのか雑音なのか区別が困難である。そこで、
ノイズしきい値ＮＴＨを超えたら音声の始まりの可能性
が高いと判断し、時点３０５で示されるフレーム位置を
記憶しておく。つぎに、ＰＴＨは音声であることを見極
めるための第２段階のしきい値であり、パワーしきい値
と称する。ここでは、かなりのパワーレベルを検出する
ことから、音声であることがわかる。その時点が３０６
である。したがって、音声であることを検出した時点３
０６において、時点３０５で記憶したフレーム位置から
認識処理を開始する。あるいは、記憶したフレームより
もkフレーム前のフレームから認識処理を開始する。こ
れにより、雑音に埋もれた音声の始まりを検出して正し
い認識が可能となる。また、音声には必ず文字と文字の
間に無音声部分が存在する。例えば「渋谷」では、「ｓ
ｈｉ」と「ｂｕ」、「ｂｕ」と「ｙａ」の間に無音声部
分が存在する。このとき、音声のパワーレベルは、パワ
ーしきい値ＰＴＨよりも低くなる。ところが音声はまだ
終了していないことから、音声が終了したと判断しては
誤りである。よって、音声のパワーレベルがパワーしき
い値ＰＴＨより低くなっても、その期間がある設定フレ
ーム数未満ならば、まだ音声が終了していないとして認
識処理を継続する。逆に、その期間がある設定フレーム
数以上ならば、音声が終了したと判断して認識処理を終
了する。図３（ｂ）において、時点３０７が音声が終了
したと判断された時点であり、認識処理はその時点から
ｊフレーム後に終了するものとする。

【００３４】前述のようにすることによって、音声の始
まりと同様に、雑音に埋もれた音声の終わりを検出して
正しい認識が可能となる。このとき、ノイズしきい値Ｎ
ＴＨは、パワーしきい値ＰＴＨを超えないものとする。
以上のようにして、正しい音声認識に必要な音声区間検
出である音声区間３０３が検出される。

【００３５】図３（ｃ）は音声入力波形図、図３（ｄ）
は音声パワーを示す特性図である。図３（ｃ）、（ｄ）
において、横軸は時間ｔを示し、図３（ｃ）の縦軸は電
圧Ｖを、図２（ｄ）の縦軸はパワーＰを示す。図３
（ｃ）、（ｄ）は、図１で説明したカーナビゲーション
システムに適用した音声認識システムにおいて、話者が
車内で発声した音声「渋谷（しぶや）ｓｈｉｂｕｙａ」
の音声入力波形と音声のパワーを示したものである。図
３（ｃ）に示す波形３１１は、すべての窓は閉められ、
ラジオやカーステレオもオフされ、エアコンの出力も低
い値に設定されているにも関わらず、高速道路を１００
ｋｍ／ｈで走行しているために車内にはかなりの雑音が
あり、かなりうるさい車内環境状況にある時の音声入力
波形を示している。

【００３６】図３（ｃ）に示す音声入力波形３１１の音
声パワーレベルは図３（ａ）に示す音声入力波形３０１
の音声パワーレベルに比べて、かなり高くなっている。
この現象は、図３（ｃ）の場合の話者の周囲の雑音のパ
ワーレベルが高く、話者自身の音声がよく聞こえず、大
きな声で発生することから、音声のパワーレベルが高く
なるためである。雑音のパワーレベルが高くなり、音声
のパワーレベルも高くなる環境下で、正しい音声区間検
出を行うためには、ノイズしきい値ＮＴＨ、パワーしき
い値ＰＴＨを上げる必要がある。さらに、ＰＴＨとＮＴ
Ｈの差ΔＰＴＨも大きくなる。

【００３７】この音声信号を２０ｍｓの短時間で切り出
して見ると、定常信号と同様なスペクトル音声分析がで
きる。切り出された音声信号のサンプル値から、例え
ば、音声分析で広く用いられているＬＰＣ分析におい
て、自己相関関数を計算すると、音声の特徴パラメータ
の一つとして、音声のパワーが求められる。

【００３８】図３（ｄ）に示す曲線３１２は、音声波形
３１１の音声信号から計算されたパワーＰをしめし、時
間ｔにおけるパワーの変化を表わしている。ここで、こ
の「ｓｈｉｂｕｙａ」の音声に対して音声認識を正しく
行うためには、音声区間検出をする必要がある。そのた
めには、このパワー情報に対して、しきい値を任意に設
定し、入力された雑音および音声毎にこのしきい値を超
えたかどうかを観測する。この観測は、音声区間検出部
１０３で行う。そこで、雑音および音声を常に入力して
以上の観測を行ってもよいが、特に、カーナビゲーショ
ンシステムに代表されるような複数の処理を実行してい
るシステムではできるだけＣＰＵの負荷を軽減させて低
消費電力化したい。よって、音声認識するときだけ雑音
や音声を取り込むために、音声入力用ボタンを押した時
点から雑音や音声が入力されるものとする。３１４は音
声入力用ボタンが押された時点をしめす。

【００３９】図（ｄ）において、ＮＴＨは雑音と音声を
区別する第１段階のしきい値であり、ノイズしきい値と
称する。この音声の始まりの近傍は、雑音と音声とが同
じパワーレベルにあるため、音声なのか雑音なのか区別
が困難である。そこで、ノイズしきい値ＮＴＨを超えた
ら音声の始まりの可能性が高いと判断し、時点３１５で
示されるフレーム位置を記憶しておく。つぎに、ＰＴＨ
は音声であることを見極めるための第２段階のしきい値
であり、パワーしきい値と称する。ここでは、かなりの
パワーレベルを検出することから、音声であることがわ
かる。その時が時点３１６である。したがって、音声で
あることを検出した時点３１６において、時点３１５で
記憶したフレーム位置から認識処理を開始する。あるい
は、記憶したフレームよりもkフレーム前のフレームか
ら認識処理を開始する。これにより、雑音に埋もれた音
声の始まりを検出して正しい認識が可能となる。

【００４０】また、音声には必ず文字と文字の間に無音
声部分が存在する。例えば「渋谷」では、「ｓｈｉ」と
「ｂｕ」、「ｂｕ」と「ｙａ」の間に無音声部分が存在
する。この場合、音声のパワーレベルは、パワーしきい
値ＰＴＨよりも低くなる。ところが音声はまだ終了して
いないことから、音声が終了したと判断しては誤りであ
る。よって、音声のパワーレベルがパワーしきい値ＰＴ
Ｈより低くなっても、その期間がある設定フレーム数未
満ならば、まだ音声が終了していないとして認識処理を
継続する。逆に、その期間がある設定フレーム数以上な
らば、音声が終了したと判断して認識処理を終了する。
図３（ｄ）において、３１７は音声が終了したと判断し
た時点を示しており、認識処理はその時点からｊフレー
ム後に終了するものとする。これにより、音声の始まり
と同様に、雑音に埋もれた音声の終わりを検出して正し
い認識が可能となる。このとき、ノイズしきい値ＮＴＨ
は、パワーしきい値ＰＴＨを超えないものとする。以上
から、正しい音声認識に必要な音声区間検出である音声
区間３１３が検出される。

【００４１】しかしながら、今仮に、ノイズしきい値Ｎ
ＴＨが図３（ｄ）において、ＮＴＨ1の位置に設定され
たとする。本来なら、正しい音声区間は３１３で示され
る区間であり、ノイズしきい値ＮＴＨとパワーレベルの
交点３１５を検出しなければならない。ところが、ノイ
ズしきい値ＮＴＨ1とパワーレベルの交点は存在せず、
音声入力用ボタンが押された３１４の時点ですでに、雑
音のパワーレベルがＮＴＨ1を超えていることから、ボ
タンの押された直後の時点３１９から音声の始まりと判
断して、音声区間は３１８となり、誤った音声区間を検
出するため、認識結果も誤認識となる。以上のことから
明らかなように、ノイズしきい値ＮＴＨ、パワーしきい
値ＰＴＨを、実際に使用する環境に合わせて、それも、
時間的に短いサイクル（例えば、３秒間隔）で最適な値
に設定、更新していく必要がある。特に、カーナビゲー
ションシステム、カーエレクトロニクス製品、ＰＤＡ、
ハンドヘルドＰＣ等の使用する環境では、雑音レベルが
短い時間の間隔で相当変動する。

【００４２】以下にノイズしきい値ＮＴＨ、パワーしき
い値ＰＴＨの計算式の１例を（数１）〜（数５）に示
す。なお、（数１）〜（数５）において、ＰＷは音声認
識モードになってから、音声入力用ボタンが押される直
前の１からｉフレーム間の入力雑音パワーの総和を示
し、ＰＷ／ｉは１フレームからｉフレーム間の入力雑音
パワーの平均値を示す。また、Ｎ１、Ｎ２、Ｎ３は安全
率であり、実験によって定める正の整数である。本発明
の実施例においては、Ｎ１、Ｎ２を５に定め、Ｎ６は１
０に定めている。このＮ１〜Ｎ３の値は音声入力用ボタ
ンを押す前のｉフレーム（例えば、３２フレーム）の平
均のパワー値によって変えてもよい。Ｐ１はノイズの状
況によって変わる値であり、ノイズが一定の場合には予
め定められた一定値を取る。例えば、音声入力用ボタン
を押す前のｉフレーム（例えば３２フレーム）の平均的
なパワー値をみて、ノイズ値が大きい場合にはＰ１は大
きく設定され、ノイズ値が小さい時にはＰ１は小さく設
定される。ＮＴＨ、ＰＴＨは正規化された値を取ること
から、本実施例においてはＰ１＝１００，０００であ
る。Ｐ２はＰ１と同様ノイズ値によって左右されるが、
実験によって定める。

【００４３】ＮＴＨ＝（ＰＷ／ｉ）×Ｎ１ …（数１）ＰＴＨ＝ＮＴＨ＋Ｐ１ …（数２）あるいは、ＮＴＨ＝（ＰＷ／ｉ）×Ｎ２ …（数３）ＰＴＨ＝（ＰＷ／ｉ）×Ｎ３ …（数４）ただし、もし、ＰＴＨ＜Ｐ２、ならばＰＴＨ＝Ｐ２ …（数５）次に、図４を用いて本発明による音声認識システムおよ
び方法に係るハードウエア構成について説明する。図４
は本発明による音声認識システムの一実施例を示すブロ
ック図である。音声を取り込むためのマイク４０１とし
ては、カーナビゲーションシステム、携帯型情報端末、
ＰＤＡ、ハンドヘルドＰＣ、ゲーム、携帯型翻訳機、並
びに、エアコン等の家庭電化製品等では、周囲の雑音を
取り込まないために指向性をもたせた指向性マイクが用
いられる。４０４は、マイク４０１により取り込まれた
アナログ音声データを、デジタル音声データに変換する
Ａ／Ｄ変換器である。音声入力用ボタン４０２は、音声
を入力している区間を指定するためのボタンである。ボ
タンが押されている間、あるいは、ボタンが押された時
点から音声が入力されたことをシステムに知らせる。４
０５は、音声入力用ボタン４０２と、システムを接続す
るためのインタフェースである。

【００４４】キー入力用デバイス４０９は、例えば、携
帯型情報端末であれば、ペン入力用のデジタイザであ
り、ハンドヘルドＰＣであれば、キーボードである。ま
た、ファミコンなどのゲーム機であれば、キャラクタ等
を操作するキーパッドや、ジョイスティックである。４
１０は、キー入力用デバイス４０９と、システムを接続
するためのインタフェースである。ＣＰＵ４０３は、カ
ーナビゲーションシステム、携帯型情報端末、ＰＤＡ、
ハンドヘルドＰＣ、ゲーム、携帯型翻訳機、並びに、家
庭電化製品等のメインシステムの制御と、音声認識シス
テムにおける音声認識処理を行う。このＣＰＵ４０３に
は、ＲＩＳＣマイコンやＤＳＰが用いられるのが、最近
の潮流である。ＲＯＭ４０６は、音声認識用単語辞書、
音響モデル、プログラムを格納しておく記憶装置であ
る。また、複数の辞書や、音響モデルを格納しておくた
めに、メモリカードを用いてもよい。

【００４５】ＲＡＭ４０７は、ＲＯＭ４０６から転送さ
れた一部の辞書や、音響モデル、プログラムが格納さ
れ、また、音声認識処理に必要な必要最小限のワークメ
モリであり、ＲＯＭ４０６に比べて、通常アクセス時間
の短い半導体素子が用いられる。バス４０８は、システ
ムにおけるデータバス、アドレスバス、制御信号バスと
して用いられる。音声認識結果を出力表示するためのデ
ィスプレイ４１２は、ＴＦＴ液晶ディスプレイ等のＬＣ
Ｄで構成され、音声認識結果を表示する。４１１は、デ
ィスプレイ４１２と、システムを接続するためのインタ
フェースである。音声認識結果を音で出力するためのス
ピーカ４１４は、音声認識結果を音声合成して出力す
る。４１３は、音声認識結果をテキストから音声合成デ
ータに変換処理した後、デジタル音声合成データからア
ナログ音声信号に変換するＡ／Ｄ変換器である。

【００４６】以下、本発明に係る音声認識システムおよ
び方法の一実施例を図５および図６を用いて説明する。
本実施例では、本発明の音声認識システムをカーナビゲ
ーションシステム、カーマルチメディア、カーエレクト
ロニクス製品に適用した場合について説明する。

【００４７】図５は本発明による音声認識システムおよ
び方法に使用される音声区間検出の動作フローの一実施
例を説明するためのフローチャートである。図におい
て、ステップ５０１はカーナビゲーションシステムが起
動したことを示すスタートである。ステップ５０１にお
いて、カーナビゲーションシステムがスタートすると、
ステップ５０２に移り、カーナビゲーションシステムの
音声認識システムが起動する。例えば、リモコンを操作
して、音声認識モードに切り変えた状態を示している。
音声認識モードの状態になると、ステップ５０３に移行
し、マイクから入力されてくる雑音や音声のパワーの計
算をフレーム毎に開始する。例えば、３２フレーム分計
算し終わった時点で、（数１）〜（数５）に示すノイズ
しきい値ＮＴＨ、パワーしきい値ＰＴＨの式にしたがっ
て、ＮＴＨとＰＴＨを計算する。次からは、例えば、１
フレーム毎に、新しいフレームと一番古いフレームのパ
ワー値を入れ変えて、再度、ＮＴＨとＰＴＨを計算し更
新する。この頻度は、システムにより異なり、１秒に１
回、２秒に１回、３秒に１回というように実行する。

【００４８】次に、ステップ５０４で、音声認識を実行
するに当たり話者は音声入力ボタン４０２を押す。この
時点で、ステップ５０５において、ステップ５０３で計
算されたＮＴＨとＰＴＨの最新の値を、実際に使用する
音声区間検出のためのＮＴＨおよびＰＴＨと決定する。
ステップ５０６では、ステップ５０５で決定されたＮＴ
ＨおよびＰＴＨを用いて音声区間検出が実行される。ス
テップ５０７は、音声区間検出および音声認識処理が終
了したことを示す。

【００４９】なお、ステップ５０６の音声区間検出につ
いては、図６を用いて詳細に説明する。図６は図５で説
明した音声区間検出の動作フローの一実施例を説明する
ためのフローチャートである。ステップ６０１で音声区
間検出が起動する。ステップ６０２では、入力された雑
音や音声の１フレーム毎のパワーＰＷが、ノイズしきい
値ＮＴＨと比較される。その結果が、ＮＴＨ＜ＰＷに
ついて、ＮＯの場合には、音声の始まりではないと判断
されて、次に入力されてくるフレームに対して、同様な
処理を行う。ＹＥＳの場合には、音声の始まりと判断し
てステップ６０４の処理へ進む。

【００５０】ステップ６０４では、さらに、パワーＰＷ
がパワーしきい値ＰＴＨと比較される。その結果が、Ｐ
ＴＨ＜ＰＷについて、ＮＯの場合には、ステップ６０８
に移行し、カウンタ（ＣＮＴ）を１カウントアップ（＋
１）、すなわち（インクリメント）して、ステップ６０
６へ進む。ＹＥＳの場合には、ステップ６０９で、カウ
ンタ（ＣＮＴ）の値を、ＣＮＴ＝０にして、ステップ６
０５の音声認識処理へ進み、リコグニションフラッグ
（ＲＦ）を、ＲＦ＝１にして、音声分析ならびに音声照
合などの音声認識処理がそのフレームに対して実行され
る。先に述べたステップ６０４でＮＯの場合で、まだ、
ステップ６０５の認識処理を一度も実行していない場合
は、ステップ６０６のＣＮＴ＜ｎ＆ＲＦ＝１についてＮ
Ｏであるため、ステップ６０３で、ＲＦ＝０、ＣＮＴ＝
０にして、ステップ６０７でフレーム毎の音声区間検出
を終了する。ステップ６０６で、ＣＮＴ＜ｎのｎは、音
声と音声の間の数、例えば「ｓｈｉ」と「ｂｕ」の間、
「ｂｕ」と「ｙａ」の間のように音声が途切れる数を示
している。従って、ＣＮＴ＜ｎがＮＯと言うことはカウ
ンタ値がｎよりも大きい、すなわち音声が終了している
ことを示しており、予め定められたフレーム、例えば３
０フレーム以上音声がこないことを意味する。リコグニ
ションＲＦは０又は１の値を取り、音声認識処理をして
いる場合は１、その他の場合は０の値を取る。

【００５１】また、ステップ６０５の認識処理を実行し
ている場合で、ステップ６０４でＮＯの場合は、ＲＦ＝
１であり、カウンタ値が、ｎよりも小さければ、ＣＮＴ
＜ｎ＆ＲＦ＝１についてＹＥＳであり、音声が終了して
いないと判断して、ステップ６０５の音声認識処理へ進
み、認識処理を実行する。さらに、ステップ６０５の
認識処理を実行している場合で、ステップ６０４でＮＯ
の場合は、ＲＦ＝１であり、カウンタ値が、ｎよりも大
きければ、ＣＮＴ＜ｎ＆ＲＦ＝１についてＮＯであり、
音声が終了したと判断して、ステップ６０３で、ＲＦ＝
０、ＣＮＴ＝０にして、ステップ６０７でフレーム毎の
音声区間検出を終了する。以上の動作により、音声区間
検出が実行される。

【００５２】

【発明の効果】本発明によれば、カーナビゲーションシ
ステム、小型情報システム、ゲームに用いられる音声認
識システムにおいて、実際に使用する環境で、雑音のレ
ベルに合わせて音声区間検出用しきい値の設定を自動化
し、自動しきい値設定による音声区間検出および、認識
性能が実環境下でも劣化しない、良好な音声認識システ
ムを実現することができる。

【図面の簡単な説明】

【図１】本発明による音声認識システムの各機能とその
処理の流れを示すブロック図である。

【図２】音声入力波形および音声パワーを示す特性図で
ある。

【図３】音声入力波形および音声パワーを示す特性図で
ある。

【図４】本発明による音声認識システムのハードウエア
構成を示すブロック図である。

【図５】本発明による音声認識システムおよび方法に使
用される音声区間検出動作の一実施例を説明するための
フローチャートである。

【図６】図５で示した音声区間検出の動作フローの一実
施例を説明するためのフローチャートである。

【図７】従来の音声認識システムを使用した携帯型翻訳
装置のブロック図である。

【符号の説明】

１０１…音声入力用マイク、１０２…Ａ／Ｄ変換器、１
０３…音声区間検出部、１０４…音声分析部、１０５…
音声認識部、１０６…音響モデル、１０７…単語辞書、
１０８…音響モデルと単語辞書の連結部、２０１…音声
入力波形、２０２…音声パワー。

───────────────────────────────────────────────────── フロントページの続き (72)発明者小窪浩明東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内Ｆターム(参考） 5B091 CB12 CD01 5D015 CC14 DD05 KK01

Claims

【特許請求の範囲】

【請求項１】音声認識の対象となる単語や文章を集めた
辞書と、音声認識結果として前記辞書から得られた内容
を表示又は音声として出力する音声認識システムにおい
て、検出された非音声区間の情報に基づいて音声区間を
検出する音声検出部を設け、前記検出された音声区間の
音声認識を行うことを特徴とする音声認識システム。
【請求項２】請求項１記載の音声認識システムにおい
て、前記非音声区間のパワーからノイズしきい値を求め
ることを特徴とする音声認識システム。
【請求項３】請求項２記載の音声認識システムにおい
て、前記ノイズしきい値と前記音声区間のパワーとを比
較し、前記音声区間の前記パワーが前記ノイズしきい値
に達した時点近傍から音声認識処理を開始することを特
徴とする音声認識システム。
【請求項４】請求項２記載の音声認識システムにおい
て、前記ノイズしきい値と前記音声区間のパワーとを比
較し、前記音声区間の前記パワーが前記ノイズしきい値
に達した時点からあらかじめ定められた時間遡って音声
認識処理を行うことを特徴とする音声認識システム。
【請求項５】請求項２記載の音声認識システムにおい
て、前記ノイズしきい値は、音声又はノイズのパワーを
分析する単位であるフレームのあらかじめ定められた数
の集合体の平均のパワーに基づいて求められることを特
徴とする音声認識システム。
【請求項６】請求項２記載の音声認識システムにおい
て、前記ノイズしきい値に基づいてパワーしきい値を求
めることを特徴とする音声認識システム。
【請求項７】請求項６記載の音声認識システムにおい
て、前記音声区間のパワーが前記ノイズしきい値を超
え、前記パワーしきい値に到達した時に音声の始まりと
判断して、この時点から予め定められた時間前から音声
認識処理を行うことを特徴とする音声認識システム。
【請求項８】請求項６記載の音声認識システムにおい
て、音声入力用ボタンを設け、前記ボタンが押された以
降で、前記音声区間のパワーが前記ノイズしきい値に達
した時に、その時点の音声の分析単位であるフレームを
記憶することを特徴とする音声認識システム。
【請求項９】請求項８記載の音声認識システムにおい
て、前記音声区間のパワーが前記パワーしきい値に達し
た時、少なくとも前記記憶された前記フレームから音声
認識処理をすることを特徴とする音声認識システム。
【請求項１０】請求項６記載の音声認識システムにおい
て、前記音声区間のパワーが前記パワーしきい値より低
下する期間が、予め定められた時間以下の場合、音声と
音声の間の無声音部分と判断することを特徴とする音声
認識システム。
【請求項１１】請求項６記載の音声認識システムにおい
て、前記音声区間の前記パワーが前記パワーしきい値以
下に低下した後、予め定められた時間、前記音声区間の
前記パワーが前記パワーしきい値よりも低い値に保たれ
ている時には音声区間が終了したと判断することを特徴
とする音声認識システム。
【請求項１２】音声認識結果として、音声認識の対象と
なる単語や文章を集めた辞書からピックアップされた内
容を表示又は音声として出力する音声認識方法におい
て、検出された非音声区間の情報に基づいて音声区間を
検出するステップと、前記検出された音声区間の音声認
識を行うステップとを有することを特徴とする音声認識
方法。
【請求項１３】請求項１２記載の音声認識方法におい
て、前記非音声区間のパワーからノイズしきい値を求め
るステップを設けることを特徴とする音声認識方法。
【請求項１４】請求項１３記載の音声認識方法におい
て、前記ノイズしきい値と前記音声区間のパワーとを比
較し、前記パワーが前記ノイズしきい値に達した時点近
傍から音声認識処理を開始するステップを有することを
特徴とする音声認識方法。
【請求項１５】請求項１２記載の音声認識方法におい
て、前記非音声区間のパワーからノイズしきい値を求め
るステップと、前記ノイズしきい値に基づいてパワーし
きい値を求めるステップとを有することを特徴とする音
声認識方法。
【請求項１６】請求項１５記載の音声認識方法におい
て、前記音声区間のパワーが前記パワーしきい値より低
下する期間が予め定められた時間以下の場合、音声と音
声の間の無声音部分と判断するステップを有することを
特徴とする音声認識方法。
【請求項１７】請求項１５記載の音声認識方法におい
て、前記音声区間のパワーが前記パワーしきい値以下に
低下した後、この状態を保って予め定められた時間が経
過した時には音声区間が終了したと判断するステップを
有することを特徴とする音声認識方法。
【請求項１８】音声認識の対象となる単語や文章を集め
て辞書として定義し、音声認識された単語や文章を辞書
からピックアップして、文字列表示や、単語が示す画像
や、音声合成を用いて音声として出力する音声認識シス
テムにおいて、入力された音声に対して、音声の始まりから終わりまで
の音声区間を、音声を含まない非音声区間と区別するた
めに、非音声区間の情報を検出しながら音声区間を検出
する音声区間検出部と、取り込んだ音声に対して、音声
分析処理を行う音声分析部と、音声のパターンを音素単
位でもつ音響モデルと、音声分析結果に対して、音響モ
デルと辞書を連結して、音声認識処理を行う音声認識部
とを備え、音声区間で検出された音声に対して音声認識
を行うことを特徴とする音声認識システム。
【請求項１９】請求項１８記載の音声認識システムにお
いて、前記音声区間検出部は、非音声区間の音に対して
パワーレベルを検出し、時々刻々と変化するパワーレベ
ルに合わせて、音声の始まりと終わりを示す音声のパワ
ーレベルを決めて、入力された音声が、前記音声の前記
パワーレベルを超えたら音声の始まりと判断し、音声の
パワーレベルを一定以上の時間下回ったら音声の終わり
と判断することを特徴とする音声認識システム。
【請求項２０】請求項１８又は１９記載の音声認識シス
テムにおいて、前記音声区間検出部は非音声区間の音に
対して、パワーレベルを検出し、前記パワーレベルから
ノイズしきい値と、パワーしきい値のしきい値を計算
し、入力された音声がノイズしきい値を超え、さらに、
パワーしきい値を超えた場合、音声の始まりと判断する
ことを特徴とする音声認識システム。
【請求項２１】請求項２０記載の音声認識システムにお
いて、前記音声の前記パワーレベルが前記しきい値を一
定時間以上下回ったら音声の終わりと判断することを特
徴とする音声認識システム。
【請求項２２】請求項は２０記載の音声認識システムに
おいて、前記パワーレベルは、予め定められた時間単位
で区切られたフレームのパワーを複数フレーム亘って求
めた平均のパワーとし、前記ノイズしきい値は前記平均
パワーのN倍に設定することを特徴とする音声認識シス
テム。
【請求項２３】請求項は２２記載の音声認識システムに
おいて、前記パワーしきい値ＰＴＨは、ノイズしきい値
ＮＴＨに比べて、ＰＴＨ＞ＮＴＨの関係を満足するよう
に設定することを特徴とする音声認識システム。
【請求項２４】請求項２３記載の音声認識システムにお
いて、ノイズしきい値ＮＴＨとパワーしきい値ＰＴＨの
関係は、比較的静かな環境下では、ΔＰＴＨ＝ＰＴＨ−
ＮＴＨが小さくなるように設定し、逆に、雑音の大きな
環境下では、ΔＰＴＨ＝ＰＴＨ−ＮＴＨが大きくなるよ
うに設定することを特徴とする音声認識システム。
【請求項２５】音声認識の対象となる単語や文章を集め
て辞書として定義し、音声認識された単語や文章を辞書
からピックアップして、文字列表示や、単語が示す画像
や、音声合成を用いて音声として出力する音声認識方法
において、入力された音声に対して、音声の始まりから終わりまで
の音声区間を、音声を含まない非音声区間と区別するた
めに、非音声区間の情報を検出しながら音声区間を検出
するステップと、音声区間で検出された音声に対して、
音声分析処理を行うステップと、音声のパターンを音素
単位でもつ音響モデルと前記辞書とを連結して、音声分
析結果に対して、音声認識処理を行うステップとを有す
ることを特徴とする音声認識方法。
【請求項２６】請求項２５記載の音声認識方法におい
て、非音声区間の音に対してパワーレベルを検出するス
テップと、時々刻々と変化するパワーレベルに合わせ
て、音声の始まりと終わりを示す音声のパワーレベルを
決めて、入力された音声のパワーレベルが、前記音声の
前記パワーレベルを超えたら音声の始まりと判断し、前
記音声の前記パワーレベルを一定時間以上下回ったら音
声の終わりと判断するステップを有することを特徴とす
る音声認識方法。
【請求項２７】請求項２５又は２６記載の音声認識方法
において、前記非音声区間の音に対して、パワーレベル
を検出し、前記パワーレベルからノイズしきい値と、パ
ワーしきい値を計算するステップと、入力された音声の
パワーレベルがが前記ノイズしきい値を超え、さらに、
前記パワーしきい値を超えた場合、音声の始まりと判断
するステップとを有することを特徴とする音声認識方
法。
【請求項２８】請求項２７記載の音声認識方法におい
て、前記入力された音声のパワーレベルが前記パワーし
きい値を一定以上の時間下回ったら音声の終わりと判断
するステップを有することを特徴とする音声認識方法。
【請求項２９】請求項２７記載の音声認識方法におい
て、予め定められた時間単位で区切られたフレームのパ
ワーを複数フレーム亘って求めた平均のパワー前記パワ
ーレベルとして求めるステップと、前記ノイズしきい値
は前記平均パワーのN倍に設定するステップとを有する
ことを特徴とする音声認識方法。
【請求項３０】請求項２９記載の音声認識方法におい
て、前記パワーしきい値ＰＴＨをノイズしきい値ＮＴＨ
に比べて、ＰＴＨ＞ＮＴＨの関係を満足するように設定
するステップを有することを特徴とする音声認識システ
ム。
【請求項３１】請求項３０記載の音声認識方法におい
て、ノイズしきい値ＮＴＨとパワーしきい値ＰＴＨの関
係を、比較的静かな環境下では、ΔＰＴＨ＝ＰＴＨ−Ｎ
ＴＨが小さくなるように設定し、逆に、雑音の大きな環
境下では、ΔＰＴＨ＝ＰＴＨ−ＮＴＨが大きくなるよう
に設定するステップとを有することを特徴とする音声認
識方法。
【請求項３２】請求項２２記載の音声認識システムにお
いて、ノイズしきい値は、比較的静かで、短時間におけ
る雑音パワーの変動が小さい環境下ではＮの値を小さく
なるように設定し、逆に雑音の大きな短時間における雑
音パワーの変動が大きい環境下ではＮの値を大きくなる
ように設定することを特徴とする音声認識システム。
【請求項３３】請求項２９記載の音声認識方法におい
て、ノイズしきい値は、比較的静かで、短時間における
雑音パワーの変動が小さい環境下では、Ｎの値を小さく
なるように設定し、逆に雑音の大きな短時間における雑
音パワーの変動が大きい環境下では、Ｎの値を大きくな
るように設定するステップを有することを特徴とする音
声認識方法。