JP2000029486A - 音声認識システムおよび方法 - Google Patents

音声認識システムおよび方法

Info

Publication number
JP2000029486A
JP2000029486A JP10193850A JP19385098A JP2000029486A JP 2000029486 A JP2000029486 A JP 2000029486A JP 10193850 A JP10193850 A JP 10193850A JP 19385098 A JP19385098 A JP 19385098A JP 2000029486 A JP2000029486 A JP 2000029486A
Authority
JP
Japan
Prior art keywords
voice
speech
power
speech recognition
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10193850A
Other languages
English (en)
Inventor
Shinji Wakizaka
新路 脇坂
Kazuo Kondo
和夫 近藤
Hiroaki Kokubo
浩明 小窪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10193850A priority Critical patent/JP2000029486A/ja
Publication of JP2000029486A publication Critical patent/JP2000029486A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】実際に使用する環境下で、雑音と音声を正しく
見極める。 【解決手段】入力された音声に対して、音声の始まりか
ら終わりまでの音声区間を、音声ではない区間と区別す
るために、音声ではない区間の情報を検出しながら音声
区間を検出する音声区間検出部を設ける。この検出部は
定常、又は非定常の雑音や、その他の音全てに対してパ
ワーレベルを検出し、時々刻々と変化するパワーレベル
に合わせて、音声の始まりと終わりを示す音声のパワー
レベルを決めて、入力された音声が、音声のパワーレベ
ルを超えたら音声の始まりと判断し、音声のパワーレベ
ルを一定以上の時間下回ったら音声の終わりと判断す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識システム
および方法に係わり、カーナビゲーションシステム、車
載用PC、PDA、ハンドヘルドPCに代表される小型
情報機器、携帯型音声翻訳機、ゲーム、家電機器に用い
る音声認識システム及び方法に関する。本発明は、特
に、カーナビゲーションシステムや車載用PC等のよう
に、時間的に変動する雑音環境下での音声認識システム
および方法に適用して好適である。
【0002】
【従来の技術】近年、音声認識技術を用いた小型情報シ
ステムが普久しつつある。カーナビゲーションシステム
をはじめとして、PDAに代表される小型情報機器、携
帯型翻訳機等である。このような音声認識システムの例
として、特開平5ー35776号公報の「言語自動選択
機能付翻訳装置」には、マイクから入力した操作者の音
声を認識して、翻訳し、翻訳した言語の音声を出力する
ようにした携帯用の翻訳装置に関する技術が開示されて
いる。
【0003】以下、図7を用いてこのような従来技術に
係わる音声翻訳装置の概要について説明する。図7は、
従来技術に係わる音声翻訳装置の構成を示すブロック図
である。制御部701は、マイクロプロセッサ等からな
り、装置の各部を制御する。音声区間切出し部702
は、マイク709から入力された音声をデジタル信号に
変換して切り出し、音声認識部703に送る。音声認識
部703は、キーボード又はスイッチ等により線路71
1を介して入力された操作信号に基づく制御部701か
らの指示によって、マイク709、音声区間切出し部7
02を経て、切り出された音声を分析する。そしてその
分析結果を、音声認識辞書部707に格納された標準音
声パターンと比較することにより、音声認識をおこな
う。音声合成部705は、音声認識部703により認識
された音声に対応した翻訳語を、翻訳語データ用メモリ
カード706から読み込み、音声信号に変換してスピー
カアンプ710、スピーカ708を経て出力する。
【0004】表示部704は、翻訳装置の使用者への指
示や翻訳語の文字による表示等をおこなう。翻訳語デー
タ用メモリカード706は、ROMカード等からなり、
翻訳語を音声合成して出力する場合には、音声データを
格納している。また、この翻訳語データ用メモリカード
706から、翻訳語に対応したキャラクターコードを読
み込み、表示部704に文字として表示する。そして、
この翻訳語データ用メモリカード706を他の言語のも
のと交換することにより、複数の言語に翻訳することが
可能となる。音声認識辞書部707は、RAM等からな
り、操作者の発声に応じた標準音声パターンを格納して
いる。この標準音声パターンは、操作者があらかじめ格
納しておく。
【0005】
【発明が解決しようとする課題】このような音声認識、
音声合成技術の分野は、半導体技術の向上を背景とし
て、システムがより人間的なユーザインタフェースを提
供すべきであるという要望から、その発展が期待されて
いる。上記従来の音声認識技術を用いた小型情報システ
ムにおいても、カーナビゲーションシステムをはじめと
して、PDAに代表される携帯型情報機器、携帯型翻訳
機、さらに、音声インタフェースを持った情報家電とし
て、今後ますます普及してくることが予想される。しか
しながら、音声認識は、処理すべき情報量が膨大なもの
になるため、従来の技術では、認識率や認識応答時間の
性能を低下させないために、認識する語数に制約を設け
る必要がある。そのためには、あらかじめ登録しておい
た単語、文に対して、その文字列が持つ統計的な話者の
音声の特徴と、実際に話者が発声した音声の特徴とを比
較し、確率的に一番近い値を認識結果としている。今
後、音声認識における技術革新や、それを実現するソフ
トウエア、ハードウエアの性能向上により、認識率や認
識応答時間の性能は向上すると考えられる。しかしなが
ら、音声認識システムの実用的な観点から、実際に使用
する環境での認識性能が問題となる。例えば、カーナビ
ゲーションシステムにおける音声認識システムでは、エ
ンジンを停止している場合、アイドリングの場合、一般
道路、市街地、高速道路、トンネル内を走行している場
合等で環境は異なり、しかも比較的短い時間で環境が変
化する。このような環境下において、音声区間の検出を
前提とする音声認識システムでは、音声区間検出精度が
低下する。
【0006】本発明の目的は、上記欠点を解決し、実際
に使用する環境において、認識性能が劣化しない音声認
識システムを提供することにある。
【0007】
【課題を解決するための手段】本発明の目的を達成する
ために、音声認識の対象となる単語や文章を集めた辞書
と、音声認識結果として前記辞書から得られた内容を表
示又は音声として出力する本発明による音声認識システ
ムにおいては、検出された非音声区間の情報に基づいて
音声区間を検出する音声検出部を設け、前記検出された
音声区間の音声認識を行なっている。
【0008】この音声認識システムにおいて、前記非音
声区間のパワーからノイズしきい値を求める。また、こ
の音声認識システムにおいて、前記ノイズしきい値と前
記音声区間のパワーとを比較し、前記音声区間の前記パ
ワーが前記ノイズしきい値に達した時点近傍から音声認
識処理を開始する。この音声認識システムにおいて、前
記ノイズしきい値と前記音声区間のパワーとを比較し、
前記音声区間の前記パワーが前記ノイズしきい値に達し
た時点からあらかじめ定められた時間遡って音声認識処
理を行う。また、この音声認識システムにおいて、前記
ノイズしきい値は、音声又はノイズのパワーを分析する
単位であるフレームのあらかじめ定められた数の集合体
の平均のパワーに基づいて求められる。この音声認識シ
ステムにおいて、前記ノイズしきい値に基づいてパワー
しきい値を求める。さらにまた、この音声認識システム
において、前記音声区間のパワーが前記ノイズしきい値
を超え、前記パワーしきい値に到達した時に音声の始ま
りと判断して、この時点から予め定められた時間前から
音声認識処理を行う。この音声認識システムにおいて、
音声入力用ボタンを設け、前記ボタンが押された以降
で、前記音声区間のパワーが前記ノイズしきい値に達し
た時に、その時点の音声の分析単位であるフレームを記
憶する。また、この音声認識システムにおいて、前記音
声区間のパワーが前記パワーしきい値に達した時、少な
くとも前記記憶された前記フレームから音声認識処理を
する。
【0009】上述の音声認識システムにおいて、前記音
声区間のパワーが前記パワーしきい値より低下する期間
が、予め定められた時間以下の場合、音声と音声の間の
無声音部分と判断する。また、この音声認識システムに
おいて、前記音声区間の前記パワーが前記パワーしきい
値以下に低下した後、予め定められた時間、前記音声区
間の前記パワーが前記パワーしきい値よりも低い値に保
たれている時には音声区間が終了したと判断する。音声
認識結果として、音声認識の対象となる単語や文章を集
めた辞書からピックアップされた内容を表示又は音声と
して出力する本発明による音声認識方法において、検出
された非音声区間の情報に基づいて音声区間を検出する
ステップと、前記検出された音声区間の音声認識を行う
ステップとを有する。この音声認識方法において、前記
非音声区間のパワーからノイズしきい値を求めるステッ
プを設ける。
【0010】この音声認識方法において、前記ノイズし
きい値と前記音声区間のパワーとを比較し、前記パワー
が前記ノイズしきい値に達した時点近傍から音声認識処
理を開始するステップを有する。この音声認識方法にお
いて、前記非音声区間のパワーからノイズしきい値を求
めるステップと、前記ノイズしきい値に基づいてパワー
しきい値を求めるステップとを有する。この音声認識方
法において、前記音声区間のパワーが前記パワーしきい
値より低下する期間が予め定められた時間以下の場合、
音声と音声の間の無声音部分と判断するステップを有す
る。この音声認識方法において、前記音声区間のパワー
が前記パワーしきい値以下に低下した後、この状態を保
って予め定められた時間が経過した時には音声区間が終
了したと判断するステップを有する。
【0011】音声認識の対象となる単語や文章を集めて
辞書として定義し、音声認識された単語や文章を辞書か
らピックアップして、文字列表示や、単語が示す画像
や、音声合成を用いて音声として出力する本発明による
音声認識システムにおいては、入力された音声に対し
て、音声の始まりから終わりまでの音声区間を、音声を
含まない非音声区間と区別するために、非音声区間の情
報を検出しながら音声区間を検出する音声区間検出部
と、取り込んだ音声に対して、音声分析処理を行う音声
分析部と、音声のパターンを音素単位でもつ音響モデル
と、音声分析結果に対して、音響モデルと辞書を連結し
て、音声認識処理を行う音声認識部とを備え、音声区間
で検出された音声に対して音声認識を行う。
【0012】また、音声認識システムにおいて、前記音
声区間検出部は、非音声区間の音に対してパワーレベル
を検出し、時々刻々と変化するパワーレベルに合わせ
て、音声の始まりと終わりを示す音声のパワーレベルを
決めて、入力された音声が、前記音声の前記パワーレベ
ルを超えたら音声の始まりと判断し、音声のパワーレベ
ルを一定以上の時間下回ったら音声の終わりと判断す
る。また、音声認識システムにおいて、前記音声区間検
出部は非音声区間の音に対して、パワーレベルを検出
し、前記パワーレベルからノイズしきい値と、パワーし
きい値のしきい値を計算し、入力された音声がノイズし
きい値を超え、さらに、パワーしきい値を超えた場合、
音声の始まりと判断する。この音声認識システムにおい
て、前記音声の前記パワーレベルが前記しきい値を一定
時間以上下回ったら音声の終わりと判断する。この音声
認識システムにおいて、前記パワーレベルは、予め定め
られた時間単位で区切られたフレームのパワーを複数フ
レーム亘って求めた平均のパワーとし、前記ノイズしき
い値は前記平均パワーのN倍に設定する。また、音声認
識システムにおいて、前記パワーしきい値PTHは、ノ
イズしきい値NTHに比べて、PTH>NTHの関係を
満足するように設定する。この音声認識システムにおい
て、ノイズしきい値NTHとパワーしきい値PTHの関
係は、比較的静かな環境下では、ΔPTH=PTH−N
THが小さくなるように設定し、逆に、雑音の大きな環
境下では、ΔPTH=PTH−NTHが大きくなるよう
に設定する。
【0013】音声認識の対象となる単語や文章を集めて
辞書として定義し、音声認識された単語や文章を辞書か
らピックアップして、文字列表示や、単語が示す画像
や、音声合成を用いて音声として出力する音本発明によ
る声認識方法においては、入力された音声に対して、音
声の始まりから終わりまでの音声区間を、音声を含まな
い非音声区間と区別するために、非音声区間の情報を検
出しながら音声区間を検出するステップと、音声区間で
検出された音声に対して、音声分析処理を行うステップ
と、音声のパターンを音素単位でもつ音響モデルと前記
辞書とを連結して、音声分析結果に対して、音声認識処
理を行うステップとを有する。
【0014】この音声認識方法において、非音声区間の
音に対してパワーレベルを検出するステップと、時々刻
々と変化するパワーレベルに合わせて、音声の始まりと
終わりを示す音声のパワーレベルを決めて、入力された
音声のパワーレベルが、前記音声の前記パワーレベルを
超えたら音声の始まりと判断し、前記音声の前記パワー
レベルを一定時間以上下回ったら音声の終わりと判断す
るステップを有する。また、この音声認識方法におい
て、前記非音声区間の音に対して、パワーレベルを検出
し、前記パワーレベルからノイズしきい値と、パワーし
きい値を計算するステップと、入力された音声のパワー
レベルがが前記ノイズしきい値を超え、さらに、前記パ
ワーしきい値を超えた場合、音声の始まりと判断するス
テップとを有する。この音声認識方法において、前記入
力された音声のパワーレベルが前記パワーしきい値を一
定以上の時間下回ったら音声の終わりと判断するステッ
プを有する。この音声認識方法において、予め定められ
た時間単位で区切られたフレームのパワーを複数フレー
ム亘って求めた平均のパワー前記パワーレベルとして求
めるステップと、前記ノイズしきい値は前記平均パワー
のN倍に設定するステップとを有する。この音声認識方
法においては、前記パワーしきい値PTHをノイズしき
い値NTHに比べて、PTH>NTHの関係を満足する
ように設定するステップを有する。また、音声認識方法
において、ノイズしきい値NTHとパワーしきい値PT
Hの関係を、比較的静かな環境下では、ΔPTH=PT
H−NTHが小さくなるように設定し、逆に、雑音の大
きな環境下では、ΔPTH=PTH−NTHが大きくな
るように設定するステップとを有する。
【0015】上記目的を達成するために、本発明の音声
認識システムは、音声認識の対象となる単語や文章を集
めて辞書として定義し、音声認識結果として、それらの
単語や文章をピックアップして、文字列表示や、単語が
示す画像や、音声合成を用いて認識結果を音声として出
力する音声認識システムにおいて、入力された音声に対
して、音声の始まりから終わりまでの音声区間を、音声
ではない区間と区別するために、常に、音声ではない区
間の情報を検出しながら音声区間を検出する音声区間検
出部と、取り込んだ音声に対して、音声分析処理を行う
音声分析部と、音声のパターンを音素単位でもつ音響モ
デルと、音声分析結果に対して音響モデルと辞書を連結
して、音声認識処理を行う音声認識部とを備え、音声区
間検出された音声に対して音声認識するようにしたもの
である。
【0016】より詳しくは、入力された音声に対して、
音声の始まりから終わりまでの音声区間を、音声ではな
い区間と区別するために、常に音声ではない区間の情報
を検出しながら音声区間を検出する音声区間検出部は、
音声でない定常の雑音や、非定常の雑音や、静かな環境
での音全てに対してパワーレベルを検出し、時々刻々と
変化するパワーレベルに合わせて、音声の始まりと終わ
りを示す音声のパワーレベルを決めて、入力された音声
が、音声のパワーレベルを超えたら音声の始まりと判断
し、音声のパワーレベルを一定以上の時間下回ったら音
声の終わりと判断するようにしたものである。
【0017】また詳しくは、音声区間検出部は、音声で
ない定常の雑音や、非定常の雑音や、静かな環境での音
全てに対して、常に、パワーレベルを検出し、音声の始
まりと終わりを示す音声のパワーレベルとして、ノイズ
しきい値NTHと、パワーしきい値PTHの二つのしき
い値を計算し、入力された音声がノイズしきい値NTH
を超えて、さらに、パワーしきい値PTHを超えた場
合、音声の始まりと判断し、また、パワーしきい値PT
Hを一定以上の時間下回ったら音声の終わりと判断する
ようにしたものである。
【0018】また詳しくは、ノイズしきい値NTHは、
常に入力されてくる音声でない定常の雑音や、非定常の
雑音や、静かな環境での音に対してパワーを計算し、短
い時間単位で区切られたフレームパワーPWの平均のN
倍とし、また、パワーしきい値PTHは、ノイズしきい
値NTHに比べて、PTH > NTHの関係になるよう
に設定するようにしたものである。さらに詳しくは、ノ
イズしきい値NTHとパワーしきい値PTHの関係は、
比較的静かな環境下では、ΔPTH=PTH-NTHが
小さくなるように設定し、逆に、雑音の大きな環境下で
は、ΔPTH=PTH-NTHが大きくなるように設定
するようにしたものである。
【0019】
【発明の実施の形態】以下、本発明による音声認識シス
テム及び方法に係る実施の形態を、図1から図6に示す
幾つかの実施例を用いて説明する。図1は本発明による
音声認識システムの各機能とその処理の流れを示すブロ
ック図である。実際に使用する環境下においては、図1
に示されるマイク101から、環境に応じた雑音や音声
が取り込まれる。取り込まれた雑音や音声であるアナロ
グ信号は、アナログ信号をデジタル信号に変換するA/
D変換器102によって、任意に決められたサンプリン
グ周期により、アナログデータからデジタルデータに変
換される。このアナログデータからデジタルデータに変
換する過程において、変換前あるいは変換後に、例え
ば、定常的な雑音を除去するために、ハイパスフィルタ
(HPF)(図示せず)等が用いられる。
【0020】変換された非定常な雑音や、ハイパスフィ
ルタで除去しきれなかった雑音や、音声のデジタルデー
タは音声区間検出部103により、フレーム単位にパワ
ーが計算される。フレーム単位とは、入力されてくる雑
音や音声を短い時間(5〜20ms)ごとに、入力され
てくる時間順に区切られた単位である。パワーとは、そ
のフレーム単位にサンプリングされたデータの0次の自
己相関である。したがって、サンプリングされたデータ
は、電気的には、時間に対する電圧値である。これらを
正規化して、各サンプリングポイントの値を2乗した値
が各フレームのパワー値である。各サンプリングポイン
トの2乗の値を加算した値が全フレームのパワー値の合
計である。計算されたパワー値は、例えば、1フレーム
からiフレーム(i=32)の合計のパワー値をPWと
すると1フレームからiフレームの平均のパワー値はP
W/iで求められる。1フレーム経過する毎に前のデー
タが捨てられ、新たな1フレームのデータを加えること
によって、平均のパワー値のデータが更新される。この
ようにして求められた平均パワーPW/iから、音声区
間検出に必要なパラメータ、ノイズしきい値NTH、パ
ワーしきい値PTHを決定する。ノイズしきい値NT
H、パワーしきい値PTHについては、後で詳細に説明
する。
【0021】さらに、変換された音声のデジタルデータ
は、音声分析部104によって、雑音処理や音声分析や
話者適応などの前処理がなされ、音声認識部105によ
り、音声分析結果を用いて、音声の照合を行う。ここ
で、音声認識とは、2つの処理を実行する。第1の処理
は、音声区間検出部103により、雑音環境下において
音声を正しく検出する音声区間検出処理である。第2の
処理は、音声分析部104並びに音声認識部105によ
り、音声信号を解析して、それを短い時間(5〜20m
s)ごとの音素として分析して、そのパターンを解析
し、該当する単語や文章を辞書から選択することであ
る。以上の2つの処理から、音声認識システムとして、
音声認識結果109を出力する。
【0022】音声認識部105は、音声分析部104で
分析された入力音声の音声分析結果に対して、音響モデ
ル106、単語辞書107をモデル連結部108によっ
て連結された音素単位で照合して、登録した単語辞書1
07の中で、一番近い単語をピックアップする。音響モ
デル106は、音声認識に用いられるモデルであり、具
体的には、単語辞書107に用いられている文字と音素
との対応であり、音素の特徴が出現する確率の分布、出
現した音素の特徴が次のどの特徴が現れる状態に遷移す
るかの確率の分布を記憶したものである。実際には、分
布を示すパラメータが記憶されており、音声認識処理毎
にパラメータから分布を計算する。これにより、音声認
識システム全体のメモリ容量が削減できる。音響モデル
106は、あらかじめ声を登録しなくても、誰が話し手
でもその声を認識できる、いわゆる「不特定話者対応」
が、一般的になってきている。このような音響モデルと
しては、例えば、隠れマルコフモデル(HMM:Hid
den Markov Model)を用いることがで
きる。
【0023】単語辞書107は、言葉、単語(名詞、動
詞等)、文章を集めたものである。例えば、カーナビゲ
ーションシステムにおいては、通り名、地名、建造物
名、町名、番地、交差点名、個人住宅(個人名)、電話
番号等や、必要最小限の会話に必要な言葉の集合体であ
る。この単語辞書107は、システムの能力に応じて一
つの辞書あたり、例えば10〜5000語の単語で構成
する。以上から、実際の環境で使用する音声認識システ
ムとは、雑音と音声とを正しく見極める音声区間検出
と、音声信号を解析して、それを短い時間ごとの音素と
して分析して、そのパターンを解析し、該当する単語や
文章を辞書から選択することである。なお、図1に示す
各処理ブロックは、複数のLSIやメモリで構成された
システムであっても、半導体素子上に構成された一つな
いし複数のシステムオンチップであってもよい。また、
各処理は、専用LSIや専用ICで処理するハードウエ
アであっても、DSPやRISCマイコン等のソフトウ
エアで実現したミドルウエアであってもよい。
【0024】図2(a)は音声入力波形図、図2(b)
は音声パワーを示す特性図である。図2において、横軸
は時間tを示し、図2(a)の縦軸は電圧Vを、図2
(b)の縦軸はパワーPを示す。図2は図1で説明した
音声認識システムをカーナビゲーションシステムで使用
した場合、話者が車内で発声した音声、「渋谷(しぶ
や)shibuya」の音声入力波形と音声のパワーを
示す。図2(a)の音声入力波形201は話者が平常の
音声で「しぶや」と発声したときの音声波形を示す。音
声信号は、時々刻々と変化する非定常な信号である。
【0025】このときの周囲の環境は、比較的静かな一
般道路を40km/hで走行している乗用車の車内であ
る。車の窓はすべて閉められており、ラジオやカーステ
レオもオフされ、エアコンの出力は低い値に設定されて
いる。この音声信号を20msの短時間で切り出して見
ると、定常信号と同様なスペクトル音声分析ができる。
切り出された音声信号のサンプル値から、例えば、音声
分析で広く用いられているLPC分析において、自己相
関関数を計算すると、音声の特徴パラメータの一つとし
て、音声のパワーが求められる。曲線202は音声波形
201の音声信号から計算されたパワーであり、時間t
に対するパワーの変化を表わしている。
【0026】ここで、この「shibuya」の音声に
対して音声認識を正しく行うためには、音声区間検出を
する必要がある。そのためには、このパワー情報に対し
て、しきい値を任意に、すなわち、予め定められた計算
式で計算した値や実験から得られる値に設定し、入力さ
れた雑音および音声毎にこのしきい値を超えたかどうか
を観測する。この観測は、音声区間検出部103で行
う。
【0027】雑音および音声を常に入力して以上の観測
を行ってもよいが、特に、カーナビゲーションシステム
に代表されるような複数の処理を実行しているシステム
ではできるだけCPUの負荷を軽減して低消費電力化し
たい。よって、音声認識を行うときだけ雑音や音声を取
り込むようにするために、音声入力ボタンを押した時点
から雑音や音声が入力されるようにする。図2(a)に
おいて、204は音声入力ボタンが押された時点をしめ
す。音声入力ボタンとしては音声を取り入れる間ボタン
を押し続ける様にしてもよいし、最初に音声入力用ボタ
ンを押して音声を取り入れ、音声及び雑音が予め定めれ
れた値以下になるとこれを検知して自動的に音声の入力
がオフされるようにしてもい。
【0028】図2(b)において、レベルNTHは雑音
と音声を区別する第1段階のしきい値を示し、ノイズし
きい値と称する。この音声の始まり近傍は、雑音と音声
とが同じパワーレベルであり、音声なのか雑音なのか区
別が困難である。そこで、ノイズしきい値NTHを超え
たら音声の始まりの可能性が高いと判断し、ノイズしき
い値NTHとパワー値Pを示す曲線202とが交わる時
点(又は交点)205のフレーム位置を記憶しておく。
つぎに、PTHは音声であることを見極めるための第2
段階のしきい値であり、パワーしきい値と称する。ここ
では、かなりのパワーレベルを検出することから、音声
であることが分かる。その時点、すなわち、パワーしき
い値PTHとパワー値Pを示す曲線202とが交わる時
点(又は交点)206は音声であることが分かる。した
がって、音声であることを検出した時点206におい
て、時点205で記憶したフレーム位置から認識処理を
開始する。あるいは、記憶したフレームよりもkフレー
ム前のフレームから認識処理を開始する。これにより、
雑音に埋もれた音声の始まりを検出して正しい認識が可
能となる。
【0029】ノイズしきい値NTHの計算は音声入力用
ボタンを押さなくても、雑音及び音声はマイク101を
通して入力され、後述するRAMに書き込まれるように
して常にノイズしきい値NTHを計算するようにし、音
声入力用ボタンが押される直前のNTHの値を採用す
る。このように入力ボタンを押す前のiフレーム分のデ
ータからノイズしきい値NTHを求め、ノイズしきい値
NTHとパワー値の比較を1フレーム毎に行うことによ
って、時点205を検出することができるし、この時点
205より前から認識処理を開始することができる。ま
た、音声には必ず文字と文字の間に無音声部分が存在す
る。例えば「渋谷」では、「shi」と「bu」、「b
u」と「ya」の間に無音声部分が存在する。このと
き、音声のパワーレベルは、パワーしきい値PTHより
も低くなる。ところが音声はまだ終了していないことか
ら、音声が終了したと判断しては誤りである。よって、
音声のパワーレベルがパワーしきい値PTHより低くな
っても、その期間がある設定フレーム数未満ならば、ま
だ音声が終了していないとして認識処理を継続する。逆
に、その期間がある設定フレーム数以上ならば、音声が
終了したと判断して認識処理を終了する。図2(b)に
おいて、時点207は音声が終了したと判断した時点で
あり、認識処理はその時点からjフレーム後に終了する
ものとする。音声が終了したと判断した時点からjフレ
ーム後まで音声パワーをパワーしきい値と比較するの
は、実際に音声が終了したのか、又は音声と音声の間の
無音部分なのかを判断するためである。なお、jフレー
ムの値は実験によって予め定められる。これにより、音
声の始まりと同様に、雑音に埋もれた音声の終わりを検
出して正しい認識が可能となる。この場合、ノイズしき
い値NTHはパワーしきい値PTHを超えないように設
定する。以上のようにして、正しい音声認識に必要な音
声区間検出である音声区間203が検出される。
【0030】図3(a)は音声入力波形図、図3(b)
は音声パワーを示す特性図である。図3(a)、(b)
において、横軸は時間tを示し、図3(a)の縦軸は電
圧Vを、図3(b)の縦軸はパワーPを示す。図3
(a)は、図1で説明したカーナビゲーションシステム
に適用した音声認識システムにおいて、話者が車内で発
声した音声「渋谷(しぶや)shibuya」の音声入
力波形と音声のパワーを示しており、このときの周囲の
環境は、かなり静かなパーキングに車を止めてアイドリ
ング状態にしている乗用車の車内であり、窓はすべて閉
められており、ラジオやカーステレオもオフされ、エア
コンの出力も低い値に設定されている。図3(a)の音
声入力波形301はこのような環境下における波形を示
している。図2で説明した環境下、すなわち比較的静か
な一般道路を、すべての窓は閉められ、ラジオやカース
テレオはオフされ、エアコンも低い値に押さえられてい
る状態で40km/hで走行している乗用車の車内とい
う環境下の音声のパワーレベルに比べて、図3(a)に
示す音声のパワーレベルは低くなる。この現象は、話者
の周囲の雑音のパワーレベルが低くなり、話者自身の音
声が小さくてもよく聞こえることから、音声のパワーレ
ベルが低くなるためである。よって、雑音のパワーレベ
ルが低くなり、音声のパワーレベルも低くなる環境下
で、正しい音声区間検出を行うためには、ノイズしきい
値NTH、パワーしきい値PTHを下げる必要がある。
さらに、PTHとNTHの差ΔPTHも小さくなる。
【0031】この音声信号を20msの短時間で切り出
して見ると、定常信号と同様なスペクトル音声分析がで
きる。切り出された音声信号のサンプル値から、例え
ば、音声分析で広く用いられているLPC分析におい
て、自己相関関数を計算すると、音声の特徴パラメータ
の一つとして、音声のパワーが求められる。
【0032】図3(b)において、302は音声波形3
01の音声信号から計算されたパワーPを示す曲線であ
り、時間tに対するパワーの変化を表わしている。ここ
で、この「shibuya」の音声に対して音声認識を
正しく行うためには、音声区間を検出をする必要があ
る。そのためには、このパワー情報に対して、しきい値
を任意に設定し、入力された雑音および音声毎にこのし
きい値を超えたかどうかを観測する。この観測は、音声
区間検出部103で行う。そこで、雑音および音声を常
に入力して前述の観測を行ってもよいが、特に、カーナ
ビゲーションシステムに代表されるような複数の処理を
実行しているシステムではできるだけCPUの負荷を軽
減させて低消費電力化したい。よって、音声認識すると
きだけ雑音や音声を取り込むために、音声入力用ボタン
を押した時点から雑音や音声が入力されるものとする。
304が音声入力用ボタンが押された時点である。
【0033】NTHは雑音と音声を区別する第1段階の
しきい値であり、ノイズしきい値と称する。この音声の
始まり近傍は、雑音と音声とが同じパワーレベルであ
り、音声なのか雑音なのか区別が困難である。そこで、
ノイズしきい値NTHを超えたら音声の始まりの可能性
が高いと判断し、時点305で示されるフレーム位置を
記憶しておく。つぎに、PTHは音声であることを見極
めるための第2段階のしきい値であり、パワーしきい値
と称する。ここでは、かなりのパワーレベルを検出する
ことから、音声であることがわかる。その時点が306
である。したがって、音声であることを検出した時点3
06において、時点305で記憶したフレーム位置から
認識処理を開始する。あるいは、記憶したフレームより
もkフレーム前のフレームから認識処理を開始する。こ
れにより、雑音に埋もれた音声の始まりを検出して正し
い認識が可能となる。また、音声には必ず文字と文字の
間に無音声部分が存在する。例えば「渋谷」では、「s
hi」と「bu」、「bu」と「ya」の間に無音声部
分が存在する。このとき、音声のパワーレベルは、パワ
ーしきい値PTHよりも低くなる。ところが音声はまだ
終了していないことから、音声が終了したと判断しては
誤りである。よって、音声のパワーレベルがパワーしき
い値PTHより低くなっても、その期間がある設定フレ
ーム数未満ならば、まだ音声が終了していないとして認
識処理を継続する。逆に、その期間がある設定フレーム
数以上ならば、音声が終了したと判断して認識処理を終
了する。図3(b)において、時点307が音声が終了
したと判断された時点であり、認識処理はその時点から
jフレーム後に終了するものとする。
【0034】前述のようにすることによって、音声の始
まりと同様に、雑音に埋もれた音声の終わりを検出して
正しい認識が可能となる。このとき、ノイズしきい値N
THは、パワーしきい値PTHを超えないものとする。
以上のようにして、正しい音声認識に必要な音声区間検
出である音声区間303が検出される。
【0035】図3(c)は音声入力波形図、図3(d)
は音声パワーを示す特性図である。図3(c)、(d)
において、横軸は時間tを示し、図3(c)の縦軸は電
圧Vを、図2(d)の縦軸はパワーPを示す。図3
(c)、(d)は、図1で説明したカーナビゲーション
システムに適用した音声認識システムにおいて、話者が
車内で発声した音声「渋谷(しぶや)shibuya」
の音声入力波形と音声のパワーを示したものである。図
3(c)に示す波形311は、すべての窓は閉められ、
ラジオやカーステレオもオフされ、エアコンの出力も低
い値に設定されているにも関わらず、高速道路を100
km/hで走行しているために車内にはかなりの雑音が
あり、かなりうるさい車内環境状況にある時の音声入力
波形を示している。
【0036】図3(c)に示す音声入力波形311の音
声パワーレベルは図3(a)に示す音声入力波形301
の音声パワーレベルに比べて、かなり高くなっている。
この現象は、図3(c)の場合の話者の周囲の雑音のパ
ワーレベルが高く、話者自身の音声がよく聞こえず、大
きな声で発生することから、音声のパワーレベルが高く
なるためである。雑音のパワーレベルが高くなり、音声
のパワーレベルも高くなる環境下で、正しい音声区間検
出を行うためには、ノイズしきい値NTH、パワーしき
い値PTHを上げる必要がある。さらに、PTHとNT
Hの差ΔPTHも大きくなる。
【0037】この音声信号を20msの短時間で切り出
して見ると、定常信号と同様なスペクトル音声分析がで
きる。切り出された音声信号のサンプル値から、例え
ば、音声分析で広く用いられているLPC分析におい
て、自己相関関数を計算すると、音声の特徴パラメータ
の一つとして、音声のパワーが求められる。
【0038】図3(d)に示す曲線312は、音声波形
311の音声信号から計算されたパワーPをしめし、時
間tにおけるパワーの変化を表わしている。ここで、こ
の「shibuya」の音声に対して音声認識を正しく
行うためには、音声区間検出をする必要がある。そのた
めには、このパワー情報に対して、しきい値を任意に設
定し、入力された雑音および音声毎にこのしきい値を超
えたかどうかを観測する。この観測は、音声区間検出部
103で行う。そこで、雑音および音声を常に入力して
以上の観測を行ってもよいが、特に、カーナビゲーショ
ンシステムに代表されるような複数の処理を実行してい
るシステムではできるだけCPUの負荷を軽減させて低
消費電力化したい。よって、音声認識するときだけ雑音
や音声を取り込むために、音声入力用ボタンを押した時
点から雑音や音声が入力されるものとする。314は音
声入力用ボタンが押された時点をしめす。
【0039】図(d)において、NTHは雑音と音声を
区別する第1段階のしきい値であり、ノイズしきい値と
称する。この音声の始まりの近傍は、雑音と音声とが同
じパワーレベルにあるため、音声なのか雑音なのか区別
が困難である。そこで、ノイズしきい値NTHを超えた
ら音声の始まりの可能性が高いと判断し、時点315で
示されるフレーム位置を記憶しておく。つぎに、PTH
は音声であることを見極めるための第2段階のしきい値
であり、パワーしきい値と称する。ここでは、かなりの
パワーレベルを検出することから、音声であることがわ
かる。その時が時点316である。したがって、音声で
あることを検出した時点316において、時点315で
記憶したフレーム位置から認識処理を開始する。あるい
は、記憶したフレームよりもkフレーム前のフレームか
ら認識処理を開始する。これにより、雑音に埋もれた音
声の始まりを検出して正しい認識が可能となる。
【0040】また、音声には必ず文字と文字の間に無音
声部分が存在する。例えば「渋谷」では、「shi」と
「bu」、「bu」と「ya」の間に無音声部分が存在
する。この場合、音声のパワーレベルは、パワーしきい
値PTHよりも低くなる。ところが音声はまだ終了して
いないことから、音声が終了したと判断しては誤りであ
る。よって、音声のパワーレベルがパワーしきい値PT
Hより低くなっても、その期間がある設定フレーム数未
満ならば、まだ音声が終了していないとして認識処理を
継続する。逆に、その期間がある設定フレーム数以上な
らば、音声が終了したと判断して認識処理を終了する。
図3(d)において、317は音声が終了したと判断し
た時点を示しており、認識処理はその時点からjフレー
ム後に終了するものとする。これにより、音声の始まり
と同様に、雑音に埋もれた音声の終わりを検出して正し
い認識が可能となる。このとき、ノイズしきい値NTH
は、パワーしきい値PTHを超えないものとする。以上
から、正しい音声認識に必要な音声区間検出である音声
区間313が検出される。
【0041】しかしながら、今仮に、ノイズしきい値N
THが図3(d)において、NTH1の位置に設定され
たとする。本来なら、正しい音声区間は313で示され
る区間であり、ノイズしきい値NTHとパワーレベルの
交点315を検出しなければならない。ところが、ノイ
ズしきい値NTH1とパワーレベルの交点は存在せず、
音声入力用ボタンが押された314の時点ですでに、雑
音のパワーレベルがNTH1を超えていることから、ボ
タンの押された直後の時点319から音声の始まりと判
断して、音声区間は318となり、誤った音声区間を検
出するため、認識結果も誤認識となる。以上のことから
明らかなように、ノイズしきい値NTH、パワーしきい
値PTHを、実際に使用する環境に合わせて、それも、
時間的に短いサイクル(例えば、3秒間隔)で最適な値
に設定、更新していく必要がある。特に、カーナビゲー
ションシステム、カーエレクトロニクス製品、PDA、
ハンドヘルドPC等の使用する環境では、雑音レベルが
短い時間の間隔で相当変動する。
【0042】以下にノイズしきい値NTH、パワーしき
い値PTHの計算式の1例を(数1)〜(数5)に示
す。なお、(数1)〜(数5)において、PWは音声認
識モードになってから、音声入力用ボタンが押される直
前の1からiフレーム間の入力雑音パワーの総和を示
し、PW/iは1フレームからiフレーム間の入力雑音
パワーの平均値を示す。また、N1、N2、N3は安全
率であり、実験によって定める正の整数である。本発明
の実施例においては、N1、N2を5に定め、N6は1
0に定めている。このN1〜N3の値は音声入力用ボタ
ンを押す前のiフレーム(例えば、32フレーム)の平
均のパワー値によって変えてもよい。P1はノイズの状
況によって変わる値であり、ノイズが一定の場合には予
め定められた一定値を取る。例えば、音声入力用ボタン
を押す前のiフレーム(例えば32フレーム)の平均的
なパワー値をみて、ノイズ値が大きい場合にはP1は大
きく設定され、ノイズ値が小さい時にはP1は小さく設
定される。NTH、PTHは正規化された値を取ること
から、本実施例においてはP1=100,000であ
る。P2はP1と同様ノイズ値によって左右されるが、
実験によって定める。
【0043】 NTH=(PW/i)×N1 …(数1) PTH=NTH+P1 …(数2) あるいは、 NTH=(PW/i)×N2 …(数3) PTH=(PW/i)×N3 …(数4) ただし、もし、PTH<P2、ならば PTH=P2 …(数5) 次に、図4を用いて本発明による音声認識システムおよ
び方法に係るハードウエア構成について説明する。図4
は本発明による音声認識システムの一実施例を示すブロ
ック図である。音声を取り込むためのマイク401とし
ては、カーナビゲーションシステム、携帯型情報端末、
PDA、ハンドヘルドPC、ゲーム、携帯型翻訳機、並
びに、エアコン等の家庭電化製品等では、周囲の雑音を
取り込まないために指向性をもたせた指向性マイクが用
いられる。404は、マイク401により取り込まれた
アナログ音声データを、デジタル音声データに変換する
A/D変換器である。音声入力用ボタン402は、音声
を入力している区間を指定するためのボタンである。ボ
タンが押されている間、あるいは、ボタンが押された時
点から音声が入力されたことをシステムに知らせる。4
05は、音声入力用ボタン402と、システムを接続す
るためのインタフェースである。
【0044】キー入力用デバイス409は、例えば、携
帯型情報端末であれば、ペン入力用のデジタイザであ
り、ハンドヘルドPCであれば、キーボードである。ま
た、ファミコンなどのゲーム機であれば、キャラクタ等
を操作するキーパッドや、ジョイスティックである。4
10は、キー入力用デバイス409と、システムを接続
するためのインタフェースである。CPU403は、カ
ーナビゲーションシステム、携帯型情報端末、PDA、
ハンドヘルドPC、ゲーム、携帯型翻訳機、並びに、家
庭電化製品等のメインシステムの制御と、音声認識シス
テムにおける音声認識処理を行う。このCPU403に
は、RISCマイコンやDSPが用いられるのが、最近
の潮流である。ROM406は、音声認識用単語辞書、
音響モデル、プログラムを格納しておく記憶装置であ
る。また、複数の辞書や、音響モデルを格納しておくた
めに、メモリカードを用いてもよい。
【0045】RAM407は、ROM406から転送さ
れた一部の辞書や、音響モデル、プログラムが格納さ
れ、また、音声認識処理に必要な必要最小限のワークメ
モリであり、ROM406に比べて、通常アクセス時間
の短い半導体素子が用いられる。バス408は、システ
ムにおけるデータバス、アドレスバス、制御信号バスと
して用いられる。音声認識結果を出力表示するためのデ
ィスプレイ412は、TFT液晶ディスプレイ等のLC
Dで構成され、音声認識結果を表示する。411は、デ
ィスプレイ412と、システムを接続するためのインタ
フェースである。音声認識結果を音で出力するためのス
ピーカ414は、音声認識結果を音声合成して出力す
る。413は、音声認識結果をテキストから音声合成デ
ータに変換処理した後、デジタル音声合成データからア
ナログ音声信号に変換するA/D変換器である。
【0046】以下、本発明に係る音声認識システムおよ
び方法の一実施例を図5および図6を用いて説明する。
本実施例では、本発明の音声認識システムをカーナビゲ
ーションシステム、カーマルチメディア、カーエレクト
ロニクス製品に適用した場合について説明する。
【0047】図5は本発明による音声認識システムおよ
び方法に使用される音声区間検出の動作フローの一実施
例を説明するためのフローチャートである。図におい
て、ステップ501はカーナビゲーションシステムが起
動したことを示すスタートである。ステップ501にお
いて、カーナビゲーションシステムがスタートすると、
ステップ502に移り、カーナビゲーションシステムの
音声認識システムが起動する。例えば、リモコンを操作
して、音声認識モードに切り変えた状態を示している。
音声認識モードの状態になると、ステップ503に移行
し、マイクから入力されてくる雑音や音声のパワーの計
算をフレーム毎に開始する。例えば、32フレーム分計
算し終わった時点で、(数1)〜(数5)に示すノイズ
しきい値NTH、パワーしきい値PTHの式にしたがっ
て、NTHとPTHを計算する。次からは、例えば、1
フレーム毎に、新しいフレームと一番古いフレームのパ
ワー値を入れ変えて、再度、NTHとPTHを計算し更
新する。この頻度は、システムにより異なり、1秒に1
回、2秒に1回、3秒に1回というように実行する。
【0048】次に、ステップ504で、音声認識を実行
するに当たり話者は音声入力ボタン402を押す。この
時点で、ステップ505において、ステップ503で計
算されたNTHとPTHの最新の値を、実際に使用する
音声区間検出のためのNTHおよびPTHと決定する。
ステップ506では、ステップ505で決定されたNT
HおよびPTHを用いて音声区間検出が実行される。ス
テップ507は、音声区間検出および音声認識処理が終
了したことを示す。
【0049】なお、ステップ506の音声区間検出につ
いては、図6を用いて詳細に説明する。図6は図5で説
明した音声区間検出の動作フローの一実施例を説明する
ためのフローチャートである。ステップ601で音声区
間検出が起動する。ステップ602では、入力された雑
音や音声の1フレーム毎のパワーPWが、ノイズしきい
値NTHと比較される。その結果が、NTH<PW に
ついて、NOの場合には、音声の始まりではないと判断
されて、次に入力されてくるフレームに対して、同様な
処理を行う。YESの場合には、音声の始まりと判断し
てステップ604の処理へ進む。
【0050】ステップ604では、さらに、パワーPW
がパワーしきい値PTHと比較される。その結果が、P
TH<PWについて、NOの場合には、ステップ608
に移行し、カウンタ(CNT)を1カウントアップ(+
1)、すなわち(インクリメント)して、ステップ60
6へ進む。YESの場合には、ステップ609で、カウ
ンタ(CNT)の値を、CNT=0にして、ステップ6
05の音声認識処理へ進み、リコグニションフラッグ
(RF)を、RF=1にして、音声分析ならびに音声照
合などの音声認識処理がそのフレームに対して実行され
る。先に述べたステップ604でNOの場合で、まだ、
ステップ605の認識処理を一度も実行していない場合
は、ステップ606のCNT<n&RF=1についてN
Oであるため、ステップ603で、RF=0、CNT=
0にして、ステップ607でフレーム毎の音声区間検出
を終了する。ステップ606で、CNT<nのnは、音
声と音声の間の数、例えば「shi」と「bu」の間、
「bu」と「ya」の間のように音声が途切れる数を示
している。従って、CNT<nがNOと言うことはカウ
ンタ値がnよりも大きい、すなわち音声が終了している
ことを示しており、予め定められたフレーム、例えば3
0フレーム以上音声がこないことを意味する。リコグニ
ションRFは0又は1の値を取り、音声認識処理をして
いる場合は1、その他の場合は0の値を取る。
【0051】また、ステップ605の認識処理を実行し
ている場合で、ステップ604でNOの場合は、RF=
1であり、カウンタ値が、nよりも小さければ、CNT
<n&RF=1についてYESであり、音声が終了して
いないと判断して、ステップ605の音声認識処理へ進
み、認識処理を実行する。 さらに、ステップ605の
認識処理を実行している場合で、ステップ604でNO
の場合は、RF=1であり、カウンタ値が、nよりも大
きければ、CNT<n&RF=1についてNOであり、
音声が終了したと判断して、ステップ603で、RF=
0、CNT=0にして、ステップ607でフレーム毎の
音声区間検出を終了する。以上の動作により、音声区間
検出が実行される。
【0052】
【発明の効果】本発明によれば、カーナビゲーションシ
ステム、小型情報システム、ゲームに用いられる音声認
識システムにおいて、実際に使用する環境で、雑音のレ
ベルに合わせて音声区間検出用しきい値の設定を自動化
し、自動しきい値設定による音声区間検出および、認識
性能が実環境下でも劣化しない、良好な音声認識システ
ムを実現することができる。
【図面の簡単な説明】
【図1】本発明による音声認識システムの各機能とその
処理の流れを示すブロック図である。
【図2】音声入力波形および音声パワーを示す特性図で
ある。
【図3】音声入力波形および音声パワーを示す特性図で
ある。
【図4】本発明による音声認識システムのハードウエア
構成を示すブロック図である。
【図5】本発明による音声認識システムおよび方法に使
用される音声区間検出動作の一実施例を説明するための
フローチャートである。
【図6】図5で示した音声区間検出の動作フローの一実
施例を説明するためのフローチャートである。
【図7】従来の音声認識システムを使用した携帯型翻訳
装置のブロック図である。
【符号の説明】
101…音声入力用マイク、102…A/D変換器、1
03…音声区間検出部、104…音声分析部、105…
音声認識部、106…音響モデル、107…単語辞書、
108…音響モデルと単語辞書の連結部、201…音声
入力波形、202…音声パワー。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小窪 浩明 東京都国分寺市東恋ケ窪一丁目280番地株 式会社日立製作所中央研究所内 Fターム(参考) 5B091 CB12 CD01 5D015 CC14 DD05 KK01

Claims (33)

    【特許請求の範囲】
  1. 【請求項1】音声認識の対象となる単語や文章を集めた
    辞書と、音声認識結果として前記辞書から得られた内容
    を表示又は音声として出力する音声認識システムにおい
    て、検出された非音声区間の情報に基づいて音声区間を
    検出する音声検出部を設け、前記検出された音声区間の
    音声認識を行うことを特徴とする音声認識システム。
  2. 【請求項2】請求項1記載の音声認識システムにおい
    て、前記非音声区間のパワーからノイズしきい値を求め
    ることを特徴とする音声認識システム。
  3. 【請求項3】請求項2記載の音声認識システムにおい
    て、前記ノイズしきい値と前記音声区間のパワーとを比
    較し、前記音声区間の前記パワーが前記ノイズしきい値
    に達した時点近傍から音声認識処理を開始することを特
    徴とする音声認識システム。
  4. 【請求項4】請求項2記載の音声認識システムにおい
    て、前記ノイズしきい値と前記音声区間のパワーとを比
    較し、前記音声区間の前記パワーが前記ノイズしきい値
    に達した時点からあらかじめ定められた時間遡って音声
    認識処理を行うことを特徴とする音声認識システム。
  5. 【請求項5】請求項2記載の音声認識システムにおい
    て、前記ノイズしきい値は、音声又はノイズのパワーを
    分析する単位であるフレームのあらかじめ定められた数
    の集合体の平均のパワーに基づいて求められることを特
    徴とする音声認識システム。
  6. 【請求項6】請求項2記載の音声認識システムにおい
    て、前記ノイズしきい値に基づいてパワーしきい値を求
    めることを特徴とする音声認識システム。
  7. 【請求項7】請求項6記載の音声認識システムにおい
    て、前記音声区間のパワーが前記ノイズしきい値を超
    え、前記パワーしきい値に到達した時に音声の始まりと
    判断して、この時点から予め定められた時間前から音声
    認識処理を行うことを特徴とする音声認識システム。
  8. 【請求項8】請求項6記載の音声認識システムにおい
    て、音声入力用ボタンを設け、前記ボタンが押された以
    降で、前記音声区間のパワーが前記ノイズしきい値に達
    した時に、その時点の音声の分析単位であるフレームを
    記憶することを特徴とする音声認識システム。
  9. 【請求項9】請求項8記載の音声認識システムにおい
    て、前記音声区間のパワーが前記パワーしきい値に達し
    た時、少なくとも前記記憶された前記フレームから音声
    認識処理をすることを特徴とする音声認識システム。
  10. 【請求項10】請求項6記載の音声認識システムにおい
    て、前記音声区間のパワーが前記パワーしきい値より低
    下する期間が、予め定められた時間以下の場合、音声と
    音声の間の無声音部分と判断することを特徴とする音声
    認識システム。
  11. 【請求項11】請求項6記載の音声認識システムにおい
    て、前記音声区間の前記パワーが前記パワーしきい値以
    下に低下した後、予め定められた時間、前記音声区間の
    前記パワーが前記パワーしきい値よりも低い値に保たれ
    ている時には音声区間が終了したと判断することを特徴
    とする音声認識システム。
  12. 【請求項12】音声認識結果として、音声認識の対象と
    なる単語や文章を集めた辞書からピックアップされた内
    容を表示又は音声として出力する音声認識方法におい
    て、検出された非音声区間の情報に基づいて音声区間を
    検出するステップと、前記検出された音声区間の音声認
    識を行うステップとを有することを特徴とする音声認識
    方法。
  13. 【請求項13】請求項12記載の音声認識方法におい
    て、前記非音声区間のパワーからノイズしきい値を求め
    るステップを設けることを特徴とする音声認識方法。
  14. 【請求項14】請求項13記載の音声認識方法におい
    て、前記ノイズしきい値と前記音声区間のパワーとを比
    較し、前記パワーが前記ノイズしきい値に達した時点近
    傍から音声認識処理を開始するステップを有することを
    特徴とする音声認識方法。
  15. 【請求項15】請求項12記載の音声認識方法におい
    て、前記非音声区間のパワーからノイズしきい値を求め
    るステップと、前記ノイズしきい値に基づいてパワーし
    きい値を求めるステップとを有することを特徴とする音
    声認識方法。
  16. 【請求項16】請求項15記載の音声認識方法におい
    て、前記音声区間のパワーが前記パワーしきい値より低
    下する期間が予め定められた時間以下の場合、音声と音
    声の間の無声音部分と判断するステップを有することを
    特徴とする音声認識方法。
  17. 【請求項17】請求項15記載の音声認識方法におい
    て、前記音声区間のパワーが前記パワーしきい値以下に
    低下した後、この状態を保って予め定められた時間が経
    過した時には音声区間が終了したと判断するステップを
    有することを特徴とする音声認識方法。
  18. 【請求項18】音声認識の対象となる単語や文章を集め
    て辞書として定義し、音声認識された単語や文章を辞書
    からピックアップして、文字列表示や、単語が示す画像
    や、音声合成を用いて音声として出力する音声認識シス
    テムにおいて、 入力された音声に対して、音声の始まりから終わりまで
    の音声区間を、音声を含まない非音声区間と区別するた
    めに、非音声区間の情報を検出しながら音声区間を検出
    する音声区間検出部と、取り込んだ音声に対して、音声
    分析処理を行う音声分析部と、音声のパターンを音素単
    位でもつ音響モデルと、音声分析結果に対して、音響モ
    デルと辞書を連結して、音声認識処理を行う音声認識部
    とを備え、音声区間で検出された音声に対して音声認識
    を行うことを特徴とする音声認識システム。
  19. 【請求項19】請求項18記載の音声認識システムにお
    いて、前記音声区間検出部は、非音声区間の音に対して
    パワーレベルを検出し、時々刻々と変化するパワーレベ
    ルに合わせて、音声の始まりと終わりを示す音声のパワ
    ーレベルを決めて、入力された音声が、前記音声の前記
    パワーレベルを超えたら音声の始まりと判断し、音声の
    パワーレベルを一定以上の時間下回ったら音声の終わり
    と判断することを特徴とする音声認識システム。
  20. 【請求項20】請求項18又は19記載の音声認識シス
    テムにおいて、前記音声区間検出部は非音声区間の音に
    対して、パワーレベルを検出し、前記パワーレベルから
    ノイズしきい値と、パワーしきい値のしきい値を計算
    し、入力された音声がノイズしきい値を超え、さらに、
    パワーしきい値を超えた場合、音声の始まりと判断する
    ことを特徴とする音声認識システム。
  21. 【請求項21】請求項20記載の音声認識システムにお
    いて、前記音声の前記パワーレベルが前記しきい値を一
    定時間以上下回ったら音声の終わりと判断することを特
    徴とする音声認識システム。
  22. 【請求項22】請求項は20記載の音声認識システムに
    おいて、前記パワーレベルは、予め定められた時間単位
    で区切られたフレームのパワーを複数フレーム亘って求
    めた平均のパワーとし、前記ノイズしきい値は前記平均
    パワーのN倍に設定することを特徴とする音声認識シス
    テム。
  23. 【請求項23】請求項は22記載の音声認識システムに
    おいて、前記パワーしきい値PTHは、ノイズしきい値
    NTHに比べて、PTH>NTHの関係を満足するよう
    に設定することを特徴とする音声認識システム。
  24. 【請求項24】請求項23記載の音声認識システムにお
    いて、ノイズしきい値NTHとパワーしきい値PTHの
    関係は、比較的静かな環境下では、ΔPTH=PTH−
    NTHが小さくなるように設定し、逆に、雑音の大きな
    環境下では、ΔPTH=PTH−NTHが大きくなるよ
    うに設定することを特徴とする音声認識システム。
  25. 【請求項25】音声認識の対象となる単語や文章を集め
    て辞書として定義し、音声認識された単語や文章を辞書
    からピックアップして、文字列表示や、単語が示す画像
    や、音声合成を用いて音声として出力する音声認識方法
    において、 入力された音声に対して、音声の始まりから終わりまで
    の音声区間を、音声を含まない非音声区間と区別するた
    めに、非音声区間の情報を検出しながら音声区間を検出
    するステップと、音声区間で検出された音声に対して、
    音声分析処理を行うステップと、音声のパターンを音素
    単位でもつ音響モデルと前記辞書とを連結して、音声分
    析結果に対して、音声認識処理を行うステップとを有す
    ることを特徴とする音声認識方法。
  26. 【請求項26】請求項25記載の音声認識方法におい
    て、非音声区間の音に対してパワーレベルを検出するス
    テップと、時々刻々と変化するパワーレベルに合わせ
    て、音声の始まりと終わりを示す音声のパワーレベルを
    決めて、入力された音声のパワーレベルが、前記音声の
    前記パワーレベルを超えたら音声の始まりと判断し、前
    記音声の前記パワーレベルを一定時間以上下回ったら音
    声の終わりと判断するステップを有することを特徴とす
    る音声認識方法。
  27. 【請求項27】請求項25又は26記載の音声認識方法
    において、前記非音声区間の音に対して、パワーレベル
    を検出し、前記パワーレベルからノイズしきい値と、パ
    ワーしきい値を計算するステップと、入力された音声の
    パワーレベルがが前記ノイズしきい値を超え、さらに、
    前記パワーしきい値を超えた場合、音声の始まりと判断
    するステップとを有することを特徴とする音声認識方
    法。
  28. 【請求項28】請求項27記載の音声認識方法におい
    て、前記入力された音声のパワーレベルが前記パワーし
    きい値を一定以上の時間下回ったら音声の終わりと判断
    するステップを有することを特徴とする音声認識方法。
  29. 【請求項29】請求項27記載の音声認識方法におい
    て、予め定められた時間単位で区切られたフレームのパ
    ワーを複数フレーム亘って求めた平均のパワー前記パワ
    ーレベルとして求めるステップと、前記ノイズしきい値
    は前記平均パワーのN倍に設定するステップとを有する
    ことを特徴とする音声認識方法。
  30. 【請求項30】請求項29記載の音声認識方法におい
    て、前記パワーしきい値PTHをノイズしきい値NTH
    に比べて、PTH>NTHの関係を満足するように設定
    するステップを有することを特徴とする音声認識システ
    ム。
  31. 【請求項31】請求項30記載の音声認識方法におい
    て、ノイズしきい値NTHとパワーしきい値PTHの関
    係を、比較的静かな環境下では、ΔPTH=PTH−N
    THが小さくなるように設定し、逆に、雑音の大きな環
    境下では、ΔPTH=PTH−NTHが大きくなるよう
    に設定するステップとを有することを特徴とする音声認
    識方法。
  32. 【請求項32】請求項22記載の音声認識システムにお
    いて、ノイズしきい値は、比較的静かで、短時間におけ
    る雑音パワーの変動が小さい環境下ではNの値を小さく
    なるように設定し、逆に雑音の大きな短時間における雑
    音パワーの変動が大きい環境下ではNの値を大きくなる
    ように設定することを特徴とする音声認識システム。
  33. 【請求項33】請求項29記載の音声認識方法におい
    て、ノイズしきい値は、比較的静かで、短時間における
    雑音パワーの変動が小さい環境下では、Nの値を小さく
    なるように設定し、逆に雑音の大きな短時間における雑
    音パワーの変動が大きい環境下では、Nの値を大きくな
    るように設定するステップを有することを特徴とする音
    声認識方法。
JP10193850A 1998-07-09 1998-07-09 音声認識システムおよび方法 Pending JP2000029486A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10193850A JP2000029486A (ja) 1998-07-09 1998-07-09 音声認識システムおよび方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10193850A JP2000029486A (ja) 1998-07-09 1998-07-09 音声認識システムおよび方法

Publications (1)

Publication Number Publication Date
JP2000029486A true JP2000029486A (ja) 2000-01-28

Family

ID=16314800

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10193850A Pending JP2000029486A (ja) 1998-07-09 1998-07-09 音声認識システムおよび方法

Country Status (1)

Country Link
JP (1) JP2000029486A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108389A (ja) * 2000-09-29 2002-04-10 Matsushita Electric Ind Co Ltd 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置
JP2004531766A (ja) * 2001-05-11 2004-10-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 無音検出
JP2005227511A (ja) * 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 対象音検出方法、音信号処理装置、音声認識装置及びプログラム
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム
JP2009122598A (ja) * 2007-11-19 2009-06-04 Pioneer Electronic Corp 電子機器、電子機器の制御方法、音声認識装置、音声認識方法及び音声認識プログラム
US7672844B2 (en) 2003-08-04 2010-03-02 Sony Corporation Voice processing apparatus
US8300834B2 (en) 2005-07-15 2012-10-30 Yamaha Corporation Audio signal processing device and audio signal processing method for specifying sound generating period
JP2013235032A (ja) * 2012-05-02 2013-11-21 Nintendo Co Ltd 情報処理プログラム、情報処理装置、情報処理システム及び情報処理方法
JP2017016131A (ja) * 2015-06-30 2017-01-19 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識装置及び方法と電子装置
JP2020129080A (ja) * 2019-02-08 2020-08-27 三浦 浩之 音声認識システム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108389A (ja) * 2000-09-29 2002-04-10 Matsushita Electric Ind Co Ltd 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置
JP2004531766A (ja) * 2001-05-11 2004-10-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 無音検出
US7672844B2 (en) 2003-08-04 2010-03-02 Sony Corporation Voice processing apparatus
JP2005227511A (ja) * 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 対象音検出方法、音信号処理装置、音声認識装置及びプログラム
US8300834B2 (en) 2005-07-15 2012-10-30 Yamaha Corporation Audio signal processing device and audio signal processing method for specifying sound generating period
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム
JP2009122598A (ja) * 2007-11-19 2009-06-04 Pioneer Electronic Corp 電子機器、電子機器の制御方法、音声認識装置、音声認識方法及び音声認識プログラム
JP2013235032A (ja) * 2012-05-02 2013-11-21 Nintendo Co Ltd 情報処理プログラム、情報処理装置、情報処理システム及び情報処理方法
JP2017016131A (ja) * 2015-06-30 2017-01-19 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識装置及び方法と電子装置
JP2020129080A (ja) * 2019-02-08 2020-08-27 三浦 浩之 音声認識システム
JP7296214B2 (ja) 2019-02-08 2023-06-22 浩之 三浦 音声認識システム

Similar Documents

Publication Publication Date Title
JPH11119791A (ja) 音声感情認識システムおよび方法
JP3479691B2 (ja) 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US6553342B1 (en) Tone based speech recognition
CN100587806C (zh) 语音识别方法和语音识别装置
EP2048655A1 (en) Context sensitive multi-stage speech recognition
US20030200086A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JPH096389A (ja) 音声認識対話処理方法および音声認識対話装置
JPH0962293A (ja) 音声認識対話装置および音声認識対話処理方法
JP2007500367A (ja) 音声認識方法およびコミュニケーション機器
JP4357867B2 (ja) 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
JP5007401B2 (ja) 発音評定装置、およびプログラム
JP4104313B2 (ja) 音声認識装置、プログラム及びナビゲーションシステム
JP2000029486A (ja) 音声認識システムおよび方法
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
Boite et al. A new approach towards keyword spotting.
WO2000010160A1 (fr) Dispositif et procede de reconnaissance vocale, dispositif de navigation, telephone portable et processeur d'informations
JP4230142B2 (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
JP2002189487A (ja) 音声認識装置および音声認識方法
JP2004317822A (ja) 感情分析・表示装置
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
JP4610249B2 (ja) 対話理解装置
JPH11327593A (ja) 音声認識システム
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050222

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071002