JPH02198500A

JPH02198500A - 音声認識装置

Info

Publication number: JPH02198500A
Application number: JP1018765A
Authority: JP
Inventors: Junichiro Fujimoto; 潤一郎藤本
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-01-27
Filing date: 1989-01-27
Publication date: 1990-08-06

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、話者の音声を認識する音声認識装置に関し、
特に、雑音下において発生される音声を認識する音声認
識装置に関する。

〔従来の技術〕

一般に、静かな環境下で登録した音声標準パターンの辞
書を用いて音声認識を行なわせる音声認識装置が知られ
ている。ところで、このような音声認識装置を例えば自
動車内などの騒音環境下で使用しようとする場合には、
話者の音声に雑音が混入することの他に、話者の発声の
仕方自体か変化するために、一般には精度良く音声認識
を行なわせることができない。すなわち騒音環境下では
、話者はより大きな声で発声し、静かな環境下に比べて
高い周波数のスペクトル成分か多くなるなどの所謂ラン
バード（Ｌａｎｂａｒｄ　）効果と呼ばれる現象か生じ
、さらには例えば［全何時Ｊと続０て発声すべきところ
を騒音環境下では「今・な・ん・じ」のように各音を区
切って発声するので静かな環境下で音声登録パターンを
登録したときの発声に比べて発声時間が長くなるなどの
時間的変動か生する。

雑音下において発声された音声を精度良く認識させるた
め、従来では、１９８５年１０月に発行の著者「北村」
等による文献［電子通信学会論文誌Ｊ６８−Ａ＠Ｎｏ、
１０　　第１１３０頁乃至第１１３１頁」に開示されて
いるように静かな環境下で発声された音声に雑音を混入
して認識用の辞書を作り騒音環境下ではこの辞書を用い
て音声認識させるような音声認識装置や、あるいは１９
８６年に発行の著者［デイピッド　ロー」による文献「
電子通信学会技術研究報告５Ｐ８６６６第４１頁乃至第
４８頁」に開示されているように、ベクトル量子化を用
いた音声認識でベクトルコード帳を話者か雑音中で発声
する状態を反映するように変形させるなどして記憶させ
る音声認識装置か種々提案されている。

〔発明が解決しようとする課題〕

しかしながら、静かな環境下で発声された音声に雑音を
混入して認識用の辞書を作りこの辞書を用いて音声認識
させる上述の音声認識装置では、雑音自体の影響を低減
することはできても雑音中での話者の発声の仕方に対処
するようにはなっていないので、音声を高い認識率て認
識させることができないという問題かあった。これに対
して話者か雑音中で発声する状態を反映するようにベク
トルコード帳を変形させるなどによって音声認識させる
上述の音声認識装置では、雑音自体の影響を低減しかつ
ランバード効果等のような音声の各音のスペクトルの変
動にも対処することができるが、騒音環境時における発
声の時間的変動については何ら考慮していないのて、発
声の時間が長くなることによって辞書内のパターンとの
正確なパターンマッヂングを行なうことができないとい
う問題があった。

なお上記のような問題を解決するために、静かな環境下
で音声標準パターンを登録するのでなく、騒音環境下で
音声標準パターンを辞書として登録させ、この辞書を用
いて騒音環境下での音声認識を行なわせる装置も提案さ
れたか、この場合には音声認識が実際になされるときの
騒音環境と同じ騒音環境下で辞書を作らなければならす
、このように同じ環境を作ることは、実際に装置が使わ
れる環境がその都度変化することから極めて難かしく、
また静かな環境下で発声された話者の音声を高い認識率
で認識させることか逆にできなくなってしまうという問
題があった。

本発明は、話者かどのような環境下で発声した場合にも
雑音の影響を除去しかつ発声の仕方の変化を吸収できて
音声を高い認識率で認識させることの可能な音声認識装
置を提供することを目的としている。

〔課題を解決するための手段〕

上記目的を達成するために、本発明は、音声か入力する
音声入力手段と、入力した音声を特徴量に変換する特徴
量変換手段と、特徴量変換手段で変換した特徴量を閾値
と比較し、閾値よりも大きい部分を音声認識対象のパタ
ーンとして求める比較手段と、比較手段で得られた音声
認識対象のパターンの部分なＣ−）を記憶する記憶手段
と、記憶手段に記憶された音声認識対象のパターンと辞
書の音声標準パターンとを照合して音声認識を行なう認
識手段とを備えていることを特徴としたものである。

〔作用〕

上記のような構成の音声認識装置では、音声入力手段か
ら入力した音声を特徴量変換手段で特徴量１例えは音声
のパワーに変換し、この特徴量と闇値とを比較手段で比
較する。比較の結果、閾値よりも大きな特徴量の部分の
みが音声認識対象のパターンとして記憶手段に記憶され
る。記憶手段に記憶された音声認識対象のパターンは、
閾値によって雑音の影響が除去され、また音声の各音間
の不要な部分か除去されて静かな環境下での発声の時間
長さとほぼ同じ時間長さのものとなり発声の仕方の変化
を吸収したものとなっている。

これにより、静かな環境下で登録した音声標準パターン
の辞書を用いた場合にも騒音環境下で発声された音声を
音声認識手段で高い認識率で認識させることができる。

なお上記閾値を環境の雑音のレベルに応じて変化させる
ようにずれは、より高い認識率を得ることかできる。

ｒ実施例〕以下、本発明の一実施例を図面に基づいて説明する。

第１図は本発明に係る音声認識装置の一実施例ブロック
図である。

この音声認識装置１は、音声を入力するマイクなどの音
声入力部２と、入力した音声信号を増幅する増幅部３と
、音声信号を特徴量に変換する特徴量変換部１１と、特
徴量変換部１１で得られた音声信号の特徴量と所定の閾
値ＴＨとを比較する比較部７と、比較の結果、所定の闇
値’Ｉ”　Ｈよりも大きなパワーの部分を音声認識対象
のパターンとして記憶するレジスタ８と、静かな環境下
で音声標準パターンか登録されている辞書つと、レジス
タ８に記憶された音声認識対象のパターンを辞書９に登
録されている音声標準パターンと照合して音声認識を行
なう音声認識部１０とを倫えている。

特徴量変換部１１は、例えは、音声信号からパワースペ
クトルを分析し求めるバンドパスフィルタ群４と、音声
区間を切出す音声区間切出部５と、音声のパワーを測定
するパワー測定部６とからなっている。特徴量変換部１
１においてパワースペクトルを特徴とする求める場合に
はバンドパスフィルタ群４で分析されたパワースペクト
ルのそれぞれをパワー測定部６で加算することによって
パワーを測定しても良いし、あるいは全帯域通過フィル
タなどを用いることによってパワーを測定するようにし
ても良い。

また音声認識部１０は、一般的に知られた認識方式、例
えはＤＰマツチングを用いたもので良い。

このような構成の音声認識装置の動作を次に説明する。

先づ静かな環境下で話者の発声した音声を測定し、これ
を音声標準パターンＰＷｏとして辞書９内に予め登録し
ておく。第２図はこのようにして登録された音声標準パ
ターンＰＷｏの一例を示す図であって、第２図では話者
か「今回時」と続けて発声して登録された音声信号のパ
ワーすなわち音声標準パターンＰＷｏか図示されている
。

このようにして辞書９内に音声標準パターンＰ　Ｗ　ｏ
を登録した後、静かな環境下で「今回時」と発声すると
、この音声はマイク２から入力し、増幅部３で増幅され
特徴量変換部１１において特徴量１例えばパワーＰＷ１
が測定され比較部７において測定されたパワーＰＷ１と
閾値ＴＨとが比較される。第３図（ａ）には話者か発声
した「今回時」の音声のパワーＰＷ１を閾値Ｔ　Ｈと比
較する様子が示されている。この比較の結果、閾値ＴＨ
よりも大きなパワーの部分ｐｗ１’か第３図（ｂ）に示
すように音声認識対象のパターンとしてレジスタ８に記
憶され、音声認識部１０では、第３図（ｂ）の音声認識
対象のパターンＰＷ１　と辞書９に予め記憶されている
第２図の音声標準パターンＰＷｏとを照合する。第３図
（ｂ）の音声認識対象のパターンＰＷ１　と第２図の音
声標準パターンＰＷｏとはほぼ同じであるので音声「今
回時」を高い認識率で認識させることができる。

なおいまの場合、話者は静かな環境下で「今回時」と続
けて発声したので、第３図（ａ）に示す音声のパワーＰ
Ｗ１のうちで所定の閾値ＴＨよりも大きい部分を取出し
て第３図（ｂ）のようなパターンＰＷ１　としてもこの
パターンＰＷ１′は第３図（ａ）に示す音声のパワーＰ
Ｗ１と時間的に差程変化していない。これによって第３
図（ａ）に示す音声のパワーＰＷ１と第２図の音声標準
パターンＰＷｏとを直接照合させてもある程度の高い認
識率を得ることはできる。

これに対して、騒音環境下では一般に話者は静かな環境
下での発声とは異なった仕方で発声しない。例えは「今
回時」と続けて発声ぜずにＩ今・な・ん・じ」のように
各音を区切って発声する。

第４図（ａ）は、騒音環境下で発声された「今・な・ん
・じ」の音声のパワーＰ　Ｗ　２を閾値ＴＨと比較する
様子が示されている。第４図（ａ）を第３図（ａ）と比
べると、騒音環境下では、音声のパワーＰＷ２が静かな
環境下での音声のパワーＰＷ１に比べて大きくなりまた
スペクトルか多少変化することの他に、各音を区切って
発声するなめに発声の時間ｔが長くなっていることかわ
かる。従って、騒音環境下では第４図（ａ）に示す音声
のパワーＰＷ　と第２図の音声標準パターンＰＷｏとを
直接照合させた場合、認識率か著しく低下する。

このように騒音環境下においては音声のパワーＰＷ２は
静かな環境下における音声のパワーＰＷ１と相違するか
、比較部７で音声のパワーＰＷ２のうちで閾値Ｔ　Ｈよ
りも大きい部分を取出しこれを第４図（ｂ）に示すよう
な音声認識対象のパターンＰＷ２′にしてレジスタ８に
記憶させた場合、この音声認識対象のパターンＰＷ２′
には閾値Ｔ　Ｈよりも低いレベルの雑音自体が取除かれ
ているのみならす、各音を区切って発声した結果の音声
認識に不要な部分ｐ１．ｐ２．ｐ３を第４図（ａ）の音
声のパワーＰＷ２から取除くことができて静かな環境下
における発声の時間長さとほぼ同じにすることかできる
。これにより、音声認識部１０において第４図（ｂ）に
示す音声認識対象のパターンＰＷ２　と第２図に示す辞
書９の音声標準パターンＰＷｏとを照合させることによ
って騒音環境下でも高い認識率で所定の認識結果を得る
ことができる。

このように上述の実施例では、話者か静かな環境下で音
声を発声してもあるいは騒音環境下で各音を区切って音
声を発声しても、いずれの場合にも、レジスタ８に記憶
される音声認識対象のパターンは発声の時間長さの変動
等の発声の仕方の変動が除去されたものとなっているの
で、静かな環境下で登録した音声標準パターンの辞書を
用いた場合にも音声を高い認識率で認識させることか可
能となる。

なお上述の実施例では、特徴量変換部１１のパワー測定
部６で測定された音声のパワーを一定の閾値ＴＨと比較
しているために、音声信号のレベルの小さな部分は常に
取除かれて認識される。騒音環境下にあってはこれによ
り雑音が有効に除去されるか、静かな環境下においては
認識に有効な情報が多少失なわれることになる。従って
、より高い認識率を得るためには、閾値ＴＨのレベルを
雑音のレベルに応じて変動させるのか良い。

第５図は、闇値Ｔ　Ｈのレベルを雑音のレベルに応じて
変動させるようにして音声認識装置の構成図であって、
第１図と同様の箇所には同じ符号を付している。第５図
の音声認識装置２１では、パワー測定部６で測定のパワ
ーを閾値ＴＨ’側にあるいは比較部２２側に切換えるス
イッチＳＷを設けている。

このような構成では、話者か発声をする前にスイッチＳ
Ｗを閾値Ｔ　Ｈ’側に切換え、そのときの環境の雑音の
レベルをパワー測定部６で測定し、これを閾値ＴＨ’　
として記憶させる。なおこの闇値ＴＨ’の記憶操作は一
般に一つの雑音環境で一回行なえば良い。閾値ＴＨ’　
を記憶した後、スイッチＳＷを比較部２２側に切換える
。この状態で上述した実施例と同様の動作を行なわせる
ことができて、話者か発声すると比較部２２でその音声
のパワーが閾値ＴＨ’　と比較され閾値ＴＨ’　よりも
大きな部分かレジスタ８に取込まれ音声認識対象のパタ
ーンとされる。

ところで閾値ＴＨ’は話者が発声をするときの環境の雑
音に応じたレベルとなっているので、環境の雑音レベル
か変化しても比較部２２では比較によって音声のパワー
からそのときの環境の雑音を忠実に取除くことかできる
。話者か静かな環境下で話者か発声するときは閾値１゛
Ｈ′は小さなものとなっているので、これにより音声信
号のレベルの小さな部分が取除かれるのを防止し、認識
に有効な情報を失なわずにより高い認識率の認識結果を
得ることかできる。

〔発明の効果〕

以上に説明したように、本発明によれば、入力した音声
を特微量に変換し、この特微量を閾値と比較して閾値よ
りも大きい部分だけを音声認識対象のパターンとして求
め記憶して、音声認識させるようにしているので、話者
がどのような環境下で発声した場合にも、その音声から
雑音の影響を除去できるとともに発声の仕方の変動を低
減した形にすることができて、音声を高い認識率で認識
させることができる。なお閾値を環境の雑音のレベルに
応じて変化させるようにすれは、より高い認識率を得る
ことができる。

【図面の簡単な説明】

第１図は本発明に係る音声認識装置の一実施例のブロッ
ク図、第２図は辞書に登録された音声標準パターンの一
例を示す図、第３図（ａ）は静かな環境下て発声された
音声のパワーＰＷ１を閾値１゛Ｈと比較する様子を示す
図、第３図（ｂ）は第３図（ａ）の比較により閾値Ｔ　
ｌ−Ｉよりも大きなパワーの部分ｐｗ１”　を求めこれ
をレジスタに記憶さぜなときの状態を示す図、第４図（
ａ）は騒音環境下で発声された音声のパワーＰＷ２を閾
値ＴＨと比較する様子を示す図、第４図（ｂ）は第４図
（ａ）の比較により閾値Ｔ　Ｔ−Ｉよりも大きなパワー
の部分ＰＷ２′を求めこれをレジスタに記憶させたとき
の状態を示す図、第５図は閾値Ｔ　Ｈを雑音のレベルに
応じて変化させるようにした構成の音声認識装置のブロ
ック図である。１．２１・・・音声認識装置、２・・・音声入力部、３
・・・増幅器、４・・・バンドパスフィルタ群、５・・
・音声区間切出部、６・・・パワー測定部、７．２２・
・比較部、８・・・レジスタ、９・・・辞書、１０・・
・音声認識部、１１・・・特徴量変換部、ＴＨ’・・・
閾値、ＳＷ・・・スイッチエト■

Claims

【特許請求の範囲】

音声が入力する音声入力手段と、入力した音声を特徴量
に変換する特徴量変換手段と、特徴量変換手段で変換し
た特徴量を閾値と比較し、閾値よりも大きい部分を音声
認識対象のパターンとして求める比較手段と、比較手段
で得られた音声認識対象のパターンの部分だけを記憶す
る記憶手段と、記憶手段に記憶された音声認識対象のパ
ターンと辞書の音声標準パターンとを照合して音声認識
を行なう認識手段とを備えていることを特徴とする音声
認識装置。