JPH03110599A

JPH03110599A - 音声認識方法

Info

Publication number: JPH03110599A
Application number: JP1249535A
Authority: JP
Inventors: Toshiyuki Morii; 利幸森井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1989-09-26
Filing date: 1989-09-26
Publication date: 1991-05-10
Anticipated expiration: 2012-09-30
Also published as: JP2658426B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、音声データを認識する装置に用いる音声認識
方法に関するものである。

従来の技術従来、音声認識システムとして、第２図の機能ブロック
図に示す構成が知られている。

第２図に示すように、まず、マイクロホンから入力され
た音声信号１０に対し、音響分析部１１において、ＬＰ
　Ｃ（ｌｉｎｅａｒ　ｐｒｅｄｉｃｔｉｖｅ　ｃｏｄｉ
ｎｇ　：線形予測符号化）分析やフィルター分析などの
音響分析を行ない、特徴パラメータを含む音声情報を抽
出する。次に、上記音声情報に対し、セグメンテーショ
ン部１２において、子音セグメンテーションを行なった
後、音素判別部１３において、音素標準パターン格納部
１４に格納された音素標準パターンとマツチングを行な
い、音素を判別して音素系列を作る。次に、上記音素系
列に対し、音素系列作成部１５において、音度規則格納
部１６に格納された音度規則と照合し、修正を加えて最
終的な音素系列を作成する。そして、単語マツチング部
１７において、上記最終的な音素系列と単語辞書格納部
１８に格納された単語辞書とのマツチングを行ない、類
似度の一番大きいものを認識結果１９とする。

ここで、上記音素判別部１３において、音素マツチング
に用いられ、音素標準パターン格納部１４に格納された
不特定話者・多数語用音素標準パターンは第３図に示す
ようにして作成する。まず、防音室内でマイクロホンか
ら入力された多人数・多数語の音声データ２０をＡ／Ｄ
変換部２１においてＡ／Ｄ変換し、収録して音声データ
ベース２２を作る。

次に、上記音声データに対し、音響分析部２３において
音響分析を行ない、特徴パラメータを抽出する。一方、
音響分析部２３で得られるパワー情報などをもとに、人
が目視によってそれぞれのデータに対して音素のラベリ
ング２４を行ない、ラベリングデータベース２５を作る
。そして、標準パターン作成部２６において、上記特徴
パラメータとラベリングデータとを用いてＬＰＣケプス
トラム係数を特徴パラメータとした音素標準パターン２
７を作成する。

この音声認識システムの実用化に際しては、認識される
音声が環境から受ける影響を低減する認識アルゴリズム
が必要になる。特に、環境ノイズは認識率の低下の最も
大きい要因であり、音響分析におけるノイズ対策は必須
である。従来における環境ノイズ対策は、その環境ノイ
ズを付加した音素標準パターンを作成して音素認識に用
いるという方法であったが、このノイズ付加音素標準パ
ターンは第４図に示すようにして作成する。１ず、あら
かじめ音声認識を行なう環境のノイズ２８を収録し、Ａ
／Ｄ変換部２９においてＡ／Ｄ変換を行なってノイズデ
ータベース３０を作成する。次に、ノイズ混合部３２に
おいて、第３図で説明した音素標準パターン作成過程で
作成され、音声データベース格納部３１に格納されたノ
イズのないクリーンな音声データベースと、上記ノイズ
データベース３０とを指定された比で混合し、ノイズ付
加音声データベース３３を作成する。次に、上記ノイズ
付加音声データに対し、音響分析部３４において音響分
析を行ない、特徴パラメータを抽出する。次に、標準パ
ターン作成部３６において、第３図で説明した音素標準
パターン作成過程で作成され、ラベリングデータベース
格納部３５に格納されたラベリングデータベースと、上
記音響分析部３４で抽出された特徴パラメータとを用い
、ＬＰＣケプストラム係数を特徴パラメータとしたノイ
ズ付加音素標準パターン３７を作成する。

このようにして作成されたノイズ付加音素標準パターン
３７を第２図で説明した音素判別部１３における音素判
別に用いることにより、ノイズに適合した音声認識を行
なうことができる。

発明が解決しようとする課題上記のように音声認識システムの実用化に際しては、認
識される音声が環境から受ける影響を低減する認識アル
ゴリズムが必要になる。特に、環境ノイズは認識率の低
下の最も大きい要因であり、音響分析におけるノイズ対
策は必須である。しかし、環境ノイズは、その環境や時
間によって様々なパワーと周波数成分を持つので、それ
ぞれに対する適応が容易でない。また、ＬＰＣケプスト
ラム係数を特徴パラメータとしているため、ノイズ成分
の扱いが難しくなっている。そのため、従来の音素認識
システムにおける音素標準パターンの環境ノイズ適合法
としては、その環境ノイズを付加した音素標準パターン
を作成して音素認識に用いるという方法が認識率向上に
最も有効なものであった。しかし、ノイズ付加音素標準
パターンを作成するためには、その環境ノイズを収録し
、それを音声データに付加したものを多人数・多数語に
ついて収集し、その音声データから音声データベースを
作り、その音声データベースから音素標準パターンを作
成するという大変労力と時間のかかるデータ処理を行な
わなくてはならない。また、いくつかの環境ノイズを付
加した音素標準パターンを格納しておき、認識時にその
中から最も適した音素標準パターンを選択して音素認識
に使用するという方法も考えられるが、ノイズのパワー
スペクトル上にピークがある場合などを含めると、それ
だけではすべての環境ノイズに対して対応することはで
きない。まだ、実環境で用いられる音声認識装置に組み
込むということを考えると、認識時の環境ノイズ学習に
よって音素標準パターンのノイズ適合を行なうことが望
ましい。

本発明は、上記のような従来技術の課題を解決するもの
であり、認識時における短時間の環境ノイズ学習によっ
て標準パターンをその環境ノイズに適合するように変形
し、その標準パターンをマツチングに使用することによ
り、環境ノイズに適合、しだ音声認識を行なうことがで
き、したがって、認識率の向上を図ることができるよう
にした音声認識方法を提供することを目的とするもので
ある。

課題を解決するだめの手段上記課題を解決するだめの本発明の技術的手段は、認識
時の環境ノイズを音響分析して得られた平均的なノイズ
の周波数的特徴を表わす自己相関係数のベクトルと、音
声の標準パターンに対応する自己相関係数のベクトルと
を加算して新たな自己相関係数を得、この新たな自己相
関係数のベクトルから導かれる標準パターンをマツチン
グに用いることによシ音声認識を行なうようにしたもの
である。

そして、上記音声認識が音素を認識の基本単位とし、上
記自己相関係数のベクトルの加算の割合を、ノイズ環境
において発声された基準音声から算出しだＳ／Ｎ比をも
とに、複数のノイズ付加音声データの音素別Ｓ／Ｎ比を
分析することによって得られる音声データと各音素との
Ｓ／Ｎ比の関係が格納されている音素別Ｓ／Ｎ化対応表
の値を参照して算出し、また、上記標準パターンが線型
予測係数から導かれるＬＰＣケプストラム係数を特徴パ
ラメータとする音素標準パターンであり、上記マツチン
グが音素標準パターンを用いた音素マツチングであるの
が好ましい。

作用しだがりで、本発明によれば、様々な性質を持つ環境ノ
イズの平均的な周波数的特徴を標準パターンに直接混合
するので、標準パターンの環境ノイズ適合を認識時の短
時間のノイズ学習によって容易に実現することができ、
そして、その環境ノイズに適合した標準パターンをマツ
チングに使用することにより環境ノイズに適合した音声
認識を行なうことができる。

実施例以下、本発明の実施例について図面を参照しながら説明
する。

第１図は本発明の一実施例における音声認識方法を具現
化する機能ブロック図である。

第１図に示すように、まず、認識時において、環境ノイ
ズを含む基準音声データ１を短時間入力する。この基準
音声データに対し、音響分析部２において、ノイズのみ
の区間と音声が含まれている区間に分離して音響分析を
行ない、ノイズ区間からノイズの平均的な周波数的特徴
を表わす自己相関係数ベクトル３を算出すると共に、音
声のパワーとノイズ区間のパワー比からＳ／Ｎ比４を算
出する。算出されたＳ／Ｎ比４をもとに、混合比算出部
５において、音素別Ｓ／Ｎ化対応表６を参照し、ノイズ
の自己相関係数ベクトルと音声の自己相関係数ベクトル
を混合する比を算出する。この音素別Ｓ／Ｎ化対応表６
は、様々なノイズレベルのノイズ付加音声データを分析
することによってそれぞれの音素別局所的Ｓ／Ｎ比を得
、得られた音素別局所的Ｓ／Ｎ比を格納している。

上記混合比算出部５において混合比を算出するには、音
素別Ｓ／Ｎ化対応表６に格納した複数の音素別局所的Ｓ
／Ｎ比の中から、音響分析部２において算出した基準音
声のＳ／Ｎ比４に最も近いＳ／Ｎ比のノイズ付加音声デ
ータの音素別局所的Ｓ／Ｎ比を２つ選択する。そして、
この２つの値の間を線形補間することによって混合比の
算出を行なう。

自己相関係数演算部７では、音素標準パターン格納部８
に格納された音素標準パターンに対する自己相関係数ベ
クトルと、音響分析部２において算出したノイズの平均
的な周波数的特徴を表わす自己相関係数ベクトル３とを
、混合比算出部５で算出された混合比で加算して新たな
自己相関係数を得、この新たに得られた自己相関係数か
ら新音素標準パターン９を導く。そして、この新音素標
準パターンを第２図に示す音声認識システムの音素判別
部１３における音素マツチングに用いることにより、ノ
イズに適合した音声認識を実現することができ、その手
順は上記従来例と同様であるので、その説明を省略する
。

次に、音素判別に、上記ノイズ適合法で作成される音素
標準パターンを用いた場合の効果を示すために音素識別
実験を行ない、その評価した結果について説明する（た
だし、本実施例において示す音素識別実験結果は、ノイ
ズレベルを前音声区間について一様に指定する方法につ
いての実験結果である。）。

評価条件は次の通りである。評価対象音素群は母音・鼻
音群と語中子音群（有声子音／Ｍ、Ｎ。

＊、Ｂ、Ｄ、Ｒ，Ｚ／、摩擦音／Ｚ、Ｓ、Ｈ／）である
。評価対象話者は男女者１０人（計２０人）であり、特
に、語中子音については、オープンの評価をするために
、−人一人の評価に用いる音素標準パターンをその評価
対象話者を除いた１９人で作成した。評価データとして
用いるノイズ付加音声データは、母音・鼻音については
「疑似ＨＯＴＨノイズ（−６ｄＢｌｏｃｔ　）付加音声
データ」、語中子音については「展示会の実環境ノイズ
付加音声データ」であり、ノイズレベルは両方ともＳ／
Ｎ比で１５ｄＢである。

上記の条件に基づいて、ノイズの入っていないクリーン
な音素標準パターンに上記ノイズ適合法を適用すること
によって導かれた新たな音素標準パターンを用いて評価
を行なった。また、この実験では評価するノイズ付加音
声データの全体のＳ／Ｎ比を基準音声のＳｌＮ比とする
ことによシ基準音声を省略した。ノイズの平均的な周波
数的特徴を表わす自己相関係数ベクトルは、約１０秒間
のノイズのみのデータを分析することによって求めた。

次の第１ないし第３表は比較例１であるノイズの入って
いないクリーンな音素標準パターンで評価した結果と、
比較例２であるノイズ付加音声データから作成した音素
標準パターンで評価した結果と、本発明実施例によるノ
イズ適合により得られた音素標準パターンで評価した結
果を表わしたものである。

第３表（摩擦音）（単位チ）上記識別（判別）結果からも明らかなように、本発明実
施例によるノイズ適合法を用いることによシ、比較例２
のノイズ付加音素標準パターンの識別率には及ばないも
のの、識別率が改善されていることがわかる。比較例１
と２の識別率の差を１００％としたとき、本発明実施例
が改善した識別率の割合は、第１表で示す母音・鼻音が
５７．５乞語中子音でも第２表で示す有声子音が６５．
５　％〜５６．７チ、第３表で示す摩擦音が７３．４％
〜９１．７チ改善され、短時間のノイズ学習でありなが
らも、大きい効果がある事を示している。

このように上記実施例によれば、自己相関係数の演算に
より、様々な性質を持つ環境ノイズに適合した音素標準
パターンを認識時の短時間のノイズ学習によって容易に
得ることができ、その音素標準パターンを音素識別部に
おける音素マツチングに使用することにより、環境ノイ
ズに適合した音声認識を行なうことができ、これにより
認識率を向上させることができる。

発明の効果以上述べたように本発明によれば、様々な性質を持つ環
境ノイズの平均的な周波数的特徴を標準パターンに直接
混合するので、標準パターンの環境ノイズ適合を認識時
の短時間のノイズ学習によって容易に実現することがで
き、そして、その環境ノイズに適合した標準パターンを
マツチングに使用することによシ環境ノイズに適合した
音声認識を行なうことができ、したがって、認識率を向
上させることができる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識方法を具現
化する機能ブロック図、第２図は従来の音声認識システ
ムを示す機能ブロック図、第３図は従来の音素標準パタ
ーン作成システムを示す機能ブロック図、Ｍ４図は従来
のノイズ付加音素標準パターン作成システムを示す機能
ブロック図である。２・・・音響分析部、５・・・混合比演算部、６・・・
音素別Ｓ／Ｎ比対応表、７・・・自己相関係数演算部、
８・・・標準パターン格納部。

Claims

【特許請求の範囲】

（１）認識時の環境ノイズを音響分析して得られた平均
的なノイズの周波数的特徴を表わす自己相関係数のベク
トルと、音声の標準パターンに対応する自己相関係数の
ベクトルとを加算して新たな自己相関係数を得、この新
たな自己相関係数のベクトルから導かれる標準パターン
をマッチングに用いることにより音声認識を行なうこと
を特徴とする音声認識方法。
（２）音声認識が音素を認識の基本単位とし、自己相関
係数のベクトルの加算の割合を、ノイズ環境において発
声された基準音声から算出したＳ／Ｎ比をもとに、複数
のノイズ付加音声データの音素別Ｓ／Ｎ比を分析するこ
とによって得られる音声データと各音素とのＳ／Ｎ比の
関係が格納されている音素別Ｓ／Ｎ比対応表の値を参照
して算出することを特徴とする請求項１記載の音声認識
方法。
（３）標準パターンが線型予測係数から導かれるＬＰＣ
ケプストラム係数を特徴パラメータとする音素標準パタ
ーンであり、マッチングが音素標準パターンを用いた音
素マッチングであることを特徴とする請求項１または２
記載の音声認識方法。