JP2776848B2

JP2776848B2 - 雑音除去方法、それに用いるニューラルネットワークの学習方法

Info

Publication number: JP2776848B2
Application number: JP63313859A
Authority: JP
Inventors: 俊之在塚; 明雄天野; 信夫畑岡; 熹市川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-12-14
Filing date: 1988-12-14
Publication date: 1998-07-16
Anticipated expiration: 2013-07-16
Also published as: US5185848A; JPH02160298A; CA2005117A1; CA2005117C

Description

【発明の詳細な説明】【産業上の利用分野】

本発明は、音声の伝送、認識等における分析時の雑音
除去方式に関する。

【従来の技術】

従来の雑音除去方式には、接話マイク法、サブストラ
クシション法、複数マイク法、フィルタリング法等が提
案されている。このうち接話マイク法は、マイクの指向
性を利用するものである。サブストラクション法は、予
め雑音のみを登録しておき、雑音重畳信号から差し引く
ことによる。複数マイク法は、マイク位置による位相差
等を利用するものである。フィルタリング法は、信号と
雑音の帯域が異なる場合にフィルタリングによって信号
のみを取り出すものである。一方、田村震一，アレックス・ワイベル：「ニューラ
ルネットワークを使った波形入出力による雑音抑圧」
（信学技報Vol.87,No.351,pp.33−37,1988年１月）記載
のように、雑音を含む音声波形を入力とし、雑音を除去
した音声を出力とするように、ニューラルネットワーク
を学習させるものも提案されている。

【発明が解決しようとする課題】

上記従来技術のうち、接話マイク法は、接話マイクを
装着する必要があり、使い勝手に問題があった。またサ
ブストラクション法、フィルタリング法は、雑音の性質
が既知であるときにのみ有効であるという問題があっ
た。さらに複数マイク法はマイクを複数個必要とするた
め、設置方法に問題があった。一方、ニューラルネットワークを用いて雑音を除去す
る方法は、音韻性の劣化を伴うという問題があった。本発明は、信号の伝送または認識を行う際に、一般的
な捕音装置を用いて入力した信号から、雑音を、性質に
よらずかつ音韻性の劣化を伴うことなく除去し、信号の
S/Nを改善することを目的としており、また伝送または
認識の前処理を高速に行う手段を提供することを目的と
する。

【課題を解決するための手段】

上記目的を達成するために、雑音を含む信号を自己相関係数などの特徴ベクトル
（特徴量の組）に変換する分析部と、これを入力とし、
該当するクラスタを代表する、雑音を含まない信号を変
換した特徴ベクトルに対応する、代表ベクトルのインデ
クスを出力とする、ニューラルネットワークを用いたも
のである。なお、上記ニューラルネットワークを学習させる目的
で、まず代表的な雑音と、雑音を含まない信号を予め用
意し、次に雑音を含まない信号を変換した特徴ベクトル
に対してクラスタリングを行い、そのクラスタを代表す
る代表ベクトルを選択しコードブックを作成する。そし
て、このコードブックから、上記特徴ベクトルの該当す
る最適なクラスタを代表する代表ベクトルのインデクス
を得てこれを教師データとし、また雑音と、雑音を含ま
ない信号を重畳し、これを変換した特徴ベクトルを学習
データとして、ニューラルネットワークを学習させる方
式を用いたものである。また、上記雑音除去方式を伝送に利用する場合には、
受信側の合成部において、合成に適した特徴ベクトルを
代表ベクトルに持つコードブックを、別途用いる。

【作用】

ニューラルネットワークの写像機能を利用して、雑音
を含む信号を変換した特徴ベクトルを、該当する最適な
クラスタを代表する、雑音を含まない信号の特徴ベクト
ルに対応する、代表ベクトルのインデクスに写像するこ
とによりS/Nを改善し、かつ高速にコード化を行う。また、雑音重畳信号を特徴ベクトルに変換した後、そ
の中から雑音の影響の小さい特徴量を選んで、ニューラ
ルネットワークの入力ベクトルとすることにより、写像
の性能を向上させ、S/Nを改善することができる。例え
ば、特徴ベクトルとして自己相関係数を選択した場合、
雑音の影響はパワーを表す零次の係数に集中する。そこ
でこの零次の係数を除いた残りの係数を正規化し、ニュ
ーラルネットワークの入力とすることでS/Nを改善す
る。またこのとき、残りの係数のうちの最大値をもって
擬似パワーとし、これを別途合成部等に送ることでパワ
ー情報を回復する。さらに、上記雑音除去方式を伝送に用いる場合には、
受信側のコードブックとして、各クラスタの代表ベクト
ルが、合成に適した特徴ベクトルに対応するように学習
させたものを用いることにより、合成処理の高速化を行
うことができる。

【実施例】

以下、本発明の実施例を第１図〜第７図により説明す
る。第１図は、前処理部に本雑音除去方式を用いてS/N改
善を行う符号化方式の、一実施例の構成を表すブロック
図である。以下、各動作について説明する。まず、入力
された雑音を含む音声信号は、分析部101において公知
の分析手段によって自己相関係数v₀〜v_n102に変換され
る。次に、雑音の影響の大きい零次の係数v₀を除いたv₁
〜v_nから、最大値検出部103によって最大値v_max104を擬
似パワーとして検出し、正規化部105によって正規化す
る。正規化された自己相関係数v₁′〜v_n′106は、第２
図に示すように、入力層、中間層および出力層のユニッ
ト間を重みつきで結合させた、階層構造を持つニューラ
ルネットワーク107に入力され、ニューラルネットワー
ク107は、該当する最適なクラスタを代表する代表ベク
トルのインデクス108を出力する。ただし上記ニューラ
ルネットワークは後述する方法等によって予め学習させ
ておくものとする。出力されたインデクス108は、最大
値検出部によって検出された上記自己相関係数の最大値
v_max104と共に、送信部109より伝送路110を通り受信部1
11に伝送される。受信されたインデクス112は、ベクト
ル選択部113へ入力され、ベクトル選択部113は、上記イ
ンデクス112に対応する代表ベクトルをコードブック114
から選択し、出力する。このときコードブック114は、
アイ・イー・イー・イー、トランザクションズオン
コミュニケーションズ、ボリュームシーオーエム−2
8、ナンバー１、1980年（IEEE TRANSACTIONS ON COMMUN
ICATIONS,VOL.COM−28,No.1,JANUARY 1980,pp.84−95）
記載のコードブック生成法等によって、各クラスタの代
表ベクトルが偏自己相関係数k₁〜k_n115に対応するよう
に学習しているものとする。合成部116では、上記偏自
己相関係数k₁〜k_n115と、伝送された擬似パワーv_max117
によって音声信号を合成し出力する。第３図（ａ）は、ニューラルネットワークを構成する
ニューロンのモデルの例である。入力x₁〜x_nは、それぞ
れ重みw₁〜w_nをかけた荷重和の形でニューロンに入力さ
れる。ニューロンは、入力に対しある関数ｆ（・）によ
って出力ｙを規定する。すなわち、となる。ただし、θはオフセットである。（ｂ）、
（ｃ）、（ｄ）に関数ｆ（・）の例を示す。第４図は、第２図に示すように、入力層、中間層およ
び出力層のユニツト間を重みつきで結合させた、階層構
造を持つニューラルネットワークを、上述した雑音除去
の目的を実現する性質を持つように学習させる、ニュー
ラルネットワーク学習方式の流れ図である。アルゴリズ
ムを以下に示す。 Step1: 適用範囲を代表する雑音を含まない信号を選び入力す
る。 Step2: 適用環境を代表する雑音を選び入力する。 Step3: すべての信号データを、偏自己相関係数に変換する。 Step4: 偏自己相関係数に対し、上記コードブック生成法等に
よって、クラスタリングを行いコードブックを生成す
る。 Step5: 信号データと雑音データを、すべての組み合わせにつ
いて重畳し、これを自己相関係数に変換する。 Step6: すべての偏自己相関係数に対し、コードブックより、
該当する最適なクラスタを代表する代表ベクトルに対応
するインデクスを選択する。 Step7: 同じ信号から得た自己相関係数とインデクスをそれぞ
れ学習データ、教師データとする学習セットを、すべて
の信号および雑音に対し作り、これらをニューラルネッ
トワークに与え、ニューラルネットワークを学習させ
る。 Step8: 学習結果が収束するまでStep7を繰り返す。第５図は、第２図に示すように、入力層、中間層およ
び出力層のユニット間を重みつきで結合させた、階層構
造を持つニューラルネットワークを、上述した雑音除去
の目的を実現する性質を持つように学習させる、ニュー
ラルネットワーク学習方式の構成図である。まず、適用範囲を代表する雑音を含まない音声を入力
し、第１のスイッチ501によりA/D変換器502を通した
後、第２のスイッチ503により第１のメモリ504に格納す
る。また、適用環境を代表する雑音を入力し、第１のスイ
ッチ501によりA/D変換器502を通した後、第２のスイッ
チ503により第２のメモリ505に格納する。次に、信号重畳部506において、第１のメモリ504より
取り出した音声データと、第２のメモリ505から取り出
した雑音データを重畳し、雑音重畳音声を、第３のスイ
ッチ507により分析部508に入力し、分析部508において
自己相関係数v₀〜v_n509に変換する。自己相関係数のう
ち、雑音の影響の大きい零次の係数v₀を除いたv₁〜v_nか
ら、最大値検出部510によって最大値v_max511を擬似パワ
ーとして検出し、また、正規化部512によって正規化す
る。正規化された自己相関係数v₁′〜v_n′513を、ニュ
ーラルネットワーク学習部514において、第２図に示す
階層構造を持つニューラルネットワーク515の学習デー
タとする。また、第１のメモリ504から第３のスイッチ507により
取り出した音声データを、分析部508において自己相関
係数u₀〜u_n516に変換する。偏自己相関係数抽出部517
は、u₀〜u_n516を合成に適した偏自己相関係数k₁〜k_n518
に変換する。イｆンデクス生成部519は、k₁〜k_n518の該
当する最適なクラスタを代表する代表ベクトルを、コー
ドブック520から選択し、そのインデクス521を生成す
る。ただしコードブック520は、上記コードブック生成
法等によって、各クラスタの代表ベクトル偏自己相関係
数k₁〜k_n518に対応するように予め学習しているものと
する。インデクス521は、レジスタ522を介してニューラ
ルネットワーク学習部514に入力され、ニューラルネッ
トワーク515を学習させるための教師データに用いられ
る。ニューラルネットワーク学習部514は、上記学習デー
タと教師データを、同じ音声データによるもの同志がセ
ットとなるタイミングでニューラルネットワーク515に
与え、これを学習させる。ところで上記実施例では、ニューラルネットワークと
して、階層型構造を持つものを用いているが、入力と出
力の関係を満たしているものであればよいため、例え
ば、ホップフィールド型や、ボルツマンマシン型構造を
持つニューラルネットワークを用いても、同様の機能を
実現できることは明らかである。また、ニューラルネッ
トワークへの入力数が多い場合には、ニューラルネット
ワークの規模を抑えるために、第６図に示すような多段
型ニューラルネットワークの構成を用いることができ
る。第６図は、２段、４ニューラルネットワークからな
る多段型ニューラルネットワークの例である。入力ベク
トルは３つに分けられそれぞれニューラルネットワーク
601、602、603に入力される。各ニューラルネットワー
クの出力は、次段のニューラルネットワーク604の入力
となる。第７図は、本雑音除去方式を前処理に用いた、音声認
識のブロック図であり、本雑音除去方式による雑音除去
部701において、音声信号から雑音を除去し、コードに
変換した特徴量を、認識部702において認識する。

【発明の効果】

本発明によれば、雑音を含む信号の特徴ベクトルか
ら、該当する最適なクラスタを代表する、雑音を含まな
い代表ベクトルのインデクスを得る目的で、ニューラル
ネットワークを用いることにより、雑音の除去が行え
る。しかも、特徴ベクトルの該当する最適なクラスタを
代表する代表ベクトルを、最小歪の計算等により検索す
る必要がなくなり、単純な積和演算のみでインデクスを
得ることができるため、処理を高速に行えるという効果
を持つ。また、雑音の影響の小さい特徴量のみを用いることに
よって雑音の影響を軽減することができる。例えば、特
徴ベクトルとして自己相関係数を用いた場合、雑音の影
響の大きいパワーを表す零次の係数を除いた、残りの係
数のみを用いる。このとき、残りの係数の最大値をもっ
て擬似パワーとすることで、パワー情報を回復する。一方、ニューラルネットワークは、学習時の入力を正
規化することによって、収束を早めることができる場合
がある。特徴ベクトルを正規化する正規化部を設けるこ
とにより、そのような学習を行ったニューラルネットワ
ークを用いることができるようになる。さらに、合成側のコードブックとして、各クラスタの
代表ベクトルが、合成に適した特徴ベクトルとなるよう
に学習させたものを用いることにより、特徴ベクトル間
の変換にかかる時間を節約でき、処理の高速化が望め
る。例えば、自己相関係数を分析部の出力とすること
で、雑音の影響を零次の項に集中させ、合成部では、合
成に適した偏自己相関係数を用いる場合、上記ニューラ
ルネットワークを学習させる過程で、偏自己相関係数を
各クラスタの代表ベクトルとするコードブックを用いれ
ば、これを合成側のコードブックとすることができ、あ
らたにコードブック生成を行う必要がなくなる。また、
上記ニューラルネットワークを学習させる過程で、自己
相関係数を代表ベクトルとするコードブックを用いてい
る場合でも、これを偏自己相関係数に変換することは容
易であり、従って、これにより簡単に合成側のコードブ
ックを作成することができる。

【図面の簡単な説明】

第１図は、前処理部に本雑音除去方式を用いてS/N改善
を行う符号化方式の、一実施例の構成を表すブロック
図、第２図は、階層構造を持つニューラルネットワーク
の例を示す図、第３図は、ニューラルネットワークを構
成するニューロンのモデルの例を示す図、第４図は、第
２図に示したような構造を持つニューラルネットワーク
を学習させる、ニューラルネットワーク学習方式の流れ
図、第５図は、第２図に示したような構造を持つニュー
ラルネットワークを学習させる。ニューラルネットワー
ク学習方式の構成図、第６図は、２段、４ニューラルネ
ットワークからなる多段型ニューラルネットワークの例
を示す図、第７図は、本雑音除去方式を前処理に用い
た、音声認識のブロック図である。符号の説明 101……分析部、103……最大値検出部、105……正規化
部、107……ニューラルネットワーク、113……ベクトル
選択部、114……コードブック、116……合成部、502…
…A/D変換器、504……第１のメモリ、505……第２のメ
モリ、506……信号重畳部、508……分析部、510……最
大値検出部、512……正規化部、514……ニューラルネッ
トワーク学習部、515……ニューラルネットワーク、517
……偏自己相関係数抽出部、519……インデクス生成
部、520……コードブック、601,602,603,604……ニュー
ラルネットワーク、701……雑音除去部、702……認識部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ１０Ｌ 9/08 ３０１Ｇ１０Ｌ 9/08 ３０１Ａ (72)発明者市川熹東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (56)参考文献特開平２−15718（ＪＰ，Ａ) 特開平１−274198（ＪＰ，Ａ) 特開昭54−94212（ＪＰ，Ａ) ＩＥＥＥＡＳＳＰＭＡＧＡＺＩＮＥＰ．４〜22 （Ａｐｒｉｌ1987) 日本音響学会講演論文集平成元年３月１−６−10 Ｐ．19〜20 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 521 G10L 9/08 301 G10L 9/10 301 G10L 3/02 301 G10L 3/00 515 G10L 9/08 ＪＩＣＳＴファルイ（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】雑音を含む信号を入力し、該信号の特徴を
示す複数の特徴量に変換し、該特徴量から最も雑音の影
響を受けている１の特徴量を除いた残りの特徴量に基づ
いてニューラルネットワークにより最適なクラスタを代
表する代表ベクトルのインデクスを得、該インデクスと
上記残りの特徴量の中の最大値を示す特徴量とを上記音
声信号の符号化信号として出力することを特徴とする雑
音除去方法。
【請求項２】上記ニューラルネットワークは、上記残り
の特徴量を正規化した値を入力とすることを特徴とする
請求項１の雑音除去方法。
【請求項３】上記ニューラルネットワークは、雑音を含
まない信号と雑音から作成された学習データと教師デー
タとを用いて予め学習されていることを特徴とする請求
項１の雑音除去方法。
【請求項４】雑音と雑音を含まない信号を準備し、上記雑音と雑音を含まない信号とを重畳し、上記雑音を含まない信号、及び該重畳された雑音重畳信
号を特徴ベクトルに変換し、上記雑音を含まない信号の特徴ベクトルの該当する最適
なクラスタを代表する代表ベクトルをコードブックから
選択してそのインデクスを生成し、上記雑音重畳信号の特徴ベクトルを学習データとし、上
記インデクスを教師データとしてニューラルネットワー
クを学習させることを特徴とするニューラルネットワー
ク学習方法。