JP7094340B2 - 畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法 - Google Patents

畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法 Download PDF

Info

Publication number
JP7094340B2
JP7094340B2 JP2020174530A JP2020174530A JP7094340B2 JP 7094340 B2 JP7094340 B2 JP 7094340B2 JP 2020174530 A JP2020174530 A JP 2020174530A JP 2020174530 A JP2020174530 A JP 2020174530A JP 7094340 B2 JP7094340 B2 JP 7094340B2
Authority
JP
Japan
Prior art keywords
spectral
convolutional neural
signal
voice
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020174530A
Other languages
English (en)
Other versions
JP2021128328A (ja
Inventor
ハビエル・ガリャルト・マウリ
イニゴ・ガルシア・モルテ
ダヤナ・リバス・ゴンサレス
アントニオ・ミゲル・アルティアガ
アルフォンソ・オルテガ・ヒメネス
エドゥアルド・リェイダ・ソラノ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
System One Noc & Development Solutions Sa
Original Assignee
System One Noc & Development Solutions Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by System One Noc & Development Solutions Sa filed Critical System One Noc & Development Solutions Sa
Publication of JP2021128328A publication Critical patent/JP2021128328A/ja
Application granted granted Critical
Publication of JP7094340B2 publication Critical patent/JP7094340B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

発明の目的
深層畳み込みニューラルネットワーク(CNN)に基づく電話音声信号の強調のための本方法は、通話中に日常的なシナリオで発生する音響歪みの影響を低減することが可能である。これらの歪みは、加法性雑音または残響などの形で現れ、電話回線によって伝送される音声の明瞭度に影響を与えて、これにより通話者間に不快感をもたらし、あるいは通話を諦める原因にさえなり得る。本発明は、単一チャネルの電話音声信号を低遅延で強調する方法である。本発明の方法の新規性は、本方法が古典的なゲイン法に基づいて、畳み込みニューラルネットワーク(CNN)を用いてウィーナー推定量を学習する雑音低減方法でるという事実にある。そして本方法は、これを用いて、信号の各時間周波数成分に対して、雑音電力よりも音声電力を高めるためのフィルタのゲインを計算する。本方法の本質的な要素としてウィーナーゲイン推定量を選択することで、この尺度はその特性から深層学習アプローチにより推定されることに非常に適しているため、推定誤差に対する脆弱性を減少させることができる。本発明の方法は、音声信号の品質を評価する機能を任意に組み入れてもよく、それに応じて、続けて音響増強を適用する。
従来の研究と比較して、本発明は、効率を大幅に向上させ、現実的な雑音(非定常、混合、音声との相関など)の処理を可能にする点、及び推定が非再帰的に行われるため、誤差が伝播することを防ぐという点においても改善されている。本発明は、2つの動作モードを可能にする。1つは、因果的処理に基づくリアルタイム解析を必要とする用途、及び因果性を要する環境に適した動作モードであり、もう1つは、非因果的な方法で完全な信号を利用する、そのような利用を可能にする要件を備えた用途のための動作モードである。最後に、本方法は処理における低遅延性を示す実装で構成されることが強調される。
本発明は、電気通信技術の分野に属し、より具体的には、電話音声における音響歪みを低減することを可能にする技術に関する。
日常的な場面、例えば、家庭、オフィス、公共の公園、街路などで行われる電話での会話は、ほとんどの場合、環境騒音、屋内環境でハンズフリー装置を使用するときに通常発生する残響効果、遠くのマイクなどの影響を受ける。これらの音響歪みは、音声と組み合わさり、全体として電話回線を介して伝送される。このようにして、相手側に到達する音声の明瞭度は、音声信号の影響のレベルに応じて損なわれる。中程度の歪みであれば、会話に参加している話者に不快感を与え得る。しかし、信号の影響度が高くなると、通話者は通話の終了を検討することさえあり得る。音声を強調するための方法の使用は、このような望ましくない状況の繰り返しがサービスの品質に影響を与えないことに寄与し、したがって電話サービスプロバイダの評判を良くすることに寄与する。
これらの方法は、実環境に典型的な歪みを有する音声信号を処理することができ、より良い音響品質を有する信号を提供することができる。ゲインに基づいてスペクトル領域で音声を強調する方法は、単一チャネルの音声信号における雑音を低減するための確立されたパラダイムである(非特許文献1)。ゲイン法は、音声信号の時間周波数表現を取得し、各スペクトル領域の雑音の影響度に応じて、周波数に依存して且つ時間的に変化するゲインを推定することから構成される。このゲインは、音声の存在確率によって決定される音声または雑音の優勢に応じて、信号のスペクトル表現の時間周波数成分を修正するために使用される。音声信号の時間周波数表現に強調フィルタを適用すると、クリーンな音声信号に近くなる修正版のスペクトルが生成される。その後、時間領域において強調された信号のサンプルを得るために、再構成アルゴリズムにより、初めに使用された変換に従って逆変換が適用される。
先行技術では、このパラダイムから派生した統計的アルゴリズムの大規模なファミリーが存在する。その中でも、古典的なウィーナーフィルタリング(非特許文献2)及びスペクトル減算(非特許文献3)に加えて、その多数の変種;短時間スペクトル振幅推定(STSA)(非特許文献4)及びその進化形、対数スペクトル振幅推定(LSA)(非特許文献5)に言及することは不可欠である。これらもまた多くの提案、例えば、最適修正された対数スペクトル振幅推定(Estimator of the Optimally-Modified Logarithmic Spectral Amplitude (OMLSA))(非特許文献6)などのためのインスピレーションとなっている。しかしながら、この枠組みの統計的基礎は、特に、雑音の種類の混合、インパルス雑音、音声と相関のある雑音などを有し得る現実の雑音環境に直面したとき、手法の内部推定の有効性に限界がある。
深層機械学習の復活は、古典的な雑音低減技術に影響を与えている。一般に、深層ニューラルネットワークに基づく単一チャネル音声強調は、マスク学習またはマスク近似ベースの手法と、特徴マッピングまたは信号近似ベースの手法との2つの基本的な動向に分けられる。しかし、何れの場合においても、ゲイン法は基本的なパラダイムとして維持される。
本提案に関連する文脈での先行研究、すなわち、深層ニューラルネットワーク(DNN)及びマスクベースの手法を用いた単一チャンネル音声の強調手法は、それらが提案する手法の適用の文脈と、それらが提示する新規性の本質との両方によって相違する。
本発明の基礎となる先行技術は、以下で構成される。
非特許文献7は、オートエンコーダーDNNを用いてクリーンな音声信号のスペクトルを推定し、再帰的推定処理を続けて音声強調フィルタを得ることを提案した。これは、ゲイン法の深層学習への予備的な近似であった。しかし、一般的な雑音低減法の文脈は、この提案とは顕著に異なっていた。非特許文献7では、DNNは、ウィーナーゲインを得るための中間段階であるクリーンな音声信号を推定するためにのみ使用されたが、本発明では、DNNは、ウィーナーゲインを直接推定する。そして、非特許文献7では、古典的なゲイン法の枠組みを構成する以下の要素(the following elements)をそのまま維持することで、結果の非常に控えめな改善が得られた。
さらに、いくつかの研究は、計算的聴覚情景分析(Computational Auditory Scene Analysis (CASA))の観点からの解決策の進展に基づく。これらは、理想バイナリマスク(IBM)または理想比率マスク(IRM)を推定することに重点を置いている。これらのマスクの定義は、ウィーナーゲイン推定に似ているが、完全に同じではない。数学的には、IRMはウィーナーゲインよりも一般的に定義されており、その実装のバリエーションを可能にしている。
非特許文献8では、DNNは、ウィーナーゲイン推定から離れて、IRMから生じて(starting from the IRM)瞬時SNRを充足する確率変数(a variant which implements the instantaneous SNR)を推定する。そして、修正された信号の時間周波数表現が音声認識システムに配信され、信号の強調が復元される(reconstructed)ことはない。
非特許文献9の手法は、IRMの平方根を推定する。一方、非特許文献10では、IRMが直接推定される。本発明とは異なり、これらの方法は補聴器の分野で機能するため、処理後に得られる信号は補聴器デバイスに直接渡され、したがって復元されることはない。
Philipos C. Loizou, Speech Enhancement: Theory and Practice, CRC Press, New York, 2013 Norbert Wiener. "Extrapolation, Interpolation, and Smoothing of Stationary Time Series". New York: Wiley. ISBN 978-0-262-73005-1, 1949 S. Boll, "Suppression of acoustic noise in speech using spectral subtraction" IEEE Trans. on Acoustic, Speech and Signal Processing, vol. 27, no. 2, pp. 113-120, 1979 Y. Ephraim and D. Malah, "Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator" IEEE Trans. on Acoustic, Speech and Signal Processing, vol. 32, no. 6, pp. 1109-1121, 1984 Y. Ephraim and D. Malah, "Speech enhancement using minimum-mean square log spectral amplitude estimator" IEEE Trans. on Acoustic, Speech and Signal Processing, vol. 33, no. 2, pp. 443-445, 1985 I. Cohen and B. Berdugo, "Speech enhancement for non-stationary noise environments" Signal Processing, vol. 81, no. 11, pp. 2403-2418, 2001 B.Y. Xia and C.-C. Bao, "Speech enhancement with weighted denoising auto-encoder," in Proc. Interspeech, 2013 A. Narayanan and D. L. Wang, "Ideal ratio mask estimation using deep neural networks for robust speech recognition" in IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), 2013, pp. 7092-7096 E. W. Healy, S. E. Yoho, J. Chen, Y. Wang, and D. Wang, "An algorithm to increase speech intelligibility for hearing-impaired listeners in novel segments of the same noise type", The Journal of the Acoustical Society of America, vol. 138, no. 3, pp. 1660-1669, 2015 Tobias Goehring, F. Bolner, J.J. Monaghan, B. van Dijk, A. Zarowski, and S. Bleeck, "Speech enhancement based on neural networks improves speech intelligibility in noise for cochlear implant users", The Journal of Hearing research, vol. 344, pp. 183-194, 2017
本発明の第1の態様では、畳み込みニューラルネットワークに基づいて電話音声信号を強調するための方法が開示される。本発明の方法は、振幅及びスペクトル位相から構成される電話音声信号に適用される。本方法は、以下の段階を含む:
電話音声信号のスペクトル表現の振幅及び位相を抽出することを含む前処理段階;
電話音声信号のスペクトル表現の振幅に以下のステップを適用することを含む雑音低減段階:
スペクトル推定を適用する;
知覚的表現(perceptual representation)を計算する;
畳み込みニューラルネットワークを適用し、スペクトル推定値と知覚的表現とに対応した入力を用いて、周波数に依存して時間的に変化する行列/ベクトルからなるウィーナーゲイン推定値を出力として生成する;
次の関数(関数f1)の強調フィルタのゲイン内でウィーナーゲイン推定値を使用する:
Figure 0007094340000001
ここで、tは時間セグメント、fは周波数ビン、xをスペクトル及び知覚パラメータのベクトルとして
Figure 0007094340000002
、Gminは定数、p(t,f)は音声存在確率、及び
Figure 0007094340000003
であり、及び並行してウィーナーゲイン推定値を音声存在確率の推定値として使用する;
前項目で定義した関数(関数f1)を音声強調フィルタとして適用する。
雑音低減段階において強調された振幅と初期位相をマージすることを含む後処理段階。
畳み込みニューラルネットワークは、最適ウィーナー推定量と畳み込みニューラルネットワークの出力との間のMMSEである次のように定義されたコスト関数を用いて訓練される。
Figure 0007094340000004
ここで、
Figure 0007094340000005
は教師あり手法で得られ、SX(t,f)及びSN(t,f)は、それぞれクリーンな音声信号及び雑音のパワースペクトル密度の推定値である。
畳み込みニューラルネットワークは、因果的であり(すなわち、畳み込み層は、処理対象のサンプル以前の信号サンプルのみを使用し、後続の信号サンプルは使用しない)、かつ低遅延性を有する畳み込み層を構成できる。
さらに、スペクトル推定値はウェルチ法を用いて得られる。
知覚的表現に関しては、メル尺度フィルタバンク及びメル周波数ケプストラム係数(MFCC)に基づく表現の二つの方法が考えられる。
電話音声信号の振幅及び位相を抽出するための前処理段階に関して、本発明の方法は、音声信号を数十ミリ秒の重なり合うセグメントに分割し、ハミング窓、ハニング窓、または他の同等の窓を適用した後、フーリエ変換を行うことをさらに含み得る。
電話音声信号の振幅及び位相を抽出するための前処理段階は、さらに、SNR(信号対雑音比)、歪み、POLQA(受聴品質の知覚的客観的分析)、または他の同等な尺度から選択された音響品質尺度を用いて、音声信号の品質を客観的に評価し、その結果に応じて音響増強を行うか否かを決定することを含み得る。
前処理段階で得られた位相と雑音低減段階で得られた振幅とをマージする後処理段階では、さらに、逆フーリエ変換を適用し、その後、音声信号の時間的再構成アルゴリズムを適用することを含む。
本発明の別の態様では、畳み込みニューラルネットワークに基づいて電話音声信号を強調するためのシステムであって、本発明の第1の態様において定義された本発明の方法を実行するように構成されたシステムが開示される。本発明は、第1の信号抽出ブロックと、第2の信号品質評価ブロックと、第3の音声強調ブロックと、第4の音声挿入ブロックとを備える。そうして、第1のブロックは、電話が開始されると、電話回線から音声信号を抽出して並列処理サーバに送信する。次に、第2のブロックは、例えば、予め定められた音響品質尺度を用いて、音声セグメントの音響品質を評価する。第2のブロックは、例えばSNR、歪み、POLQA、または別の同等な尺度を使用し、使用された品質尺度に関連する先行研究に従って予め設定された閾値と比較する。このようにして、本方法は、セグメントが音響増強を受ける必要があるか否かを決定する。決定が肯定的であれば、第3のブロックは、分析された音声セグメントに本発明の音声強調方法を実行する。決定が否定的であった場合、本方法は、音声信号のセグメントを電話回線に挿入する役割を担う第4の音声挿入ブロックに直接渡し、通話者の音響知覚に影響を与え得る切断または他の望ましくない影響の出現を防止する。その後、説明されたプロセスが繰り返され、次の音声セグメントが分析される。
本発明の特徴のより良い理解を助けるため、及び本明細書を補完するために、以下の図は、限定ではなく例示のために、本明細書(the same)の不可欠な部分として添付されている。
電話音声信号を強調するための方法が記載されたシステムのブロック図 前処理またはパラメータ化のための段階Aと、新規性が存在する雑音低減のための段階Bと、音声信号の後処理または再構成のための段階Cとを含む本発明のブロック図
頭字語:
FB:フィルタバンク
MFCC:メル周波数ケプストラム係数
DNN:深層ニューラルネットワーク
CNN:畳み込みニューラルネットワーク
MMSE:最小平均二乗誤差
SNR:信号対雑音比
POLQA:受聴品質の知覚的客観的分析
本発明の方法は、音声を強調するための方法であって、任意に、音声信号の音響品質を分析し、当該音声信号が音響増強処理を受ける必要があるか否かを決定するモジュールを含み得る。この決定は、品質尺度の予め設定された閾値を使用して行われる。操作者は、増強処理が常に実行されるように、閾値を可能な限り柔軟にすることを決定してもよく、或いは代わりに、電話回線を通過する信号が強調されないように、当該処理を可能な限り制限してもよい。これらの2つの使用例は、操作者により決定された特定の用途または状況に対応し得る。信号が強調を受ける場合、当該信号はその後、より良い音響品質を示しながら、電話回線に再投入され、このようにして相手側まで経路を継続する。
本発明の方法は、図1に示すようなシステムに展開できる。図1に示すシステムは、信号抽出ブロック1と、信号評価ブロック2と、音声強調ブロック3と、音声挿入ブロック4とを備える。このように、図1に示すような本発明の畳み込みニューラルネットワークに基づく電話音声信号を強調するためのシステムは、通話が開始されると、電話回線から音声信号を抽出し(1)、それを並列処理サーバに送信する。次に、ブロック2は、予め定義された音響品質尺度、例えばSNR、歪み、POLQA、または他の同等な尺度を用いて、音声セグメントの音響品質を評価し、当該品質尺度に関連する先行研究に従って予め設定された閾値と比較する。このようにして、本方法は、セグメントが音響増強を受ける必要があるか否かを決定する。決定が肯定的である場合、次のブロック3は、分析された音声セグメント上で本発明の音声を強調するための方法を実施する。決定が否定的であった場合、それは挿入ブロック4に直接渡される。当該ブロックは、発話者の音響知覚に影響を与える可能性のある切断または他の望ましくない影響の出現を防ぎながら、音声セグメントを電話の流れに戻す役割を担う。その後、説明されたプロセスが繰り返され、次の音声セグメントが分析される。
本発明は、マスクベースの方法のカテゴリーにおいて、CNNベースの単一チャネル電話信号の音声強調または雑音低減(3)のための方法からなる。本発明は、全体として、観測された音声信号の強調版を生成するために、当該音声信号のスペクトルを変更するマスク(またはフィルタ)を推定することからなる。このことは、ゲイン法の枠組みを利用するが、事前SNR、事後SNR、雑音スペクトルの推定、及びクリーンな音声スペクトルの推定の中間推定ブロックを、誤差が発生する傾向があることから置き換える。代わりに、本発明の方法では、信号の各時間周波数セグメントの解析を非再帰的に行うことができるCNNベースの推定を採用し、これにより、この種の推定に典型的な誤差の伝播を防ぐことができる。具体的には、CNNは、強調マスクまたはフィルタを生成するために使用されるウィーナーゲイン推定値を得る役割を担う。そのために、CNNは、ウィーナーゲイン推定量としても知られるクリーンな音声信号のMMSE推定量を学習する回帰モデルを実装する。この項は、そのダイナミックレンジとCNNの学習方法の動作により、前述の中間推定ステップよりも推定誤差の影響を受けにくい。このように、音声強調のための本方法によれば、雑音の影響を顕著に受けない音声信号においても、音響品質が低下しないようにすることができる。
本発明の新規性は、CNNベースの雑音低減方法の設計にあり、これは方法自体の本質的な性質と、その適用の文脈との両方に起因する。本方法の主要な新規性は、本発明の方法の本質的な要素としてウィーナーゲイン推定量を選択することからなり、その特性から機械学習アプローチにより適切に推定されることで、推定誤差の影響を低減する。
図2は、3段階の処理によって形成される実装された本方法のフローチャートを示す。段階Aは、雑音の多い音声信号10を時間周波数領域で表現するための前処理を行う。これは、音声の準定常特性を保存する数十ミリ秒の短い重なり合うセグメントに、音声信号10をセグメント化することから始まる。当該セグメントには、歪みを防ぐために、ハミング、ハニング、または他の適切な窓掛けが適用される(11)。次いで、スペクトル時間領域で変換が実行され(12)、これは、フーリエ変換または別の同等な変換から開始して実施され得る。次に、得られたスペクトルは、振幅13とスペクトル位相14に分割される。振幅13は雑音低減段階Bの入力として使用され、スペクトル位相14は段階Cにおいて実施される再構成のために保存される。
雑音低減段階Bには、本提案の新規性が集中している。これは、分析対象のセグメントのスペクトル振幅13における音響ノイズの影響を補正するための強調フィルタを生成する役割を担う。当該フィルタ22のゲインは、クリーンな音声信号のMMSE推定量のゲイン関数20及び音声存在確率21に依存する。これらの要素を得るために、音声信号スペクトルと、それに対応する関連付けられた雑音スペクトルとの複数の例を別々に見て、雑音の多い音声の構造を学習することから始めてウィーナーゲイン19を推定するCNNが使用される。
この場合のDNNアーキテクチャは、1つまたは複数のスペクトル表現と観測された音声信号の1つまたは複数の知覚的表現とを含むベクトルに積み重ねられた複数の成分を有する畳み込みニューラルネットワーク(CNN)18から構成される。当該スペクトル表現は、例えばウェルチ法により得られたスペクトル推定値15または別の同等な表現であり、当該知覚的表現は、例えばメル尺度フィルタバンク(FB)16、メル周波数ケプストラム係数(MFCC)17、または他の同等な表現である。本発明において、畳み込み層の処理は因果的に構成される。すなわち当該処理は過去からの情報のみを利用し、これにより、それらがリアルタイムで動作することを可能にする。CNNの出力は、ウィーナーゲインの推定値19であり、周波数に依存して且つ時間とともに変化する行列/ベクトルで構成される。この行列/ベクトルは、クリーンな音声信号のMMSE推定量のゲイン20として、及び音声存在確率21の推定値として使用される。その後、両者は、以下の定義に従って音声強調フィルタ22の関数を得るために使用される(非特許文献6)。
Figure 0007094340000006
ここで、tは時間セグメント、fは周波数ビン、xを時間tの瞬間におけるスペクトル及び知覚パラメータのベクトルとして
Figure 0007094340000007
、Gminは定数、p(t,f)は音声存在確率、及び
Figure 0007094340000008
である。
音声強調フィルタの関数は、ウィーナーゲインに基づく前述と同じ時間周波数分解能で定義され、音声セグメントと非音声セグメントに対して異なる処理を適用する。この基準は、音響ノイズの影響が音声領域と非音声領域とで異なって現れることを考慮することに基づく。最後に、このフィルタは音声信号のスペクトルを強調する役割があり、したがって、段階Aから得られたスペクトル振幅13に適用される。ここで、ある信号セグメントに起因する潜在的な誤差は、その後の処理段階に影響を与えないことから、雑音の低減は非再帰的な方法で実装される。
本発明の畳み込みニューラルネットワークは訓練される必要がある。本ケースでは、訓練段階におけるコスト関数は、最適ウィーナー推定量とネットワークの出力との間の平均二乗誤差である。
Figure 0007094340000009
教師ありの方法でそのようにするために、
Figure 0007094340000010
が計算され、これは、クリーンな音声信号のパワースペクトル密度の推定値SX(t,f)と、観測された電話音声信号に生じた雑音のパワースペクトル密度の推定値SN(t,f)とを用いる。このスペクトルは、分散の小さい推定値を得るためにM個の重複する時間セグメントの平均を行うウェルチ法に従って推定される。ニューラルネットワークは、多数のクリーンな音声信号(数百時間の音声)とそれに対応する雑音信号とを用いて訓練される。訓練で使用される雑音信号は、例えば様々なタイプ及びレベルの雑音または残響のような、実際の適用シナリオにおいて出現する可能性がある広範な雑音状態に及ぶ。実際の雑音信号に加えて、ネットワークが学習段階で見る最大数の事例をカバーするように、音声と雑音の混合に人工的な変更が加えられる。例えば特に、スケールの変更、圧縮などが行われる。
最後に、後処理段階Cで雑音低減処理が終了し、強調された音声信号26が得られる。そのために後処理段階Cは、前処理段階Aから得られたスペクトル位相14と、段階Bの処理から得られた強調されたスペクトル振幅23を使用する。何れもスペクトル逆変換ブロック24に挿入され、段階Aで使用されたアルゴリズムに対応するスペクトル変換アルゴリズムが使用される。次に、時間的再構成アルゴリズム25が使用される。これは、段階Aの時間的セグメンテーション11で使用された重ね合わせ及び窓掛けを考慮に入れたアルゴリズムである。最終的に、音声信号の強調された波形26が得られる。

Claims (9)

  1. 畳み込みニューラルネットワークに基づいて電話音声信号を強調するための方法であって、
    前記電話音声信号のスペクトル表現の振幅及び位相を抽出することを含む前処理段階(A);
    前記電話音声信号のスペクトル表現の振幅に以下のステップを適用することを含む雑音低減段階(B):
    スペクトル推定(15)を適用するステップ;
    知覚的表現(16、17)を計算するステップ;
    畳み込みニューラルネットワーク(18)を適用し、スペクトル推定値(15)と前記知覚的表現(16、17)とに対応した入力を用いて、周波数に依存して時間的に変化する行列/ベクトルからなるウィーナーゲイン推定値(19)を出力として生成するステップ;
    次式の関数f1の強調フィルタ内で前記ウィーナーゲイン推定値を使用するステップ:
    Figure 0007094340000011
    ここで、tは時間セグメント、fは周波数ビン、xをスペクトル及び知覚パラメータのベクトルとして
    Figure 0007094340000012
    、Gminは定数、p(t,f)は音声存在確率、及び
    Figure 0007094340000013
    であり;
    及び前記ウィーナーゲイン推定値を音声存在確率(21)として使用する;
    前記関数f1を音声強調フィルタとして適用するステップ;
    前記雑音低減段階(B)で強調された振幅と初期位相をマージすることを含む後処理段階(C)
    を含む、方法。
  2. 前記畳み込みニューラルネットワーク(18)は、最適ウィーナー推定量と前記畳み込みニューラルネットワーク(18)の出力との間の平均二乗誤差であって次式により定義されるコスト関数
    Figure 0007094340000014
    を用いて訓練され、ここで、
    Figure 0007094340000015
    は教師あり手法で得られ、SX(t,f)及びSN(t,f)は、それぞれクリーンな音声信号及び雑音のパワースペクトル密度の推定値である
    請求項1に記載の方法。
  3. 前記電話音声信号のスペクトル表現の振幅及び位相を抽出するための前記前処理段階(A)は、音声信号を数十ミリ秒の重なり合うセグメントに分割し、ハミング窓またはハニング窓を適用した後、フーリエ変換を行うことをさらに含む
    請求項1に記載の方法。
  4. 前記スペクトル推定値は、ウェルチ法を用いて計算される
    請求項1に記載の方法。
  5. 前記知覚的表現は、メル尺度フィルタバンク(16)を適用することにより計算される
    請求項1に記載の方法。
  6. 前記知覚的表現は、メル周波数ケプストラム係数(MFCC)(17)により行われる
    請求項1に記載の方法。
  7. 前記前処理段階(A)において得られた位相と前記雑音低減段階(B)において得られたスペクトル振幅とをマージするための前記後処理段階(C)は、逆フーリエ変換を適用し、その後、音声信号の時間的再構成アルゴリズムを適用することをさらに含む
    請求項1又は6に記載の方法。
  8. 前記畳み込みニューラルネットワーク(18)は、因果的であって且つ低遅延性を有する少なくとも1つの畳み込み層を備える
    請求項2に記載の方法。
  9. 前記前処理段階(A)は、SNR、歪み、及びPOLQAから選択された音響品質尺度を用いて、音声信号の品質を客観的に評価すること(2)をさらに含む
    請求項1に記載の方法。
JP2020174530A 2020-02-14 2020-10-16 畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法 Active JP7094340B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP20382110.3 2020-02-14
EP20382110.3A EP3866165B1 (en) 2020-02-14 2020-02-14 Method for enhancing telephone speech signals based on convolutional neural networks

Publications (2)

Publication Number Publication Date
JP2021128328A JP2021128328A (ja) 2021-09-02
JP7094340B2 true JP7094340B2 (ja) 2022-07-01

Family

ID=69810751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020174530A Active JP7094340B2 (ja) 2020-02-14 2020-10-16 畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法

Country Status (4)

Country Link
US (1) US11804234B2 (ja)
EP (1) EP3866165B1 (ja)
JP (1) JP7094340B2 (ja)
ES (1) ES2928295T3 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445919B (zh) * 2020-03-13 2023-01-20 紫光展锐(重庆)科技有限公司 结合ai模型的语音增强方法、***、电子设备和介质
US20210350819A1 (en) * 2020-05-07 2021-11-11 Netflix, Inc. Techniques for training a multitask learning model to assess perceived audio quality
US20210012767A1 (en) * 2020-09-25 2021-01-14 Intel Corporation Real-time dynamic noise reduction using convolutional networks
US11978466B2 (en) * 2021-06-02 2024-05-07 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for restoring degraded speech via a modified diffusion model
CN113782011B (zh) * 2021-08-26 2024-04-09 清华大学苏州汽车研究院(相城) 频带增益模型的训练方法及用于车载场景的语音降噪方法
CN115002743A (zh) * 2022-06-28 2022-09-02 广西东信易通科技有限公司 一种基于机器学习算法的中间号场景通话增强***
CN115497496B (zh) * 2022-09-22 2023-11-14 东南大学 一种基于FirePS卷积神经网络的语音增强方法
CN115376501B (zh) * 2022-10-26 2023-02-14 深圳市北科瑞讯信息技术有限公司 语音增强方法及装置、存储介质、电子设备
CN115810364B (zh) * 2023-02-07 2023-04-28 海纳科德(湖北)科技有限公司 混音环境中的端到端目标声信号提取方法及***
CN115856987B (zh) * 2023-02-28 2023-05-02 西南科技大学 一种复杂环境下的核脉冲信号与噪声信号甄别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002517021A (ja) 1998-05-27 2002-06-11 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 線形たたみ込みおよび因果的フィルタリングを用いたスペクトルサブトラクションによる信号雑音低減
JP2018028580A (ja) 2016-08-16 2018-02-22 日本電信電話株式会社 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム
JP2019531494A (ja) 2016-10-12 2019-10-31 アイフライテック カンパニー,リミテッド 音声品質評価方法及び装置
JP2021516786A (ja) 2018-08-09 2021-07-08 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 複数人の音声を分離する方法、装置、およびコンピュータプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10812915B2 (en) * 2017-10-27 2020-10-20 Starkey Laboratories, Inc. Electronic device using a compound metric for sound enhancement
US10672414B2 (en) * 2018-04-13 2020-06-02 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
US10741192B2 (en) * 2018-05-07 2020-08-11 Qualcomm Incorporated Split-domain speech signal enhancement
US11456007B2 (en) * 2019-01-11 2022-09-27 Samsung Electronics Co., Ltd End-to-end multi-task denoising for joint signal distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) optimization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002517021A (ja) 1998-05-27 2002-06-11 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 線形たたみ込みおよび因果的フィルタリングを用いたスペクトルサブトラクションによる信号雑音低減
JP2018028580A (ja) 2016-08-16 2018-02-22 日本電信電話株式会社 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム
JP2019531494A (ja) 2016-10-12 2019-10-31 アイフライテック カンパニー,リミテッド 音声品質評価方法及び装置
JP2021516786A (ja) 2018-08-09 2021-07-08 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 複数人の音声を分離する方法、装置、およびコンピュータプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Israel Cohen, Baruch Berdugo,Speech enhancement for non-stationary noise environments,Signal Processing,Volume 81, Issue 11,2001年06月26日,pp.2403-2418
Yang Xiang, Changchun Bao,Speech Enhancement Based on Cepstral Mapping and Deep Neural Networks,2018 IEEE 4th International Conference on Computer and Communications,2018年12月10日,pp.1263-1267

Also Published As

Publication number Publication date
US20210256988A1 (en) 2021-08-19
EP3866165B1 (en) 2022-08-17
JP2021128328A (ja) 2021-09-02
US11804234B2 (en) 2023-10-31
ES2928295T3 (es) 2022-11-16
EP3866165A1 (en) 2021-08-18

Similar Documents

Publication Publication Date Title
JP7094340B2 (ja) 畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法
Luo et al. Real-time single-channel dereverberation and separation with time-domain audio separation network.
Mirsamadi et al. Causal speech enhancement combining data-driven learning and suppression rule estimation.
Tu et al. A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition
Swami et al. Speech enhancement by noise driven adaptation of perceptual scales and thresholds of continuous wavelet transform coefficients
Schröter et al. Low latency speech enhancement for hearing aids using deep filtering
Farias et al. Blind adaptive mask to improve intelligibility of non-stationary noisy speech
Garg Speech enhancement using long short term memory with trained speech features and adaptive wiener filter
Vanjari et al. Comparative Analysis of Speech Enhancement Techniques in Perceptive of Hearing Aid Design
Saleem Single channel noise reduction system in low SNR
Nossier et al. Two-stage deep learning approach for speech enhancement and reconstruction in the frequency and time domains
Rani et al. Significance of phase in DNN based speech enhancement algorithms
Chhetri et al. Speech Enhancement: A Survey of Approaches and Applications
Roy et al. Deep residual network-based augmented Kalman filter for speech enhancement
Sivapatham et al. Gammatone filter bank-deep neural network-based monaural speech enhancement for unseen conditions
Kim et al. iDeepMMSE: An improved deep learning approach to MMSE speech and noise power spectrum estimation for speech enhancement.
Feng et al. DNN-based linear prediction residual enhancement for speech dereverberation
Naithani et al. Subjective evaluation of deep neural network based speech enhancement systems in real-world conditions
Gui et al. Adaptive subband Wiener filtering for speech enhancement using critical-band gammatone filterbank
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Roy et al. Causal convolutional neural network-based Kalman filter for speech enhancement
KR102688359B1 (ko) 음성 및 잡음 파워 스펙트럼 추정을 이용한 음성 향상 장치 및 방법
Babu et al. Modified Kalman Filter-based Approach in Comparison with Traditional Speech Enhancement Algorithms from Adverse Noisy Environments
Mellahi et al. Notice of Violation of IEEE Publication Principles: LPCs enhancement in iterative Kalman filtering for speech enhancement using overlapped frames
Rustrana et al. Spectral Methods for Single Channel Speech Enhancement in Multi-Source Environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220621

R150 Certificate of patent or registration of utility model

Ref document number: 7094340

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150