JP7291190B2 - 音声処理方法、装置及び音声処理モデルの生成方法、装置 - Google Patents

音声処理方法、装置及び音声処理モデルの生成方法、装置 Download PDF

Info

Publication number
JP7291190B2
JP7291190B2 JP2021175751A JP2021175751A JP7291190B2 JP 7291190 B2 JP7291190 B2 JP 7291190B2 JP 2021175751 A JP2021175751 A JP 2021175751A JP 2021175751 A JP2021175751 A JP 2021175751A JP 7291190 B2 JP7291190 B2 JP 7291190B2
Authority
JP
Japan
Prior art keywords
speech
signal
frequency band
signals
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021175751A
Other languages
English (en)
Other versions
JP2022020055A (ja
Inventor
シュー チェン
ジンフォン バイ
ルンチャン ハン
レイ ジヤ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022020055A publication Critical patent/JP2022020055A/ja
Application granted granted Critical
Publication of JP7291190B2 publication Critical patent/JP7291190B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Description

本願は、信号処理技術の分野に関し、具体的には、音声技術、人工対話、深層学習技術の分野に関し、特に、音声処理方法、装置、電子機器及び記憶媒体に関し、さらに音声処理モデルの生成方法、装置、電子機器及び記憶媒体に関する。
チップ技術と音声技術の発展に伴い、ますます多くのスマート音声対話機器が人々の生活に登場してきた。例えば、ホームシーンでのスマートスピーカ、スマートテレビ、車載シーンでのスマートナビゲーションなどであり、人々は音声を利用して機器と対話してリソース及びサービスを取得することに慣れてきている。これらのスマート音声対話機器は通常、深層学習技術に基づいて、マイクアレイとスピーカを使用してユーザとの音声対話を行う。
音声対話中に、機器のスピーカから送信された音声信号は、スマートハードウェアキャビティや部屋の反射などの複数のエコー経路を介して自身のマイクによって受信される。これらのエコー信号はユーザの真の音声信号の信号対雑音比を低下させ、音声認識エラー、誤ウェイクアップ/ウェイクアップ失敗などの問題をもたらし、さらに機器の誤動作など、ユーザの体験に厳しく影響する状況を引き起こす。そのため、音声対話の体験をよりよく向上させるために、エコーキャンセルの性能を如何によりよく向上させるかは、現在の音声対話関連技術の重要なポイントである。
本願は、エコーキャンセル性能を向上させるための音声処理方法、装置及び音声処理モデルの生成方法、装置を提供する。
本願の第1態様によれば、音声処理方法を提供し、前記方法は、処理対象のM個の音声信号及びN個の参照信号を取得するステップであって、M及びNはそれぞれ1以上の正の整数であるステップと、各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各前記音声信号及び参照信号の各周波数帯域成分を取得するステップと、エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理して、各前記音声信号の各周波数帯域における前記N個の参照信号の対応する理想的な比率マスク(IRM)を取得するステップと、各前記音声信号の各周波数帯域における前記N個の参照信号の対応するIRMに基づいて、各前記音声信号の各周波数帯域成分に対してエコーキャンセルを行って、エコーキャンセルされたM個の音声信号を取得するステップと、を含む。
本願の第2態様によれば、音声処理モデルの生成方法を提供し、前記方法は、トレーニングデータセットを取得するステップであって、前記トレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク(IRM)を含むステップと、各組の前記参照信号及びエコー付きの音声信号に対してそれぞれサブバンド分解を行って、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を取得するステップと、初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、前記エコー付きの音声信号の各周波数帯域における各組の前記参照信号の対応する予測IRMを取得するステップと、各組の前記予測IRMと対応するラベリングIRMとの差に基づいて、前記初期ニューラルネットワークモデルに対して誤差逆伝播補正を行って、トレーニングされた音声処理モデルを生成するステップと、を含む。
本願の第3態様によれば、音声処理装置を提供し、前記装置は、処理対象のM個の音声信号及びN個の参照信号を取得するための取得モジュールであって、M及びNはそれぞれ1以上の正の整数である取得モジュールと、各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各前記音声信号及び参照信号の各周波数帯域成分を取得するための第1処理モジュールと、エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理して、各前記音声信号の各周波数帯域における前記N個の参照信号の対応する理想的な比率マスク(IRM)を取得するための第2処理モジュールと、各前記音声信号の各周波数帯域における前記N個の参照信号の対応するIRMに基づいて、各前記音声信号の各周波数帯域成分に対してエコーキャンセルを行って、エコーキャンセルされたM個の音声信号を取得するための第3処理モジュールと、を含む。
これにより、音声信号の各周波数帯域における真の参照信号の対応する理想的な比率マスク(IRM)に基づいて、音声信号の各周波数帯域成分に対してエコーキャンセルを行い、いかなるアナログの信号に依存する必要がなく、それによってエコーキャンセルの正確性と汎化性が向上し、ユーザの使用体験が改善される。
本願の第4態様によれば、音声処理モデルの生成装置を提供し、前記装置は、トレーニングデータセットを取得するための第2取得モジュールであって、前記トレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク(IRM)を含む第2取得モジュールと、各組の前記参照信号及びエコー付きの音声信号に対してそれぞれサブバンド分解を行って、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を取得するための第5処理モジュールと、初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、前記エコー付きの音声信号の各周波数帯域における各組の前記参照信号の対応する予測IRMを取得するための第6処理モジュールと、各組の前記予測IRMと対応するラベリングIRMとの差に基づいて、前記初期ニューラルネットワークモデルに対して誤差逆伝播補正を行って、トレーニングされた音声処理モデルを生成するための第7処理モジュールと、を含む。
本願の第5態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、その上にコンピュータプログラムが記憶され、前記コンピュータ命令は、コンピュータに上記一態様の実施例に記載の音声処理方法を実行させるか、又は上記一態様の実施例に記載の音声処理モデルの生成方法を実行させる。
本願の第6の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに上記一態様の実施例に記載の音声処理方法を実行させるか、又は上記一態様の実施例に記載の音声処理モデルの生成方法を実行させる。
本願に係る音声処理方法は、音声信号の各周波数帯域における真の参照信号の対応する理想的な比率マスク(IRM)に基づいて、音声信号の各周波数帯域成分に対してエコーキャンセルを行い、いかなるアナログの信号に依存する必要がなく、それによってエコーキャンセルの正確性と汎化性が向上し、ユーザの使用体験が改善される。さらに、エコーキャンセルのためのモデルが、真の参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク(IRM)に基づいて生成されるものであり、いかなるアナログの信号に依存する必要がなく、それによって音声処理モデルの正確性と汎化性が向上し、ユーザの使用体験が改善される。
なお、この部分に記載されている内容は、本願の実施例の肝心な又は重要な特徴を特定することを意図しておらず、本願の範囲を限定するものでもない。本願の他の特徴は、以下の説明を通じて容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
本願の実施例により提供される音声処理方法の概略フローチャートである。 本願の実施例により提供されるサブバンド分解を行う概略フローチャートである。 本願の実施例により提供される別の音声処理方法の概略フローチャートである。 本願の実施例により提供される音声処理方法において理想的な比率マスク(IRM)を取得する概略フローチャートである。 本願の実施例により提供されるエコーキャンセルを行う概略図である。 本願の実施例により提供されるさらに別の音声処理方法の概略フローチャートである。 本願の実施例により提供される音声処理モデルの生成方法の概略フローチャートである。 本願の実施例により提供される音声処理モデルの生成方法においてトレーニングデータセットを取得する概略フローチャートである。 本願の実施例により提供されるラベリングIRMを決定する概略フローチャートである。 本願の実施例により提供される別の音声処理モデルの生成方法の概略フローチャートである。 本願の実施例により提供される音声処理装置の概略構造図である。 本願の実施例により提供される音声処理モデルの生成装置の概略構造図である。 本願の実施例に係る音声処理方法を実現するための電子機器のブロック図である。
以下、図面と組み合わせて本願の例示的な実施例を説明し、理解を容易にするためにその中には本願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
なお、音声対話では、スピーカから送信された音声信号は、スマートハードウェアキャビティや部屋の反射などの複数のエコー経路を介してマイクによって受信される。これらのエコー信号は、ユーザの真の音声信号の信号対雑音比を低下させ、音声認識エラー、誤ウェイクアップ/ウェイクアップ失敗などの問題をもたらし、さらに機器の誤動作など、ユーザの体験に厳しく影響する状況を引き起こす。そのため、これらのエコー信号をキャンセルして、真の音声の信号対雑音比を向上させ、音声の認識率、ウェイクアップの精度及びユーザの対話体験を向上させる方法が必要である。
関連技術では、通常、スピーカから送信された信号を推定してエコー信号(アナログの信号)を取得し、そして推定されたエコー信号をマイクの入力信号から減算して、推定された真の音声信号を取得することで、エコーキャンセルという目的を達する。当該エコーキャンセル技術は、推定されたエコー信号に依存するため、エコーキャンセルの正確性が低く、効果がよくない。
そのため、本願の実施例は、音声処理方法、装置及び音声処理モデルの生成方法、装置を提供する。本願の実施例は、音声信号の各周波数帯域における真の参照信号の対応する理想的な比率マスク(IRM)に基づいて、音声信号の各周波数帯域成分に対してエコーキャンセルを行い、いかなるアナログの信号に依存する必要がなく、それによってエコーキャンセルの正確性と汎化性が向上し、ユーザの使用体験が改善される。
以下、図面を参照して本願の実施例に係る音声処理方法、装置及び音声処理モデルの生成方法、装置をについて説明する。
図1は、本願の実施例により提供される音声処理方法の概略フローチャートである。
なお、本願の実施例に係る音声処理方法は、音声処理機器に適用され、当該機器は、スマートホーム機器、例えばスマートスピーカ、スマートテレビなどであってもよいし、スマート車載機器などであってもよい。
図1に示すように、当該音声処理方法は、以下のステップS101~S104を含む。
S101、処理対象のM個の音声信号及びN個の参照信号を取得し、ここで、M及びNはそれぞれ1以上の正の整数である。
ここで、参照信号とは、音声処理機器自身(スピーカ)が実際に再生する音声信号を指す。処理対象の音声信号は、標準音声信号とエコー信号とからなる混合音声信号であり、ここで、標準音声信号は、音声処理機器が認識又は処理する必要がある純粋な音声信号であり、エコー信号とは、音声処理機器自身が再生する音声信号が、スマートハードウェアキャビティや部屋の反射などの複数のエコー経路を介してマイクによって収集されたエコー信号を指す。
本願の実施例における音声信号及び参照信号は、いずれも実際に収集された真の信号であり、例えば、参照信号は、「ラウドスピーカによって再生された音」であり、エコー信号は、「ラウドスピーカによって再生された音がマイクによって収集された音」であり、処理対象の音声信号は、「人の声+ラウドスピーカによって再生された音がマイクによって収集された音」である。
通常、音声処理機器がオーディオを再生しているときに、ユーザが対話ニーズを有し、当該音声処理機器に(標準)音声信号を入力することがある。この場合、音声処理機器のマイクが標準音声信号とエコー信号とからなる混合音声信号を収集し、このとき当該音声処理機器にM個のマイクアレイがあれば、M個の処理対象の音声が取得される。また、当該音声処理機器にN個のスピーカがあれば、収集回路によってN個の参照信号の取得を収集することができ、理解できるように、このとき各処理対象の音声信号にはいずれもN個の参照信号に対応するエコー信号が含まれる。
S102、各音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各音声信号及び参照信号の各周波数帯域成分を取得する。
具体的には、処理対象のM個の音声信号及びN個の参照信号が取得された後、各音声信号及び参照信号を複数のサブバンドオーディオ信号に分割し、各音声信号及び参照信号の各周波数帯域成分を取得することで、音声信号及び参照信号を周波数帯域特徴に変換し、従来のFFT(Fast Fourier Transformation、高速フーリエ変換)変換に比べて、サブバンド分解は周波数帯域漏洩をよりよく防止でき、異なる周波数帯域間の情報をより独立させ、それによってエコーキャンセルの効率を向上させることに有利である。
S103、エコーキャンセルモデルを使用して各音声信号及び参照信号の各周波数帯域成分を処理して、各音声信号の各周波数帯域におけるN個の参照信号の対応する理想的な比率マスク(IRM)を取得する。
ここで、エコーキャンセルモデルは、混合音声信号及び参照信号の各周波数帯域成分-理想的な比率マスク(Ideal Ratio Mask、IRMと略称される)モデルであり、即ち混合音声信号及び参照信号の各周波数帯域成分を入力とし、理想的な比率マスク(IRM)を出力とし、理想的な比率マスク(IRM)が混合音声信号の各周波数帯域成分における標準音声信号の占める割合を示す。
具体的には、各音声信号及び参照信号の各周波数帯域成分が取得された後、各周波数帯域成分をエコーキャンセルモデルに入力し、エコーキャンセルモデルが各音声信号及び参照信号の各周波数帯域成分を処理した後、各音声信号の各周波数帯域におけるN個の参照信号の対応する理想的な比率マスク(IRM)を出力する。
S104、各音声信号の各周波数帯域におけるN個の参照信号の対応するIRMに基づいて、各音声信号の各周波数帯域成分に対してエコーキャンセルを行って、エコーキャンセルされたM個の音声信号を取得する。
具体的には、各音声信号の各周波数帯域におけるN個の参照信号の対応するIRMが取得された後、IRMに基づいて各音声信号の各周波数帯域成分に対してエコーキャンセルを行い、エコーキャンセルされたM個の音声信号を取得し、エコーキャンセルされた音声信号は、標準音声信号、すなわち認識又は処理対象の純粋な「人の声」である。
なお、本願の実施例における理想的な比率マスク(IRM)が混合音声信号の各周波数帯域における標準音声信号の占める割合であるため、各周波数帯域成分に対してエコーキャンセルを行うとき、得られた各理想的な比率マスク(IRM)と対応する混合音声信号の周波数帯域成分とを乗算し、対応する成分におけるエコーをキャンセルし、それによってエコーキャンセルされた各周波数帯域成分を取得し、エコーキャンセルされた各成分を合成して、エコーキャンセルされたM個の音声信号を取得する。
例えば、1つの処理対象の音声信号及び1つの参照信号がある場合、当該音声信号及び参照信号が取得された後、当該音声信号及び参照信号に対してそれぞれサブバンド分解を行って、音声信号及び参照信号の各周波数帯域成分を取得し、各周波数帯域成分をエコーキャンセルモデルに入力し、エコーキャンセルモデルが処理した後、当該参照信号の、当該音声信号の第1周波数帯域における対応するIRM1、第2周波数帯域における対応するIRM2、第3周波数帯域における対応するIRM3、第4周波数帯域における対応するIRM4を出力し、その後、IRM1と第1周波数帯域成分とを乗算して第1周波数帯域内のエコー信号をキャンセルし、IRM2と第2周波数帯域成分とを乗算して第2周波数帯域内のエコー信号をキャンセルし、IRM3と第3周波数帯域成分とを乗算して第3周波数帯域内のエコー信号をキャンセルし、IRM4と第3周波数帯域成分とを乗算して第4周波数帯域内のエコー信号をキャンセルし、最後に、エコーキャンセルされた4つの周波数帯域成分を合成して、エコーキャンセルされた1つの音声信号を取得することができる。
本願の実施例に係る音声処理方法は、音声信号の各周波数帯域における真の参照信号の対応する理想的な比率マスク(IRM)に基づいて、音声信号の各周波数帯域成分に対してエコーキャンセルを行い、いかなるアナログの信号に依存する必要がなく、それによってエコーキャンセルの正確性と汎化性が向上し、ユーザの使用体験が改善される。
なお、実際の適用では、参照信号とエコー信号との関係は、適用シナリオによって異なる場合があり、例えば、ホーム機器の参照信号とエコー信号との関係は、車載機器の参照信号とエコー信号との関係とは異なる。そのため、上記ステップS102では、音声処理機器が置かれている環境に応じて音声信号及び参照信号に対して、サブバンド分解を行うことができる。例えば、音声処理機器が駅などの人通りの多い環境にある場合、音声信号内のエコー信号は主に高周波数帯域に集中する可能性があり、音声信号及び参照信号をそれぞれ複数のサブバンドオーディオ信号に分割してもよいし(即ち、サブバンド細分解を行う)、音声信号及び参照信号の高周波数帯域に対してサブバンド細分解を行い、低周波数帯域に対してサブバンド粗分解を行ってもよいし、音声機器のタイプに基づいて、音声信号及び参照信号に対してサブバンド分解を行ってもよい。
即ち、本願の一実施例では、図2に示すように、上記ステップS102は、以下のステップS201~S202を含む。
S201、音声処理機器のタイプに基づいて、サブバンド分解モードを決定する。
ここで、サブバンド分解モードは、サブバンド細分解モード、サブバンド粗分解モードなどを含むことができる。
S202、分解モードで、各音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各音声信号及び参照信号の各周波数帯域成分を取得する。
例えば、音声処理機器がホーム機器である場合、エコー信号が主に低周波数帯域に集中しているので、各音声信号及び参照信号に対してそれぞれサブバンド分解を行うときに、粗分解が可能となるが、音声処理機器が車載機器である場合、エコー信号が主に奇数周波数帯域に集中しているので、各音声信号及び参照信号に対してそれぞれサブバンド分解を行うときに、サブバンド細分解が必要となる。
これにより、音声処理機器のタイプに基づいて各音声信号及び参照信号に対してサブバンド分解を行うことで、周波数帯域漏洩を防止し、周波数帯域間の信号をより独立させ、それによってエコーキャンセルの正確性を向上させることができるだけでなく、エコーキャンセルに不要なサブバンド分解を回避し、サブバンド分解をより簡単且つ効果的にする。
なお、本願の実施例におけるエコーキャンセルモデルは、後続のエコーキャンセルを容易にするために、音声信号及び参照信号の各周波数帯域成分を入力信号として理想的な比率マスク(IRM)を生成するものである。エコーキャンセル信号に入力される各周波数帯域成分には、特異信号が存在する可能性があり、特異信号によりモデルの処理時間が長くなり、収束できない可能性がある。したがって、このような現象を回避し、後続のデータ処理を容易にするために、エコーキャンセルモデルの入力信号に対して正規化処理を行うことができる。
本願の一実施例では、図3に示すように、エコーキャンセルモデルを使用して各音声信号及び参照信号の各周波数帯域成分を処理する前に、即ち上記ステップS103の前に、さらに以下のステップS301を含むことができる。
S301、各音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行う。
具体的には、各音声信号及び参照信号の各周波数帯域成分が取得された後、各音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行い、そして正規化処理された各周波数帯域成分をエコーキャンセルモデルに入力し、エコーキャンセルモデルが処理した後に各音声信号の各周波数帯域におけるN個の参照信号の対応する理想的な比率マスク(IRM)を出力して、IRMに基づいてエコーキャンセルを行う。
なお、本願の実施例において参照個数を用いた処理は、サブバンド分解及び正規化処理のみであるため、本願の実施例の計算複雑度は、参照信号の個数に応じて線形的に増加しない。
これにより、各周波数帯域成分に対して正規化処理を行った後、エコーキャンセルモデルに入力することで、特異周波数帯域成分により処理時間が長すぎ、収束できないという現象を回避し、モデルの処理を容易にする。
本願の一実施例では、図4に示すように、上記ステップS103は、以下のステップS401~S402を含むことができる。
S401、音声信号及び参照信号の各周波数帯域成分に対して多粒度特徴抽出を行って、各音声信号及び参照信号の各周波数帯域成分の特徴を取得する。
当該実施例では、エコーキャンセルモデルは、因果的畳み込み及びLSTM(Long Short-Term Memory、長短期記憶)に基づくニューラルネットワークモデルであってもよい。
具体的には、各音声信号及び参照信号の各周波数帯域成分をエコーキャンセルモデルに入力した後、エコーキャンセルモデルが各周波数帯域成分に対して因果的畳み込み処理を行って、各周波数帯域成分の特徴抽出を実現し、ここで、畳み込み処理を行うときに、異なるチャンネル数を設定することで、異なる次元の特徴抽出を実現することができる。
このように、各周波数帯域成分に対して畳み込み処理を行った後、各周波数帯域成分の特徴抽出を実現することができ、しかも、現在のエコー信号が直前の参照信号のみに依存するため、エコーキャンセル過程全体にハードウェア遅延がなくなり、音声処理の応答速度が向上する。
S402、各音声信号及び参照信号の各周波数帯域成分の特徴に対して特徴融合を行って、各音声信号の各周波数帯域におけるN個の参照信号の対応するIRMを取得する。
具体的には、各音声信号及び参照信号の各周波数帯域成分の特徴が取得された後、音声の時間的な動的特性をモデル化するために、エコーキャンセルモデルが特徴を積層された長短期記憶(LSTM)に送信し、長短期記憶(LSTM)の出力が学習された高次特徴を構成し、次に高次特徴をマスク層送信して各音声信号の各周波数帯域におけるN個の参照信号の対応する理想的な比率マスク(IRM)を取得し、その後、各理想的な比率マスク(IRM)と対応する音声信号の周波数帯域成分とをそれぞれ乗算して周波数帯域成分内のエコー信号をキャンセルする。
本願の実施例に係る音声処理方法をより明確に説明するために、以下に一例を挙げて説明する。
図5に示すように、2つの音声信号及び1つの参照信号を取得し、M1(t)は1つ目の音声信号であり、M2(t)は2つ目の音声信号であり、R(t)は1つの参照信号であり、M1(t)、M2(t)及びR(t)に対してそれぞれサブバンド分解を行った後に複数の周波数帯域成分を取得し、その後、周波数帯域成分に対して正規化処理を行い、正規化処理された各周波数帯域成分をエコーキャンセルモデルに入力した後、エコーキャンセルモデルが各周波数帯域成分に対して因果的畳み込み処理を行って、各周波数帯域成分の特徴抽出を実現し、ここで、畳み込み処理を行うときに、異なるチャンネル数を設定することで、異なる次元の特徴抽出を実現することができ、例えば、図5における4@1*3は、チャンネル数が3で、畳み込みカーネルが1*3であり、当該畳み込みカーネルが、現在のオーディオフレーム、現在のオーディオフレームに隣接する最初の2つのオーディオフレームのみに対して畳み込み処理を行うことを表し、出力チャンネル数が4であることを意味する。
畳み込み処理を行った後、周波数帯域共有LSTM及び畳み込み出力のチャンネル数で正規化処理を行い、ここで、各畳み込み層の異なる周波数帯域間で完全に共有し、1つ目の音声信号M1(t)における参照信号R(t)の対応する理想的な比率マスクMask1、及び2つ目の音声信号M2(t)における参照信号R(t)の対応する理想的な比率マスクMask2を取得し、Mask1とM1(t)とを乗算してM1(t)内のエコー信号をキャンセルし、Mask2とM2(t)とを乗算してM2(t)内のエコー信号をキャンセルすることにより、エコーキャンセルされた2つの音声信号を取得する。
これにより、エコーキャンセルモデルを使用して各周波数帯域成分に対して多粒度特徴抽出を行い、周波数帯域特徴を抽出した後、各周波数帯域特徴に対して融合処理を行い、各音声信号の各周波数帯域における参照信号のIRMを取得することにより、エコーキャンセルを行う場合、モデル重みパラメータが変更されず、エコー信号が音楽、有声、TTS(Text To Speech、テキストから音声へ)のいずれであっても、いずれもエコーキャンセルモデルから出力された理想的な比率マスク(IRM)に基づいてエコーをキャンセルし、エコーキャンセルの安定性を確保する。
なお、本願の実施例のニューラルネットワークに基づくエコーキャンセルモデルは、音声認識モデル、音声ウェイクアップモデルのフロントエンドに直接アクセスし、エンドツーエンドの共同トレーニングを行うことができ、モデル重みに対する誤差逆伝播の調節が容易になり、内部雑音下での音声認識、ウェイクアップの精度をさらに向上させる。即ち、本願の一実施例では、図6に示すように、エコーキャンセルされたM個の音声信号が取得された後、即ち、上記ステップS104の後に、以下のステップS601を含むことができる。
S601、M個の音声信号を音声認識モデルに入力して、M個の音声信号に対応する認識結果を取得する。
ここで、音声認識モデルは、音声信号を入力とし、認識結果を出力とするニューラルネットワークモデルであってもよい。なお、エコー信号を含まない複数の音声信号をサンプリング信号とし、学習及びトレーニングして音声認識モデルを取得することができる。
具体的には、エコーキャンセルされた音声信号、即ち標準音声信号を取得した後、それを音声認識モデルに入力し、音声認識モデルが自己学習により当該標準音声信号に対応する音声認識結果を出力する。
例えば、エコーキャンセルされた音声信号が「今日の天気の温度は何度ですか」であれば、音声認識モデルから出力された認識結果は「今日の天気の温度を放送する」こととなり、そして音声処理機器は、「今日の天気の温度は24度」というオーディオ信号を放送するようにそのスピーカを制御する。
本願の実施例に係る音声処理方法は、機器が内部雑音シナリオにあるときのウェイクアップ機能にも適用されることができ、即ちエコーキャンセルされた音声信号、即ち標準音声信号を取得した後、それを音声ウェイクアップモデルに入力して、内部雑音ウェイクアップ機能を実現することができる。
具体的には、音声処理機器自身が音声放送シナリオにある場合、機器がユーザのウェイクアップ音声信号(エコー信号を含む)を受信すると、まず現在実際に放送されている参照信号を取得し、そしてユーザのウェイクアップ音声信号及び参照信号に対してサブバンド分解を行ってから各周波数帯域成分を取得し、各周波数帯域成分に対して正規化処理を行い、その後、エコーキャンセルモデルを使用して各周波数帯域成分を処理した後、ウェイクアップ音声信号の各周波数帯域における参照信号の対応する理想的な比率マスク(IRM)を取得し、その後、当該IRMとウェイクアップ音声信号に対応する周波数帯域成分とを乗算して、複数のエコーキャンセルされた周波数帯域成分を取得することができ、複数のエコーキャンセルされた周波数帯域成分に対して合成処理を行って、エコーキャンセルされたウェイクアップ音声信号を取得することができ、音声処理機器がエコーキャンセルされたウェイクアップ音声に基づいて対応する応答を行う。
これにより、ニューラルネットワークに基づくエコーキャンセルモデルは、音声認識モデル、音声ウェイクアップモデルのフロントエンドに直接アクセスし、エンドツーエンドの共同トレーニングを行うことができ、内部雑音下での音声認識、ウェイクアップの精度をさらに向上させ、内部雑音下でのウェイクアップ、内部雑音下での音声検出などのシナリオのモデル性能のために予約空間を向上させた。
本願の実施例は、音声処理モデルの生成方法をさらに提供し、図7は、本願の実施例により提供される音声処理モデルの生成方法の概略フローチャートである。
図7に示すように、当該音声処理モデルの生成方法は、以下のステップS701~S704を含む。
ステップS701、トレーニングデータセットを取得し、ここで、トレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク(IRM)を含む。
ここで、ラベリングIRMは、実際の標準音声信号及びエコー付きの音声信号に基づいて得られてもよいし、標準音声信号、参照信号及び対応するエコー信号に基づいて得られてもよい。標準音声信号は、音声処理機器が認識又は処理する必要がある純粋な音声信号である。
ステップS702、各組の参照信号及びエコー付きの音声信号に対してそれぞれサブバンド分解を行って、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分を取得する。
当該ステップは、上記ステップS102と類似し、冗長性を避けるために、ここでは説明を省略する。
ステップS703、初期ニューラルネットワークモデルを使用して、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、エコー付きの音声信号の各周波数帯域における各組の参照信号の対応する予測IRMを取得する。
なお、理想的な比率マスク(IRM)は、エコー付きの音声信号における標準音声信号の占める割合を示すので、参照信号及びエコー付きの音声信号のみが既知である場合、対応するIRMしか予測できない。
具体的には、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分が取得された後、各周波数帯域成分を初期ニューラルネットワークモデルに入力して、初期ニューラルネットワークモデルによって予測IRMを出力することができる。
ステップS704、各組の予測IRMと対応するラベリングIRMとの差に基づいて、初期ニューラルネットワークモデルに対して誤差逆伝播補正を行って、トレーニングされた音声処理モデルを生成する。
なお、初期ニューラルネットワークモデルは、参照信号及びエコー付きの音声信号を入力とし、予測IRMを出力とするニューラルネットワークモデルであり、それは予測IPMしか出力できず、参照信号及びエコーの音声信号に対応する真のIPMの出力を確保するために、本願の実施例は、参照信号、エコー付きの音声信号を入力とし、真の理想的な比率マスク(IRM)を出力とする音声処理モデルをトレーニングして取得するために、標準音声信号と組み合わせてそれを補正する必要がある。
具体的には、上記ステップS701~S703が実行された後、複数組の参照信号及びエコー付きの音声信号に対応するラベリングIRM及び予測IRMを取得することができ、両者間の平均二乗誤差(Mean Square Error、MSEと略称される)を計算することで、平均二乗誤差により損失値を判断し、誤差逆伝播により勾配ベクトルを決定し、さらに勾配ベクトルにより各重み値を調整して、平均二乗誤差を0に近づけるか又は収束し、それによって初期ネットワークモデルに基づいてトレーニングされた音声処理モデルを生成し、ここで、平均二乗誤差が小さいほど、生成された音声処理モデルの精度が高くなる。
なお、本願の実施例における音声処理モデルは、処理対象の音声信号及び参照信号を入力とし、真の理想的な比率マスク(IRM)を出力とするニューラルネットワークモデルである。したがって、音声処理モデルによりエコーキャンセルを行うことができ、即ち音声処理を行うときに、処理対象の音声信号及び参照信号を音声処理モデルに入力し、さらに音声処理モデルが入力に対応する真の理想的な比率マスク(IRM)を出力し、その後、音声処理モデルから出力されたIRMと処理対象の音声信号とを乗算して、エコーキャンセルされた音声信号、即ち標準音声信号を取得することができる。
以上の説明からわかるように、本願は、初期ニューラルネットワークモデルをトレーニングすることで音声処理モデルを取得し、音声処理モデルにより音声信号内のエコーをキャンセルし、さらにエコー信号がキャンセルされた音声信号を音声認識モデル又は音声ウェイクアップモデルに入力して、音声認識モデルによって対応する認識結果を出力する。これに加えて、初期ニューラルネットワークモデルと音声認識モデル又は音声ウェイクアップモデルとを直列接続した後、音声処理及び認識のモデルトレーニングを一括して行って、当該モデルによって対応する認識結果を出力する。
本願の実施例に係る音声処理モデルの生成方法は、真の参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク(IRM)に基づいて、音声処理モデルを生成し、いかなるアナログの信号に依存する必要がなく、それによって音声処理モデルの正確性と汎化性が向上し、ユーザの使用体験が改善される。
本願の実施例におけるトレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク(IRM)を含み、ラベリングIRMは、実際の標準音声信号及びエコー付きの音声信号に基づいて得られるか、あるいは、標準音声信号、参照信号及び対応するエコー信号に基づいて得られる。したがって、以下の実施例によってトレーニングデータセットを取得することができる。
本願の一実施例では、図8に示すように、上記ステップS701は、以下のステップS801~S804を含むことができる。
ステップS801、複数組の標準音声信号、参照信号及び対応するエコー信号を取得する。
本願の実施例では、オーディオを再生している音声処理機器を静かな環境に置くことができ、このように機器の各マイクは自身で再生している参照信号のエコー信号を受信し、このように、複数組の参照信号及び対応するエコー信号を取得することができる。その後、複数の標準音声信号を取得することができる。
ステップS802、各組のエコー信号と標準音声信号とを融合して、エコー付きの音声信号を生成する。
具体的には、複数組の標準音声信号、参照信号及び対応するエコー信号が取得された後、生成されたエコー付きの音声信号に強い汎化能力を持たせるために、音声処理機器が置かれている環境、音声処理機器のタイプを根拠に、各組のエコー信号と標準音声信号とを融合することができ、一定の信号対雑音比で各組のエコー信号と標準音声信号とを融合することもできる。
即ち、本願の一例では、異なる信号対雑音比に基づいて、各組のエコー信号と標準音声信号とを融合して、複数組のエコー付きの音声信号を生成する。
ここで、信号対雑音比は、エコー付きの音声信号における標準音声信号とエコー信号との比率を表すものであり、つまり、信号対雑音比が異なると、エコー付きの音声信号におけるエコー信号の占める割合が異なる。
音声処理モデルの汎化能力を向上させるために、異なる信号対雑音比を予め設定し、異なる信号対雑音比に基づいて、各組のエコー信号と標準音声信号とを融合して、信号対雑音比の異なる複数組のエコー付きの音声信号を生成することで、エコー付きの音声信号の汎化性を向上させ、さらに音声処理モデルの汎化性能を向上させる。
ステップS803、各組の標準音声信号及びエコー付きの音声信号に対してサブバンド分解を行って、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分を取得する。
ステップS804、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分に基づいて、各組のエコー付きの音声信号に対応するラベリングIRMを決定する。
さらに、図9に示すように、当該ステップS804は、以下のステップS901~S902を含むことができる。
ステップS901、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分に対して剰余演算を行って、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分の振幅を取得する。
ステップS902、標準音声信号の各周波数帯域成分の振幅とエコー付きの音声信号の各周波数帯域成分の振幅との比率に基づいて、各組のエコー付きの音声信号に対応するラベリングIRMを決定する。
具体的には、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分が取得された後、各周波数帯域成分に対して剰余演算を行って、各周波数帯域成分の振幅を取得し、その後、各標準音声信号の各周波数帯域成分の振幅と、エコー付きの音声信号の各周波数帯域成分の振幅との比率を取得して、複数の比率を取得し、各組の標準音声信号の各周波数帯域成分の振幅とエコー付きの音声信号の各周波数帯域成分の振幅との複数の比率に対して融合処理を行って、各エコー付きの音声信号の各標準音声信号のラベリングIRMを取得し、これによってトレーニングのための複数組の真のラベリングIRMを取得する。
つまり、1つのエコー付きの周波数帯域成分について、ラベリングIRM*エコー付きの周波数帯域成分の振幅=標準周波数帯域成分の振幅となる。
これにより、真の標準音声信号及びエコー付きの音声信号の振幅に基づいて、エコー付きの音声信号に対応するラベリングIRMを決定することで、音声処理モデルの生成を実現し、ニューラルネットワークを振幅スペクトルのエコーキャンセルにより集中させることに有利である。
なお、本願の実施例における初期ニューラルネットワークモデルは、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分を入力信号とし、予測IRMを出力とするモデルであり、出力された予測IRMが音声処理モデルの生成に用いられる。初期ニューラルネットワークモデルに入力される各周波数帯域成分には、特異信号が存在する可能性があり、特異信号によりモデルの処理時間が長くなり、収束できない可能性がある。そのため、このような現象を回避し、後続のデータ処理を容易にするために、初期ニューラルネットワークモデルの入力信号に対して正規化処理を行うことができる。
本願の一実施例では、図10に示すように、初期ニューラルネットワークモデルを使用して、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分を処理する前に、即ち、上記ステップS703の前に、以下のステップS1001をさらに含むことができる。
ステップS1001、各組の音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行う。
具体的には、各組の音声信号及び参照信号の各周波数帯域成分が取得された後、各組の音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行い、そして正規化処理された各周波数帯域成分を初期ニューラルネットワークモデルに入力し、初期ニューラルネットワークモデルが処理した後に各組のエコー付きの音声信号に対応するラベリングIRMを出力し、それを音声処理モデルの生成に用いる。
これにより、各周波数帯域成分に対して正規化処理を行った後に、初期ニューラルネットワークモデルに入力することで、特異周波数帯域成分により処理時間が長すぎ、収束できないという現象を回避し、モデルの処理を容易にする。
本願の実施例は、音声処理装置をさらに提供し、図11は、本願の実施例により提供される音声処理装置の概略構造図である。
図11に示すように、当該音声処理装置100は、第1取得モジュール110と、第1処理モジュール120と、第2処理モジュール130と、第3処理モジュール140とを含む。
ここで、第1取得モジュール110は、処理対象のM個の音声信号及びN個の参照信号を取得するために用いられ、M及びNはそれぞれ1以上の正の整数であり、第1処理モジュール120は、各音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各音声信号及び参照信号の各周波数帯域成分を取得するために用いられ、第2処理モジュール130は、エコーキャンセルモデルを使用して各音声信号及び参照信号の各周波数帯域成分を処理して、各音声信号の各周波数帯域におけるN個の参照信号の対応する理想的な比率マスク(IRM)を取得するために用いられ、第3処理モジュール140は、各音声信号の各周波数帯域におけるN個の参照信号の対応するIRMに基づいて、各音声信号の各周波数帯域成分に対してエコーキャンセルを行って、エコーキャンセルされたM個の音声信号を取得するために用いられる。
本願の一実施例では、第1処理モジュールは、具体的には、音声処理機器のタイプに基づいて、サブバンド分解モードを決定し、分解モードで、各音声信号及び参照信号に対してそれぞれサブバンド分解を行うために用いられる。
本願の一実施例では、音声処理装置100は、エコーキャンセルモデルを使用して各音声信号及び参照信号の各周波数帯域成分を処理する前に、各音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行うための第4処理モジュールをさらに含む。
本願の一実施例では、第2処理モジュール130は、特徴抽出ユニットと、特徴融合ユニットとを含むことができる。
ここで、特徴抽出ユニットは、音声信号及び参照信号の各周波数帯域成分に対して多粒度特徴抽出を行って、各音声信号及び参照信号の各周波数帯域成分の特徴を取得するために用いられ、特徴融合ユニットは、各音声信号及び参照信号の各周波数帯域成分の特徴に対して特徴融合を行って、各音声信号の各周波数帯域におけるN個の参照信号の対応するIRMを取得するために用いられる。
本願の一実施例では、音声処理装置100は、エコーキャンセルされたM個の音声信号が取得された後、M個の音声信号を音声認識モデルに入力して、M個の音声信号に対応する認識結果を取得するための入力モジュールをさらに含む。
なお、本願の実施例に係る音声処理装置の他の具体的な実施形態は、前述した音声処理方法の具体的な実施形態を参照することができ、冗長性を回避するために、ここでは説明を省略する。
本願の実施例に係る音声処理装置は、音声信号の各周波数帯域における真の参照信号の対応する理想的な比率マスク(IRM)に基づいて、音声信号の各周波数帯域成分に対してエコーキャンセルを行い、いかなるアナログの信号に依存する必要がなく、それによってエコーキャンセルの正確性と汎化性が向上し、ユーザの使用体験が改善される。
上記実施例を実現するために、本願の実施例は、音声処理モデルの生成装置をさらに提供し、図12は、本願の実施例により提供される音声処理モデルの生成装置の概略構造図である。
図12に示すように、当該音声処理モデルの生成装置200は、第2取得モジュール210と、第5処理モジュール220と、第6処理モジュール230と、第7処理モジュール240とを含む。
ここで、第2取得モジュール210は、トレーニングデータセットを取得するために用いられ、ここで、トレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク(IRM)を含み、第5処理モジュール220は、各組の参照信号及びエコー付きの音声信号に対してそれぞれサブバンド分解を行って、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分を取得するために用いられ、第6処理モジュール230は、初期ニューラルネットワークモデルを使用して、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、エコー付きの音声信号の各周波数帯域における各組の参照信号の対応する予測IRMを取得するために用いられ、第7処理モジュール240は、各組の予測IRMと対応するラベリングIRMとの差に基づいて、初期ニューラルネットワークモデルに対して誤差逆伝播補正を行って、トレーニングされた音声処理モデルを生成するために用いられる。
本願の一実施例では、第2取得モジュール210は、具体的には、複数組の標準音声信号、参照信号及び対応するエコー信号を取得し、各組のエコー信号と標準音声信号とを融合して、エコー付きの音声信号を生成し、各組の標準音声信号及びエコー付きの音声信号に対してサブバンド分解を行って、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分を取得し、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分に基づいて、各組のエコー付きの音声信号に対応するラベリングIRMを決定するために用いられる。
本願の一実施例では、第2取得モジュール210は、具体的には、異なる信号対雑音比に基づいて、各組のエコー信号と標準音声信号とを融合して、複数組のエコー付きの音声信号を生成するために用いられる。
本願の一実施例では、第2取得モジュール210は、具体的には、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分に対して剰余演算を行って、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分の振幅を取得し、標準音声信号の各周波数帯域成分の振幅とエコー付きの音声信号の各周波数帯域成分の振幅との比率に基づいて、各組のエコー付きの音声信号に対応するラベリングIRMを決定するためにさらに用いられる。
本願の一実施例では、音声処理モデルの生成装置は、各組の音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行うための第8処理モジュールをさらに含むことができる。
なお、本願の実施例に係る音声処理モデルの生成装置の具体的な実施形態は、前述した音声処理モデルの生成方法の具体的な実施形態を参照することができるので、ここでは説明を省略する。
本願の実施例に係る音声処理モデルの生成装置は、真の参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク(IRM)に基づいて、音声処理モデルを生成し、いかなるアナログの信号に依存する必要がなく、それによって音声処理モデルの正確性と汎化性が向上し、ユーザの使用体験が改善される。
本願の実施例によれば、本願は、音声処理方法又は音声処理モデルの生成方法の電子機器及び読み取り可能な記憶媒体をさらに提供する。以下、図13を参照して説明する。
本願の実施例によれば、本願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本願によって提供される音声処理方法又は音声処理モデルの生成方法を実行させる。
図13に示すように、本願の実施例に係る音声処理方法又は音声処理モデルの生成方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本願の実現を制限することを意図したものではない。
図13に示すように、当該電子機器は、1つ又は複数のプロセッサ1310と、メモリ1320と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、当該命令は、外部入力/出力装置(例えば、インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作(例えば、サーバアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図13では、1つのプロセッサ1310を例とする。
メモリ1320は、本願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサが本願により提供される音声処理方法又は音声処理モデルの生成方法を実行するように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本願により提供される音声処理方法又は音声処理モデルの生成方法を実行させるためのコンピュータ命令が記憶されている。
メモリ1320は、非一時的なコンピュータ読み取り可能な記憶媒体として、本願の実施例における音声処理方法に対応するプログラム命令/モジュール(例えば、図11に示す第1取得モジュール110、第1処理モジュール120、第2処理モジュール130及び第3処理モジュール140、又は、図12に示す第2取得モジュール210、第5処理モジュール220、第6処理モジュール230及び第7処理モジュール240)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ1310は、メモリ1320に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち上記の方法の実施例における音声処理方法又は音声処理モデルの生成方法を実現する。
メモリ1320は、ストレージプログラムエリアとストレージデータエリアとを含むことができ、ここで、ストレージプログラムエリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータエリアは、音声処理電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ1320は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ1320は、プロセッサ1310に対して遠隔に設定されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して音声処理方法又は音声処理モデルの生成方法の電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
音声処理方法又は音声処理モデルの生成方法の電子機器は、入力装置1330と出力装置1340とをさらに含むことができる。プロセッサ1310、メモリ1320、入力装置1330、及び出力装置1340は、バス又は他の方式を介して接続することができ、図13では、バスを介して接続することを例とする。
入力装置1330は、入力された数字又は文字情報を受信し、音声処理方法又は音声処理モデルの生成方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置1340は、ディスプレイデバイス、補助照明装置(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含むことができ、高レベルのプロセス及び/又は対象指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとの対話を提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとの対話を提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態と対話する)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介して対話する。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのホスト製品であり、従来の物理ホストとVPS(Virtual Private Server、仮想専用サーバ)サービスでは、管理が難しく、業務の拡張性が弱いという欠点を解決する。
本願の実施例の技術案によれば、音声信号の各周波数帯域における真の参照信号の対応する理想的な比率マスク(IRM)に基づいて、音声信号の各周波数帯域成分に対してエコーキャンセルを行い、いかなるアナログの信号に依存する必要がなく、さらに、エコーキャンセルためのモデルが、真の参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク(IRM)に基づいて生成されるものであり、いかなるアナログの信号にも依存する必要がなく、それによってエコーキャンセルの正確性と汎化性が向上し、ユーザの使用体験が改善される。本明細書の説明において、「第1」及び「第2」という用語は、説明目的でのみ使用され、相対的な重要性を示す又は暗示するか、又は示された技術的特徴の数を暗黙的に示すと理解することはできない。したがって、「第1」及び「第2」で定義された特徴には、明示的又は暗黙的に少なくとも1つの当該特徴が含まれる場合がある。本願の説明において、「複数」とは、特に明記しない限り、少なくとも2つ、例えば2つ、3つなどを意味する。
以上、本願の実施例を示し、説明してきたが、理解できるように、上記実施例は例示的なものであり、本願を限定するものとして解釈されるべきではなく、当業者であれば、本願の範囲内で上記実施例に変更、修正、置換、及び変形を加えることができる。

Claims (19)

  1. 音声処理方法であって、
    処理対象のM個の音声信号及びN個の参照信号を取得するステップであって、M及びNはそれぞれ1以上の正の整数であるステップと、
    各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各前記音声信号及び参照信号の各周波数帯域成分を取得するステップと、
    エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理して、各前記音声信号の各周波数帯域における前記N個の参照信号の対応する理想的な比率マスク(IRM)を取得するステップと、
    各前記音声信号の各周波数帯域における前記N個の参照信号の対応するIRMに基づいて、各前記音声信号の各周波数帯域成分に対してエコーキャンセルを行って、エコーキャンセルされたM個の音声信号を取得するステップと、を含み、
    前記エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理して、各前記音声信号の各周波数帯域における前記N個の参照信号の対応する理想的な比率マスク(IRM)を取得するステップは、
    前記音声信号及び参照信号の各周波数帯域成分に対して多粒度特徴抽出を行って、各前記音声信号及び参照信号の各周波数帯域成分の特徴を取得するステップと、
    各前記音声信号及び参照信号の各周波数帯域成分の特徴に対して特徴融合を行って、各前記音声信号の各周波数帯域における前記N個の参照信号の対応するIRMを取得するステップと、を含む、
    ことを特徴とする音声処理方法。
  2. 前記各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行うステップは、
    音声処理機器のタイプに基づいて、サブバンド分解モードを決定するステップと、
    前記分解モードで、各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行うステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理するステップの前に、
    各前記音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行うステップをさらに含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記エコーキャンセルされたM個の音声信号を取得するステップの後に、
    前記M個の音声信号を音声認識モデルに入力して、前記M個の音声信号に対応する認識結果を取得するステップをさらに含む、
    ことを特徴とする請求項1~3のいずれかに記載の方法。
  5. 音声処理モデルの生成方法であって、
    トレーニングデータセットを取得するステップであって、前記トレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク(IRM)を含むステップと、
    各組の前記参照信号及びエコー付きの音声信号に対してそれぞれサブバンド分解を行って、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を取得するステップと、
    初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、前記エコー付きの音声信号の各周波数帯域における各組の前記参照信号の対応する予測IRMを取得するステップと、
    各組の前記予測IRMと対応するラベリングIRMとの差に基づいて、前記初期ニューラルネットワークモデルに対して誤差逆伝播補正を行って、トレーニングされた音声処理モデルを生成するステップと、を含み、
    初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、前記エコー付きの音声信号の各周波数帯域における各組の前記参照信号の対応する予測IRMを取得するステップは、
    前記音声信号及び参照信号の各周波数帯域成分に対して多粒度特徴抽出を行って、各前記音声信号及び参照信号の各周波数帯域成分の特徴を取得するステップと、
    各前記音声信号及び参照信号の各周波数帯域成分の特徴に対して特徴融合を行って、各前記音声信号の各周波数帯域における前記N個の参照信号の対応するIRMを取得するステップと、を含む、
    ことを特徴とする音声処理モデルの生成方法。
  6. 前記トレーニングデータセットを取得するステップは、
    複数組の標準音声信号、参照信号及び対応するエコー信号を取得するステップと、
    各組の前記エコー信号と前記標準音声信号とを融合して、エコー付きの音声信号を生成するステップと、
    各組の標準音声信号及びエコー付きの音声信号に対してサブバンド分解を行って、各組の前記標準音声信号及びエコー付きの音声信号の各周波数帯域成分を取得するステップと、
    各組の前記標準音声信号及びエコー付きの音声信号の各周波数帯域成分に基づいて、各組の前記エコー付きの音声信号に対応するラベリングIRMを決定するステップと、を含む、
    ことを特徴とする請求項5に記載の方法。
  7. 前記各組の前記エコー信号と前記標準音声信号とを融合して、エコー付きの音声信号を生成するステップは、
    異なる信号対雑音比に基づいて、各組の前記エコー信号と前記標準音声信号とを融合して、複数組のエコー付きの音声信号を生成するステップを含む、
    ことを特徴とする請求項6に記載の方法。
  8. 前記初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理するステップの前に、
    各組の前記音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行うステップをさらに含む、
    ことを特徴とする請求項5~のいずれかに記載の方法。
  9. 音声処理装置であって、
    処理対象のM個の音声信号及びN個の参照信号を取得するための取得モジュールであって、M及びNはそれぞれ1以上の正の整数である取得モジュールと、
    各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各前記音声信号及び参照信号の各周波数帯域成分を取得するための第1処理モジュールと、
    エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理して、各前記音声信号の各周波数帯域における前記N個の参照信号の対応する理想的な比率マスク(IRM)を取得するための第2処理モジュールと、
    各前記音声信号の各周波数帯域における前記N個の参照信号の対応するIRMに基づいて、各前記音声信号の各周波数帯域成分に対してエコーキャンセルを行って、エコーキャンセルされたM個の音声信号を取得するための第3処理モジュールと、を含み、
    前記第2処理モジュールが、
    前記音声信号及び参照信号の各周波数帯域成分に対して多粒度特徴抽出を行って、各前記音声信号及び参照信号の各周波数帯域成分の特徴を取得するための特徴抽出ユニットと、
    各前記音声信号及び参照信号の各周波数帯域成分の特徴に対して特徴融合を行って、各前記音声信号の各周波数帯域における前記N個の参照信号の対応するIRMを取得するための特徴融合ユニットと、を含む、
    ことを特徴とする音声処理装置。
  10. 前記第1処理モジュールが、
    音声処理機器のタイプに基づいて、サブバンド分解モードを決定し、
    前記分解モードで、各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行う、
    ことを特徴とする請求項に記載の装置。
  11. エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理する前に、各前記音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行うための第4処理モジュールをさらに含む、
    ことを特徴とする請求項に記載の装置。
  12. エコーキャンセルされたM個の音声信号が取得された後、前記M個の音声信号を音声認識モデルに入力して、前記M個の音声信号に対応する認識結果を取得するための入力モジュールをさらに含む、
    ことを特徴とする請求項9~11のいずれかに記載の装置。
  13. 音声処理モデルの生成装置であって、
    トレーニングデータセットを取得するための第2取得モジュールであって、前記トレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク(IRM)を含む第2取得モジュールと、
    各組の前記参照信号及びエコー付きの音声信号に対してそれぞれサブバンド分解を行って、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を取得するための第5処理モジュールと、
    初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、前記エコー付きの音声信号の各周波数帯域における各組の前記参照信号の対応する予測IRMを取得するための第6処理モジュールと、
    各組の前記予測IRMと対応するラベリングIRMとの差に基づいて、前記初期ニューラルネットワークモデルに対して誤差逆伝播補正を行って、トレーニングされた音声処理モデルを生成するための第7処理モジュールと、を含み、
    初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、前記エコー付きの音声信号の各周波数帯域における各組の前記参照信号の対応する予測IRMを取得することは、
    前記音声信号及び参照信号の各周波数帯域成分に対して多粒度特徴抽出を行って、各前記音声信号及び参照信号の各周波数帯域成分の特徴を取得することと、
    各前記音声信号及び参照信号の各周波数帯域成分の特徴に対して特徴融合を行って、各前記音声信号の各周波数帯域における前記N個の参照信号の対応するIRMを取得することと、を含む、
    ことを特徴とする音声処理モデルの生成装置。
  14. 前記第2取得モジュールが、
    複数組の標準音声信号、参照信号及び対応するエコー信号を取得し、
    各組の前記エコー信号と前記標準音声信号とを融合して、エコー付きの音声信号を生成し、
    各組の標準音声信号及びエコー付きの音声信号に対してサブバンド分解を行って、各組の前記標準音声信号及びエコー付きの音声信号の各周波数帯域成分を取得し、
    各組の前記標準音声信号及びエコー付きの音声信号の各周波数帯域成分に基づいて、各組の前記エコー付きの音声信号に対応するラベリングIRMを決定する、
    ことを特徴とする請求項13に記載の装置。
  15. 前記第2取得モジュールが、
    異なる信号対雑音比に基づいて、各組の前記エコー信号と前記標準音声信号とを融合して、複数組のエコー付きの音声信号を生成する、
    ことを特徴とする請求項14に記載の装置。
  16. 各組の前記音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行うための第8処理モジュールをさらに含む、
    ことを特徴とする請求項13~15のいずれかに記載の装置。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~4のいずれかに記載の音声処理方法、又は請求項5~のいずれかに記載の音声処理モデルの生成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  18. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~4のいずれかに記載の音声処理方法、又は請求項5~のいずれかに記載の音声処理モデルの生成方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  19. コンピュータプログラムであって、
    前記コンピュータプログラムは、コンピュータに請求項1~4のいずれかに記載の音声処理方法、又は請求項5~のいずれかに記載の音声処理モデルの生成方法を実行させる、
    ことを特徴とするコンピュータプログラム。
JP2021175751A 2020-10-27 2021-10-27 音声処理方法、装置及び音声処理モデルの生成方法、装置 Active JP7291190B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011164617.9A CN112466318B (zh) 2020-10-27 2020-10-27 语音处理方法、装置及语音处理模型的生成方法、装置
CN202011164617.9 2020-10-27

Publications (2)

Publication Number Publication Date
JP2022020055A JP2022020055A (ja) 2022-01-31
JP7291190B2 true JP7291190B2 (ja) 2023-06-14

Family

ID=74835699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021175751A Active JP7291190B2 (ja) 2020-10-27 2021-10-27 音声処理方法、装置及び音声処理モデルの生成方法、装置

Country Status (4)

Country Link
US (1) US20220044678A1 (ja)
JP (1) JP7291190B2 (ja)
KR (1) KR102577513B1 (ja)
CN (1) CN112466318B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786028B (zh) * 2021-02-07 2024-03-26 百果园技术(新加坡)有限公司 声学模型处理方法、装置、设备和可读存储介质
CN113077812A (zh) * 2021-03-19 2021-07-06 北京声智科技有限公司 语音信号生成模型训练方法、回声消除方法和装置及设备
CN114242098B (zh) * 2021-12-13 2023-08-29 北京百度网讯科技有限公司 一种语音增强方法、装置、设备以及存储介质
CN114512136B (zh) * 2022-03-18 2023-09-26 北京百度网讯科技有限公司 模型训练、音频处理方法、装置、设备、存储介质及程序

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150012752A (ko) 2013-07-26 2015-02-04 삼성전자주식회사 비선형 음향 에코 소거 장치 및 그 방법
US20190318757A1 (en) 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation
CN110956976A (zh) 2019-12-17 2020-04-03 苏州科达科技股份有限公司 一种回声消除方法、装置、设备及可读存储介质
CN111048061A (zh) 2019-12-27 2020-04-21 西安讯飞超脑信息科技有限公司 回声消除滤波器的步长获取方法、装置及设备
CN111292759A (zh) 2020-05-11 2020-06-16 上海亮牛半导体科技有限公司 一种基于神经网络的立体声回声消除方法及***
CN111696580A (zh) 2020-04-22 2020-09-22 广州多益网络股份有限公司 一种语音检测方法、装置、电子设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726859B2 (en) * 2015-11-09 2020-07-28 Invisio Communication A/S Method of and system for noise suppression
WO2018098230A1 (en) * 2016-11-22 2018-05-31 Massachusetts Institute Of Technology Systems and methods for training neural networks
US10283140B1 (en) * 2018-01-12 2019-05-07 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
US10672414B2 (en) * 2018-04-13 2020-06-02 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
CN109841226B (zh) * 2018-08-31 2020-10-16 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
CN109841206B (zh) * 2018-08-31 2022-08-05 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
EP3942547A4 (en) * 2019-03-20 2022-12-28 Research Foundation Of The City University Of New York METHOD OF SPEECH EXTRACTION FROM DEGRADED SIGNALS BY PREDICTING THE INPUTS OF A SPEECH VOCODER
CN110867181B (zh) * 2019-09-29 2022-05-06 北京工业大学 基于scnn和tcnn联合估计的多目标语音增强方法
CN111370016B (zh) * 2020-03-20 2023-11-10 北京声智科技有限公司 一种回声消除方法及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150012752A (ko) 2013-07-26 2015-02-04 삼성전자주식회사 비선형 음향 에코 소거 장치 및 그 방법
US20190318757A1 (en) 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation
CN110956976A (zh) 2019-12-17 2020-04-03 苏州科达科技股份有限公司 一种回声消除方法、装置、设备及可读存储介质
CN111048061A (zh) 2019-12-27 2020-04-21 西安讯飞超脑信息科技有限公司 回声消除滤波器的步长获取方法、装置及设备
CN111696580A (zh) 2020-04-22 2020-09-22 广州多益网络股份有限公司 一种语音检测方法、装置、电子设备及存储介质
CN111292759A (zh) 2020-05-11 2020-06-16 上海亮牛半导体科技有限公司 一种基于神经网络的立体声回声消除方法及***

Also Published As

Publication number Publication date
CN112466318A (zh) 2021-03-09
JP2022020055A (ja) 2022-01-31
US20220044678A1 (en) 2022-02-10
KR20210116372A (ko) 2021-09-27
KR102577513B1 (ko) 2023-09-12
CN112466318B (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
JP7291190B2 (ja) 音声処理方法、装置及び音声処理モデルの生成方法、装置
US9916840B1 (en) Delay estimation for acoustic echo cancellation
WO2016146301A1 (en) Correlation-based two microphone algorithm for noise reduction in reverberation
US8693713B2 (en) Virtual audio environment for multidimensional conferencing
JP7214798B2 (ja) 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体
JP7355776B2 (ja) 音声認識方法、音声認識装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN112489668B (zh) 去混响方法、装置、电子设备和存储介质
US20240046955A1 (en) Voice extraction method and apparatus, and electronic device
US11475869B2 (en) Hybrid noise suppression for communication systems
US20210390970A1 (en) Multi-modal framework for multi-channel target speech seperation
CN112799017B (zh) 声源定位方法、装置、存储介质及电子设备
WO2022005615A1 (en) Speech enhancement
CN111383661B (zh) 基于车载多音区的音区判决方法、装置、设备和介质
CN112466327B (zh) 语音处理方法、装置和电子设备
Gao et al. An order-aware scheme for robust direction of arrival estimation in the spherical harmonic domain
CN111505583B (zh) 声源定位方法、装置、设备和可读存储介质
WO2023244256A1 (en) Techniques for unified acoustic echo suppression using a recurrent neural network
JP2022028670A (ja) 表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN115516554A (zh) 用于语音分离和增强的全深度学习最小方差无失真响应波束形成器
Ye et al. Audio-visual underdetermined blind source separation algorithm based on Gaussian potential function
CN116472578A (zh) Adl-ufe:全深度学习统一前端***
CN114630240B (zh) 方向滤波器的生成方法、音频处理方法、装置及存储介质
JP7270869B2 (ja) 情報処理装置、出力方法、及び出力プログラム
CN117577124B (zh) 基于知识蒸馏的音频降噪模型的训练方法、装置及设备
US20230298612A1 (en) Microphone Array Configuration Invariant, Streaming, Multichannel Neural Enhancement Frontend for Automatic Speech Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230419

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230419

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230602

R150 Certificate of patent or registration of utility model

Ref document number: 7291190

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150