JP7291190B2

JP7291190B2 - 音声処理方法、装置及び音声処理モデルの生成方法、装置

Info

Publication number: JP7291190B2
Application number: JP2021175751A
Authority: JP
Inventors: シューチェン; ジンフォンバイ; ルンチャンハン; レイジヤ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-27
Filing date: 2021-10-27
Publication date: 2023-06-14
Anticipated expiration: 2041-10-27
Also published as: CN112466318A; JP2022020055A; US20220044678A1; KR20210116372A; KR102577513B1; CN112466318B

Description

本願は、信号処理技術の分野に関し、具体的には、音声技術、人工対話、深層学習技術の分野に関し、特に、音声処理方法、装置、電子機器及び記憶媒体に関し、さらに音声処理モデルの生成方法、装置、電子機器及び記憶媒体に関する。

チップ技術と音声技術の発展に伴い、ますます多くのスマート音声対話機器が人々の生活に登場してきた。例えば、ホームシーンでのスマートスピーカ、スマートテレビ、車載シーンでのスマートナビゲーションなどであり、人々は音声を利用して機器と対話してリソース及びサービスを取得することに慣れてきている。これらのスマート音声対話機器は通常、深層学習技術に基づいて、マイクアレイとスピーカを使用してユーザとの音声対話を行う。

音声対話中に、機器のスピーカから送信された音声信号は、スマートハードウェアキャビティや部屋の反射などの複数のエコー経路を介して自身のマイクによって受信される。これらのエコー信号はユーザの真の音声信号の信号対雑音比を低下させ、音声認識エラー、誤ウェイクアップ／ウェイクアップ失敗などの問題をもたらし、さらに機器の誤動作など、ユーザの体験に厳しく影響する状況を引き起こす。そのため、音声対話の体験をよりよく向上させるために、エコーキャンセルの性能を如何によりよく向上させるかは、現在の音声対話関連技術の重要なポイントである。

本願は、エコーキャンセル性能を向上させるための音声処理方法、装置及び音声処理モデルの生成方法、装置を提供する。

本願の第１態様によれば、音声処理方法を提供し、前記方法は、処理対象のＭ個の音声信号及びＮ個の参照信号を取得するステップであって、Ｍ及びＮはそれぞれ１以上の正の整数であるステップと、各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各前記音声信号及び参照信号の各周波数帯域成分を取得するステップと、エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理して、各前記音声信号の各周波数帯域における前記Ｎ個の参照信号の対応する理想的な比率マスク（ＩＲＭ）を取得するステップと、各前記音声信号の各周波数帯域における前記Ｎ個の参照信号の対応するＩＲＭに基づいて、各前記音声信号の各周波数帯域成分に対してエコーキャンセルを行って、エコーキャンセルされたＭ個の音声信号を取得するステップと、を含む。

本願の第２態様によれば、音声処理モデルの生成方法を提供し、前記方法は、トレーニングデータセットを取得するステップであって、前記トレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク（ＩＲＭ）を含むステップと、各組の前記参照信号及びエコー付きの音声信号に対してそれぞれサブバンド分解を行って、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を取得するステップと、初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、前記エコー付きの音声信号の各周波数帯域における各組の前記参照信号の対応する予測ＩＲＭを取得するステップと、各組の前記予測ＩＲＭと対応するラベリングＩＲＭとの差に基づいて、前記初期ニューラルネットワークモデルに対して誤差逆伝播補正を行って、トレーニングされた音声処理モデルを生成するステップと、を含む。

本願の第３態様によれば、音声処理装置を提供し、前記装置は、処理対象のＭ個の音声信号及びＮ個の参照信号を取得するための取得モジュールであって、Ｍ及びＮはそれぞれ１以上の正の整数である取得モジュールと、各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各前記音声信号及び参照信号の各周波数帯域成分を取得するための第１処理モジュールと、エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理して、各前記音声信号の各周波数帯域における前記Ｎ個の参照信号の対応する理想的な比率マスク（ＩＲＭ）を取得するための第２処理モジュールと、各前記音声信号の各周波数帯域における前記Ｎ個の参照信号の対応するＩＲＭに基づいて、各前記音声信号の各周波数帯域成分に対してエコーキャンセルを行って、エコーキャンセルされたＭ個の音声信号を取得するための第３処理モジュールと、を含む。

これにより、音声信号の各周波数帯域における真の参照信号の対応する理想的な比率マスク（ＩＲＭ）に基づいて、音声信号の各周波数帯域成分に対してエコーキャンセルを行い、いかなるアナログの信号に依存する必要がなく、それによってエコーキャンセルの正確性と汎化性が向上し、ユーザの使用体験が改善される。

本願の第４態様によれば、音声処理モデルの生成装置を提供し、前記装置は、トレーニングデータセットを取得するための第２取得モジュールであって、前記トレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク（ＩＲＭ）を含む第２取得モジュールと、各組の前記参照信号及びエコー付きの音声信号に対してそれぞれサブバンド分解を行って、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を取得するための第５処理モジュールと、初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、前記エコー付きの音声信号の各周波数帯域における各組の前記参照信号の対応する予測ＩＲＭを取得するための第６処理モジュールと、各組の前記予測ＩＲＭと対応するラベリングＩＲＭとの差に基づいて、前記初期ニューラルネットワークモデルに対して誤差逆伝播補正を行って、トレーニングされた音声処理モデルを生成するための第７処理モジュールと、を含む。

本願の第５態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、その上にコンピュータプログラムが記憶され、前記コンピュータ命令は、コンピュータに上記一態様の実施例に記載の音声処理方法を実行させるか、又は上記一態様の実施例に記載の音声処理モデルの生成方法を実行させる。
本願の第６の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに上記一態様の実施例に記載の音声処理方法を実行させるか、又は上記一態様の実施例に記載の音声処理モデルの生成方法を実行させる。

本願に係る音声処理方法は、音声信号の各周波数帯域における真の参照信号の対応する理想的な比率マスク（ＩＲＭ）に基づいて、音声信号の各周波数帯域成分に対してエコーキャンセルを行い、いかなるアナログの信号に依存する必要がなく、それによってエコーキャンセルの正確性と汎化性が向上し、ユーザの使用体験が改善される。さらに、エコーキャンセルのためのモデルが、真の参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク（ＩＲＭ）に基づいて生成されるものであり、いかなるアナログの信号に依存する必要がなく、それによって音声処理モデルの正確性と汎化性が向上し、ユーザの使用体験が改善される。

なお、この部分に記載されている内容は、本願の実施例の肝心な又は重要な特徴を特定することを意図しておらず、本願の範囲を限定するものでもない。本願の他の特徴は、以下の説明を通じて容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
本願の実施例により提供される音声処理方法の概略フローチャートである。本願の実施例により提供されるサブバンド分解を行う概略フローチャートである。本願の実施例により提供される別の音声処理方法の概略フローチャートである。本願の実施例により提供される音声処理方法において理想的な比率マスク（ＩＲＭ）を取得する概略フローチャートである。本願の実施例により提供されるエコーキャンセルを行う概略図である。本願の実施例により提供されるさらに別の音声処理方法の概略フローチャートである。本願の実施例により提供される音声処理モデルの生成方法の概略フローチャートである。本願の実施例により提供される音声処理モデルの生成方法においてトレーニングデータセットを取得する概略フローチャートである。本願の実施例により提供されるラベリングＩＲＭを決定する概略フローチャートである。本願の実施例により提供される別の音声処理モデルの生成方法の概略フローチャートである。本願の実施例により提供される音声処理装置の概略構造図である。本願の実施例により提供される音声処理モデルの生成装置の概略構造図である。本願の実施例に係る音声処理方法を実現するための電子機器のブロック図である。

以下、図面と組み合わせて本願の例示的な実施例を説明し、理解を容易にするためにその中には本願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

なお、音声対話では、スピーカから送信された音声信号は、スマートハードウェアキャビティや部屋の反射などの複数のエコー経路を介してマイクによって受信される。これらのエコー信号は、ユーザの真の音声信号の信号対雑音比を低下させ、音声認識エラー、誤ウェイクアップ／ウェイクアップ失敗などの問題をもたらし、さらに機器の誤動作など、ユーザの体験に厳しく影響する状況を引き起こす。そのため、これらのエコー信号をキャンセルして、真の音声の信号対雑音比を向上させ、音声の認識率、ウェイクアップの精度及びユーザの対話体験を向上させる方法が必要である。

関連技術では、通常、スピーカから送信された信号を推定してエコー信号（アナログの信号）を取得し、そして推定されたエコー信号をマイクの入力信号から減算して、推定された真の音声信号を取得することで、エコーキャンセルという目的を達する。当該エコーキャンセル技術は、推定されたエコー信号に依存するため、エコーキャンセルの正確性が低く、効果がよくない。

そのため、本願の実施例は、音声処理方法、装置及び音声処理モデルの生成方法、装置を提供する。本願の実施例は、音声信号の各周波数帯域における真の参照信号の対応する理想的な比率マスク（ＩＲＭ）に基づいて、音声信号の各周波数帯域成分に対してエコーキャンセルを行い、いかなるアナログの信号に依存する必要がなく、それによってエコーキャンセルの正確性と汎化性が向上し、ユーザの使用体験が改善される。

以下、図面を参照して本願の実施例に係る音声処理方法、装置及び音声処理モデルの生成方法、装置をについて説明する。

図１は、本願の実施例により提供される音声処理方法の概略フローチャートである。

なお、本願の実施例に係る音声処理方法は、音声処理機器に適用され、当該機器は、スマートホーム機器、例えばスマートスピーカ、スマートテレビなどであってもよいし、スマート車載機器などであってもよい。

図１に示すように、当該音声処理方法は、以下のステップＳ１０１～Ｓ１０４を含む。

Ｓ１０１、処理対象のＭ個の音声信号及びＮ個の参照信号を取得し、ここで、Ｍ及びＮはそれぞれ１以上の正の整数である。

ここで、参照信号とは、音声処理機器自身（スピーカ）が実際に再生する音声信号を指す。処理対象の音声信号は、標準音声信号とエコー信号とからなる混合音声信号であり、ここで、標準音声信号は、音声処理機器が認識又は処理する必要がある純粋な音声信号であり、エコー信号とは、音声処理機器自身が再生する音声信号が、スマートハードウェアキャビティや部屋の反射などの複数のエコー経路を介してマイクによって収集されたエコー信号を指す。

本願の実施例における音声信号及び参照信号は、いずれも実際に収集された真の信号であり、例えば、参照信号は、「ラウドスピーカによって再生された音」であり、エコー信号は、「ラウドスピーカによって再生された音がマイクによって収集された音」であり、処理対象の音声信号は、「人の声＋ラウドスピーカによって再生された音がマイクによって収集された音」である。

通常、音声処理機器がオーディオを再生しているときに、ユーザが対話ニーズを有し、当該音声処理機器に（標準）音声信号を入力することがある。この場合、音声処理機器のマイクが標準音声信号とエコー信号とからなる混合音声信号を収集し、このとき当該音声処理機器にＭ個のマイクアレイがあれば、Ｍ個の処理対象の音声が取得される。また、当該音声処理機器にＮ個のスピーカがあれば、収集回路によってＮ個の参照信号の取得を収集することができ、理解できるように、このとき各処理対象の音声信号にはいずれもＮ個の参照信号に対応するエコー信号が含まれる。

Ｓ１０２、各音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各音声信号及び参照信号の各周波数帯域成分を取得する。

具体的には、処理対象のＭ個の音声信号及びＮ個の参照信号が取得された後、各音声信号及び参照信号を複数のサブバンドオーディオ信号に分割し、各音声信号及び参照信号の各周波数帯域成分を取得することで、音声信号及び参照信号を周波数帯域特徴に変換し、従来のＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎ、高速フーリエ変換）変換に比べて、サブバンド分解は周波数帯域漏洩をよりよく防止でき、異なる周波数帯域間の情報をより独立させ、それによってエコーキャンセルの効率を向上させることに有利である。

Ｓ１０３、エコーキャンセルモデルを使用して各音声信号及び参照信号の各周波数帯域成分を処理して、各音声信号の各周波数帯域におけるＮ個の参照信号の対応する理想的な比率マスク（ＩＲＭ）を取得する。

ここで、エコーキャンセルモデルは、混合音声信号及び参照信号の各周波数帯域成分－理想的な比率マスク（ＩｄｅａｌＲａｔｉｏＭａｓｋ、ＩＲＭと略称される）モデルであり、即ち混合音声信号及び参照信号の各周波数帯域成分を入力とし、理想的な比率マスク（ＩＲＭ）を出力とし、理想的な比率マスク（ＩＲＭ）が混合音声信号の各周波数帯域成分における標準音声信号の占める割合を示す。

具体的には、各音声信号及び参照信号の各周波数帯域成分が取得された後、各周波数帯域成分をエコーキャンセルモデルに入力し、エコーキャンセルモデルが各音声信号及び参照信号の各周波数帯域成分を処理した後、各音声信号の各周波数帯域におけるＮ個の参照信号の対応する理想的な比率マスク（ＩＲＭ）を出力する。

Ｓ１０４、各音声信号の各周波数帯域におけるＮ個の参照信号の対応するＩＲＭに基づいて、各音声信号の各周波数帯域成分に対してエコーキャンセルを行って、エコーキャンセルされたＭ個の音声信号を取得する。

具体的には、各音声信号の各周波数帯域におけるＮ個の参照信号の対応するＩＲＭが取得された後、ＩＲＭに基づいて各音声信号の各周波数帯域成分に対してエコーキャンセルを行い、エコーキャンセルされたＭ個の音声信号を取得し、エコーキャンセルされた音声信号は、標準音声信号、すなわち認識又は処理対象の純粋な「人の声」である。

なお、本願の実施例における理想的な比率マスク（ＩＲＭ）が混合音声信号の各周波数帯域における標準音声信号の占める割合であるため、各周波数帯域成分に対してエコーキャンセルを行うとき、得られた各理想的な比率マスク（ＩＲＭ）と対応する混合音声信号の周波数帯域成分とを乗算し、対応する成分におけるエコーをキャンセルし、それによってエコーキャンセルされた各周波数帯域成分を取得し、エコーキャンセルされた各成分を合成して、エコーキャンセルされたＭ個の音声信号を取得する。

例えば、１つの処理対象の音声信号及び１つの参照信号がある場合、当該音声信号及び参照信号が取得された後、当該音声信号及び参照信号に対してそれぞれサブバンド分解を行って、音声信号及び参照信号の各周波数帯域成分を取得し、各周波数帯域成分をエコーキャンセルモデルに入力し、エコーキャンセルモデルが処理した後、当該参照信号の、当該音声信号の第１周波数帯域における対応するＩＲＭ１、第２周波数帯域における対応するＩＲＭ２、第３周波数帯域における対応するＩＲＭ３、第４周波数帯域における対応するＩＲＭ４を出力し、その後、ＩＲＭ１と第１周波数帯域成分とを乗算して第１周波数帯域内のエコー信号をキャンセルし、ＩＲＭ２と第２周波数帯域成分とを乗算して第２周波数帯域内のエコー信号をキャンセルし、ＩＲＭ３と第３周波数帯域成分とを乗算して第３周波数帯域内のエコー信号をキャンセルし、ＩＲＭ４と第３周波数帯域成分とを乗算して第４周波数帯域内のエコー信号をキャンセルし、最後に、エコーキャンセルされた４つの周波数帯域成分を合成して、エコーキャンセルされた１つの音声信号を取得することができる。

本願の実施例に係る音声処理方法は、音声信号の各周波数帯域における真の参照信号の対応する理想的な比率マスク（ＩＲＭ）に基づいて、音声信号の各周波数帯域成分に対してエコーキャンセルを行い、いかなるアナログの信号に依存する必要がなく、それによってエコーキャンセルの正確性と汎化性が向上し、ユーザの使用体験が改善される。

なお、実際の適用では、参照信号とエコー信号との関係は、適用シナリオによって異なる場合があり、例えば、ホーム機器の参照信号とエコー信号との関係は、車載機器の参照信号とエコー信号との関係とは異なる。そのため、上記ステップＳ１０２では、音声処理機器が置かれている環境に応じて音声信号及び参照信号に対して、サブバンド分解を行うことができる。例えば、音声処理機器が駅などの人通りの多い環境にある場合、音声信号内のエコー信号は主に高周波数帯域に集中する可能性があり、音声信号及び参照信号をそれぞれ複数のサブバンドオーディオ信号に分割してもよいし（即ち、サブバンド細分解を行う）、音声信号及び参照信号の高周波数帯域に対してサブバンド細分解を行い、低周波数帯域に対してサブバンド粗分解を行ってもよいし、音声機器のタイプに基づいて、音声信号及び参照信号に対してサブバンド分解を行ってもよい。

即ち、本願の一実施例では、図２に示すように、上記ステップＳ１０２は、以下のステップＳ２０１～Ｓ２０２を含む。

Ｓ２０１、音声処理機器のタイプに基づいて、サブバンド分解モードを決定する。

ここで、サブバンド分解モードは、サブバンド細分解モード、サブバンド粗分解モードなどを含むことができる。

Ｓ２０２、分解モードで、各音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各音声信号及び参照信号の各周波数帯域成分を取得する。

例えば、音声処理機器がホーム機器である場合、エコー信号が主に低周波数帯域に集中しているので、各音声信号及び参照信号に対してそれぞれサブバンド分解を行うときに、粗分解が可能となるが、音声処理機器が車載機器である場合、エコー信号が主に奇数周波数帯域に集中しているので、各音声信号及び参照信号に対してそれぞれサブバンド分解を行うときに、サブバンド細分解が必要となる。

これにより、音声処理機器のタイプに基づいて各音声信号及び参照信号に対してサブバンド分解を行うことで、周波数帯域漏洩を防止し、周波数帯域間の信号をより独立させ、それによってエコーキャンセルの正確性を向上させることができるだけでなく、エコーキャンセルに不要なサブバンド分解を回避し、サブバンド分解をより簡単且つ効果的にする。

なお、本願の実施例におけるエコーキャンセルモデルは、後続のエコーキャンセルを容易にするために、音声信号及び参照信号の各周波数帯域成分を入力信号として理想的な比率マスク（ＩＲＭ）を生成するものである。エコーキャンセル信号に入力される各周波数帯域成分には、特異信号が存在する可能性があり、特異信号によりモデルの処理時間が長くなり、収束できない可能性がある。したがって、このような現象を回避し、後続のデータ処理を容易にするために、エコーキャンセルモデルの入力信号に対して正規化処理を行うことができる。

本願の一実施例では、図３に示すように、エコーキャンセルモデルを使用して各音声信号及び参照信号の各周波数帯域成分を処理する前に、即ち上記ステップＳ１０３の前に、さらに以下のステップＳ３０１を含むことができる。

Ｓ３０１、各音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行う。

具体的には、各音声信号及び参照信号の各周波数帯域成分が取得された後、各音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行い、そして正規化処理された各周波数帯域成分をエコーキャンセルモデルに入力し、エコーキャンセルモデルが処理した後に各音声信号の各周波数帯域におけるＮ個の参照信号の対応する理想的な比率マスク（ＩＲＭ）を出力して、ＩＲＭに基づいてエコーキャンセルを行う。

なお、本願の実施例において参照個数を用いた処理は、サブバンド分解及び正規化処理のみであるため、本願の実施例の計算複雑度は、参照信号の個数に応じて線形的に増加しない。

これにより、各周波数帯域成分に対して正規化処理を行った後、エコーキャンセルモデルに入力することで、特異周波数帯域成分により処理時間が長すぎ、収束できないという現象を回避し、モデルの処理を容易にする。

本願の一実施例では、図４に示すように、上記ステップＳ１０３は、以下のステップＳ４０１～Ｓ４０２を含むことができる。

Ｓ４０１、音声信号及び参照信号の各周波数帯域成分に対して多粒度特徴抽出を行って、各音声信号及び参照信号の各周波数帯域成分の特徴を取得する。

当該実施例では、エコーキャンセルモデルは、因果的畳み込み及びＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、長短期記憶）に基づくニューラルネットワークモデルであってもよい。

具体的には、各音声信号及び参照信号の各周波数帯域成分をエコーキャンセルモデルに入力した後、エコーキャンセルモデルが各周波数帯域成分に対して因果的畳み込み処理を行って、各周波数帯域成分の特徴抽出を実現し、ここで、畳み込み処理を行うときに、異なるチャンネル数を設定することで、異なる次元の特徴抽出を実現することができる。

このように、各周波数帯域成分に対して畳み込み処理を行った後、各周波数帯域成分の特徴抽出を実現することができ、しかも、現在のエコー信号が直前の参照信号のみに依存するため、エコーキャンセル過程全体にハードウェア遅延がなくなり、音声処理の応答速度が向上する。

Ｓ４０２、各音声信号及び参照信号の各周波数帯域成分の特徴に対して特徴融合を行って、各音声信号の各周波数帯域におけるＮ個の参照信号の対応するＩＲＭを取得する。

具体的には、各音声信号及び参照信号の各周波数帯域成分の特徴が取得された後、音声の時間的な動的特性をモデル化するために、エコーキャンセルモデルが特徴を積層された長短期記憶（ＬＳＴＭ）に送信し、長短期記憶（ＬＳＴＭ）の出力が学習された高次特徴を構成し、次に高次特徴をマスク層送信して各音声信号の各周波数帯域におけるＮ個の参照信号の対応する理想的な比率マスク（ＩＲＭ）を取得し、その後、各理想的な比率マスク（ＩＲＭ）と対応する音声信号の周波数帯域成分とをそれぞれ乗算して周波数帯域成分内のエコー信号をキャンセルする。

本願の実施例に係る音声処理方法をより明確に説明するために、以下に一例を挙げて説明する。

図５に示すように、２つの音声信号及び１つの参照信号を取得し、Ｍ１（ｔ）は１つ目の音声信号であり、Ｍ２（ｔ）は２つ目の音声信号であり、Ｒ（ｔ）は１つの参照信号であり、Ｍ１（ｔ）、Ｍ２（ｔ）及びＲ（ｔ）に対してそれぞれサブバンド分解を行った後に複数の周波数帯域成分を取得し、その後、周波数帯域成分に対して正規化処理を行い、正規化処理された各周波数帯域成分をエコーキャンセルモデルに入力した後、エコーキャンセルモデルが各周波数帯域成分に対して因果的畳み込み処理を行って、各周波数帯域成分の特徴抽出を実現し、ここで、畳み込み処理を行うときに、異なるチャンネル数を設定することで、異なる次元の特徴抽出を実現することができ、例えば、図５における４＠１＊３は、チャンネル数が３で、畳み込みカーネルが１＊３であり、当該畳み込みカーネルが、現在のオーディオフレーム、現在のオーディオフレームに隣接する最初の２つのオーディオフレームのみに対して畳み込み処理を行うことを表し、出力チャンネル数が４であることを意味する。

畳み込み処理を行った後、周波数帯域共有ＬＳＴＭ及び畳み込み出力のチャンネル数で正規化処理を行い、ここで、各畳み込み層の異なる周波数帯域間で完全に共有し、１つ目の音声信号Ｍ１（ｔ）における参照信号Ｒ（ｔ）の対応する理想的な比率マスクＭａｓｋ１、及び２つ目の音声信号Ｍ２（ｔ）における参照信号Ｒ（ｔ）の対応する理想的な比率マスクＭａｓｋ２を取得し、Ｍａｓｋ１とＭ１（ｔ）とを乗算してＭ１（ｔ）内のエコー信号をキャンセルし、Ｍａｓｋ２とＭ２（ｔ）とを乗算してＭ２（ｔ）内のエコー信号をキャンセルすることにより、エコーキャンセルされた２つの音声信号を取得する。

これにより、エコーキャンセルモデルを使用して各周波数帯域成分に対して多粒度特徴抽出を行い、周波数帯域特徴を抽出した後、各周波数帯域特徴に対して融合処理を行い、各音声信号の各周波数帯域における参照信号のＩＲＭを取得することにより、エコーキャンセルを行う場合、モデル重みパラメータが変更されず、エコー信号が音楽、有声、ＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ、テキストから音声へ）のいずれであっても、いずれもエコーキャンセルモデルから出力された理想的な比率マスク（ＩＲＭ）に基づいてエコーをキャンセルし、エコーキャンセルの安定性を確保する。

なお、本願の実施例のニューラルネットワークに基づくエコーキャンセルモデルは、音声認識モデル、音声ウェイクアップモデルのフロントエンドに直接アクセスし、エンドツーエンドの共同トレーニングを行うことができ、モデル重みに対する誤差逆伝播の調節が容易になり、内部雑音下での音声認識、ウェイクアップの精度をさらに向上させる。即ち、本願の一実施例では、図６に示すように、エコーキャンセルされたＭ個の音声信号が取得された後、即ち、上記ステップＳ１０４の後に、以下のステップＳ６０１を含むことができる。

Ｓ６０１、Ｍ個の音声信号を音声認識モデルに入力して、Ｍ個の音声信号に対応する認識結果を取得する。

ここで、音声認識モデルは、音声信号を入力とし、認識結果を出力とするニューラルネットワークモデルであってもよい。なお、エコー信号を含まない複数の音声信号をサンプリング信号とし、学習及びトレーニングして音声認識モデルを取得することができる。

具体的には、エコーキャンセルされた音声信号、即ち標準音声信号を取得した後、それを音声認識モデルに入力し、音声認識モデルが自己学習により当該標準音声信号に対応する音声認識結果を出力する。

例えば、エコーキャンセルされた音声信号が「今日の天気の温度は何度ですか」であれば、音声認識モデルから出力された認識結果は「今日の天気の温度を放送する」こととなり、そして音声処理機器は、「今日の天気の温度は２４度」というオーディオ信号を放送するようにそのスピーカを制御する。

本願の実施例に係る音声処理方法は、機器が内部雑音シナリオにあるときのウェイクアップ機能にも適用されることができ、即ちエコーキャンセルされた音声信号、即ち標準音声信号を取得した後、それを音声ウェイクアップモデルに入力して、内部雑音ウェイクアップ機能を実現することができる。

具体的には、音声処理機器自身が音声放送シナリオにある場合、機器がユーザのウェイクアップ音声信号（エコー信号を含む）を受信すると、まず現在実際に放送されている参照信号を取得し、そしてユーザのウェイクアップ音声信号及び参照信号に対してサブバンド分解を行ってから各周波数帯域成分を取得し、各周波数帯域成分に対して正規化処理を行い、その後、エコーキャンセルモデルを使用して各周波数帯域成分を処理した後、ウェイクアップ音声信号の各周波数帯域における参照信号の対応する理想的な比率マスク（ＩＲＭ）を取得し、その後、当該ＩＲＭとウェイクアップ音声信号に対応する周波数帯域成分とを乗算して、複数のエコーキャンセルされた周波数帯域成分を取得することができ、複数のエコーキャンセルされた周波数帯域成分に対して合成処理を行って、エコーキャンセルされたウェイクアップ音声信号を取得することができ、音声処理機器がエコーキャンセルされたウェイクアップ音声に基づいて対応する応答を行う。

これにより、ニューラルネットワークに基づくエコーキャンセルモデルは、音声認識モデル、音声ウェイクアップモデルのフロントエンドに直接アクセスし、エンドツーエンドの共同トレーニングを行うことができ、内部雑音下での音声認識、ウェイクアップの精度をさらに向上させ、内部雑音下でのウェイクアップ、内部雑音下での音声検出などのシナリオのモデル性能のために予約空間を向上させた。

本願の実施例は、音声処理モデルの生成方法をさらに提供し、図７は、本願の実施例により提供される音声処理モデルの生成方法の概略フローチャートである。

図７に示すように、当該音声処理モデルの生成方法は、以下のステップＳ７０１～Ｓ７０４を含む。

ステップＳ７０１、トレーニングデータセットを取得し、ここで、トレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク（ＩＲＭ）を含む。

ここで、ラベリングＩＲＭは、実際の標準音声信号及びエコー付きの音声信号に基づいて得られてもよいし、標準音声信号、参照信号及び対応するエコー信号に基づいて得られてもよい。標準音声信号は、音声処理機器が認識又は処理する必要がある純粋な音声信号である。

ステップＳ７０２、各組の参照信号及びエコー付きの音声信号に対してそれぞれサブバンド分解を行って、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分を取得する。

当該ステップは、上記ステップＳ１０２と類似し、冗長性を避けるために、ここでは説明を省略する。

ステップＳ７０３、初期ニューラルネットワークモデルを使用して、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、エコー付きの音声信号の各周波数帯域における各組の参照信号の対応する予測ＩＲＭを取得する。

なお、理想的な比率マスク（ＩＲＭ）は、エコー付きの音声信号における標準音声信号の占める割合を示すので、参照信号及びエコー付きの音声信号のみが既知である場合、対応するＩＲＭしか予測できない。

具体的には、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分が取得された後、各周波数帯域成分を初期ニューラルネットワークモデルに入力して、初期ニューラルネットワークモデルによって予測ＩＲＭを出力することができる。

ステップＳ７０４、各組の予測ＩＲＭと対応するラベリングＩＲＭとの差に基づいて、初期ニューラルネットワークモデルに対して誤差逆伝播補正を行って、トレーニングされた音声処理モデルを生成する。

なお、初期ニューラルネットワークモデルは、参照信号及びエコー付きの音声信号を入力とし、予測ＩＲＭを出力とするニューラルネットワークモデルであり、それは予測ＩＰＭしか出力できず、参照信号及びエコーの音声信号に対応する真のＩＰＭの出力を確保するために、本願の実施例は、参照信号、エコー付きの音声信号を入力とし、真の理想的な比率マスク（ＩＲＭ）を出力とする音声処理モデルをトレーニングして取得するために、標準音声信号と組み合わせてそれを補正する必要がある。

具体的には、上記ステップＳ７０１～Ｓ７０３が実行された後、複数組の参照信号及びエコー付きの音声信号に対応するラベリングＩＲＭ及び予測ＩＲＭを取得することができ、両者間の平均二乗誤差（ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ、ＭＳＥと略称される）を計算することで、平均二乗誤差により損失値を判断し、誤差逆伝播により勾配ベクトルを決定し、さらに勾配ベクトルにより各重み値を調整して、平均二乗誤差を０に近づけるか又は収束し、それによって初期ネットワークモデルに基づいてトレーニングされた音声処理モデルを生成し、ここで、平均二乗誤差が小さいほど、生成された音声処理モデルの精度が高くなる。

なお、本願の実施例における音声処理モデルは、処理対象の音声信号及び参照信号を入力とし、真の理想的な比率マスク（ＩＲＭ）を出力とするニューラルネットワークモデルである。したがって、音声処理モデルによりエコーキャンセルを行うことができ、即ち音声処理を行うときに、処理対象の音声信号及び参照信号を音声処理モデルに入力し、さらに音声処理モデルが入力に対応する真の理想的な比率マスク（ＩＲＭ）を出力し、その後、音声処理モデルから出力されたＩＲＭと処理対象の音声信号とを乗算して、エコーキャンセルされた音声信号、即ち標準音声信号を取得することができる。

以上の説明からわかるように、本願は、初期ニューラルネットワークモデルをトレーニングすることで音声処理モデルを取得し、音声処理モデルにより音声信号内のエコーをキャンセルし、さらにエコー信号がキャンセルされた音声信号を音声認識モデル又は音声ウェイクアップモデルに入力して、音声認識モデルによって対応する認識結果を出力する。これに加えて、初期ニューラルネットワークモデルと音声認識モデル又は音声ウェイクアップモデルとを直列接続した後、音声処理及び認識のモデルトレーニングを一括して行って、当該モデルによって対応する認識結果を出力する。

本願の実施例に係る音声処理モデルの生成方法は、真の参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク（ＩＲＭ）に基づいて、音声処理モデルを生成し、いかなるアナログの信号に依存する必要がなく、それによって音声処理モデルの正確性と汎化性が向上し、ユーザの使用体験が改善される。

本願の実施例におけるトレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク（ＩＲＭ）を含み、ラベリングＩＲＭは、実際の標準音声信号及びエコー付きの音声信号に基づいて得られるか、あるいは、標準音声信号、参照信号及び対応するエコー信号に基づいて得られる。したがって、以下の実施例によってトレーニングデータセットを取得することができる。

本願の一実施例では、図８に示すように、上記ステップＳ７０１は、以下のステップＳ８０１～Ｓ８０４を含むことができる。

ステップＳ８０１、複数組の標準音声信号、参照信号及び対応するエコー信号を取得する。

本願の実施例では、オーディオを再生している音声処理機器を静かな環境に置くことができ、このように機器の各マイクは自身で再生している参照信号のエコー信号を受信し、このように、複数組の参照信号及び対応するエコー信号を取得することができる。その後、複数の標準音声信号を取得することができる。

ステップＳ８０２、各組のエコー信号と標準音声信号とを融合して、エコー付きの音声信号を生成する。

具体的には、複数組の標準音声信号、参照信号及び対応するエコー信号が取得された後、生成されたエコー付きの音声信号に強い汎化能力を持たせるために、音声処理機器が置かれている環境、音声処理機器のタイプを根拠に、各組のエコー信号と標準音声信号とを融合することができ、一定の信号対雑音比で各組のエコー信号と標準音声信号とを融合することもできる。

即ち、本願の一例では、異なる信号対雑音比に基づいて、各組のエコー信号と標準音声信号とを融合して、複数組のエコー付きの音声信号を生成する。

ここで、信号対雑音比は、エコー付きの音声信号における標準音声信号とエコー信号との比率を表すものであり、つまり、信号対雑音比が異なると、エコー付きの音声信号におけるエコー信号の占める割合が異なる。

音声処理モデルの汎化能力を向上させるために、異なる信号対雑音比を予め設定し、異なる信号対雑音比に基づいて、各組のエコー信号と標準音声信号とを融合して、信号対雑音比の異なる複数組のエコー付きの音声信号を生成することで、エコー付きの音声信号の汎化性を向上させ、さらに音声処理モデルの汎化性能を向上させる。

ステップＳ８０３、各組の標準音声信号及びエコー付きの音声信号に対してサブバンド分解を行って、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分を取得する。

ステップＳ８０４、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分に基づいて、各組のエコー付きの音声信号に対応するラベリングＩＲＭを決定する。

さらに、図９に示すように、当該ステップＳ８０４は、以下のステップＳ９０１～Ｓ９０２を含むことができる。

ステップＳ９０１、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分に対して剰余演算を行って、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分の振幅を取得する。

ステップＳ９０２、標準音声信号の各周波数帯域成分の振幅とエコー付きの音声信号の各周波数帯域成分の振幅との比率に基づいて、各組のエコー付きの音声信号に対応するラベリングＩＲＭを決定する。

具体的には、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分が取得された後、各周波数帯域成分に対して剰余演算を行って、各周波数帯域成分の振幅を取得し、その後、各標準音声信号の各周波数帯域成分の振幅と、エコー付きの音声信号の各周波数帯域成分の振幅との比率を取得して、複数の比率を取得し、各組の標準音声信号の各周波数帯域成分の振幅とエコー付きの音声信号の各周波数帯域成分の振幅との複数の比率に対して融合処理を行って、各エコー付きの音声信号の各標準音声信号のラベリングＩＲＭを取得し、これによってトレーニングのための複数組の真のラベリングＩＲＭを取得する。

つまり、１つのエコー付きの周波数帯域成分について、ラベリングＩＲＭ＊エコー付きの周波数帯域成分の振幅＝標準周波数帯域成分の振幅となる。

これにより、真の標準音声信号及びエコー付きの音声信号の振幅に基づいて、エコー付きの音声信号に対応するラベリングＩＲＭを決定することで、音声処理モデルの生成を実現し、ニューラルネットワークを振幅スペクトルのエコーキャンセルにより集中させることに有利である。

なお、本願の実施例における初期ニューラルネットワークモデルは、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分を入力信号とし、予測ＩＲＭを出力とするモデルであり、出力された予測ＩＲＭが音声処理モデルの生成に用いられる。初期ニューラルネットワークモデルに入力される各周波数帯域成分には、特異信号が存在する可能性があり、特異信号によりモデルの処理時間が長くなり、収束できない可能性がある。そのため、このような現象を回避し、後続のデータ処理を容易にするために、初期ニューラルネットワークモデルの入力信号に対して正規化処理を行うことができる。

本願の一実施例では、図１０に示すように、初期ニューラルネットワークモデルを使用して、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分を処理する前に、即ち、上記ステップＳ７０３の前に、以下のステップＳ１００１をさらに含むことができる。

ステップＳ１００１、各組の音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行う。

具体的には、各組の音声信号及び参照信号の各周波数帯域成分が取得された後、各組の音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行い、そして正規化処理された各周波数帯域成分を初期ニューラルネットワークモデルに入力し、初期ニューラルネットワークモデルが処理した後に各組のエコー付きの音声信号に対応するラベリングＩＲＭを出力し、それを音声処理モデルの生成に用いる。

これにより、各周波数帯域成分に対して正規化処理を行った後に、初期ニューラルネットワークモデルに入力することで、特異周波数帯域成分により処理時間が長すぎ、収束できないという現象を回避し、モデルの処理を容易にする。

本願の実施例は、音声処理装置をさらに提供し、図１１は、本願の実施例により提供される音声処理装置の概略構造図である。

図１１に示すように、当該音声処理装置１００は、第１取得モジュール１１０と、第１処理モジュール１２０と、第２処理モジュール１３０と、第３処理モジュール１４０とを含む。

ここで、第１取得モジュール１１０は、処理対象のＭ個の音声信号及びＮ個の参照信号を取得するために用いられ、Ｍ及びＮはそれぞれ１以上の正の整数であり、第１処理モジュール１２０は、各音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各音声信号及び参照信号の各周波数帯域成分を取得するために用いられ、第２処理モジュール１３０は、エコーキャンセルモデルを使用して各音声信号及び参照信号の各周波数帯域成分を処理して、各音声信号の各周波数帯域におけるＮ個の参照信号の対応する理想的な比率マスク（ＩＲＭ）を取得するために用いられ、第３処理モジュール１４０は、各音声信号の各周波数帯域におけるＮ個の参照信号の対応するＩＲＭに基づいて、各音声信号の各周波数帯域成分に対してエコーキャンセルを行って、エコーキャンセルされたＭ個の音声信号を取得するために用いられる。

本願の一実施例では、第１処理モジュールは、具体的には、音声処理機器のタイプに基づいて、サブバンド分解モードを決定し、分解モードで、各音声信号及び参照信号に対してそれぞれサブバンド分解を行うために用いられる。

本願の一実施例では、音声処理装置１００は、エコーキャンセルモデルを使用して各音声信号及び参照信号の各周波数帯域成分を処理する前に、各音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行うための第４処理モジュールをさらに含む。

本願の一実施例では、第２処理モジュール１３０は、特徴抽出ユニットと、特徴融合ユニットとを含むことができる。

ここで、特徴抽出ユニットは、音声信号及び参照信号の各周波数帯域成分に対して多粒度特徴抽出を行って、各音声信号及び参照信号の各周波数帯域成分の特徴を取得するために用いられ、特徴融合ユニットは、各音声信号及び参照信号の各周波数帯域成分の特徴に対して特徴融合を行って、各音声信号の各周波数帯域におけるＮ個の参照信号の対応するＩＲＭを取得するために用いられる。

本願の一実施例では、音声処理装置１００は、エコーキャンセルされたＭ個の音声信号が取得された後、Ｍ個の音声信号を音声認識モデルに入力して、Ｍ個の音声信号に対応する認識結果を取得するための入力モジュールをさらに含む。

なお、本願の実施例に係る音声処理装置の他の具体的な実施形態は、前述した音声処理方法の具体的な実施形態を参照することができ、冗長性を回避するために、ここでは説明を省略する。

本願の実施例に係る音声処理装置は、音声信号の各周波数帯域における真の参照信号の対応する理想的な比率マスク（ＩＲＭ）に基づいて、音声信号の各周波数帯域成分に対してエコーキャンセルを行い、いかなるアナログの信号に依存する必要がなく、それによってエコーキャンセルの正確性と汎化性が向上し、ユーザの使用体験が改善される。

上記実施例を実現するために、本願の実施例は、音声処理モデルの生成装置をさらに提供し、図１２は、本願の実施例により提供される音声処理モデルの生成装置の概略構造図である。

図１２に示すように、当該音声処理モデルの生成装置２００は、第２取得モジュール２１０と、第５処理モジュール２２０と、第６処理モジュール２３０と、第７処理モジュール２４０とを含む。

ここで、第２取得モジュール２１０は、トレーニングデータセットを取得するために用いられ、ここで、トレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク（ＩＲＭ）を含み、第５処理モジュール２２０は、各組の参照信号及びエコー付きの音声信号に対してそれぞれサブバンド分解を行って、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分を取得するために用いられ、第６処理モジュール２３０は、初期ニューラルネットワークモデルを使用して、各組の参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、エコー付きの音声信号の各周波数帯域における各組の参照信号の対応する予測ＩＲＭを取得するために用いられ、第７処理モジュール２４０は、各組の予測ＩＲＭと対応するラベリングＩＲＭとの差に基づいて、初期ニューラルネットワークモデルに対して誤差逆伝播補正を行って、トレーニングされた音声処理モデルを生成するために用いられる。

本願の一実施例では、第２取得モジュール２１０は、具体的には、複数組の標準音声信号、参照信号及び対応するエコー信号を取得し、各組のエコー信号と標準音声信号とを融合して、エコー付きの音声信号を生成し、各組の標準音声信号及びエコー付きの音声信号に対してサブバンド分解を行って、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分を取得し、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分に基づいて、各組のエコー付きの音声信号に対応するラベリングＩＲＭを決定するために用いられる。

本願の一実施例では、第２取得モジュール２１０は、具体的には、異なる信号対雑音比に基づいて、各組のエコー信号と標準音声信号とを融合して、複数組のエコー付きの音声信号を生成するために用いられる。

本願の一実施例では、第２取得モジュール２１０は、具体的には、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分に対して剰余演算を行って、各組の標準音声信号及びエコー付きの音声信号の各周波数帯域成分の振幅を取得し、標準音声信号の各周波数帯域成分の振幅とエコー付きの音声信号の各周波数帯域成分の振幅との比率に基づいて、各組のエコー付きの音声信号に対応するラベリングＩＲＭを決定するためにさらに用いられる。

本願の一実施例では、音声処理モデルの生成装置は、各組の音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行うための第８処理モジュールをさらに含むことができる。

なお、本願の実施例に係る音声処理モデルの生成装置の具体的な実施形態は、前述した音声処理モデルの生成方法の具体的な実施形態を参照することができるので、ここでは説明を省略する。

本願の実施例に係る音声処理モデルの生成装置は、真の参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク（ＩＲＭ）に基づいて、音声処理モデルを生成し、いかなるアナログの信号に依存する必要がなく、それによって音声処理モデルの正確性と汎化性が向上し、ユーザの使用体験が改善される。

本願の実施例によれば、本願は、音声処理方法又は音声処理モデルの生成方法の電子機器及び読み取り可能な記憶媒体をさらに提供する。以下、図１３を参照して説明する。
本願の実施例によれば、本願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本願によって提供される音声処理方法又は音声処理モデルの生成方法を実行させる。

図１３に示すように、本願の実施例に係る音声処理方法又は音声処理モデルの生成方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本願の実現を制限することを意図したものではない。

図１３に示すように、当該電子機器は、１つ又は複数のプロセッサ１３１０と、メモリ１３２０と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、当該命令は、外部入力／出力装置（例えば、インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作（例えば、サーバアレイ、１グループのブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図１３では、１つのプロセッサ１３１０を例とする。

メモリ１３２０は、本願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも１つのプロセッサが本願により提供される音声処理方法又は音声処理モデルの生成方法を実行するように、少なくとも１つのプロセッサによって実行可能な命令が記憶されている。本願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本願により提供される音声処理方法又は音声処理モデルの生成方法を実行させるためのコンピュータ命令が記憶されている。

メモリ１３２０は、非一時的なコンピュータ読み取り可能な記憶媒体として、本願の実施例における音声処理方法に対応するプログラム命令／モジュール（例えば、図１１に示す第１取得モジュール１１０、第１処理モジュール１２０、第２処理モジュール１３０及び第３処理モジュール１４０、又は、図１２に示す第２取得モジュール２１０、第５処理モジュール２２０、第６処理モジュール２３０及び第７処理モジュール２４０）のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ１３１０は、メモリ１３２０に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち上記の方法の実施例における音声処理方法又は音声処理モデルの生成方法を実現する。

メモリ１３２０は、ストレージプログラムエリアとストレージデータエリアとを含むことができ、ここで、ストレージプログラムエリアは、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータエリアは、音声処理電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ１３２０は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも１つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ１３２０は、プロセッサ１３１０に対して遠隔に設定されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して音声処理方法又は音声処理モデルの生成方法の電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

音声処理方法又は音声処理モデルの生成方法の電子機器は、入力装置１３３０と出力装置１３４０とをさらに含むことができる。プロセッサ１３１０、メモリ１３２０、入力装置１３３０、及び出力装置１３４０は、バス又は他の方式を介して接続することができ、図１３では、バスを介して接続することを例とする。

入力装置１３３０は、入力された数字又は文字情報を受信し、音声処理方法又は音声処理モデルの生成方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置１３４０は、ディスプレイデバイス、補助照明装置（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含むことができ、高レベルのプロセス及び／又は対象指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとの対話を提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとの対話を提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態と対話する）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介して対話する。対応するコンピュータ上で実行され、且つ互いにクライアント－サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのホスト製品であり、従来の物理ホストとＶＰＳ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ、仮想専用サーバ）サービスでは、管理が難しく、業務の拡張性が弱いという欠点を解決する。

本願の実施例の技術案によれば、音声信号の各周波数帯域における真の参照信号の対応する理想的な比率マスク（ＩＲＭ）に基づいて、音声信号の各周波数帯域成分に対してエコーキャンセルを行い、いかなるアナログの信号に依存する必要がなく、さらに、エコーキャンセルためのモデルが、真の参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク（ＩＲＭ）に基づいて生成されるものであり、いかなるアナログの信号にも依存する必要がなく、それによってエコーキャンセルの正確性と汎化性が向上し、ユーザの使用体験が改善される。本明細書の説明において、「第１」及び「第２」という用語は、説明目的でのみ使用され、相対的な重要性を示す又は暗示するか、又は示された技術的特徴の数を暗黙的に示すと理解することはできない。したがって、「第１」及び「第２」で定義された特徴には、明示的又は暗黙的に少なくとも１つの当該特徴が含まれる場合がある。本願の説明において、「複数」とは、特に明記しない限り、少なくとも２つ、例えば２つ、３つなどを意味する。

以上、本願の実施例を示し、説明してきたが、理解できるように、上記実施例は例示的なものであり、本願を限定するものとして解釈されるべきではなく、当業者であれば、本願の範囲内で上記実施例に変更、修正、置換、及び変形を加えることができる。

Claims

音声処理方法であって、
処理対象のＭ個の音声信号及びＮ個の参照信号を取得するステップであって、Ｍ及びＮはそれぞれ１以上の正の整数であるステップと、
各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各前記音声信号及び参照信号の各周波数帯域成分を取得するステップと、
エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理して、各前記音声信号の各周波数帯域における前記Ｎ個の参照信号の対応する理想的な比率マスク（ＩＲＭ）を取得するステップと、
各前記音声信号の各周波数帯域における前記Ｎ個の参照信号の対応するＩＲＭに基づいて、各前記音声信号の各周波数帯域成分に対してエコーキャンセルを行って、エコーキャンセルされたＭ個の音声信号を取得するステップと、を含み、
前記エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理して、各前記音声信号の各周波数帯域における前記Ｎ個の参照信号の対応する理想的な比率マスク（ＩＲＭ）を取得するステップは、
前記音声信号及び参照信号の各周波数帯域成分に対して多粒度特徴抽出を行って、各前記音声信号及び参照信号の各周波数帯域成分の特徴を取得するステップと、
各前記音声信号及び参照信号の各周波数帯域成分の特徴に対して特徴融合を行って、各前記音声信号の各周波数帯域における前記Ｎ個の参照信号の対応するＩＲＭを取得するステップと、を含む、
ことを特徴とする音声処理方法。
前記各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行うステップは、
音声処理機器のタイプに基づいて、サブバンド分解モードを決定するステップと、
前記分解モードで、各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行うステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理するステップの前に、
各前記音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行うステップをさらに含む、
ことを特徴とする請求項１に記載の方法。
前記エコーキャンセルされたＭ個の音声信号を取得するステップの後に、
前記Ｍ個の音声信号を音声認識モデルに入力して、前記Ｍ個の音声信号に対応する認識結果を取得するステップをさらに含む、
ことを特徴とする請求項１～３のいずれかに記載の方法。
音声処理モデルの生成方法であって、
トレーニングデータセットを取得するステップであって、前記トレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク（ＩＲＭ）を含むステップと、
各組の前記参照信号及びエコー付きの音声信号に対してそれぞれサブバンド分解を行って、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を取得するステップと、
初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、前記エコー付きの音声信号の各周波数帯域における各組の前記参照信号の対応する予測ＩＲＭを取得するステップと、
各組の前記予測ＩＲＭと対応するラベリングＩＲＭとの差に基づいて、前記初期ニューラルネットワークモデルに対して誤差逆伝播補正を行って、トレーニングされた音声処理モデルを生成するステップと、を含み、
初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、前記エコー付きの音声信号の各周波数帯域における各組の前記参照信号の対応する予測ＩＲＭを取得するステップは、
前記音声信号及び参照信号の各周波数帯域成分に対して多粒度特徴抽出を行って、各前記音声信号及び参照信号の各周波数帯域成分の特徴を取得するステップと、
各前記音声信号及び参照信号の各周波数帯域成分の特徴に対して特徴融合を行って、各前記音声信号の各周波数帯域における前記Ｎ個の参照信号の対応するＩＲＭを取得するステップと、を含む、
ことを特徴とする音声処理モデルの生成方法。
前記トレーニングデータセットを取得するステップは、
複数組の標準音声信号、参照信号及び対応するエコー信号を取得するステップと、
各組の前記エコー信号と前記標準音声信号とを融合して、エコー付きの音声信号を生成するステップと、
各組の標準音声信号及びエコー付きの音声信号に対してサブバンド分解を行って、各組の前記標準音声信号及びエコー付きの音声信号の各周波数帯域成分を取得するステップと、
各組の前記標準音声信号及びエコー付きの音声信号の各周波数帯域成分に基づいて、各組の前記エコー付きの音声信号に対応するラベリングＩＲＭを決定するステップと、を含む、
ことを特徴とする請求項５に記載の方法。
前記各組の前記エコー信号と前記標準音声信号とを融合して、エコー付きの音声信号を生成するステップは、
異なる信号対雑音比に基づいて、各組の前記エコー信号と前記標準音声信号とを融合して、複数組のエコー付きの音声信号を生成するステップを含む、
ことを特徴とする請求項６に記載の方法。
前記初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理するステップの前に、
各組の前記音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行うステップをさらに含む、
ことを特徴とする請求項５～７のいずれかに記載の方法。
音声処理装置であって、
処理対象のＭ個の音声信号及びＮ個の参照信号を取得するための取得モジュールであって、Ｍ及びＮはそれぞれ１以上の正の整数である取得モジュールと、
各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行って、各前記音声信号及び参照信号の各周波数帯域成分を取得するための第１処理モジュールと、
エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理して、各前記音声信号の各周波数帯域における前記Ｎ個の参照信号の対応する理想的な比率マスク（ＩＲＭ）を取得するための第２処理モジュールと、
各前記音声信号の各周波数帯域における前記Ｎ個の参照信号の対応するＩＲＭに基づいて、各前記音声信号の各周波数帯域成分に対してエコーキャンセルを行って、エコーキャンセルされたＭ個の音声信号を取得するための第３処理モジュールと、を含み、
前記第２処理モジュールが、
前記音声信号及び参照信号の各周波数帯域成分に対して多粒度特徴抽出を行って、各前記音声信号及び参照信号の各周波数帯域成分の特徴を取得するための特徴抽出ユニットと、
各前記音声信号及び参照信号の各周波数帯域成分の特徴に対して特徴融合を行って、各前記音声信号の各周波数帯域における前記Ｎ個の参照信号の対応するＩＲＭを取得するための特徴融合ユニットと、を含む、
ことを特徴とする音声処理装置。
前記第１処理モジュールが、
音声処理機器のタイプに基づいて、サブバンド分解モードを決定し、
前記分解モードで、各前記音声信号及び参照信号に対してそれぞれサブバンド分解を行う、
ことを特徴とする請求項９に記載の装置。
エコーキャンセルモデルを使用して各前記音声信号及び参照信号の各周波数帯域成分を処理する前に、各前記音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行うための第４処理モジュールをさらに含む、
ことを特徴とする請求項９に記載の装置。
エコーキャンセルされたＭ個の音声信号が取得された後、前記Ｍ個の音声信号を音声認識モデルに入力して、前記Ｍ個の音声信号に対応する認識結果を取得するための入力モジュールをさらに含む、
ことを特徴とする請求項９～１１のいずれかに記載の装置。
音声処理モデルの生成装置であって、
トレーニングデータセットを取得するための第２取得モジュールであって、前記トレーニングデータセットの各組のトレーニングデータには、参照信号、エコー付きの音声信号及びラベリング理想的な比率マスク（ＩＲＭ）を含む第２取得モジュールと、
各組の前記参照信号及びエコー付きの音声信号に対してそれぞれサブバンド分解を行って、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を取得するための第５処理モジュールと、
初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、前記エコー付きの音声信号の各周波数帯域における各組の前記参照信号の対応する予測ＩＲＭを取得するための第６処理モジュールと、
各組の前記予測ＩＲＭと対応するラベリングＩＲＭとの差に基づいて、前記初期ニューラルネットワークモデルに対して誤差逆伝播補正を行って、トレーニングされた音声処理モデルを生成するための第７処理モジュールと、を含み、
初期ニューラルネットワークモデルを使用して、各組の前記参照信号及びエコー付きの音声信号の各周波数帯域成分を処理して、前記エコー付きの音声信号の各周波数帯域における各組の前記参照信号の対応する予測ＩＲＭを取得することは、
前記音声信号及び参照信号の各周波数帯域成分に対して多粒度特徴抽出を行って、各前記音声信号及び参照信号の各周波数帯域成分の特徴を取得することと、
各前記音声信号及び参照信号の各周波数帯域成分の特徴に対して特徴融合を行って、各前記音声信号の各周波数帯域における前記Ｎ個の参照信号の対応するＩＲＭを取得することと、を含む、
ことを特徴とする音声処理モデルの生成装置。
前記第２取得モジュールが、
複数組の標準音声信号、参照信号及び対応するエコー信号を取得し、
各組の前記エコー信号と前記標準音声信号とを融合して、エコー付きの音声信号を生成し、
各組の標準音声信号及びエコー付きの音声信号に対してサブバンド分解を行って、各組の前記標準音声信号及びエコー付きの音声信号の各周波数帯域成分を取得し、
各組の前記標準音声信号及びエコー付きの音声信号の各周波数帯域成分に基づいて、各組の前記エコー付きの音声信号に対応するラベリングＩＲＭを決定する、
ことを特徴とする請求項１３に記載の装置。
前記第２取得モジュールが、
異なる信号対雑音比に基づいて、各組の前記エコー信号と前記標準音声信号とを融合して、複数組のエコー付きの音声信号を生成する、
ことを特徴とする請求項１４に記載の装置。
各組の前記音声信号及び参照信号の各周波数帯域成分に対して正規化処理を行うための第８処理モジュールをさらに含む、
ことを特徴とする請求項１３～１５のいずれかに記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～４のいずれかに記載の音声処理方法、又は請求項５～８のいずれかに記載の音声処理モデルの生成方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～４のいずれかに記載の音声処理方法、又は請求項５～８のいずれかに記載の音声処理モデルの生成方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムは、コンピュータに請求項１～４のいずれかに記載の音声処理方法、又は請求項５～８のいずれかに記載の音声処理モデルの生成方法を実行させる、
ことを特徴とするコンピュータプログラム。