JP2024507916A

JP2024507916A - オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム

Info

Publication number: JP2024507916A
Application number: JP2023551247A
Authority: JP
Inventors: 思宇 ▲張▼; 毅高; 程 ▲羅▼; 斌李
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-16
Filing date: 2022-08-10
Publication date: 2024-02-21
Also published as: US20230317096A1; WO2023040523A1; CN115831155A

Abstract

本願は、オーディオ信号の処理方法、装置、電子機器、及び記憶媒体を開示し、オーディオの技術分野に属する。方法は、アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得するステップ（２０１）と、前記オーディオ信号における複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得するステップ（２０２）と、前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力するステップ（２０３）と、を含む。

Description

本願は、オーディオの技術分野に関し、特にオーディオ信号の処理方法、装置、電子機器、及び記憶媒体に関する。

本願は、２０２１年９月１６日に提出された出願番号が第２０２１１１０８７４６８．５号であり、発明の名称が「オーディオ信号の処理方法、装置、電子機器、及び記憶媒体」である中国特許出願の優先権を主張し、その全部の内容は引用によって本願において組み込まれている。

オーディオ技術の発展と端末機能の多様化に伴って、異なる端末の間では、ＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ、インターネットプロトコルに基づく音声伝送）技術に基づいて音声通話を行うことが可能である。

本願の実施例は、オーディオ信号の処理方法、装置、電子機器、及び記憶媒体を提供し、複数人の音声通話においてユーザのマイクロホンオフ状態においてのマンマシンインタラクション効率を向上させることができる。該技術的解決手段は以下のとおりである。

一態様では、オーディオ信号の処理方法を提供し、端末により実行され、該方法は、
アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得するステップであって、前記アプリケーションプログラムにアカウントがログインしており、前記ターゲットシーンとは、前記アカウントが複数人の音声通話においてマイクミュート状態にあることを指す、ステップと、
前記オーディオ信号における複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得するステップと、
前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力するステップであって、前記プロンプトメッセージは、前記アカウントのマイクミュート状態を解除するようにプロンプトすることに用いられる、ステップと、を含む。

一態様では、オーディオ信号の処理装置を提供し、端末において配置され、該装置は、
アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得することに用いられる第１取得モジュールであって、前記アプリケーションプログラムにアカウントがログインしており、前記ターゲットシーンとは、前記アカウントが複数人の音声通話においてマイクミュート状態にあることを指す、第１取得モジュールと、
前記オーディオ信号における複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得することに用いられる第２取得モジュールと、
前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力することに用いられる出力モジュールであって、前記プロンプトメッセージは、前記アカウントのマイクミュート状態を解除するようにプロンプトすることに用いられる、出力モジュールと、を含む。

一態様では、電子機器を提供し、該電子機器は、１つ、又は複数のプロセッサと、１つ、又は複数のメモリと、を含み、該１つ、又は複数のメモリにおいて少なくとも１つのコンピュータプログラムが記憶され、該少なくとも１つのコンピュータプログラムは、該１つ、又は複数のプロセッサによりロードされ、かつ実行されることで、前記オーディオ信号の処理方法を実現する。

一態様では、記憶媒体を提供し、該記憶媒体において少なくとも１つのコンピュータプログラムが記憶され、該少なくとも１つのコンピュータプログラムは、プロセッサによりロードされ、かつ実行されることで、前記オーディオ信号の処理方法を実現する。

一態様では、コンピュータプログラム製品、又はコンピュータプログラムを提供し、前記コンピュータプログラム製品、又は前記コンピュータプログラムは、１つ、又は複数のプログラムコードを含み、前記１つ、又は複数のプログラムコードは、コンピュータ可読記憶媒体において記憶される。電子機器の１つ、又は複数のプロセッサは、コンピュータ可読記憶媒体の中から前記１つ、又は複数のプログラムコードを読み取ることができ、前記１つ、又は複数のプロセッサは、前記１つ、又は複数のプログラムコードを実行し、電子機器が前記オーディオ信号の処理方法を実行することができるようにする。

本願の実施例における技術的解決手段をより明確に説明するために、以下、実施例に対する記述において使用される必要がある図面を簡単に説明する。

本願の実施例が提供するオーディオ信号の処理方法の実施環境の模式図である。本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。本願の実施例が提供するＯｐｕｓ周波数帯域図である。本願の実施例が提供するオーディオ信号の処理方法の原理模式図である。本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。本願の実施例が提供するオーディオ信号の処理方法の原理模式図である。本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。本願の実施例が提供するオーディオ信号の処理方法の原理模式図である。本願の実施例が提供するテキストプロンプトメッセージの模式図である。本願の実施例が提供するオーディオ信号の処理装置の構造模式図である。本願の実施例が提供する電子機器の構造模式図である。本願の実施例が提供する電子機器の構造模式図である。

多端末のリアルタイムオーディオビデオ通話シーンにおいて、１つの端末に対応するユーザが発言し、複数の端末に対応するユーザが沈黙する状況がよく存在し得る。一方、一部のユーザは、沈黙するときにマイクロホンオフ（又はマイクロホンミュートと呼ばれ、すなわち自身の端末のマイクロホンをオフにする）を選択することで、発言しているユーザを邪魔することを避けることができる。

上記シーンにおいて、マイクロホンをオフにしたユーザが発言をスタートする番になれば、該ユーザは、しばしば自分がマイクロホンオフ状態であることを忘れることがあるため、マイクロホンを再度オンにしていない場合に直接発言してしまい、マイクロホンが依然としてオフにされているために、該ユーザのオーディオ信号を収集してその他の端末に伝送することができない。このとき、その他の端末は、該ユーザに自分がマイクロホンオフ状態であることを注意するようにプロンプトする必要があり、該ユーザはマイクロホンをオンにした後に先ほどの発言を再度繰り返す必要があるため、マンマシンインタラクション効率が低い。

以下、本願の実施例に関する用語を解釈する。

インターネットプロトコルに基づく音声伝送（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ、ＶｏＩＰ）：ＶｏＩＰは、音声通話技術であり、インターネットプロトコル（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ、ＩＰ、インターネットワーキングプロトコルとも呼ばれる）を経由して音声通話、及びマルチメディア会議を達成し、つまりインターネットを経由して通信する。ＶｏＩＰのその他の非公式名称は、ＩＰ電話、インターネット電話、広帯域電話、広帯域電話サービス等を含む。ＶｏＩＰは、ＶｏＩＰ電話、スマートフォン、パーソナルコンピュータを含む多くのインターネットアクセス機器に用いられ、セルラネットワーク、ＷｉＦｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ、無線忠実性）を介して通話、及びショートメールの送信を行うことを可能にする。

ＶｏＩＰ技術において、送信側機器は、オーディオ圧縮アルゴリズムによってオーディオ信号に対して符号化圧縮を行った後に、ＩＰプロトコルに従って符号化圧縮後のオーディオ信号をパケット化し、音声データパケットを獲得し、ＩＰネットワークを介して音声データパケットを受信側機器に対応するＩＰアドレスに送信する。受信側機器は、音声データパケットを解析、及び解除圧縮した後に、音声データパケットをオリジナルのオーディオ信号に復元し、それによりインターネットを介してオーディオ信号をトランスポートするという目的を達成する。

音声アクティビティ検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、ＶＡＤ）：音声端点検出、音声境界検出、ミュート抑制、音声アクティビティ測定等とも呼ばれ、ＶＡＤの目的は、オーディオ信号ストリームから長時間のミュート期間を識別してキャンセルすることで、ビジネス品質を低減させない状況において電話チャネル資源を節約するという作用を達成することである。ＶＡＤは、ＶｏＩＰ電話アプリケーションの重要な構成部分であり、貴重な帯域幅資源を節約することができ、ユーザが感じるエンドツーエンドの遅延を減少させることに有利である。

直交ミラーフィルタ（ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒ、ＱＭＦ）：ＱＭＦは、１グループのフィルタであり、常に入力信号に対して周波数帯域分離を行うことに用いられる。たとえば、入力信号を高周波数帯域信号（高周波信号と略称する）と低周波数帯域信号（低周波信号と略称する）に分離する。従って、ＱＭＦフィルタグループは、サブバンド信号分解の常用手段であり、信号帯域幅を低減させることができ、各々のサブバンドがチャンネルによりスムーズに処理することができるようにする。

電気電子技術者協会（ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ、ＩＥＥＥ）により制定されたスペクトル分割表に従って、低周波信号の周波数帯域範囲は、３０～３００ｋＨｚであり、中間周波信号の周波数帯域範囲は、３００～３０００ｋＨｚであり、高周波信号の周波数帯域範囲は、３～３０ＭＨｚであり、一方、周波数帯域範囲が３０～３００ＭＨｚであるものは、超高周波信号であり、周波数帯域範囲が３００～１０００ＭＨｚであるか、又はより高いものは、特高周波信号である。ここで、Ｈｚとは、ヘルツを指し、周波数の物理学単位であり、ｋＨｚは、すなわちキロヘルツであり、ＭＨｚは、すなわちメガヘルツである。

音響エコーキャンセル（ＡｃｏｕｓｔｉｃＥｃｈｏＣａｎｃｅｌｌａｔｉｏｎ、ＡＥＣ）：音響エコーは、ハンズフリー、又は会議アプリケーションにおいて、スピーカの音がマイクロホンに複数回フィードバックされることに起因することである。いくつかのシーンにおいて、音響エコーキャンセルの処理方法は、１）端末Ａの複数人通話システムが端末Ｂのオーディオ信号を受信することと、２）端末Ｂのオーディオ信号がサンプリングされ、このサンプリングがエコーキャンセルの参照信号と呼ばれる、ことと、３）その後、端末Ｂのオーディオ信号を端末Ａのスピーカー、及び音響エコーキャンセラに送り込むことと、４）端末Ｂのオーディオ信号が端末Ａに対応するユーザが発する人の声とともに端末Ａのマイクロホンによりピックアップされることと、５）マイクロホンによりピックアップされた信号が音響エコーキャンセラに送られ、元のサンプリングされた参照信号と比較され、マイクロホンによりピックアップされた信号の中から参照信号（すなわち端末Ｂのオーディオ信号）を除去し、音響エコーキャンセルの目的を達成することと、を含む。

雑音抑制（ＮｏｉｓｅＳｕｐｐｒｅｓｓｉｏｎ、ＮＳ）：雑音抑制技術は、オーディオ信号における背景雑音をキャンセルし、オーディオ信号の信号対雑音比、及び了解度を改善し、人、及び機械により明確に視聴させることに用いられる。シングルチャンネル雑音抑制は、通常、雑音推定、ゲイン係数推定の２つの部分を含む。

回帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）：ＲＮＮは、シーケンス（Ｓｅｑｕｅｎｃｅ）データを入力とし、シーケンスの進化方向に再帰（Ｒｅｃｕｒｓｉｏｎ）を行い、且つすべてのノード（回帰型ユニット）をチェーンで接続する再帰ニューラルネットワークの１種である。たとえば、オーディオ信号のオーディオフレームシーケンスは、典型的なシーケンスデータの１種である。ＲＮＮは、記憶性を有し、パラメータが共有され、且つチューリングが完全であり、従ってシーケンスデータの非線形特徴を学習するときに一定の長所を有する。ＲＮＮは、自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰ）、たとえば雑音抑制、音声処理、音声識別、言語モデリング、機械翻訳等の分野で応用されており、各種の時間シーケンスの予報にも用いられる。

自動ゲイン制御（ＡｕｔｏｍａｔｉｃＧａｉｎＣｏｎｔｒｏｌ、ＡＧＣ）：自動ゲイン制御とは、増幅回路のゲインを信号強度に伴って自動的に調整する自動制御方法を指す。ＡＧＣの定義は、自動レベル制御（ＡｕｔｏｍａｔｉｃＬｅｖｅｌＣｏｎｔｒｏｌ、ＡＬＣ）と一致するが、ただ両者の作用メカニズムは異なる。ここで、ＡＬＣとは、リピータが最大ゲインで作業し、且つ出力が最大電電力あるときに、入力信号レベルを増加させて、リピータが出力信号レベルを制御する能力を向上させることを指す。比較的に言えば、ＡＬＣは、入力信号の強度をフィードバック制御することによって出力信号レベルを制御するという目的を達成するが、ＡＧＣは、リピータのゲインをフィードバック制御することによってこの目的を達成する。

ゲインパラメータ（Ｇａｉｎ）：ゲイン値とも呼ばれ、ゲインの一般的な意味は、簡単に言えば、増幅倍数、又は増幅率である。サウンドシステム内において、一般的に信号ソースの入力レベルが増幅のゲインを決める。本願の実施例において関連するゲインパラメータとは、雑音抑制モデルが個々のオーディオフレームに対して雑音抑制を行うときに予測した、所与の第１周波数帯域範囲内の個々の周波数帯域上の増幅率を指し、雑音抑制の目的は、人の声を増幅して雑音を低減させることである。従って、個々のオーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい。選択可能に、ゲインパラメータは、０よりも大きいか、又は等しく、且つ１よりも小さいか、又は等しい１つの数値である。

エネルギーパラメータ：エネルギー値とも呼ばれ、１つのオーディオフレームのエネルギーパラメータは、該オーディオフレームの信号振幅を特徴付けることに用いられる。

図１は、本願の実施例が提供するオーディオ信号の処理方法の実施環境の模式図である。図１に参照されるように、該実施環境には第１端末１２０、サーバ１４０、及び第２端末１６０が含まれる。

第１端末１２０には、複数人の音声通話をサポートするアプリケーションプログラムがインストールされて動作しており、ここで、複数人の音声通話は、ＶｏＩＰ技術に基づく複数人のオーディオ通話、又は複数人のビデオ通話を含む。選択可能に、該アプリケーションプログラムは、ソーシャルアプリケーション、エンタープライズアプリケーション、ＩＰ電話アプリケーション、遠隔会議アプリケーション、遠隔共同診察アプリケーション、通話アプリケーション等を含むが、これらに限定されず、本願の実施例は、該アプリケーションプログラムのタイプを限定しない。

第１端末１２０、及び第２端末１６０は、有線、又は無線通信方式によってサーバ１４０と直接、又は間接的に通信接続される。

サーバ１４０は、１台のサーバ、複数台のサーバ、クラウドコンピューティングプラットフォーム、又は仮想化センタのうちの少なくとも１種を含む。サーバ１４０は、複数人の音声通話をサポートするアプリケーションプログラムのためにバックグラウンドサービスを提供することに用いられる。選択可能に、サーバ１４０は、主要な計算作業を担当し、第１端末１２０、及び第２端末１６０は、二次計算作業を担当するか、又は、サーバ１４０は、二次計算作業を担当する。第１端末１２０、及び第２端末１６０は、主要な計算作業を担当するか、又は、サーバ１４０、第１端末１２０、及び第２端末１６０の三者の間は、分散型コンピューティングアーキテクチャを採用して協調コンピューティングを行う。

選択可能に、サーバ１４０は、独立した物理サーバであるか、又は複数の物理サーバからなるサーバクラスタ又は分散システムであり、もしくはクラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウド記憶、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、コンテンツ配信ネットワーク（ＣｏｎｔｅｎｔＤｅｌｉｖｅｒｙＮｅｔｗｏｒｋ、ＣＤＮ）、及びビッグデータと人工知能プラットフォーム等の基礎的なクラウドコンピューティングサービスを提供するクラウドサーバである。

第２端末１６０には、複数人の音声通話をサポートするアプリケーションプログラムがインストールされて動作しており、ここで、複数人の音声通話は、ＶｏＩＰ技術に基づく複数人のオーディオ通話、又は複数人のビデオ通話を含む。選択可能に、該アプリケーションプログラムは、ソーシャルアプリケーション、エンタープライズアプリケーション、ＩＰ電話アプリケーション、遠隔会議アプリケーション、遠隔共同診察アプリケーション、通話アプリケーション等を含むが、これらに限定されず、本願の実施例は、該アプリケーションプログラムのタイプを限定しない。

二人の音声通話シーンを例とすると、第１端末１２０は、第１ユーザが使用する端末であり、第１ユーザは、第１端末１２０上でソーシャルアプリケーションを起動し、第１ユーザは、該ソーシャルアプリケーションにおいて第１アカウントでログインし、かつ第２アカウントとのチャットインタフェースにおける通話オプションに基づいて、第１端末１２０がサーバ１４０に第２アカウントについての通話要求を送信するようにトリガする。該通話要求は、第２アカウントが２人の音声通話に加入することを要求することに用いられる。サーバ１４０は、該通話要求を該第２アカウントでログインしている第２端末１６０に転送する。第２アカウントが該２人の音声通話に加わることに同意すれば、第１端末１２０、及び第２端末１６０は、ＶｏＩＰ技術に基づいてオンライン音声交流を行うことができる。ここでは、２つの端末が複数人の音声通話を行うことを例として説明した。本願の実施例は、さらに３人、又は３人以上の音声通話シーンに適用できるが、ここでは詳細な説明を省略する。該２人の音声通話シーンにおいて、第１ユーザ、又は第２ユーザが一時的に話したくなければ、該ソーシャルアプリケーションの通話インタフェースにおいて随時に自身の対応するアカウントにマイクロホンをオフにする（又はマイクロホンミュートと呼ばれ、すなわち自身の端末のマイクロホンをオフにする）ことで、該２人の音声通話において雑音を発して、通話品質に影響を与えることを回避することができる。

複数人の遠隔会議シーンを例とすると、第１端末１２０は、会議の司会者が使用する端末であり、会議の司会者は、第１端末１２０上で遠隔会議アプリケーションを起動し、かつ１つの新たなネットワーク会議を作成し、該ネットワーク会議のスタート時間を指定する。サーバ１４０は、該ネットワーク会議に会議番号を割り当てる。該ネットワーク会議のスタート時間に到達した後に、会議の司会者は、該遠隔会議アプリケーションにおいて該会議番号を入力し、それにより該ネットワーク会議にアクセスする。同じように、第２端末１６０は、該ネットワーク会議のいずれか１人の参加者が使用する端末である。参加者は、該遠隔会議アプリケーションにおいて該会議番号を入力し、それにより該ネットワーク会議にアクセスする。通常の場合に、ネットワーク会議の進行過程においては、会議の司会者が講演する必要があり、このような場合に、参加者は、自身の対応するアカウントのマイクロホンをオフにするように設定されており、会議の司会者の講説を邪魔することを防止できる。

選択可能に、第１端末１２０、及び第２端末１６０上でインストールされるアプリケーションプログラムは、同じであるか、或いは、２つの端末上でインストールされるアプリケーションプログラムが異なるオペレーティングシステムプラットフォームの同一タイプのアプリケーションプログラムであるか、或いは、２つの端末上でインストールされるアプリケーションプログラムが同一タイプのアプリケーションプログラムが異なる型番の端末向けに開発された異なるバージョンである。たとえば、第１端末１２０がデスクトップコンピュータであるとすると、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、パーソナルコンピュータ）側アプリケーションがインストールされ、第２端末１６０がスマートフォンであるとすると、移動側アプリケーションがインストールされる。

第１端末１２０は、複数の端末のうちの１つを総称して指してもよく、第２端末１６０は、複数の端末のうちの１つを総称して指してもよく、本願の実施例は、第１端末１２０、及び第２端末１６０のみを列挙して説明する。第１端末１２０、及び第２端末１６０の機器タイプは、同じであるか、又は異なり、該機器タイプは、スマートフォン、タブレットパソコン、スマートスピーカー、スマートウォッチ、ノートパソコン、又はデスクトップコンピュータのうちの少なくとも１種を含むが、これらに限定されない。たとえば、第１端末１２０は、デスクトップコンピュータであってもよく、第２端末１６０は、スマートフォンであってもよく、又は、第１端末１２０、及び第２端末１６０は、いずれもスマートフォン、又はその他のハンドヘルド型携帯通信機器である。

当業者は、上記端末の数量がより多くてもよく、又はより少なくてもよいことを知ることができる。例えば、上記端末は、１つのみであってもよく、又は上記端末は、数十、又は数百、又はより多くの数量であってもよい。本願の実施例は、端末の数量、及び機器タイプを限定しない。

上記実施環境に基づき、オーディオビデオ通信システムにおいて、特に複数人の音声通話（例えば複数人のリアルタイムオーディオビデオ通話、複数人の遠隔会議等）シーンにおいて、１人が発言するが、複数人が沈黙する状況がよく存在し、一部のユーザは、沈黙するときにマイクロホンオフを選択することで、発言しているユーザを邪魔することを避ける。マイクロホンをオフにしたユーザが発言をスタートする番になると、該ユーザは、しばしば自分がマイクロホンオフ状態であることを忘れていることがあるため、マイクロホンを再度オンにしていない（すなわちマイクロホンオフを解除していない）状況で直接発言してしまう。マイクロホンが依然としてオフにされているため、該ユーザのオーディオ信号を収集してその他の端末に伝送することができない。このとき、該ユーザは複数人の音声通話において発言していると思い込んでいるが、その他のユーザには応答できていない。該ユーザが自分でマイクロホンオフ状態であることに気付かない場合には、他のユーザがプロンプトしてはじめて該ユーザは自分がマイクロホンオフ状態であることに気付くことになり、該ユーザは、マイクロホンをオンにした後に先ほどの発言をもう一度繰り返す必要がある。従ってマンマシンインタラクション効率が低く、ユーザ体験に深刻な影響を与える。

上記状況に鑑みて、本願の実施例は、オーディオ信号の処理方法を提供する。もしユーザが複数人の音声通話において自身のアカウントをマイクミュート状態に設定していれば、マイクミュート状態において、端末上のアプリケーションプログラムは、依然としてマイクロホンを介してユーザのオーディオ信号を収集することができるが、収集したオーディオ信号を該複数人の音声通話に参加するその他のアカウントに送信することはない。アプリケーションプログラムは、マイクロホンにより収集されたオーディオ信号に対して信号分析、及び処理を行い、該オーディオ信号における複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを利用することによって、該オーディオ信号にターゲット音声が含まれるか否かを判断する。該オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクミュート状態の解除を忘れて発言をスタートしていることを意味し、従ってプロンプトメッセージを出力してユーザにマイクミュート状態を解除するようにプロンプトする。逆に、該オーディオ信号においてターゲット音声が含まれていなければ、該オーディオ信号における雑音の割合が非常に高いことを表しており、ユーザが発言していないか、又はユーザが雑談している（複数人の音声通話において主動的に話したいのではない）ことを意味するため、従っていかなるプロンプトも行う必要がない。

図２は、本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。図２に参照されるように、該実施例は、電子機器により実行され、該電子機器が端末であることを例として説明すると、該端末とは、複数人の音声通話に参加するいずれか１つの端末、たとえば上記実施環境における第１端末１２０、又は第２端末１６０を指し、以下、詳述する。

２０１：端末は、アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得する。該ターゲットシーンとは、該アプリケーションプログラムにログインしているアカウントが複数人の音声通話においてマイクミュート状態にあることである。

端末は、該複数人の音声通話に参加するいずれか１人のユーザが使用する電子機器であり、端末上で複数人の音声通話をサポートするアプリケーションプログラムがインストールされて動作している。該アプリケーションプログラムにアカウントがログインしており、ターゲットシーンとは、該アカウントが複数人の音声通話においてマイクミュート状態にあることを指す。選択可能に、該アプリケーションプログラムは、ソーシャルアプリケーション、エンタープライズアプリケーション、ＩＰ電話アプリケーション、遠隔会議アプリケーション、遠隔共同診察アプリケーション、通話アプリケーション等を含むが、これらに限定されず、本願の実施例は、該アプリケーションプログラムのタイプを限定しない。

いくつかの実施例において、該アプリケーションプログラムは、端末の機器タイプの違いよって異なる。例えば、もし端末がノートパソコン、デスクトップコンピュータであるなら、該アプリケーションプログラムは、ＰＣ側アプリケーションであり、もし端末がスマートフォンであるなら、該アプリケーションプログラムは、移動側アプリケーションであり、本願の実施例は、これを限定しない。

２０２：端末は、該オーディオ信号における複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得する。

いくつかの実施例において、端末は、該オーディオ信号に前処理をして第１信号を獲得し、続いて、該第１信号における複数のオーディオフレームを雑音抑制モデルに入力し、該雑音抑制モデルによって該複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの該第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力する。ここで、該オーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい。

上記過程において、該複数のオーディオフレームにおける個々のオーディオフレームに対して、該オーディオフレームの第１周波数帯域範囲内の個々の周波数帯域上のゲインパラメータをいずれも決定することによって、雑音抑制過程において、人の声の周波数帯域のために雑音周波数帯域よりも高いゲインパラメータを割り当てるため、オーディオ信号における人の声の成分を効果的に強化し、オーディオ信号における雑音成分を抑制するという効果を達成することができる。従って各々のオーディオフレームの各々の周波数帯域上のゲインパラメータによって、各々のオーディオフレームにターゲット音声が含まれるか否かを識別することに寄与することができ、それによりオーディオ信号全体にターゲット音声が含まれるか否かを決定することができる。

２０３：端末は、該ゲインパラメータに基づいて該オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力し、該プロンプトメッセージは、該マイクミュート状態を解除するようにプロンプトすることに用いられる。

ここで、プロンプト情報は、上記アカウントのマイクミュート状態を解除するようにプロンプトすることに用いられる。該ターゲット音声は、ターゲットオブジェクトの該複数人の音声通話における発言であり、又は、該ターゲット音声は、該ターゲットオブジェクトの音である。ここで、該ターゲットオブジェクトとは、本端末を介して該複数人の音声通話に参加するユーザを指す。

いくつかの実施例において、もし該ターゲット音声がターゲットオブジェクトの該複数人の音声通話における発言であれば、該オーディオ信号にターゲットオブジェクトの該複数人の音声通話における発言が含まれると検出した状況においてのみ、プロンプトメッセージを外部に出力することになる。もし該オーディオ信号にターゲットオブジェクトの音のみが含まれてはいるが、該音が該複数人の音声通話における発言でなければ、ユーザが雑談していることを意味するが、雑談するコンテンツが複数人の音声通話において伝送されたくない可能性があることを意味する。又は、該オーディオ信号においてターゲットオブジェクトの音が含まれておらず、ユーザが音（声）を発していないがいくつかの背景雑音を収集している可能性があることを意味する。上記の２つの場合には、いずれもプロンプトメッセージを外部に出力することはなく、ユーザがいつ複数人の音声通話において発言したいか、かつこのときプロンプトメッセージを出力するかを高精度に識別することができるため、ユーザが雑談しているときにユーザにプロンプトメッセージを出力することによる邪魔を回避することができる。

いくつかの実施例において、該ターゲット音声がターゲットオブジェクトの音であれば、オーディオ信号にターゲットオブジェクトの音が含まれると検出した場合に、プロンプトメッセージを外部に出力することになる。該オーディオ信号においてターゲットオブジェクトの音が含まれていなければ、プロンプトメッセージを外部に出力しない。このようにターゲットオブジェクトの音を検出する感度を向上させることができ、ユーザが比較的短い一言を話すが機械により雑談と判断されてプロンプトしない可能性があるというシーンの発生を回避することができ、従って、ターゲットオブジェクトの音についての検出感度を向上させる。

いくつかの実施例において、端末は、個々のオーディオフレームの個々の周波数帯域上のゲインパラメータに基づいて、該オーディオ信号にターゲット音声が含まれるか否かを判断することができる。ターゲット音声が含まれていれば、ユーザがマイクミュート状態において発言をスタートして無効なやり取りを引き起こすことを意味しており、この場合、プロンプトメッセージを外部に出力することで、ユーザに該マイクミュート状態を解除するようにプロンプトする。ターゲット音声が含まれていなければ、ユーザが発言をスタートしていないか、又はユーザが雑談している（複数人の音声通話において主動的に話したいのではない）ことを意味し、従って、依然としてマイクミュート状態を保持し、いかなるプロンプトを行う必要もない。

いくつかの実施例において、該オーディオ信号にターゲット音声が含まれるか否かを判断するときに、端末は、個々のオーディオフレームの個々の周波数帯域上のゲインパラメータに基づいて判定し、すなわち雑音抑制モデルが個々のオーディオフレームに対して出力したゲインパラメータに基づいてＶＡＤ意思決定を行い、それにより該オーディオ信号にターゲット音声が含まれるか否かを決定し、ＶＡＤ意思決定フローを簡素化し、ＶＡＤ意思決定の時間長さを短縮することができる。

上記方式は、通常、ターゲット音声がターゲットオブジェクトの音であるというシーンに適用され、オーディオ信号にターゲットオブジェクトの音が含まれるか否かを判断することのみを要件としており、個々のオーディオフレームの個々の周波数帯域上のゲインパラメータを利用してオーディオ信号にターゲットオブジェクトの音が含まれるか否かを比較的良好に判断することができる。もちろん、上記方式は、ターゲット音声がターゲットオブジェクトの該複数人の音声通話における発言であるというシーンにも用いられてもよく、雑談するときには、通常、継続的な音の変動が出現することはないため、ＶＡＤ意思決定の条件のみをより厳密に設定する必要がある。例えば連続する複数のオーディオフレームの音声アクティビティパラメータすなわちＶＡＤ値が１であるだけでオーディオ信号にターゲット音声が含まれると決定すればよく、本願の実施例は、これを限定しない。

いくつかの実施例において、該オーディオ信号にターゲット音声が含まれるか否かを判断するときに、端末は、個々のオーディオフレームの個々の周波数帯域上のゲインパラメータと個々のオーディオフレームのエネルギーパラメータを組み合わせて総合的な判定を行い、すなわち雑音抑制モデルが個々のオーディオフレームに対して出力したゲインパラメータと個々のオーディオフレームのエネルギーパラメータに基づいてＶＡＤ意思決定を行い、それにより該オーディオ信号にターゲット音声が含まれるか否かを決定する。ゲインパラメータとエネルギーパラメータの２つの次元の影響因子が導入されるため、オーディオ信号にターゲット音声が含まれるか否かをより正確に識別し、それによりＶＡＤ意思決定の正確性を向上させることができる。

上記方式は、通常、ターゲット音声がターゲットオブジェクトの該複数人の音声通話における発言であるというシーンに適用される。オーディオ信号においてターゲットオブジェクトの音を識別する必要があるだけでなく、さらにターゲットオブジェクトの音が雑談であるか、発言であるかを判断する必要がある。ターゲットオブジェクトが発言するときの音量が比較的大きい、すなわち発言時の信号がＶＡＤ値が１であるだけでなく、且つさらに比較的大きなエネルギーパラメータを有する一方で、雑談時の音量が比較的小さい、すなわち雑談時の信号がＶＡＤ値のみが１であるが比較的小さいエネルギーパラメータを有することを考慮する。従って、ゲインパラメータとエネルギーパラメータの２つの次元を組み合わせて総合的な意思決定を行うと、オーディオ信号にターゲットオブジェクトの該複数人の音声通話における発言が含まれるか否かを比較的良好に判断することができる。もちろん、上記方式は、ターゲット音声がターゲットオブジェクトの音であるというシーンにも用いられてもよく、いくつかのＶＡＤ値が１であるがエネルギーパラメータが比較的小さい（たとえばマイクロホンとの距離が比較的遠い）オーディオ信号を正確に検出するようにし、それによりＶＡＤ意思決定の正確性を向上させることができる。

いくつかの実施例において、該オーディオ信号にターゲット音声が含まれるか否かを判断するときに、端末は、個々のオーディオフレームの個々の周波数帯域上のゲインパラメータに基づいて各々のオーディオフレームに対して雑音抑制を行い、雑音抑制後の各々のターゲットオーディオフレームを獲得し、続いて各々のターゲットオーディオフレームに対してエネルギーパラメータを計算し、さらにＶＡＤアルゴリズムを利用して各々のターゲットオーディオフレームのエネルギーパラメータに対して音声アクティビティ検出を行うことで、該オーディオ信号にターゲット音声が含まれるか否かを決定し、同様にオーディオ信号に含まれるのがターゲット音声であるか、雑音であるかを正確に識別し、それによりＶＡＤ意思決定の正確性を向上させることができる。

上記方式は、同様にターゲット音声がターゲットオブジェクトの該複数人の音声通話における発言であるか、又はターゲット音声がターゲットオブジェクトの音であるという２種のシーンに適用され、プロンプトする必要があるターゲット音声の違いに基づいてのみ、ＶＡＤアルゴリズムを反復訓練するときに訓練データを調整すればよく、従って比較的高い移植可能性と移行可能性を有し、高い可用性と幅広い応用シーンを有する。

いくつかの実施例において、端末は、プロンプトメッセージを出力するときに端末タイプの違いに基づいて適応する。端末がパーソナルコンピュータ、ノートパソコン等の非移動側機器であれば、端末は、デスクトップ側にプロンプトメッセージを出力し、端末が移動側機器であれば、端末は、移動側にプロンプトメッセージを出力し、それにより異なるタイプの端末との互換性が可能になる。

いくつかの実施例において、端末は、プロンプトメッセージを外部にのみ出力するが、ユーザがマイクミュート状態を手動で解除する必要があるため、ユーザがマイクミュート状態を解除するか否かを制御する自律性を保証することができる。いくつかの実施例において、端末は、オーディオ信号にターゲット音声が含まれると検出した場合に、マイクミュート状態を自動的に解除し、かつマイクミュート状態を解除したことを外部にプロンプトする。このとき、ユーザがマイクミュート状態を手動で解除する必要がなく、ユーザ操作の複雑さを低減させることができる。

いくつかの実施例において、プロンプトメッセージの出力方式は、テキスト形式出力、音声形式出力、アニメーション形式出力、動的形式出力等を含むが、これらに限定されず、本願の実施例は、該プロンプトメッセージの出力方式を限定しない。

いくつかの実施例において、端末は、該複数人の音声通話の通話インタフェースにおいてテキストプロンプトメッセージを表示し、該テキストプロンプトメッセージは、ユーザにマイクミュート状態を解除するようにプロンプトすることに用いられる。たとえば、該テキストプロンプトメッセージは、「マイクロホンがミュートになっているため、マイクロホンのミュートを解除してから発言してください」である。選択可能に、該テキストプロンプトメッセージは、ポップアップウィンドウの形式で該通話インタフェースにおいてポップアップされ、又は、該テキストプロンプトメッセージは、フローティング層の形式で該通話インタフェースにおいてフローティングされる、又は、該テキストプロンプトメッセージは、字幕の形式で該通話インタフェースにおいてスクロール表示、又は点滅によりプロンプトされるが、本願の実施例は、テキストプロンプトメッセージの表示方式を限定しない。選択可能に、該テキストプロンプトメッセージは、該通話インタフェースにおいてある期間表示された後に自動的に消失するか、又は、該テキストプロンプトメッセージが、ユーザが該テキストプロンプトメッセージを手動でオフにするまで、該通話インタフェースにおいて継続的に表示されるが、本願の実施例は、該テキストプロンプトメッセージのオフ方式を限定しない。

いくつかの実施例において、端末は、音声プロンプトメッセージを外部に再生し、該音声プロンプトメッセージは、ユーザにマイクミュート状態を解除するようにプロンプトすることに用いられる。たとえば、該音声プロンプトメッセージは、「マイクロホンがミュートになっているため、マイクロホンのミュートを解除してから発言してください」ことである。

いくつかの実施例において、端末は、該複数人の音声通話の通話インタフェースにおいてアニメーションプロンプトメッセージ、又は動的プロンプトメッセージを再生する。該アニメーションプロンプトメッセージ、又は動的プロンプトメッセージは、ユーザにマイクミュート状態を解除するようにプロンプトすることに用いられる。選択可能に、該アニメーションプロンプトメッセージ、又は動的プロンプトメッセージは、該通話インタフェースにおいて１回再生された後に自動的に消失するか、又は、該アニメーションプロンプトメッセージ、又は動的プロンプトメッセージは、ユーザが該アニメーションプロンプトメッセージ、又は動的プロンプトメッセージを手動でオフにするまで、該通話インタフェースにおいて循環再生される。本願の実施例は、該アニメーションプロンプトメッセージ、又は動的プロンプトメッセージのオフ方式を限定しない。

上記選択可能な技術的解決手段は、任意の組み合わせを採用して本開示の選択可能な実施例を形成することができ、ここでは詳細な説明を省略する。

本願の実施例が提供する方法は、複数人の音声通話においてマイクミュート状態にある場合に、アプリケーションプログラムが依然としてユーザのオーディオ信号を収集はするが、収集したオーディオ信号を該複数人の音声通話に参加するその他のアカウントに送信することはない。アプリケーションプログラムは、該オーディオ信号に対して信号分析、及び処理を行い、該オーディオ信号における複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを利用して、該オーディオ信号にターゲット音声が含まれるか否かを判断し、該オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクミュート状態の解除を忘れて発言をスタートしていることを意味し、そのためプロンプトメッセージを外部に出力し、ユーザにマイクミュート状態を解除するようにタイムリーにプロンプトして、ユーザがマイクミュート状態にあることに気付かないことによるコミュニケーション効率の損失を低減させて、マンマシンインタラクション効率を向上させ、ユーザ体験を最適化することができる。

図３は、本願の実施例が提供するオーディオ信号の処理方法のフローチャートであり、図３に参照されるように、該実施例は、電子機器により実行される。該電子機器が端末であることを例として説明すると、該端末とは、複数人の音声通話に参加するいずれか１つの端末、たとえば上記実施環境における第１端末１２０、又は第２端末１６０を指す。

本願の実施例において、端末がどのように個々のオーディオフレームの個々の周波数帯域上のゲインパラメータに基づいて、該オーディオ信号にターゲット音声が含まれるか否かを判定するか、すなわち雑音抑制モデルが個々のオーディオフレームに対して出力したゲインパラメータに基づいてＶＡＤ意思決定を行うかを詳細に説明する。該実施例は、以下のステップを含む。

３０１：端末は、アプリケーションプログラムにおいて複数人の音声通話にアクセスする。

複数人の音声通話は、ＶｏＩＰ技術に基づく複数人のオーディオビデオ通話を含む。例えば、複数人のオーディオ通話、複数人のビデオ通話、又は一部のユーザがオーディオ通話方式でアクセスし、一部のユーザがビデオ通話方式でアクセスする等があるが、本願の実施例は、該複数人の音声通話のタイプを限定しない。選択可能に、該複数人の音声通話は、ソーシャルアプリケーションに基づいて指定されたアカウントに対して開始される２人のリアルタイムオーディオビデオ通話（例えば２人の音声通話、又は２人のビデオ通話）、又は、ソーシャルアプリケーションに基づいて指定されたアカウントグループ内で開始される複数人のリアルタイムオーディオビデオ通話（例えば複数人の音声通話、又は複数人ビデオ通話）、又は、会議アプリケーションに基づいて開始される複数人の遠隔会議（例えば複数人の音声会議、又は複数人のビデオ会議）等を含む。

いくつかの実施例において、ユーザは、該端末上で該複数人の音声通話をサポートするアプリケーションプログラムを起動する。たとえば、該起動操作は、ユーザが端末のデスクトップ上で該アプリケーションプログラムのアイコンに対してタッチ操作を行うことであり、又は、ユーザがスマートアシスタントに該アプリケーションプログラムに対する起動命令を入力することであり、該起動命令は、音声命令、又はテキスト命令を含むが、本願の実施例は、起動命令のタイプを限定しない。選択可能に、ユーザが該アプリケーションプログラムのために自動起動条件を設定しているときに、端末が該アプリケーションプログラムに合致する自動起動条件を検出したときに、オペレーティングシステムにより該アプリケーションプログラムを自動的に起動する。たとえば、該自動起動条件は、オープニング自動起動、又はタイミング自動起動であり、例えば指定された会議をスタートする前の５分に該アプリケーションプログラムを自動的に起動する、等であるが、本願の実施例は、該アプリケーションプログラムの自動起動条件を限定しない。

アプリケーションプログラムが起動された後に、該アプリケーションプログラムのメインインタフェースが表示され、該メインインタフェースにおいてアカウントログインオプションが表示される。ユーザは、該アカウントログインオプションに対してトリガ操作を実行する。該アプリケーションプログラムにおいて該ユーザのアカウントがログインしており、かつログインが完了した後に該メインインタフェースに戻る。いくつかの実施例において、ユーザは、アカウントログインが完了した後に、該アプリケーションプログラムに基づいて該複数人の音声通話においてアクセスする。端末は、該複数人の音声通話の通話インタフェースを表示する。該通話インタフェースにおいて該複数人の音声通話にアクセスする各々のアカウント、及びマイク設定制御部材が表示される。該マイク設定制御部材は、本アカウントの該複数人の音声通話におけるマイクミュート状態をオンにするか、又は解除することに用いられる。

いくつかの実施例において、複数人のリアルタイムオーディオビデオ通話シーンにおいてユーザが該複数人の音声通話にアクセスする方式は、ターゲットアカウントの通話要求を受信したことに応答して、該アプリケーションプログラムにおいて通話要求インタフェースを表示することを含む。選択可能に、該通話要求インタフェースにおいてターゲットアカウントのアバターピクチャ、受け付けオプション、及び切るオプションが表示される。ユーザは、該受け付けオプションに対してトリガ操作を実行して、該複数人の音声通話にアクセスすることを可能にする。選択可能に、該ターゲットアカウントが該複数人の音声通話の開始者アカウントであれば、対応するシーンは、開始者がユーザに通話要求を開始することであり、又は、該ターゲットアカウントが該複数人の音声通話にアクセスしたいずれか１人の参加者アカウントであれば、対応するシーンは、該参加者がユーザを招待して該複数人の音声通話において加入することであるが、本願の実施例は、これを限定しない。

いくつかの実施例において、複数人の会議シーンにおいて、ユーザが該複数人の音声通話にアクセスする方式は、ユーザが該アプリケーションプログラムの会議検索ボックスにおいてターゲット会議の会議番号を入力することにより該会議番号に対応した該ターゲット会議を問い合わせ、かつ表示することを含む。ユーザは、該ターゲット会議の会議入りオプションをクリックすることによって、該複数人の音声通話にアクセスすることを可能にする場合、又は、ユーザがターゲット会議を招集し、又はマーキングし、かつ該ターゲット会議についての会議リマインダ機能をオンにする場合に、該ターゲット会議をスタートする前のターゲット期間内（例えばスタート前の５分）にユーザが該アプリケーションプログラムを起動すれば、該アプリケーションプログラムは、該ターゲット会議の会議スタートリマインダ情報、及び会議入りオプションを自動的にポップアップし、ユーザが該ターゲット会議の会議入りオプションをクリックして該複数人の音声通話にアクセスすることを可能にする。

いくつかの実施例において、異なるタイプの複数人の音声通話について、該通話インタフェースにおいて該複数人の音声通話にアクセスする各々のアカウントに対する表示方式も同じではない。たとえば、複数人のオーディオ通話について、該通話インタフェースにおいて各々のアカウント各自のアバターピクチャが表示され、複数人のビデオ通話について、該通話インタフェースにおいて各々のアカウント各自のビデオストリームが表示され、複数人の会議について、該通話インタフェースにおいて会議の主題、及び会議の講演者が導入したプレゼンテーション（ＰｏｗｅｒＰｏｉｎｔ、ＰＰＴ）が表示される。

３０２：端末は、該複数人の音声通話において該アプリケーションプログラムにログインしているアカウントをマイクミュート状態に設定する。

端末は、該通話インタフェースにおいてマイク設定制御部材を表示している。マイク設定制御部材のイネーブル状態は、マイクオン状態に対応しており、マイク設定制御部材のディセーブル状態は、マイクミュート状態に対応する。もしアカウントが現在マイクミュート状態にあり、すなわちマイク設定制御部材が現在ディセーブル状態であれば、ユーザが該マイク設定制御部材をクリックするときに、端末は、該マイク設定制御部材をディセーブル状態からイネーブル状態に切り替えて、該マイクミュート状態を解除することを可能にする。もし該アカウントが現在マイクオン状態にあり、すなわちマイク設定制御部材が現在イネーブル状態であるなら、ユーザが該マイク設定制御部材をクリックするときに、端末は、該マイク設定制御部材をイネーブル状態からディセーブル状態に切り替えて、該マイクミュート状態に入り、かつ以下のステップ３０３を実行することを可能にする。

３０３：端末は、アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得する。該ターゲットシーンは、該アプリケーションプログラムにログインしているアカウントが複数人の音声通話においてマイクミュート状態にあることである。

いくつかの実施例において、ユーザは、通話インタフェースにおいて該マイク設定制御部材をディセーブル状態に設定し、該アカウントが該複数人の音声通話においてマイクミュート状態にあるようにするときには、ターゲットシーンに合致する。本願の実施例に関するマイクミュート状態において、端末は、マイクロホンをオフにすることはなく、依然としてマイクロホンを呼び出してオーディオ信号を収集するが、該オーディオ信号を該複数人の音声通話に参加するその他のアカウントに送信することはない。

いくつかの実施例において、端末が該オーディオ信号を収集する方式は以下のとおりである。端末は、該アプリケーションプログラムによって録音インターフェース（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ、ＡＰＩ）を呼び出し、該録音インターフェースに基づいてマイクロホンを駆動して該オーディオ信号を収集して獲得する。

３０４：端末は、該オーディオ信号に前処理をして第１信号を獲得する。

端末がオーディオ信号に前処理をする方式は、フレーム化、ウィンドウイング、フーリエ変換、周波数帯域分離、又は音響エコーキャンセルのうちの少なくとも１つを含むが、これらに限定されず、本願の実施例は、前処理の方式を限定しない。

いくつかの実施例において、端末は、該オーディオ信号に対して自然フレーム化を行い、複数の第１オーディオフレームを獲得する、すなわち該オーディオ信号に対するフレーム化処理を完了する。

いくつかの実施例において、端末は、自然フレーム化を基礎として、該オーディオ信号を再度フレーム化し、複数の第２オーディオフレームを獲得する。選択可能に、再度フレーム化の方式は、端末が該複数の第１オーディオフレームに対してウィンドウイング処理を行い、該複数の第２オーディオフレームを獲得することを含み、該第２オーディオフレームは、有限時間を経て分割された第１オーディオフレームであり、ここで、該有限時間は、０よりも大きいか、又は等しいいずれか１つの時間長さである。

いくつかの実施例において、端末は、該複数の第１オーディオフレームをウィンドウ関数に入力し、該複数の第１オーディオフレームの時間領域上でウィンドウ関数を移動させることによって、該複数の第１オーディオフレームを、時間長さが等しい複数の第２オーディオフレームに分割する、すなわち該複数の第１オーディオフレームを再度フレーム化することで複数の第２オーディオフレームを獲得する。選択可能に、該ウィンドウ関数は、ハミング（ｈａｍｍｉｎｇ）ウィンドウ、ハニング（ｈａｎｎｉｎｇ）ウィンドウ、又は矩形ウィンドウ等を含むが、これらに限定されず、本願の実施例は、ウィンドウ関数のタイプを限定しない。

いくつかの実施例において、上記複数の第２オーディオフレームは、ターゲット比率のオーバーラップ率を有し、すなわち時間領域上でウィンドウ関数を移動させるステップサイズが１よりも小さく、該ターゲット比率は、０よりも大きいいずれか１つの数値である。たとえば、ステップサイズが０．６であるときに、ウィンドウ関数により分割された隣接する第２オーディオフレームのオーバーラップ率は、４０％である。一定のオーバーラップ率を設定することによって、ウィンドウイング過程においてランダム誤差、又はシステム誤差のため、ウィンドウ関数により切り取られた各々の第２オーディオフレームのエッジ時間領域特徴を損失することを回避することができる。

いくつかの実施例において、端末は、ウィンドウイング処理を基礎として、該オーディオ信号に対してフーリエ変換を行い、複数の第３オーディオフレームを獲得する。選択可能に、ウィンドウ関数により分割された後の各々の第２オーディオフレームは、いずれも定常信号とみなすことができ、従って、端末は、該複数の第２オーディオフレームに対してフーリエ変換を行い、該複数の第３オーディオフレームを獲得する、すなわちオーディオ信号を時間領域から周波数領域に変換し、該オーディオ信号に対する時間周波数変換を完了することができる。

選択可能に、各々の第２オーディオフレームに対してフーリエ変換を行う方式は、高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、ＦＦＴ）、短時間フーリエ変換（Ｓｈｏｒｔ－ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、ＳＴＦＴ）、離散コサイン変換（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ、ＤＣＴ）等を含むが、これらに限定されず、本願の実施例は、フーリエ変換の方式を限定しない。

いくつかの実施例において、端末は、時間周波数変換を基礎として、サンプリングレートの異なるオーディオ信号に対して異なる処理を行う。選択可能に、端末は、該オーディオ信号のサンプリングレートを取得し、該サンプリングレートがサンプリングレート閾値よりも大きければ、該オーディオ信号が超解像度信号であると決定する。超解像度信号に対しては、端末は、周波数帯域分離を行い、超解像度信号における低周波信号と高周波信号とを分離し、低周波信号についてのみ後続のＶＡＤ意思決定を行い、ＶＡＤ意思決定の計算量を減少させることができる。非超解像度信号（例えば高解像度信号）に対しては、端末は、周波数帯域分離を行う必要がなく、全体のオーディオ信号について後続のＶＡＤ意思決定を直接行い、オーディオ信号の処理フローを簡素化することができる。

いくつかの実施例において、サンプリングレートがサンプリングレート閾値よりも大きい超解像度信号に対しては、端末が周波数帯域分離を行う方式は、フーリエ変換後の複数の第３オーディオフレームをＱＭＦ分析フィルタに入力し、ＱＭＦ分析フィルタに基づいて該複数の第３オーディオフレームをフィルタリングし、該複数の第３オーディオフレームにおける高周波成分、及び低周波成分をそれぞれ出力することを含む。ここで、フィルタリングして獲得された高周波成分は、すなわちオーディオ信号における高周波信号であり、フィルタリングして獲得された低周波成分は、すなわちオーディオ信号における低周波信号である。たとえば、ＩＥＥＥにより制定されたスペクトル分割表に従って、低周波信号の周波数帯域範囲は、３０～３００ｋＨｚであり、中間周波信号の周波数帯域範囲は、３００～３０００ｋＨｚであり、高周波信号の周波数帯域範囲は、３～３０ＭＨｚである。

１つのリアルタイムシーンにおいて、マイクロホンにより収集されたオーディオ信号が１６ｋＨｚの帯域幅データであると仮定すると、ＱＭＦ分析フィルタによって周波数帯域分離を行った後に、８ｋＨｚの高周波信号と８ｋＨｚの低周波信号を出力し、一方、後続の雑音抑制、及びＶＡＤ意思決定は、８ｋＨｚの低周波信号上にのみ作用し、雑音抑制、及びＶＡＤ意思決定の計算量を減少させることができる。

説明する必要があるように、上記周波数帯域分離は、前処理における選択可能なステップであり、例えば超解像度信号についてのみ周波数帯域分離を行い、一方、非超解像度信号について周波数帯域分離を行う必要がなく、本願の実施例は、オーディオ信号に対して周波数帯域分離を行うか否かを限定しない。

いくつかの実施例において、超解像度信号について周波数帯域分離を行って獲得された低周波信号、又は非超解像度信号について、端末は、音響エコーキャンセルを行うことで、低周波信号、又は非超解像度信号における音響エコーをキャンセルし、それにより後続の雑音抑制、及びＶＡＤ意思決定の正確性を向上させる。選択可能に、端末は、低周波信号、又は非超解像度信号を音響エコーキャンセラに入力し、該音響エコーキャンセラによって低周波信号、又は非超解像度信号における音響エコーをキャンセルし、前処理後の第１信号を獲得する。

説明する必要があるように、上記音響エコーキャンセルは、前処理における選択可能なステップである。例えば、端末が該複数人の音声通話においてハンズフリー状態がオンであると検出した場合に、ハンズフリー状態においてその他の端末が発したオーディオ信号は、本端末のマイクロホンにより収集されて音響エコーを形成するため、該オーディオ信号に対して音響エコーキャンセルを行う必要があることで、後続の雑音抑制、及びＶＡＤ意思決定の正確性を向上させる。端末が該複数人の音声通話においてハンズフリー状態がオフであると検出した場合には、ユーザがイヤホンを介して該複数人の音声通話を受け付けるが、このとき音響エコーを形成することがないか、ユーザが非ハンズフリー状態において受話器を介して該複数人の音声通話を直接受け付け、このときの音響エコーの影響が比較的小さいことを意味する。そうすると、該オーディオ信号に対して音響エコーキャンセルを行う必要がないことで、オーディオ信号の処理過程の計算量を節約する。さらに例えば、端末が音響エコーキャンセラを配置していないと検出した場合に、該オーディオ信号に対して音響エコーキャンセルを行わず、本願の実施例は、オーディオ信号に対して音響エコーキャンセルを行うか否かを限定しない。

第１信号とは、前処理して獲得されたオーディオ信号を指し、上記過程は、周波数帯域分離と音響エコーキャンセルの両方を行うことを例として説明している。いくつかの実施例において、周波数帯域分離、及び音響エコーキャンセルを行わなければ、時間周波数変換により獲得された周波数領域信号は、すなわち第１信号である。周波数帯域分離を行うが音響エコーキャンセルを行わなければ、周波数帯域分離により獲得された低周波信号は、すなわち第１信号である。周波数帯域分離を行わないが音響エコーキャンセルを行えば、音響エコーキャンセルの後に第１信号を獲得するが、本願の実施例は、これを限定しない。

３０５：端末は、該第１信号における複数のオーディオフレームを雑音抑制モデルに入力し、該雑音抑制モデルによって該複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの該第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力する。ここで、該オーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい。

いくつかの実施例において、該複数のオーディオフレームとは、該第１信号において含まれるすべてのオーディオフレームを指すか、又は、該複数のオーディオフレームとは、該第１信号における一部のオーディオフレームを指す。たとえば、該第１信号における複数のキーフレームを該複数のオーディオフレームとして抽出するか、又は、該第１信号に対して予め設定されたステップサイズごとに１つのオーディオフレームをサンプリングし、サンプリングにより獲得された複数のオーディオフレームを該複数のオーディオフレームとする。ここで、該予め設定されたステップサイズとは、１よりも大きいか、又は等しいいずれか１つの整数を指す。

いくつかの実施例において、端末は、該複数のオーディオフレームにおける個々のオーディオフレームに対して、該オーディオフレームのそれぞれの第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータを取得する。ここで、該第１周波数帯域範囲は、少なくとも人の声の周波数帯域を含む。選択可能に、人の声の周波数帯域に加えて、該第１周波数帯域範囲は、雑音周波数帯域をさらに含む。

選択可能に、該第１周波数帯域範囲において区分された該複数の周波数帯域は、技術者により設定されてもよく、該第１周波数帯域範囲に対して指定された数量の等分が行われてもよいが、本願の実施例は、該第１周波数帯域範囲の周波数帯域の区分方式を限定しない。

いくつかの実施例において、該第１周波数帯域範囲は、技術者により設定された周波数帯域範囲であるか、又は、システムにより設定されたデフォルトの周波数帯域範囲である。たとえば、該第１周波数帯域範囲は、０～８０００Ｈｚであり、又は、該第１周波数帯域範囲は、０～２００００Ｈｚであるが、本願の実施例は、該第１周波数帯域範囲を限定しない。

いくつかの実施例において、該雑音抑制モデルは、サンプルデータ訓練に基づいて獲得された機械学習モデルであり、選択可能に、該雑音抑制モデルの構造は、ＲＮＮ、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、長短期記憶人工ニューラルネットワーク）、ＧＲＵ（ＧａｔｅＲｅｃｕｒｒｅｎｔＵｎｉｔ、ゲート付き回帰型ユニット）、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、畳み込みニューラルネットワーク）等を含むが、これらに限定されず、本願の実施例は、雑音抑制モデルの構造を限定しない。

１つの実施シーンにおいて、該雑音抑制モデルは、雑音抑制を行うことに用いられるＲＮＮである。ＲＮＮにとっては、入力は、前処理して獲得されたオーディオ信号すなわち第１信号における複数のオーディオフレームであり、出力は、個々のオーディオフレームの複数のゲインパラメータである。ＲＮＮは、少なくとも１つの隠れ層を含み、個々の隠れ層に複数のニューロンが含まれており、個々の隠れ層におけるニューロンの数量は、入力されたオーディオフレームの数量と同じである。個々の隠れ層におけるニューロンは、いずれも連結され、且つ隣接する隠れ層の間は、直列に接続されており、個々の隠れ層における個々のニューロンにとっては、現在の隠れ層における前のニューロンと前の隠れ層における対応する位置のニューロンにより出力された周波数特徴を、本ニューロンの入力とする。

上記ＲＮＮ構造に基づき、端末は、該第１信号における複数のオーディオフレームをＲＮＮの少なくとも１つの隠れ層に入力する、すなわち、該複数のオーディオフレームをＲＮＮにおける１番目の隠れ層における複数のニューロンにそれぞれ入力することを指す。ここで、１つのニューロンは、１つのオーディオフレームに対応し、１番目の隠れ層におけるｉ（ｉ≧１）番目のニューロンに対して、１番目の隠れ層におけるｉ－１番目のニューロンにより出力された周波数特徴とｉ番目のオーディオフレームを入力とし、１番目の隠れ層におけるｉ－１番目のニューロンにより出力された周波数特徴とｉ番目のオーディオフレームに対して重み付け処理を行い、獲得された周波数特徴を１番目の隠れ層におけるｉ＋１番目のニューロン、及び２番目の隠れ層におけるｉ番目のニューロンにそれぞれ入力する。このように類推すると、ＲＮＮにおけるいずれか１つの隠れ層におけるいずれか１つのニューロンに対して、該いずれか１つのニューロンによって、該いずれか１つの隠れ層における前のニューロンにより出力された周波数特徴と前の隠れ層における対応する位置のニューロンにより出力された周波数特徴に対して重み付け処理を行い、重み付け処理して獲得された周波数特徴を該いずれか１つの隠れ層における次のニューロンと次の隠れ層における対応する位置のニューロンにそれぞれ入力し……最終的に最後の隠れ層により個々のオーディオフレームに対して各自のターゲット周波数特徴を入力し、個々のオーディオフレームのターゲット周波数特徴に対してｓｏｆｔｍａｘ（指数正規化）処理を行い、それにより個々のオーディオフレームに対して複数のゲインパラメータをそれぞれ予測する。個々のゲインパラメータは、第１周波数帯域範囲における１つの周波数帯域に対応する。

人の声の周波数帯域の音声エネルギーは比較的大きいため、信号対雑音比が比較的高く、上記ＲＮＮアーキテクチャの雑音抑制モデルを使用して、訓練後に雑音、及び人の声を精度よく識別することができる。それにより人の声に対して比較的大きなゲインパラメータを割り当て、雑音に対して比較的小さいゲインパラメータを割り当て、該雑音抑制モデルがキーボード音等の非定常雑音に対しても非常に高い識別正確率を有するようにする。複雑な畳み込み計算を行うＣＮＮに比べて、ＲＮＮの計算消費が比較的低く、リアルタイム通話シーンをより良好に満たすことができ、計算資源を過剰に占有して通話品質に影響を与えることはない。

図４は、本願の実施例が提供するＯｐｕｓ周波数帯域図である。４００に示されるように、Ｏｐｕｓ符号化方式に基づいて区分された周波数帯域図が示されている。ここで、Ｏｐｕｓは、非可逆音声符号化のフォーマットである。たとえば、Ｏｐｕｓ周波数帯域図における０～８０００Ｈｚを第１周波数帯域範囲として使用し、かつＯｐｕｓ周波数帯域図における周波数帯域の区分方式を参照とし、第１周波数帯域範囲０～８０００Ｈｚを１８個の周波数帯域に区分する。個々の点は、１つの周波数帯域値を表し、０～８０００Ｈｚの１８個の周波数帯域値は、０、２００、４００、６００、８００、１０００、１２００、１４００、１６００、２０００、２４００、２８００、３２００、４０００、４８００、５６００、６８００、８０００を含み、ここで周波数帯域値の単位は、Ｈｚである。端末は、第１信号における複数のオーディオフレームをＲＮＮに入力した後に、ＲＮＮは、個々のオーディオフレームに対していずれも１８個のゲインパラメータを出力し、ここで、個々のゲインパラメータは、Ｏｐｕｓ周波数帯域図における０～８０００Ｈｚの１つの周波数帯域に対応する。

上記ステップ３０４～３０５において、端末は、該オーディオ信号における複数のオーディオフレームに対して、該複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得する。雑音抑制過程において、人の声の周波数帯域のために雑音周波数帯域よりも高いゲインパラメータを割り当てるため、オーディオ信号における人の声の成分を効果的に強化し、オーディオ信号における雑音成分を抑制するという効果を達成することができる。従って、各々のオーディオフレームの各々の周波数帯域上のゲインパラメータによって、各々のオーディオフレームにターゲット音声が含まれるか否かを識別することに寄与することができ、それによりオーディオ信号全体にターゲット音声が含まれるか否かを決定することができる。

３０６：端末は、個々のオーディオフレームに対して、該オーディオフレームの第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの第２周波数帯域範囲における個々の周波数帯域上のゲインパラメータを決定し、該第２周波数帯域範囲は、該第１周波数帯域範囲のサブセットである。

いくつかの実施例において、第１周波数帯域範囲において人の声の周波数帯域が含まれるだけでなく、雑音周波数帯域も含まれる。一方、ＶＡＤ意思決定は、人の声の周波数帯域について細かく判定するだけでよく、雑音周波数帯域に関心を持つ必要がないため、端末が該第１周波数帯域範囲の中から人の声の周波数帯域を取得することからなるサブセットは、該第２周波数帯域範囲であり、端末は、雑音抑制モデルによって個々のオーディオフレームの第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータを取得する。一方、第２周波数帯域範囲は、第１周波数帯域範囲のサブセットでもあるため、個々のオーディオフレームの第２周波数帯域範囲における個々の周波数帯域上のゲインパラメータを決定することができることが明らかである。

説明する必要があるように、該第２周波数帯域範囲は、異なる性別、又は異なる年齢のユーザについて適応的変化を行うことを可能にし、たとえば女性の音周波数は、通常、男性の音周波数よりも高く、従って、端末は、異なるユーザについて異なる第２周波数帯域範囲を配置することを可能にするが、本願の実施例は、第２周波数帯域範囲を限定しない。

１つの実施シーンにおいて、第１周波数帯域範囲とは、Ｏｐｕｓ周波数帯域図における０～８０００Ｈｚの計１８個の周波数帯域を指す。一方、第２周波数帯域範囲とは、２００～２０００Ｈｚの計９つの周波数帯域を指し、２００、４００、６００、８００、１０００、１２００、１４００、１６００、２０００であるか、又は、該第２周波数帯域範囲とは、３００～１０００Ｈｚの計５つの周波数帯域を指し、３００、４００、６００、８００、１０００である。ここで周波数帯域値の単位は、Ｈｚである。

３０７：端末は、該オーディオフレームの該第２周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの音声状態パラメータを決定する。

いくつかの実施例において、個々のオーディオフレームに対して、端末は、該オーディオフレームの該第２周波数帯域範囲における個々の周波数帯域上のゲインパラメータと対応する周波数帯域の重み係数とを乗算し、該オーディオフレームの該第２周波数帯域範囲における個々の周波数帯域上の重み付けされたゲインパラメータを獲得し、該オーディオフレームの該第２周波数帯域範囲における各々の周波数帯域上の重み付けされたゲインパラメータを加算し、該オーディオフレームの総合ゲインパラメータを獲得し、該オーディオフレームの総合ゲインパラメータに基づいて、該オーディオフレームの音声状態パラメータを決定する。

上記過程において、第２周波数帯域範囲は、第１周波数帯域範囲における大部分の人の声の周波数帯域を含む。すなわち人の声のエネルギーの大部分は、第２周波数帯域範囲（例えば２００～２０００Ｈｚ、又は３００～１０００Ｈｚ等）内にあるため、個々のオーディオフレームの第２周波数帯域範囲内の個々の周波数帯域上のゲインパラメータは、現在誰かが話しているか否か（すなわち現在のオーディオフレームにターゲット音声が含まれるか否か）を最もよく表すことができる。

いくつかの実施例において、ターゲット音声がターゲットオブジェクトの音である場合について、比較的広い第２周波数帯域範囲を配置することを可能にすることで、より多くの人の声の周波数帯域上でターゲットオブジェクトの音を識別することを容易にする。ターゲット音声がターゲットオブジェクトの該複数人の音声通話における発言である状況について、比較的狭い第２周波数帯域範囲を配置することを可能にすることで、一部の比較的低い人の声の周波数帯域上で雑談するときに発する音を排除することを容易にするが、本願の実施例は、これを限定しない。

選択可能に、端末には、第２周波数帯域範囲における個々の周波数帯域と重み係数との対応関係が予め保存されており、該第２周波数帯域範囲内の個々の周波数帯域に対して、該対応関係に基づいて該周波数帯域に対応する重み係数を決定し、該オーディオフレームの該周波数帯域上のゲインパラメータと該周波数帯域に対応する重み係数とを乗算し、該オーディオフレームの該周波数帯域上の重み付けされたゲインパラメータを獲得する。

選択可能に、個々のオーディオフレームに対して、端末は、該オーディオフレームの第２周波数帯域範囲内のすべての周波数帯域上の重み付けされたゲインパラメータを加算し、該オーディオフレームの総合ゲインパラメータを獲得する。該総合ゲインパラメータとアクティブ化閾値との大きさ関係に基づいて、該オーディオフレームの音声状態パラメータを決定することを可能にする。選択可能に、該音声状態パラメータは、「ターゲット音声が含まれる」こと、及び「ターゲット音声が含まれない」ことを含む。たとえば、該音声状態パラメータは、１つのブール型データである。ブール型データの値はＴｒｕｅであり「ターゲット音声が含まれる」ことを意味し、ブール型データの値はＦａｌｓｅであり「ターゲット音声が含まれない」ことを意味している。又は、該音声状態パラメータは、１つの二値化データである。二値化データの値は１であり「ターゲット音声が含まれる」ことを意味し、二値化データの値は０であり「ターゲット音声が含まれない」ことを意味している。又は、該音声状態パラメータは、文字列データ等であるが、本願の実施例は、該音声状態パラメータのデータタイプを限定しない。

いくつかの実施例において、端末は、該総合ゲインパラメータがターゲット倍数を増幅した後にアクティブ化閾値よりも大きい場合に、音声状態パラメータがターゲット音声を含むものであると決定し、該総合ゲインパラメータが該ターゲット倍数を増幅した後に該アクティブ化閾値よりも小さいか、又は等しい場合に、該音声状態パラメータがターゲット音声を含まないものであると決定する。ここで、該ターゲット倍数は、１よりも大きいいずれか１つの数値であり、たとえば、該ターゲット倍数は、１００００である。ここで、該アクティブ化閾値は、０よりも大きいいずれか１つの数値であり、たとえば、該アクティブ化閾値は、６０００である。

１つの実施シーンにおいて、第２周波数帯域範囲が２００～２０００Ｈｚであり、ターゲット倍数が１００００であり、アクティブ化閾値が６０００であることを例として説明する。ユーザは、複数人の音声通話をキーオンにした後に、マイクミュート状態においてマイクロホンに１つの音声を話し、マイクロホンは、オーディオ信号を収集した後に、各フレーム（各フレームの長さが２０ｍｓであると仮定する）に対して２００～２０００Ｈｚ内の各々の周波数帯域上のゲインパラメータをそれぞれ取得する。ここで、ゲインパラメータは、０よりも大きいか、又は等しく、且つ１よりも小さいか、又は等しい数値であり、各フレームの２００～２０００Ｈｚ内の各々の周波数帯域上のゲインパラメータに対して重み付け積算を行い、各フレームの総合ゲインパラメータを獲得し、各フレームの総合ゲインパラメータを１００００倍に増幅する。増幅後の数値が６０００よりも大きければ、このフレームがアクティブ化されているとみなされ、このフレームのＶＡＤ値を１にし、このフレームの音声状態パラメータがターゲット音声を含むものであることを意味し、増幅後の数値が６０００よりも小さいか、又は等しければ、このフレームがアクティブ化されていないとみなされてこのフレームのＶＡＤ値を０にし、このフレームの音声状態パラメータがターゲット音声を含まないものであることを意味している。

上記過程において、個々のオーディオフレームに対して、第２周波数帯域範囲内の各々の周波数帯域上のゲインパラメータに対して重み付け積算を行うことによって、該オーディオフレームの総合ゲインパラメータを獲得し、かつ総合ゲインパラメータを増幅した後に現在のオーディオフレームの音声状態を判断することに用いる。すなわち該オーディオフレームの音声状態パラメータを決定し、各々のオーディオフレームの総合ゲインパラメータによって、各々のオーディオフレームにターゲット音声が含まれるか否かを正確に判断し、正確なフレームレベルの人の声の識別を達成することができる。

上記ステップ３０６～３０７において、端末は、該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該複数のオーディオフレームの音声状態パラメータを決定する。ここで、該音声状態パラメータは、対応するオーディオフレームがターゲット音声を含むか否かを特徴付けることに用いられる。端末は、該複数のオーディオフレームの音声状態パラメータに基づいて、該オーディオ信号にターゲット音声が含まれると決定することができる。本願の実施例において、第２周波数帯域範囲内の各々の周波数帯域上のゲインパラメータに基づいて重み付け積算を行い、個々のオーディオフレームの総合ゲインパラメータを獲得し、かつ総合ゲインパラメータに基づいて個々のオーディオフレームの音声状態パラメータを決定することを例として説明するが、これは、第２周波数帯域範囲内に大部分の人の声の周波数帯域が含まれるためである。別のいくつかの実施例において、端末は、さらに第１周波数帯域範囲内の各々の周波数帯域上のゲインパラメータに基づいて重み付け積算を行い、個々のオーディオフレームの総合ゲインパラメータを獲得し、かつ総合ゲインパラメータに基づいて個々のオーディオフレームの音声状態パラメータを決定し、このようにオーディオ信号の処理フローを簡素化することができる。

いくつかの実施例において、端末は、個々のオーディオフレームのエネルギーパラメータを取得し、かつ個々のオーディオフレームの総合ゲインパラメータとエネルギーパラメータを組み合わせて、個々のオーディオフレームの音声状態パラメータを決定する。又は、端末は、個々のオーディオフレームの第１周波数帯域範囲内のゲインパラメータに基づいて、第１信号に対して雑音抑制を行い、雑音抑制後の信号をＶＡＤアルゴリズムにおいて入力してＶＡＤ検出を行い、個々のオーディオフレームの音声状態パラメータを獲得し、これについては後続の実施例において詳細に説明するが、本願の実施例は、個々のオーディオフレームの音声状態パラメータの取得方式を限定しない。

３０８：端末は、該オーディオフレームと該オーディオフレームよりも前の第１ターゲット数量のオーディオフレームの音声状態パラメータに基づいて、該オーディオフレームが属するオーディオフレームグループのアクティブ化状態を決定する。該オーディオフレームグループは、該オーディオフレームと、該オーディオフレームよりも前の第１ターゲット数量のオーディオフレームと、を含む。

ここで、該オーディオフレームとは、該複数のオーディオフレームにおけるいずれか１つのオーディオフレームを指し、換言すれば、該複数のオーディオフレームにおける個々のオーディオフレームに対していずれも上記ステップ３０８を実行する。

いくつかの実施例において、ユーザは、通常、マイクロホンにオーディオ信号を絶えず発するため、マイクロホンにより収集されたオーディオ信号は、１つのオーディオストリームである。オーディオストリームのシーンにおいて、オーディオストリームにおけるいずれか１つのオーディオフレームに対して、該オーディオフレームと該オーディオフレームよりも前のターゲット数量のオーディオフレームの音声状態パラメータを参照して、これらのオーディオフレームがカバーする期間内のオーディオ信号にターゲット音声が含まれるか否かを総合的に判断する必要がある。ここで、該ターゲット数量は、第１ターゲット数量と上記第２ターゲット数量に基づいて決定される。たとえば、該ターゲット数量は、第１ターゲット数量に1を加えた値と第２ターゲット数量に１を加えた数値とを乗算した後に１を減らした数値であり、第１ターゲット数量は、１よりも大きいか、又は等しいいずれか１つの整数であり、第２ターゲット数量は、１よりも大きいか、又は等しいいずれか１つの整数である。たとえば、第１ターゲット数量が４であり、該第２ターゲット数量が２９であると、ターゲット数量は、（４＋１）×（２９＋１）－１＝１４９である。

いくつかの実施例において、いずれか１つのオーディオフレームに対して、端末は、該オーディオフレームと該オーディオフレームよりも前の第１ターゲット数量のオーディオフレームを該オーディオフレームが属するオーディオフレームグループとして決定し、続いて、該オーディオフレームグループにおける各々のオーディオフレーム各自の音声状態パラメータを取得する。選択可能に、該オーディオフレームグループにおいて音声状態パラメータがターゲット音声を含むオーディオフレームの数量が数量閾値を超えるものである場合に、該オーディオフレームグループのアクティブ化状態がアクティブ化であると決定し、該オーディオフレームグループにおいて音声状態パラメータがターゲット音声を含むオーディオフレームの数量が該数量閾値を超えないものである場合に、該オーディオフレームグループのアクティブ化状態が非アクティブ化であると決定する。ここで、該数量閾値の値の範囲は、１よりも大きいか、又は等しく、且つ第１ターゲット数量に１を加えた数値よりも小さいか、又は等しい。たとえば、第１ターゲット数量が４であれば、該数量閾値の値の範囲は、１よりも大きいか、又は等しく、且つ５よりも小さいか、又は等しい。

上記過程において、個々のオーディオフレームグループに対して、一定の数量閾値を超えるオーディオフレームにターゲット音声が含まれていれば、オーディオフレームグループ全体がアクティブ化されているとみなされ、現在のオーディオフレームグループにターゲット音声が含まれるか否かを比較的良好に判断することができる。非定常雑音が、通常、同一のオーディオフレームグループ内で密集して出現しないために、個別の非定常雑音（例えばキーボード音等）に起因してオーディオフレームグループがアクティブ化されるか否かを誤判断する状況を低減させて、オーディオ信号ターゲット音声が含まれるか否かを識別する正確性を向上させる。

いくつかの実施例において、該オーディオフレームグループにおいて連続する予め設定された閾値が存在するオーディオフレームの音声状態パラメータがいずれもターゲット音声を含むものであれば、該オーディオフレームグループのアクティブ化状態がアクティブ化であると決定し、該オーディオフレームグループにおいて連続する予め設定された閾値が存在しないオーディオフレームの音声状態パラメータがいずれもターゲット音声を含むものであれば、該オーディオフレームグループのアクティブ化状態が非アクティブ化であると決定する。ここで、該予め設定された閾値の値の範囲は、１よりも大きいか、又は等しく、且つ第１ターゲット数量に１を加えた数値よりも小さいか、又は等しく、たとえば、第１ターゲット数量が４であれば、該予め設定された閾値の値の範囲は、１よりも大きいか、又は等しく、且つ５よりも小さいか、又は等しい。

上記過程において、個々のオーディオフレームグループに対して、連続する予め設定された閾値が存在するオーディオフレームにおいてターゲット音声が含まれていれば、オーディオフレームグループ全体がアクティブ化されているとみなされ、現在のオーディオフレームグループにターゲット音声が含まれるか否かを比較的良好に判断することができる。非定常雑音、又はユーザの雑談が、通常、同一のオーディオフレームグループ内で連続する複数のオーディオフレームにおいて継続的に出現しないために、個別の非定常雑音（例えばキーボード音等）に起因してオーディオフレームグループがアクティブ化されるか否かを誤判断する状況を低減させて、オーディオ信号にターゲット音声が含まれるか否かを識別する正確性を向上させる。

１つの実施シーンにおいて、上記のオーディオフレームグループを単位とする判別方式は、ショートフィルタリングアルゴリズムポリシーと呼ばれる。個々のオーディオフレームの長さが２０ｍｓ（ミリ秒）であると仮定すると、第１ターゲット数量が４である場合に、個々のオーディオフレームグループ内に現在の１つのオーディオフレーム、及び該オーディオフレームよりも前の４つのオーディオフレームが含まれ、すなわち個々のオーディオフレームグループ内に５つのオーディオフレームが含まれ、個々のオーディオフレームグループの長さは、１００ｍｓである。選択可能に、個々のオーディオフレームグループは、１つのｂｌｏｃｋ（ブロック）と呼ばれ、個々のオーディオフレームの音声状態パラメータすなわちＶＡＤ値は１であり、ターゲット音声が含まれることを意味し、音声状態パラメータすなわちＶＡＤ値は０であり、ターゲット音声が含まれないことことを意味している。

いくつかの実施例において、個々のｂｌｏｃｋに対して１回の統計を行い、数量閾値が４であると仮定すると、現在のｂｌｏｃｋ内のＶＡＤ値が１のオーディオフレームの数が４を超えれば、現在のｂｌｏｃｋがアクティブ化されているとみなされ、現在のｂｌｏｃｋ内のＶＡＤ値が１のオーディオフレームの数が４を超えなければ、現在のｂｌｏｃｋがアクティブ化されていないとみなされる。

いくつかの実施例において、個々のｂｌｏｃｋに対して１回の統計を行い、予め設定された閾値が４であると仮定すると、現在のｂｌｏｃｋ内に連続する４つのオーディオフレームのＶＡＤ値が１である状況が存在すれば、現在のｂｌｏｃｋがアクティブ化されているとみなされ、現在のｂｌｏｃｋ内に連続する４つのオーディオフレームのＶＡＤ値が１である状況が存在しなければ、現在のｂｌｏｃｋがアクティブ化されていないとみなされる。

３０９：端末は、該オーディオフレームグループと該オーディオフレームグループよりも前の第２ターゲット数量のオーディオフレームグループのアクティブ化状態が第２条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定する。

いくつかの実施例において、該オーディオフレームグループと該オーディオフレームグループよりも前の第２ターゲット数量のオーディオフレームグループにおいて、アクティブ化状態がアクティブ化であるオーディオフレームグループの数量がターゲット閾値を超えれば、第２条件に合致することを意味し、それにより該オーディオ信号にターゲット音声が含まれると決定する。該オーディオフレームグループと該オーディオフレームグループよりも前の第２ターゲット数量のオーディオフレームグループにおいて、アクティブ化状態がアクティブ化であるオーディオフレームグループの数量がターゲット閾値を超えなければ、第２条件に合致しないことを意味し、それにより該オーディオ信号においてターゲット音声が含まれないと決定する。つまり、該第２条件は、該オーディオフレームグループと該オーディオフレームグループよりも前の第２ターゲット数量のオーディオフレームグループにおいて、アクティブ化状態がアクティブ化であるオーディオフレームグループの数量がターゲット閾値を超えることである。ここで、該ターゲット閾値の値の範囲は、１よりも大きいか、又は等しく、且つ第２ターゲット数量に１を加えた数値よりも小さいか、又は等しい。たとえば、第２ターゲット数量が２９であれば、該ターゲット閾値の値の範囲は、１よりも大きいか、又は等しく、且つ３０よりも小さいか、又は等しい。

上記過程において、該オーディオフレームグループと該オーディオフレームグループよりも前の第２ターゲット数量のオーディオフレームグループにおいて、一定のターゲット閾値を超えるオーディオフレームグループがアクティブ化されれば、オーディオ信号全体にターゲット音声が含まれるとみなされ、いくつかのランダム誤差による干渉を低減させ、オーディオ信号にターゲット音声が含まれるか否かを識別する正確性を向上させることができる。

いくつかの実施例において、該オーディオフレームグループと該オーディオフレームグループよりも前の第２ターゲット数量のオーディオフレームグループにおいて、連続する指定された閾値が存在するオーディオフレームグループのアクティブ化状態がアクティブ化であれば、第２条件に合致することを意味し、それにより該オーディオ信号にターゲット音声が含まれると決定する。該オーディオフレームグループと該オーディオフレームグループよりも前の第２ターゲット数量のオーディオフレームグループにおいて、連続する指定された閾値が存在しないオーディオフレームグループのアクティブ化状態がアクティブ化であれば、第２条件に合致しないことを意味し、それにより該オーディオ信号においてターゲット音声が含まれないと決定する。つまり、該第２条件は、該オーディオフレームグループと該オーディオフレームグループよりも前の第２ターゲット数量のオーディオフレームグループにおいて、連続する指定された閾値が存在するオーディオフレームグループのアクティブ化状態がアクティブ化であることである。ここで、該指定された閾値の値の範囲は、１よりも大きいか、又は等しく、且つ第２ターゲット数量に１を加えた数値よりも小さいか、又は等しい。たとえば、第２ターゲット数量が２９であれば、該指定された閾値の値の範囲は、１よりも大きいか、又は等しく、且つ３０よりも小さいか、又は等しい。

上記過程において、該オーディオフレームグループと該オーディオフレームグループよりも前の第２ターゲット数量のオーディオフレームグループにおいて、連続する指定された閾値が存在するオーディオフレームグループのアクティブ化状態がアクティブ化であれば、オーディオ信号全体にターゲット音声が含まれるとみなされ、いくつかのランダム誤差による干渉を低減させ、オーディオ信号にターゲット音声が含まれるか否かを識別する正確性を向上させることができる。

１つの実施シーンにおいて、上記第２ターゲット数量に１を加えた数値のオーディオフレームグループを単位とする判別方式は、ロングフィルタリングアルゴリズムポリシーと呼ばれる。個々のオーディオフレームの長さが２０ｍｓであると仮定し、第１ターゲット数量が４である場合に、個々のオーディオフレームグループ（１つのｂｌｏｃｋと呼ばれる）の長さは、１００ｍｓである。第２ターゲット数量が２９である場合に、現在のオーディオフレームグループと該オーディオフレームグループよりも前の２９個のオーディオフレームグループは、１つのｄｕｒａｔｉｏｎ（デュレーション）と呼ばれ、個々のｄｕｒａｔｉｏｎは、計３０個のオーディオフレームグループを含むため、個々のｄｕｒａｔｉｏｎの長さは、３ｓ（秒）であり、すなわち１つの３ｓのｄｕｒａｔｉｏｎは、３０個の１００ｍｓのｂｌｏｃｋを含む。選択可能に、オーディオ信号に対してスライドウィンドウポリシーを使用して統計し、スライドウィンドウのステップサイズが１つのｂｌｏｃｋであると仮定し、１つのｂｌｏｃｋの長さが１００ｍｓであるため、スライドウィンドウの大きさが３０である場合に、１つのスライドウィンドウは、ちょうど１つのｄｕｒａｔｉｏｎをカバーすることができ、それによりスライドするたびに１つのｄｕｒａｔｉｏｎに対する１回の統計を実現することができる。換言すれば、オーディオ信号上で大きさが３０、ステップサイズが１００ｍｓであるスライドウィンドウを採用して統計する。

いくつかの実施例において、ターゲット閾値が１０であると仮定すると、１つのスライドウィンドウすなわちｄｕｒａｔｉｏｎ内でアクティブ化されるｂｌｏｃｋの数量が１０を超えれば、第２条件に合致することを意味し、該オーディオ信号にターゲット音声が含まれると決定する。つまり、該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該オーディオ信号にターゲット音声が含まれると決定し、以下のステップ３１０を実行し、プロンプトメッセージを外部に出力し、そうでなければ、いかなるプロンプト処理も行わない。

いくつかの実施例において、指定された閾値が１０であると仮定し、１つのスライドウィンドウすなわちｄｕｒａｔｉｏｎ内で連続する１０個のｂｌｏｃｋがアクティブ化されることが存在すれば、第２条件に合致することを意味し、該オーディオ信号にターゲット音声が含まれると決定する。つまり、該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該オーディオ信号にターゲット音声が含まれると決定し、以下のステップ３１０を実行し、プロンプトメッセージを外部に出力し、そうでなければ、いかなるプロンプト処理も行わない。

いくつかの実施例において、オーディオ信号がオーディオストリームである場合に、現在のスライドウィンドウが第２条件に合致する、すなわち該オーディオ信号にターゲット音声が含まれると決定すると検出されれば、スライドウィンドウは、１００ｍｓのステップサイズに応じてオーディオ信号上で移動して検出するため、端末は、プロンプトメッセージを外部に出力した後に、スライドウィンドウのｄｕｒａｔｉｏｎ、及びｂｌｏｃｋに対するすべての統計状態をリセットする。換言すれば、オーディオストリームを断続なく受信する場合に、毎回、ショートフィルタリングアルゴリズムポリシー、及びロングフィルタリングアルゴリズムポリシーに基づいて、現在の時間から３ｓ以内のターゲット数量のオーディオフレームを検出する。第２条件を満たせば、プロンプトメッセージを外部に出力し、かつスライドウィンドウのｄｕｒａｔｉｏｎ、及びｂｌｏｃｋに対するすべての統計状態をリセットし、第２条件を満たさなければ、スライドウィンドウが１００ｍｓのステップサイズに応じて後方にスライドし続けるように制御する。選択可能に、現在収集されたオーディオ信号の長さが３ｓ未満であるか、又はスライドウィンドウがリセットされた後に新たに収集したオーディオ信号の長さが３ｓ未満であれば、このとき、ウィンドウ充填状態にあり、ウィンドウ充填状態においてオーディオ信号にターゲット音声が含まれるか否かが意思決定されず、スライドウィンドウが初回にいっぱいに充填されるまで対応する識別結果が意思決定されない。

上記ステップ３０８～３０９において、いずれか１つのオーディオフレームと該オーディオフレームよりも前のターゲット数量のオーディオフレームの音声状態パラメータが第１条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定するという可能な実施形態が提供される。ここで、該ターゲット数量は、第１ターゲット数量と上記第２ターゲット数量に基づいて決定される。つまり、該第１条件は、該オーディオフレームが属するオーディオフレームグループと該オーディオフレームグループよりも前の第２ターゲット数量のオーディオフレームグループのアクティブ化状態が第２条件に合致することである。

３１０：端末は、プロンプトメッセージを出力し、該プロンプトメッセージは、該マイクミュート状態を解除するようにプロンプトすることに用いられる。

上記ステップ３１０は、上記ステップ２０３と類似するため、ここでは詳細な説明を省略する。

上記過程において、端末が該ゲインパラメータに基づいて該オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力し、それによりユーザにマイクミュート状態を解除するようにタイムリーにプロンプトし、無効なやり取り交流を回避し、マンマシンインタラクション効率を向上させることができる。

図５は、本願の実施例が提供するオーディオ信号の処理方法の原理模式図である。５００に示されるように、マイクロホンは、オーディオ信号を収集し、フレーム化、ウィンドウイング、フーリエ変換を経た後に、オーディオ信号のサンプリングレートを判定し、サンプリングレートがサンプリングレート閾値よりも大きければ、超解像度信号であり、サンプリングレートがサンプリングレート閾値よりも小さいか、又は等しければ、高解像度信号である。超解像度信号に対して周波数帯域分離を行い、オーディオ信号を低周波信号と高周波信号に分離し、低周波信号を音響エコーキャンセラ（ＡＥＣモジュール）において直接入力して音響エコーをキャンセルし、高解像度信号に対して周波数帯域分離を行う必要はなく、高解像度信号をＡＥＣモジュールにおいて直接入力して音響エコーをキャンセルする。音響エコーキャンセル後のオーディオ信号は、すなわち第１信号であり、第１信号における複数のオーディオフレームをＲＮＮ雑音抑制モデルに入力する。ＲＮＮ雑音抑制モデルは、個々のオーディオフレームに対して０～８０００Ｈｚにおける各々の周波数帯域上のゲインパラメータを出力し、個々のオーディオフレームの０～８０００Ｈｚにおける各々の周波数帯域上のゲインパラメータをＶＡＤ意思決定モジュールにおいて入力し、個々のオーディオフレームに対して２００～２０００Ｈｚにおける個々の周波数帯域上のゲインパラメータを抽出して重み付け積算を行い、個々のオーディオフレームの総合ゲインパラメータを獲得し、次いで個々のオーディオフレームの音声状態パラメータＶＡＤ値を決定する。このとき、端末がマイクミュート状態にあれば、個々のオーディオフレームのＶＡＤ値をマイクロホンミュートプロンプトモジュールにおいて入力し、ショートフィルタリングアルゴリズムポリシーに基づいてＶＡＤ統計フィルタリングを行い（すなわちある瞬時時間、例えば現在のｂｌｏｃｋにおいてアクティブ化されるオーディオフレームの数を統計する）、ロングフィルタリングアルゴリズムポリシーに基づいてマイクロホンミュートプロンプトフィルタリングを行い（すなわちある長い時間、例えば現在のｄｕｒａｔｉｏｎ内でアクティブ化されるｂｌｏｃｋの数を統計する）、現在のｄｕｒａｔｉｏｎ内でアクティブ化されるｂｌｏｃｋの数がターゲット閾値を超えれば、該オーディオ信号にターゲット音声が含まれると決定し、現在のｄｕｒａｔｉｏｎ内でアクティブ化されるｂｌｏｃｋの数がターゲット閾値を超えなければ、該オーディオ信号においてターゲット音声が含まれないと決定する。

オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクロホンミュート状態においてターゲット音声を発し、すなわち報告条件に達することを意味し、この場合、プロンプトメッセージを外部に出力する。オーディオ信号においてターゲット音声が含まれていなければ、ユーザがマイクロホンミュート状態においてターゲット音声を発せず、すなわち報告条件に達していないことを意味し、この場合、プロンプトメッセージを出力しない。選択可能に、ＶＡＤ意思決定モジュールは、個々のオーディオフレームのＶＡＤ値を出力した後に、端末がマイクオン状態にあれば、このときマイクロホンにより収集されたオーディオ信号を複数人の音声通話に参加するその他の端末に正常に送信することで、オーディオ信号の正常な伝送を保証する必要があり、超解像度信号について、周波数帯域分離により獲得された低周波信号と元の高周波信号に対して周波数帯域合成を行い、元の超解像度信号を再度復元し、さらに超解像度信号に対して符号化送信を行う必要がある。もちろん、高解像度信号について、周波数帯域分離を行う必要がないため、周波数帯域合成を行う必要もなく、符号化送信を直接行わればよい。いくつかの実施例において、端末は、符号化後のオーディオ信号をサーバに送信し、サーバにより符号化後のオーディオ信号を該複数人の音声通話に参加するその他の端末に転送する。

たとえば、マイクロホンにより収集された１６ｋＨｚの超解像度信号について、ＱＭＦ分析フィルタに基づいて周波数帯域分離を行い、８ｋＨｚの高周波信号と８ｋＨｚの低周波信号を出力し、一方、後続の雑音抑制、及びＶＡＤ意思決定は、８ｋＨｚの低周波信号上にのみ作用する。このとき端末がマイクオン状態にあれば、ＱＭＦ合成フィルタを利用して８ｋＨｚの高周波信号と８ｋＨｚの低周波信号を１６ｋＨｚの超解像度信号に再度合成し、次に超解像度信号に対して符号化送信を行う必要がある。

いくつかの実施例において、端末がマイクオン状態にある場合に、オーディオ信号に対して周波数帯域合成、及び符号化送信を行う前に、増幅回路のゲインパラメータが自動的に信号強度に伴って調整され、それによりオーディオ信号の伝送効果を向上させるとしても、さらにオーディオ信号に対してＡＧＣ処理を行うことをサポートする。

上記選択可能な技術的解決手段は、任意の組み合わせを採用して本開示の選択可能な実施例を形成することができるため、ここでは詳細な説明を省略する。

本願の実施例が提供する方法は、複数人の音声通話においてマイクミュート状態にある場合に、アプリケーションプログラムは、依然としてユーザのオーディオ信号を収集はするが、収集したオーディオ信号を該複数人の音声通話に参加するその他のアカウントに送信することはなく、アプリケーションプログラムは、該オーディオ信号に対して信号分析、及び処理を行い、該オーディオ信号における複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを利用することで、該オーディオ信号にターゲット音声が含まれるか否かを判断する。該オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクミュート状態の解除を忘れて発言をスタートすることを意味し、それによりプロンプトメッセージを外部に出力し、ユーザにマイクミュート状態を解除するようにタイムリーにプロンプトし、ユーザがマイクミュート状態にあることに気付かないことによるコミュニケーション効率の損失を低減させ、マンマシンインタラクション効率を向上させ、ユーザ体験を最適化することができる。

上記実施例においては、端末がどのように個々のオーディオフレームの個々の周波数帯域上のゲインパラメータに基づいて、該オーディオ信号にターゲット音声が含まれるか否かを判定するかが示されている。一方、本願の実施例において、端末がどのように個々のオーディオフレームの個々の周波数帯域上のゲインパラメータと個々のオーディオフレームのエネルギーパラメータを組み合わせて、該オーディオ信号にターゲット音声が含まれるか否かを総合的に判定する、すなわち個々のオーディオフレームのエネルギーパラメータと雑音抑制モデルが個々のオーディオフレームに対して出力したゲインパラメータに基づいてＶＡＤ意思決定を総合的に行うかを、以下に説明する。

図６は、本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。図６に参照されるように、該実施例は、電子機器により実行され、該電子機器が端末であることを例として説明すると、該端末とは、複数人の音声通話に参加するいずれか１つの端末、たとえば上記実施環境における第１端末１２０、又は第２端末１６０を指し、該実施例は、以下のステップを含む。

６０１：端末は、アプリケーションプログラムにおいて複数人の音声通話にアクセスする。

上記ステップ６０１は、上記ステップ３０１と類似しており、ここでは詳細な説明を省略する。

６０２：端末は、該複数人の音声通話において該アプリケーションプログラムにログインしているアカウントをマイクミュート状態に設定する。

上記ステップ６０２は、上記ステップ３０２と類似するため、ここでは詳細な説明を省略する。

６０３：端末は、アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得し、該ターゲットシーンは、該アプリケーションプログラムにログインしているアカウントが複数人の音声通話においてマイクミュート状態にあることである。

上記ステップ６０３は、上記ステップ３０３と類似するため、ここでは詳細な説明を省略する。

６０４：端末は、該オーディオ信号に前処理をして第１信号を獲得する。

上記ステップ６０４は、上記ステップ３０４と類似するため、ここでは詳細な説明を省略する。

６０５：端末は、該第１信号における複数のオーディオフレームを雑音抑制モデルに入力し、該雑音抑制モデルによって該複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの該第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力する。ここで、該オーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい。

上記ステップ６０５は、上記ステップ３０５と類似し、ここでは詳細な説明を省略する。

６０６：端末は、個々のオーディオフレームに対して、該オーディオフレームの第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの第２周波数帯域範囲における個々の周波数帯域上のゲインパラメータを決定し、該第２周波数帯域範囲は、該第１周波数帯域範囲のサブセットである。

上記ステップ６０６は、上記ステップ３０６と類似するため、ここでは詳細な説明を省略する。

６０７：端末は、該オーディオフレームのエネルギーパラメータを取得する。

いくつかの実施例において、端末は、該オーディオフレームの振幅のモジュラスを該オーディオフレームのエネルギーパラメータとして決定する。端末は、個々のオーディオフレームに対していずれも上記ステップ６０７を実行するため、該オーディオ信号における該複数のオーディオフレームのエネルギーパラメータを取得することができる。

６０８：端末は、該オーディオフレームの該第２周波数帯域範囲における個々の周波数帯域上のゲインパラメータと該オーディオフレームのエネルギーパラメータに基づいて、該オーディオフレームの音声状態パラメータを決定する。

いくつかの実施例において、個々のオーディオフレームに対して、端末は、該オーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの総合ゲインパラメータを決定し、上記総合ゲインパラメータの取得方式は、上記ステップ３０７と類似するため、ここでは詳細な説明を省略する。

いくつかの実施例において、端末は、該オーディオフレームの総合ゲインパラメータがターゲット倍数を増幅した後にアクティブ化閾値よりも大きく、且つ該オーディオフレームのエネルギーパラメータがエネルギー閾値よりも大きい場合に、該オーディオフレームの音声状態パラメータがターゲット音声を含むものであると決定し、該オーディオフレームの総合ゲインパラメータが該ターゲット倍数を増幅した後に該アクティブ化閾値よりも小さいか、又は等しく、もしくは該オーディオフレームのエネルギーパラメータが該エネルギー閾値よりも小さいか、又は等しい場合に、該オーディオフレームの音声状態パラメータがターゲット音声を含まないものであると決定する。ここで、該ターゲット倍数は、１よりも大きいいずれか１つの数値である。たとえば、該ターゲット倍数は、１００００である。ここで、該アクティブ化閾値は、０よりも大きいいずれか１つの数値であり、たとえば該アクティブ化閾値は、６０００である。ここで、該エネルギー閾値は、０よりも大きいか、又は等しく、且つ１００よりも小さいか、又は等しいいずれか１つの数値であり、たとえば該エネルギー閾値は、３０である。

１つの実施シーンにおいて、第２周波数帯域範囲が２００～２０００Ｈｚであり、ターゲット倍数が１００００であり、アクティブ化閾値が６０００であり、エネルギー閾値が３０であることを例として説明する。ユーザは、複数人の音声通話をキーオンにした後に、マイクミュート状態においてマイクロホンに１つの音声を話し、マイクロホンは、オーディオ信号を収集した後に、各フレーム（各フレームの長さが２０ｍｓであると仮定する）に対して２００～２０００Ｈｚ内の各々の周波数帯域上のゲインパラメータをそれぞれ取得する。ここで、ゲインパラメータは、０よりも大きいか、又は等しく、且つ１よりも小さいか、又は等しい数値であり、各フレームの２００～２０００Ｈｚ内の各々の周波数帯域上のゲインパラメータに対して重み付け積算を行い、各フレームの総合ゲインパラメータを獲得し、各フレームの総合ゲインパラメータを１００００倍に増幅し、増幅後の数値が６０００よりも大きければ、現在のフレームの音声状態がアクティブ化であるとみなされる。同時に現在のフレームのエネルギーパラメータを計算し、エネルギーパラメータが３０よりも大きければ、現在のフレームのエネルギーパラメータもアクティブ化されているとみなされる。ＶＡＤ意思決定において、音声状態とエネルギーパラメータが同時にアクティブ化されるオーディオフレームのみ、音声状態パラメータすなわちＶＡＤ値を１にし、そうでなければ、音声状態がアクティブ化されていないか（増幅後のゲインパラメータが６０００よりも小さいか、又は等しい）、又はエネルギーパラメータがアクティブ化されていない（エネルギーパラメータが３０よりも小さいか、又は等しい）限りは、音声状態パラメータすなわちＶＡＤ値を０にする。

上記過程において、個々のオーディオフレームに対してＶＡＤ意思決定を行う過程において、ゲインパラメータとエネルギーパラメータの両方各自に対応する条件を満たすことを要件として、現在のフレームのＶＡＤ値を１にする、すなわちゲインとエネルギーの両方の要素を総合して現在のフレームのＶＡＤ値を計算する。ここで、エネルギーパラメータは、ユーザが話す音量を直感的に反映することで、ユーザとマイクロホンとの間の距離を大まかに推定し、遠方場の音が近傍場の人の声と誤判断されることを防止し、さらに人の声の識別の正確性を高めることができる。

上記ステップ６０５～６０８において、端末は、該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータと該複数のオーディオフレームのエネルギーパラメータに基づいて、該複数のオーディオフレームの音声状態パラメータを決定し、ＲＮＮ雑音抑制モデルとエネルギー検出に基づいて音声アクティビティ検出を行うことができ、それにより比較的小さな計算複雑さを制御する前提においてターゲット音声、及び雑音を正確に識別し、特に非定常雑音について非常に高い識別正確性を有し、誤報告、報告エラーの状況を低減させ、ユーザの発言状態を敏感に捕捉し、かつプロンプトメッセージをタイムリーに報告して出力することができる。

６０９：端末は、該オーディオフレームと該オーディオフレームよりも前の第１ターゲット数量のオーディオフレームの音声状態パラメータに基づいて、該オーディオフレームが属するオーディオフレームグループのアクティブ化状態を決定し、該オーディオフレームグループは、該オーディオフレームと、該オーディオフレームよりも前の第１ターゲット数量のオーディオフレームと、を含む。

上記ステップ６０９は、上記ステップ３０８と類似するため、ここでは詳細な説明を省略する。

６１０：端末は、該オーディオフレームグループと該オーディオフレームグループよりも前の第２ターゲット数量のオーディオフレームグループのアクティブ化状態が第２条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定する。

上記ステップ６１０は、上記ステップ３０９と類似するため、ここでは詳細な説明を省略する。

６１１：端末は、プロンプトメッセージを出力し、該プロンプトメッセージは、該マイクミュート状態を解除するようにプロンプトすることに用いられる。

上記ステップ６１１は、上記ステップ３１０と類似するため、ここでは詳細な説明を省略する。

図７は、本願の実施例が提供するオーディオ信号の処理方法の原理模式図である。７００に示されるように、マイクロホンは、オーディオ信号を収集し、フレーム化、ウィンドウイング、フーリエ変換を経た後に、オーディオ信号のサンプリングレートを判定し、サンプリングレートがサンプリングレート閾値よりも大きければ、超解像度信号であり、サンプリングレートがサンプリングレート閾値よりも小さいか、又は等しければ、高解像度信号である。超解像度信号に対して周波数帯域分離を行い、オーディオ信号を低周波信号と高周波信号に分離し、低周波信号をＡＥＣモジュールにおいて直接入力して音響エコーをキャンセルし、高解像度信号に対して周波数帯域分離を行う必要がなく、高解像度信号をＡＥＣモジュールにおいて直接入力して音響エコーをキャンセルする。音響エコーキャンセル後のオーディオ信号は、すなわち第１信号であり、第１信号における複数のオーディオフレームをＲＮＮ雑音抑制モデルに入力し、ＲＮＮ雑音抑制モデルは、個々のオーディオフレームに対して０～８０００Ｈｚにおける各々の周波数帯域上のゲインパラメータを出力し、個々のオーディオフレームの０～８０００Ｈｚにおける各々の周波数帯域上のゲインパラメータをＶＡＤ意思決定モジュールにおいて入力する。この他、個々のオーディオフレームに対してエネルギー計算を行い、個々のオーディオフレームのエネルギーパラメータもＶＡＤ意思決定モジュールにおいて入力する。ＶＡＤ意思決定モジュールにおいて、個々のオーディオフレームに対して２００～２０００Ｈｚにおける個々の周波数帯域上のゲインパラメータを抽出して重み付け積算を行い、個々のオーディオフレームの総合ゲインパラメータを獲得し、次いで総合ゲインパラメータとエネルギーパラメータを組み合わせ、個々のオーディオフレームの音声状態パラメータＶＡＤ値を総合的に判断し、ゲインとエネルギーの２つの条件がいずれもアクティブ化されることが同時に満たされる場合にのみ、オーディオフレームのＶＡＤ値を１にし、そうでなければ、ゲインとエネルギーのうちのいずれか１つの条件がアクティブ化されていない限り、オーディオフレームのＶＡＤ値を０にする。

このとき、端末がマイクミュート状態にあれば、個々のオーディオフレームのＶＡＤ値をマイクロホンミュートプロンプトモジュールにおいて入力し、ショートフィルタリングアルゴリズムポリシーに基づいてＶＡＤ統計フィルタリングを行い（すなわちある瞬時時間、例えば現在のｂｌｏｃｋにおいてアクティブ化されるオーディオフレームの数を統計する）、ロングフィルタリングアルゴリズムポリシーに基づいてマイクロホンミュートプロンプトフィルタリングを行う（すなわちある長い時間、例えば現在のｄｕｒａｔｉｏｎ内でアクティブ化されるｂｌｏｃｋの数を統計する）。現在のｄｕｒａｔｉｏｎ内でアクティブ化されるｂｌｏｃｋの数がターゲット閾値を超えれば、該オーディオ信号にターゲット音声が含まれると決定し、現在のｄｕｒａｔｉｏｎ内でアクティブ化されるｂｌｏｃｋの数がターゲット閾値を超えなければ、該オーディオ信号においてターゲット音声が含まれないと決定する。

オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクロホンミュート状態においてターゲット音声を発し、すなわち報告条件に達することを意味し、この場合、プロンプトメッセージを外部に出力する。オーディオ信号においてターゲット音声が含まれていなければ、ユーザがマイクロホンミュート状態においてターゲット音声を発せず、すなわち報告条件に達していないことを意味し、この場合、プロンプトメッセージを出力しない。選択可能に、ＶＡＤ意思決定モジュールは、個々のオーディオフレームのＶＡＤ値を出力した後に、端末がマイクオン状態にあれば、このときマイクロホンにより収集されたオーディオ信号を複数人の音声通話に参加するその他の端末に正常に送信することで、オーディオ信号の正常な伝送を保証する必要がある。超解像度信号について、周波数帯域分離により獲得された低周波信号と元の高周波信号に対して周波数帯域合成を行い、元の超解像度信号を再度復元し、さらに超解像度信号に対して符号化送信を行う必要がある。もちろん、高解像度信号について、周波数帯域分離を行う必要がないため、周波数帯域合成を行う必要もなく、符号化送信を直接行わればよい。いくつかの実施例において、端末は、符号化後のオーディオ信号をサーバに送信し、サーバにより符号化後のオーディオ信号を該複数人の音声通話に参加するその他の端末に転送する。

本願の実施例が提供する方法は、複数人の音声通話においてマイクミュート状態にある場合に、アプリケーションプログラムは、依然としてユーザのオーディオ信号を収集はするが、収集したオーディオ信号を該複数人の音声通話に参加するその他のアカウントに送信することはなく、アプリケーションプログラムは、該オーディオ信号に対して信号分析、及び処理を行い、該オーディオ信号における複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを利用することで、該オーディオ信号にターゲット音声が含まれるか否かを判断する。該オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクミュート状態の解除を忘れて発言をスタートしていることを意味し、それによりプロンプトメッセージを外部に出力し、ユーザにマイクミュート状態を解除するようにタイムリーにプロンプトし、ユーザがマイクミュート状態にあることに気付かないことによるコミュニケーション効率の損失を低減させ、マンマシンインタラクション効率を向上させ、ユーザ体験を最適化することができる。

上記各々の実施例において、ＲＮＮにより出力された各々のオーディオフレームのゲインパラメータを直接利用してＶＡＤ意思決定を行うか、又は、ＲＮＮにより出力された各々のオーディオフレームのゲインパラメータと各々のオーディオフレームのエネルギーパラメータを組み合わせてＶＡＤ意思決定を同時に行うことがそれぞれ説明されている。上記２つの方式は、いずれも従来のＶＡＤ検出アルゴリズムを採用する必要がなく、一方、本願の実施例において、ＲＮＮ雑音抑制モデルとＶＡＤ検出アルゴリズムを組み合わせることで、オーディオ信号にターゲット音声が含まれるか否かを識別する方法に関するものであり、以下に詳述する。

図８は、本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。図８に参照されるように、該実施例は、電子機器により実行され、該電子機器が端末であることを例として説明すると、該端末とは、複数人の音声通話に参加するいずれか１つの端末、たとえば上記実施環境における第１端末１２０、又は第２端末１６０であり、該実施例は、以下のステップを含む。

８０１：端末は、アプリケーションプログラムにおいて複数人の音声通話にアクセスする。

上記ステップ８０１は、上記ステップ３０１と類似しており、ここでは詳細な説明を省略する。

８０２：端末は、該複数人の音声通話において該アプリケーションプログラムにログインしているアカウントをマイクミュート状態に設定する。

上記ステップ８０２は、上記ステップ３０２と類似しており、ここでは詳細な説明を省略する。

８０３：端末は、アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得し、該ターゲットシーンは、該アプリケーションプログラムにログインしているアカウントが複数人の音声通話においてマイクミュート状態にあることである。

上記ステップ８０３は、上記ステップ３０３と類似しており、ここでは詳細な説明を省略する。

８０４：端末は、該オーディオ信号に前処理をして第１信号を獲得する。

上記ステップ８０４は、上記ステップ３０４と類似しており、ここでは詳細な説明を省略する。

８０５：端末は、該第１信号における複数のオーディオフレームを雑音抑制モデルに入力し、該雑音抑制モデルによって該複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの該第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力する。ここで、該オーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい。

上記ステップ８０５は、上記ステップ３０５と類似しており、ここでは詳細な説明を省略する。

８０６：端末は、該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該複数のオーディオフレームに対して雑音抑制を行い、複数のターゲットオーディオフレームを獲得する。

いくつかの実施例において、端末は、個々のオーディオフレームに対して、該オーディオフレームの第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームにおける対応する周波数帯域の信号成分を増幅、又は減衰し、１つのターゲットオーディオフレームを獲得し、複数のオーディオフレームにおける個々のオーディオフレームに対していずれも上記操作を実行し、複数のターゲットオーディオフレームを獲得する。

８０７：端末は、該複数のターゲットオーディオフレームのエネルギーパラメータに基づいて音声アクティビティ検出ＶＡＤを行い、該複数のターゲットオーディオフレームのＶＡＤ値を獲得する。

いくつかの実施例において、端末は、個々のターゲットオーディオフレームに対して、該ターゲットオーディオフレームの振幅のモジュラスを該ターゲットオーディオフレームのエネルギーパラメータとして取得し、複数のターゲットオーディオフレームにおける個々のターゲットオーディオフレームに対していずれも上記操作を実行し、該複数のターゲットオーディオフレームのエネルギーパラメータを獲得する。

いくつかの実施例において、ＶＡＤ検出アルゴリズムを利用して該複数のターゲットオーディオフレームのエネルギーパラメータに対して音声アクティビティ検出を行い、該複数のターゲットオーディオフレーム各自のＶＡＤ値を出力する。選択可能に、ＶＡＤ検出アルゴリズムは、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ、ガウス混合モデル）に基づくＶＡＤ検出アルゴリズム、二重閾値に基づくＶＡＤ検出アルゴリズム、統計モデルに基づくＶＡＤ検出アルゴリズム、経験的モード分解法（ＥｍｐｉｒｉｃａｌＭｏｄｅＤｅｃｏｍｐｏｓｉｔｉｏｎ、ＥＭＤ）に基づくＶＡＤ検出アルゴリズム、相関係数法に基づくＶＡＤ検出アルゴリズム、又はウェーブレット変換法に基づくＶＡＤ検出アルゴリズム等を含むが、これらに限定されず、本願の実施例は、これを限定しない。

１つの実施シーンにおいて、ＧＭＭ－ＶＡＤを例として説明する。ＧＭＭ－ＶＡＤアルゴリズムは、人の声、及び雑音がいずれもガウス分布に合致すると仮定し、かつ雑音が人の声よりも穏やかであり、且つ雑音エネルギーが人の声のエネルギーよりも小さいと仮定すると、すなわち雑音信号の平均値と分散は、人の声の信号の平均値と分散よりも小さい。従って、２つのガウスモデルを使用して入力信号（すなわち該複数のターゲットオーディオフレームとは、雑音抑制された第１信号を指す）における人の声の信号、及び雑音信号をそれぞれフィッティングし、上記仮定によって両者を分けることができる。ガウスモデルによってフィッティング、及び分離した後に、人の声の信号の平均値、分散、及び重み、及び雑音信号の平均値、分散、及び重みの６つのパラメータを出力することになる。

たとえば、入力信号（すなわち該複数のターゲットオーディオフレームは、雑音抑制された第１信号である）は、８０Ｈｚ～２５０Ｈｚ、２５０Ｈｚ～５００Ｈｚ、５００Ｈｚ～１ＫＨｚ、１ＫＨｚ～２ＫＨｚ、２ＫＨｚ～３ＫＨｚ、３ＫＨｚ～４ＫＨｚの６つの周波数帯域に区分される。個々の周波数帯域に対していずれもＧＭＭモデルを用いて信号をフィッティングする。

ＧＭＭ－ＶＡＤアルゴリズムが初期化されるときに、上記６つのパラメータは、初期値（たとえば予め訓練されたパラメータ）を使用することになる。１つの新たなターゲットオーディオフレームがＧＭＭモデルに入力されるたびに、既存のＧＭＭモデルに基づいて類似確率を計算し、かつ現在のターゲットオーディオフレームが人の声であるか、雑音であるかを判断し、次にＧＭＭモデルの判断結果に従って、最尤推定を用いて上記６つのパラメータを更新し、続いてＧＭＭモデルを更新する。上記過程を反復実行し、個々のターゲットオーディオフレームが人の声であるか、雑音であるかを判断することができ、該ターゲットオーディオフレームが人の声であれば、該ターゲットオーディオフレームのＶＡＤ値を１にし、該ターゲットオーディオフレームが雑音であれば、該ターゲットオーディオフレームのＶＡＤ値を０にする。

８０８：端末は、該複数のターゲットオーディオフレームのＶＡＤ値が第３条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定する。

いくつかの実施例において、端末は、それぞれショートフィルタリングアルゴリズムポリシーとロングフィルタリングアルゴリズムポリシーに基づいて該複数のターゲットオーディオフレームのＶＡＤ値を判断し、該オーディオ信号にターゲット音声が含まれるか否かを決定することもする。

選択可能に、個々のターゲットオーディオフレームに対して、端末は、該ターゲットオーディオフレームと該ターゲットオーディオフレームよりも前の第１ターゲット数量のターゲットオーディオフレームのＶＡＤ値に基づいて、該ターゲットオーディオフレームが属するターゲットオーディオフレームグループのアクティブ化状態を決定する。該ターゲットオーディオフレームグループは、該ターゲットオーディオフレームと、該ターゲットオーディオフレームよりも前の第１ターゲット数量のターゲットオーディオフレームと、を含む。該ターゲットオーディオフレームグループと該ターゲットオーディオフレームグループよりも前の第２ターゲット数量のターゲットオーディオフレームグループのアクティブ化状態が第２条件に合致する場合に、該複数のターゲットオーディオフレームのＶＡＤ値が第３条件に合致することを意味し、該オーディオ信号にターゲット音声が含まれると決定する。上記判断方式は、上記ステップ３０８～３０９と類似するため、ここでは詳細な説明を省略する。

８０９：端末は、プロンプトメッセージを出力し、該プロンプトメッセージは、該マイクミュート状態を解除するようにプロンプトすることに用いられる。

上記ステップ８０９は、上記ステップ３１０と類似するため、ここでは詳細な説明を省略する。

図９は、本願の実施例が提供するオーディオ信号の処理方法の原理模式図である。９００に示されるように、マイクロホンは、オーディオ信号を収集し、フレーム化、ウィンドウイング、フーリエ変換を経た後に、オーディオ信号のサンプリングレートを判定する。サンプリングレートがサンプリングレート閾値よりも大きければ、超解像度信号であり、サンプリングレートがサンプリングレート閾値よりも小さいか、又は等しければ、高解像度信号である。超解像度信号に対して周波数帯域分離を行い、オーディオ信号を低周波信号と高周波信号に分離し、低周波信号をＡＥＣモジュールにおいて直接入力して音響エコーをキャンセルし、高解像度信号に対して周波数帯域分離を行う必要はなく、高解像度信号をＡＥＣモジュールにおいて直接入力して音響エコーをキャンセルする。音響エコーキャンセル後のオーディオ信号は、すなわち第１信号であり、第１信号における複数のオーディオフレームをＲＮＮ雑音抑制モデルに入力し、ＲＮＮ雑音抑制モデルは、個々のオーディオフレームに対して０～８０００Ｈｚにおける各々の周波数帯域上のゲインパラメータを出力し、各々のゲインパラメータに基づいて各々のオーディオフレームに対して雑音抑制を行い、複数のターゲットオーディオフレームを獲得する。個々のターゲットオーディオフレームに対してエネルギー計算を行い、個々のターゲットオーディオフレームのエネルギーパラメータを獲得する。個々のターゲットオーディオフレームのエネルギーパラメータをＧＭＭ－ＶＡＤモジュールにおいて入力し、個々のターゲットオーディオフレームに対して、ＧＭＭモデルを利用して該ターゲットオーディオフレームがターゲット音声であるか、雑音であるかを予測する。該ターゲットオーディオフレームがターゲット音声であれば、該ターゲットオーディオフレームのＶＡＤ値を１にし、該ターゲットオーディオフレームが雑音であれば、該ターゲットオーディオフレームのＶＡＤ値を０にする。

このとき、端末がマイクミュート状態にあれば、個々のターゲットオーディオフレームのＶＡＤ値をマイクロホンミュートプロンプトモジュールにおいて入力し、ショートフィルタリングアルゴリズムポリシーに基づいてＶＡＤ統計フィルタリングを行い（すなわちある瞬時時間、例えば現在のｂｌｏｃｋにおいてアクティブ化されるターゲットオーディオフレームの数を統計する）、ロングフィルタリングアルゴリズムポリシーに基づいてマイクロホンミュートプロンプトフィルタリングを行う（すなわちある長い時間、例えば現在のｄｕｒａｔｉｏｎ内でアクティブ化されるｂｌｏｃｋの数を統計する）。現在のｄｕｒａｔｉｏｎ内でアクティブ化されるｂｌｏｃｋの数がターゲット閾値を超えれば、該オーディオ信号にターゲット音声が含まれると決定し、現在のｄｕｒａｔｉｏｎ内でアクティブ化されるｂｌｏｃｋの数がターゲット閾値を超えなければ、該オーディオ信号においてターゲット音声が含まれないと決定する。

オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクロホンミュート状態においてターゲット音声を発しており、すなわち報告条件に達することを意味し、この場合、プロンプトメッセージを外部に出力する。オーディオ信号においてターゲット音声が含まれていなければ、ユーザがマイクロホンミュート状態においてターゲット音声を発しておらず、すなわち報告条件に達していないことを意味し、この場合、プロンプトメッセージを出力しない。選択可能に、ＧＭＭ－ＶＡＤモジュールは、個々のターゲットオーディオフレームのＶＡＤ値を出力した後に、端末がマイクオン状態にあれば、このときマイクロホンにより収集されたオーディオ信号を複数人の音声通話に参加するその他の端末に正常に送信することで、オーディオ信号の正常な伝送を保証する必要がある。超解像度信号について、周波数帯域分離により獲得された低周波信号と元の高周波信号に対して周波数帯域合成を行い、元の超解像度信号を再度復元し、さらに超解像度信号に対して符号化送信を行う必要がある。もちろん、高解像度信号について、周波数帯域分離を行う必要がないため、周波数帯域合成を行う必要もなく、符号化送信を直接行わればよい。いくつかの実施例において、端末は、符号化後のオーディオ信号をサーバに送信し、サーバにより符号化後のオーディオ信号を該複数人の音声通話に参加するその他の端末に転送する。

図１０は、本願の実施例が提供するテキストプロンプトメッセージの

模式図である。図１０に示されるように、オーディオ信号においてターゲット音声が含まれていれば、複数人の音声通話の通話インタフェース１０００において、端末は、テキストプロンプトメッセージ１００１「マイクロホンがミュートになっているため、マイクロホンのミュートを解除してから発言してください」を表示し、かつディセーブル状態にあるマイク設定制御部材１００２を表示する。該テキストプロンプトメッセージ１００１は、ユーザがディセーブル状態にあるマイク設定制御部材１００２をクリックすることによって、該マイク設定制御部材１００２をディセーブル状態からイネーブル状態に設定し、それによりマイクミュート状態を解除するようにプロンプトするために用いられる。

上記すべての選択可能な技術的解決手段は、任意の組み合わせを採用して本開示の選択可能な実施例を形成することができるため、ここでは詳細な説明を省略する。

テストシーンにおいて、複数のシーンにおける若干の純粋な雑音、純粋な音声（男性の声、女性の声、中国語、英語）、及び雑音付き音声をそれぞれ選び、上記各々の実施例が提供するオーディオ信号の処理方法の安定性、及び感度程度をテストしており、ここで、雑音には、定常雑音（車の雑音、風の雑音、街路、地下鉄、コーヒーショップ等）、及び非定常雑音（工事現場、キーボード、テーブル、叩き、人の声等）がそれぞれ導入されている。本願の実施例が提供する方法は、従来のエネルギーのみに基づくＶＡＤ検出に依存しないため、オーディオ信号における人の声についての検出の正確性をある程度で高めつつ、同時に複雑なＣＮＮモデルにも依存しないため、計算の消費も保証され得る。本願の実施例が提供する方法は、各々のオーディオビデオ通話シーン、又はオーディオビデオ会議において、例えば音声通話、ビデオ通話、複数人の音声通話、複数人のビデオ通話、スクリーン共有等に使用されてもよく、複数のライブ、又は通信製品、ソーシャルソフトウェアにおいて使用されてもよく、移動側の最低エネルギー消費の計算ニーズを満たす。

図１１は、本願の実施例が提供するオーディオ信号の処理装置の構造模式図である。図１１に参照されるように、該装置は、
アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得することに用いられる第１取得モジュール１１０１であって、該ターゲットシーンは、該アプリケーションプログラムにログインしているアカウントが複数人の音声通話においてマイクミュート状態にある、第１取得モジュール１１０１と、
該オーディオ信号における複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得することに用いられる第２取得モジュール１１０２と、
該ゲインパラメータに基づいて該オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力することに用いられる出力モジュール１１０３であって、該プロンプトメッセージは、該マイクミュート状態を解除するようにプロンプトすることに用いられる、出力モジュール１１０３と、を含む。

本願の実施例が提供する装置は、複数人の音声通話においてマイクミュート状態にある場合に、アプリケーションプログラムは、依然としてユーザのオーディオ信号を収集はするが、収集したオーディオ信号を該複数人の音声通話に参加するその他のアカウントに送信することはなく、アプリケーションプログラムは、該オーディオ信号に対して信号分析、及び処理を行い、該オーディオ信号における複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを利用することで、該オーディオ信号にターゲット音声が含まれるか否かを判断する。該オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクミュート状態の解除を忘れて発言をスタートしていることを意味し、それによりプロンプトメッセージを外部に出力し、ユーザにマイクミュート状態を解除するようにタイムリーにプロンプトし、ユーザがマイクミュート状態にあることに気付かないことによるコミュニケーション効率の損失を低減させ、マンマシンインタラクション効率を向上させることができる。

１つの可能な実施形態において、該第２取得モジュール１１０２は、
該オーディオ信号に前処理をして第１信号を獲得することに用いられる前処理ユニットと、
該第１信号における複数のオーディオフレームを雑音抑制モデルに入力し、該雑音抑制モデルによって該複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの該第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力することに用いられる処理ユニットであって、ここで、該オーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい、処理ユニットと、を含む。

１つの可能な実施形態において、該雑音抑制モデルは、回帰型ニューラルネットワークであり、該回帰型ニューラルネットワークは、少なくとも１つの隠れ層を含み、個々の隠れ層において複数のニューロンが含まれ、個々の隠れ層におけるニューロンの数量は、入力されたオーディオフレームの数量と同じであり、
該処理ユニットは、
該回帰型ニューラルネットワークにおけるいずれか１つの隠れ層におけるいずれか１つのニューロンに対して、該いずれか１つのニューロンによって、該いずれか１つの隠れ層における前のニューロンにより出力された周波数特徴と前の隠れ層における対応する位置のニューロンにより出力された周波数特徴に対して重み付け処理を行い、重み付け処理して獲得された周波数特徴を該いずれか１つの隠れ層における次のニューロンと次の隠れ層における対応する位置のニューロンにそれぞれ入力することに用いられる。

１つの可能な実施形態において、図１１の装置の構成に基づき、該装置は、
該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該複数のオーディオフレームの音声状態パラメータを決定することに用いられる第１決定モジュールであって、該音声状態パラメータは、対応するオーディオフレームがターゲット音声を含むか否かを特徴付けることに用いられる、第１決定モジュールと、
いずれか１つのオーディオフレームと該オーディオフレームよりも前のターゲット数量のオーディオフレームの音声状態パラメータが第１条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定することに用いられる第２決定モジュールと、をさらに含む。

１つの可能な実施形態において、図１１の装置の構成に基づき、該第１決定モジュールは、
個々のオーディオフレームに対して、該オーディオフレームの第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの第２周波数帯域範囲における個々の周波数帯域上のゲインパラメータを決定することに用いられる第１決定ユニットであって、該第２周波数帯域範囲は、該第１周波数帯域範囲のサブセットである、第１決定ユニットと、
該オーディオフレームの該第２周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの音声状態パラメータを決定することに用いられる第２決定ユニットと、を含む。

１つの可能な実施形態において、図１１の装置の構成に基づき、該第２決定ユニットは、
該オーディオフレームの該第２周波数帯域範囲における個々の周波数帯域上のゲインパラメータと対応する周波数帯域の重み係数とを乗算し、該オーディオフレームの該第２周波数帯域範囲における個々の周波数帯域上の重み付けされたゲインパラメータを獲得することに用いられる乗算サブユニットと、
該オーディオフレームの該第２周波数帯域範囲における各々の周波数帯域上の重み付けされたゲインパラメータを加算し、該オーディオフレームの総合ゲインパラメータを獲得することに用いられる加算サブユニットと、
該オーディオフレームの総合ゲインパラメータに基づいて、該オーディオフレームの音声状態パラメータを決定することに用いられる決定サブユニットと、を含む。

１つの可能な実施形態において、該決定サブユニットは、
該総合ゲインパラメータがターゲット倍数を増幅した後にアクティブ化閾値よりも大きい場合に、該音声状態パラメータがターゲット音声を含むものであると決定することと、
該総合ゲインパラメータが該ターゲット倍数を増幅した後に該アクティブ化閾値よりも小さいか、又は等しい場合に、該音声状態パラメータがターゲット音声を含まないものであると決定することと、に用いられる。

１つの可能な実施形態において、図１１の装置の構成に基づき、該装置は、
該複数のオーディオフレームのエネルギーパラメータを取得することに用いられる第３取得モジュールをさらに含み、
該第１決定モジュールは、
該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータと該複数のオーディオフレームのエネルギーパラメータに基づいて、該複数のオーディオフレームの音声状態パラメータを決定することに用いられる第３決定ユニットを含む。

１つの可能な実施形態において、該第３決定ユニットは、
個々のオーディオフレームに対して、該オーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの総合ゲインパラメータを決定することと、
該オーディオフレームの総合ゲインパラメータがターゲット倍数を増幅した後にアクティブ化閾値よりも大きく、且つ該オーディオフレームのエネルギーパラメータがエネルギー閾値よりも大きい場合に、該オーディオフレームの音声状態パラメータがターゲット音声を含むものであると決定することと、
該オーディオフレームの総合ゲインパラメータが該ターゲット倍数を増幅した後に該アクティブ化閾値よりも小さいか、又は等しく、もしくは該オーディオフレームのエネルギーパラメータが該エネルギー閾値よりも小さいか、又は等しい場合に、該オーディオフレームの音声状態パラメータがターゲット音声を含まないものであると決定することと、に用いられる。

１つの可能な実施形態において、図１１の装置の構成に基づき、該第２決定モジュールは、
いずれか１つの該オーディオフレームに対して、該オーディオフレームと該オーディオフレームよりも前の第１ターゲット数量のオーディオフレームの音声状態パラメータに基づいて、該オーディオフレームが属するオーディオフレームグループのアクティブ化状態を決定することに用いられる第４決定ユニットであって、該オーディオフレームグループは、該オーディオフレームと、該オーディオフレームよりも前の第１ターゲット数量のオーディオフレームと、を含む、第４決定ユニットと、
該オーディオフレームグループと該オーディオフレームグループよりも前の第２ターゲット数量のオーディオフレームグループのアクティブ化状態が第２条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定することに用いられる第５決定ユニットであって、該ターゲット数量は、第１ターゲット数量と該第２ターゲット数量に基づいて決定される、第５決定ユニットと、を含む。

１つの可能な実施形態において、該第４決定ユニットは、
該オーディオフレームグループにおいて音声状態パラメータがターゲット音声を含むオーディオフレームの数量が数量閾値を超えるものである場合に、該オーディオフレームグループのアクティブ化状態がアクティブ化であると決定することと、
該オーディオフレームグループにおいて音声状態パラメータがターゲット音声を含むオーディオフレームの数量が該数量閾値を超えないものである場合に、該オーディオフレームグループのアクティブ化状態が非アクティブ化であると決定することと、に用いられる。

１つの可能な実施形態において、図１１の装置の構成に基づき、該装置は、
該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該複数のオーディオフレームに対して雑音抑制を行い、複数のターゲットオーディオフレームを獲得することに用いられる雑音抑制モジュールと、
該複数のターゲットオーディオフレームのエネルギーパラメータに基づいて音声アクティビティ検出ＶＡＤを行い、該複数のターゲットオーディオフレームのＶＡＤ値を獲得することに用いられる音声アクティビティ検出モジュールと、
該複数のターゲットオーディオフレームのＶＡＤ値が第３条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定することに用いられる第３決定モジュールと、をさらに含む。

１つの可能な実施形態において、該ターゲット音声は、ターゲットオブジェクトの該複数人の音声通話における発言であり、又は、該ターゲット音声は、該ターゲットオブジェクトの音である。

上記すべての選択可能な技術的解決手段は、任意の組み合わせを採用して本開示の選択可能な実施例を形成することができ、ここでは詳細な説明を省略する。

説明する必要があるように、上記実施例が提供するオーディオ信号の処理装置は、オーディオ信号を処理するときに、上記各機能モジュールの区分のみを列挙して説明しているが、実際の応用においては、必要に応じて上記機能を異なる機能モジュールに割り当てて完成することができる。すなわち電子機器の内部構造を異なる機能モジュールに区分することで、以上に記述される全部、又は一部の機能を完成する。また、上記実施例が提供するオーディオ信号の処理装置は、オーディオ信号の処理方法の実施例と同一の構想に属し、その実現過程は、オーディオ信号の処理方法の実施例を詳しく参照し得るため、ここでは詳細な説明を省略する。

図１２は、本願の実施例が提供する電子機器の構造模式図である。図１２に示されるように、電子機器が端末１２００であることを例として説明する。選択可能に、該端末１２００の機器タイプは、スマートフォン、タブレットパソコン、ＭＰ３プレーヤー（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ）、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ）プレーヤー、ノートパソコン、又はデスクトップパソコンを含む。端末１２００は、さらにユーザ機器、携帯端末、ラップトップ端末、デスクトップ端末等のその他の名称と呼ばれる可能性がある。

通常、端末１２００は、プロセッサ１２０１と、メモリ１２０２と、を含む。

選択可能に、プロセッサ１２０１は、例えばクアッドコアプロセッサ、オクタコアプロセッサ等の１つ、又は複数の処理コアを含む。選択可能に、プロセッサ１２０１は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、デジタル信号処理）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、フィールドプログラマブルゲートアレイ）、ＰＬＡ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ、プログラマブルロジックアレイ）のうちの少なくとも１種のハードウェア形式を採用して実現される。いくつかの実施例において、プロセッサ１２０１は、メインプロセッサと、コプロセッサと、を含み、メインプロセッサは、ウェイクアップ状態におけるデータを処理することに用いられるプロセッサであり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央プロセッサ）とも呼ばれ、コプロセッサは、待機状態におけるデータを処理することに用いられる低消費電力プロセッサである。いくつかの実施例において、プロセッサ１２０１にはＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、画像プロセッサ）が集積され、ＧＰＵは、表示スクリーンに表示される必要があるコンテンツのレンダリング、及び描画を負うことに用いられる。いくつかの実施例において、プロセッサ１２０１は、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）プロセッサをさらに含み、該ＡＩプロセッサは、機械学習に関連する計算操作を処理することに用いられる。

いくつかの実施例において、メモリ１２０２は、１つ、又は複数のコンピュータ可読記憶媒体を含み、選択可能に、該コンピュータ可読記憶媒体は、非一時的である。選択可能に、メモリ１２０２は、高速ランダムアクセスメモリ、及び、例えば１つ、又は複数の磁気ディスク記憶機器、フラッシュメモリ記憶機器等の不揮発性メモリをさらに含む。いくつかの実施例において、メモリ１２０２における非一時的なコンピュータ可読記憶媒体は、少なくとも１つのプログラムコードを記憶することに用いられ、該少なくとも１つのプログラムコードは、プロセッサ１２０１により実行されることで、本願における各々の実施例が提供するオーディオ信号の処理方法を実現することに用いられる。

いくつかの実施例において、端末１２００は、さらに選択可能にオーディオ回路１２０７を含む。

いくつかの実施例において、オーディオ回路１２０７は、マイクロホンと、スピーカと、を含む。マイクロホンは、ユーザ、及び環境の音波を収集し、かつ音波を電気信号に変換してプロセッサ１２０１に入力して処理し、又は無線周波数回路１２０４に入力することで音声通信を実現することに用いられる。ステレオ収集、又は雑音低減の目的から、マイクロホンは、複数であり、それぞれ端末１２００の異なる部位に設置される。選択可能に、マイクロホンは、アレイマイクロホン、又は全指向性の集音マイクロホンである。スピーカは、プロセッサ１２０１、又は無線周波数回路１２０４からの電気信号を音波に変換することに用いられる。選択可能に、スピーカは、従来の薄膜スピーカであるか、又は圧電セラミックスピーカである。スピーカが圧電セラミックスピーカであるときに、電気信号を人間による可聴音波に変換することができるだけでなく、電気信号を人間の非可聴音波に変換することで測距等の用途を行うこともできる。いくつかの実施例において、オーディオ回路１２０７は、イヤホンジャックをさらに含む。

図１３は、本願の実施例が提供する電子機器の構造模式図であり、該電子機器１３００は、配置、又は性能が異なるため、比較的大きな差異が発生し、該電子機器１３００は、１つ、又は１つ以上のプロセッサ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ、ＣＰＵ）１３０１と、１つ、又は１つ以上のメモリ１３０２と、を含み、ここで、該メモリ１３０２において少なくとも１つのコンピュータプログラムが記憶される。該少なくとも１つのコンピュータプログラムは、該１つ、又は１つ以上のプロセッサ１３０１によりロードされ、かつ実行されることで、上記各々の実施例が提供するオーディオ信号の処理方法を実現する。選択可能に、該電子機器１３００は、有線、又は無線ネットワークインターフェース、キーボード、及び入出力インターフェース等のコンポーネントをさらに有することで、入出力を行うことを容易にし、該電子機器１３００は、機器の機能を実現することに用いられるその他のコンポーネントをさらに含み、ここでは詳細な説明を省略する。

例示的な実施例において、コンピュータ可読記憶媒体、たとえば少なくとも１つのコンピュータプログラムを含むメモリがさらに提供され、上記少なくとも１つのコンピュータプログラムは、端末におけるプロセッサにより実行されることで、上記各々の実施例におけるオーディオ信号の処理方法を完了することを可能にする。たとえば、該コンピュータ可読記憶媒体は、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、読み取り専用メモリ）、ＲＡＭ（Ｒａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセスメモリ）、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、読み取り専用光ディスク）、磁気テープ、フロッピーディスク、及び光データ記憶機器等を含む。

例示的な実施例において、コンピュータプログラム製品、又はコンピュータプログラムがさらに提供され、１つ、又は複数のプログラムコードを含み、該１つ、又は複数のプログラムコードは、コンピュータ可読記憶媒体において記憶される。電子機器の１つ、又は複数のプロセッサは、コンピュータ可読記憶媒体の中から該１つ、又は複数のプログラムコードを読み取ることができ、該１つ、又は複数のプロセッサは、該１つ、又は複数のプログラムコードを実行し、電子機器が実行されることで上記実施例におけるオーディオ信号の処理方法を完了できるようにする。

当業者であれば理解できるように、上記実施例を実現する全部、又は一部のステップは、ハードウェアによって完了されてもよく、プログラムによって関連するハードウェアに指令して完了されてもよく、選択可能に、該プログラムは、コンピュータ可読記憶媒体において記憶され、選択可能に、上記言及された記憶媒体は、読み取り専用メモリ、磁気ディスク、又は光ディスク等である。

以上は、本願の選択可能な実施例に過ぎず、本願を制限するために用いられるものではなく、本願の精神、及び原則内で行われたいかなる修正、等価置換、改良等も、本願の保護範囲内に含まれるべきである。

１２０第１端末
１４０サーバ
１６０第２端末
１０００通話インタフェース
１００１テキストプロンプトメッセージ
１００２マイク設定制御部材
１１０１第１取得モジュール
１１０２第２取得モジュール
１１０３出力モジュール
１２００端末
１２０１プロセッサ
１２０２メモリ
１２０４無線周波数回路
１２０７オーディオ回路
１３００電子機器
１３０１プロセッサ
１３０２メモリ

Claims

端末により実行される、オーディオ信号の処理方法であって、前記方法は、
アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得するステップであって、前記アプリケーションプログラムにアカウントがログインしており、前記ターゲットシーンとは、前記アカウントが複数人の音声通話においてマイクミュート状態にあることを指す、ステップと、
前記オーディオ信号における複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得するステップと、
前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力するステップであって、前記プロンプトメッセージは、前記アカウントのマイクミュート状態を解除するようにプロンプトすることに用いられる、ステップと、を含む、オーディオ信号の処理方法。
前記オーディオ信号における複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得する前記ステップは、
前記オーディオ信号に前処理をして第１信号を獲得するステップと、
前記第１信号における複数のオーディオフレームを雑音抑制モデルに入力し、前記雑音抑制モデルによって前記複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの前記第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力するステップであって、前記オーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい、ステップと、を含む、請求項１に記載の方法。
前記雑音抑制モデルは、回帰型ニューラルネットワークであり、前記回帰型ニューラルネットワークは、少なくとも１つの隠れ層を含み、個々の隠れ層において複数のニューロンが含まれ、個々の隠れ層におけるニューロンの数量は、入力されたオーディオフレームの数量と同じであり、
前記雑音抑制モデルによって前記複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの前記第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力する前記ステップは、
前記回帰型ニューラルネットワークにおけるいずれか１つの隠れ層におけるいずれか１つのニューロンに対して、前記いずれか１つのニューロンによって、前記いずれか１つの隠れ層における前のニューロンにより出力された周波数特徴と前の隠れ層における対応する位置のニューロンにより出力された周波数特徴に対して重み付け処理を行い、重み付け処理して獲得された周波数特徴を前記いずれか１つの隠れ層における次のニューロンと次の隠れ層における対応する位置のニューロンにそれぞれ入力するステップを含む、請求項２に記載の方法。
前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定する前記ステップは、
前記複数のオーディオフレームの前記複数の周波数帯域上のゲインパラメータに基づいて、前記複数のオーディオフレームの音声状態パラメータを決定するステップであって、前記音声状態パラメータは、対応するオーディオフレームがターゲット音声を含むか否かを特徴付けることに用いられる、ステップと、
前記複数のオーディオフレームの音声状態パラメータに基づいて、前記オーディオ信号にターゲット音声が含まれると決定するステップと、を含む、請求項１に記載の方法。
前記複数のオーディオフレームの前記複数の周波数帯域上のゲインパラメータに基づいて、前記複数のオーディオフレームの音声状態パラメータを決定する前記ステップは、
個々のオーディオフレームに対して、前記オーディオフレームの前記第１周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、前記オーディオフレームの第２周波数帯域範囲における個々の周波数帯域上のゲインパラメータを決定するステップであって、前記第２周波数帯域範囲は、前記第１周波数帯域範囲のサブセットである、ステップと、
前記オーディオフレームの前記第２周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、前記オーディオフレームの音声状態パラメータを決定するステップと、を含む、請求項４に記載の方法。
前記オーディオフレームの前記第２周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、前記オーディオフレームの音声状態パラメータを決定する前記ステップは、
前記オーディオフレームの前記第２周波数帯域範囲における個々の周波数帯域上のゲインパラメータと対応する周波数帯域の重み係数とを乗算し、前記オーディオフレームの前記第２周波数帯域範囲における個々の周波数帯域上の重み付けされたゲインパラメータを獲得するステップと、
前記オーディオフレームの前記第２周波数帯域範囲における各々の周波数帯域上の重み付けされたゲインパラメータを加算し、前記オーディオフレームの総合ゲインパラメータを獲得するステップと、
前記オーディオフレームの総合ゲインパラメータに基づいて、前記オーディオフレームの音声状態パラメータを決定するステップと、を含む、請求項５に記載の方法。
前記オーディオフレームの総合ゲインパラメータに基づいて、前記オーディオフレームの音声状態パラメータを決定する前記ステップは、
前記総合ゲインパラメータがターゲット倍数を増幅した後にアクティブ化閾値よりも大きい場合に、前記音声状態パラメータがターゲット音声を含むものであると決定するステップと、
前記総合ゲインパラメータが前記ターゲット倍数を増幅した後に前記アクティブ化閾値よりも小さいか、又は等しい場合に、前記音声状態パラメータがターゲット音声を含まないものであると決定するステップと、を含む、請求項６に記載の方法。
前記方法は、
前記複数のオーディオフレームのエネルギーパラメータを取得するステップをさらに含み、
前記複数のオーディオフレームの前記複数の周波数帯域上のゲインパラメータに基づいて、前記複数のオーディオフレームの音声状態パラメータを決定する前記ステップは、
前記複数のオーディオフレームの前記複数の周波数帯域上のゲインパラメータと前記複数のオーディオフレームのエネルギーパラメータに基づいて、前記複数のオーディオフレームの音声状態パラメータを決定するステップを含む、請求項４～７のいずれか１項に記載の方法。
前記複数のオーディオフレームの前記複数の周波数帯域上のゲインパラメータと前記複数のオーディオフレームのエネルギーパラメータに基づいて、前記複数のオーディオフレームの音声状態パラメータを決定する前記ステップは、
個々のオーディオフレームに対して、前記オーディオフレームの前記複数の周波数帯域上のゲインパラメータに基づいて、前記オーディオフレームの総合ゲインパラメータを決定するステップと、
前記オーディオフレームの総合ゲインパラメータがターゲット倍数を増幅した後にアクティブ化閾値よりも大きく、且つ前記オーディオフレームのエネルギーパラメータがエネルギー閾値よりも大きい場合に、前記オーディオフレームの音声状態パラメータがターゲット音声を含むものであると決定するステップと、
前記オーディオフレームの総合ゲインパラメータが前記ターゲット倍数を増幅した後に前記アクティブ化閾値よりも小さいか、又は等しく、もしくは前記オーディオフレームのエネルギーパラメータが前記エネルギー閾値よりも小さいか、又は等しい場合に、前記オーディオフレームの音声状態パラメータがターゲット音声を含まないものであると決定するステップと、を含む、請求項８に記載の方法。
前記複数のオーディオフレームの音声状態パラメータに基づいて、前記オーディオ信号にターゲット音声が含まれると決定する前記ステップは、
いずれか１つのオーディオフレームと前記オーディオフレームよりも前のターゲット数量のオーディオフレームの音声状態パラメータが第１条件に合致する場合に、前記オーディオ信号にターゲット音声が含まれると決定するステップを含む、請求項４に記載の方法。
いずれか１つのオーディオフレームと前記オーディオフレームよりも前のターゲット数量のオーディオフレームの音声状態パラメータが第１条件に合致する場合に、前記オーディオ信号にターゲット音声が含まれると決定する前記ステップは、
いずれか１つの前記オーディオフレームに対して、前記オーディオフレームと前記オーディオフレームよりも前の第１ターゲット数量のオーディオフレームの音声状態パラメータに基づいて、前記オーディオフレームが属するオーディオフレームグループのアクティブ化状態を決定するステップであって、前記オーディオフレームグループは、前記オーディオフレームと、前記オーディオフレームよりも前の第１ターゲット数量のオーディオフレームと、を含む、ステップと、
前記オーディオフレームグループと前記オーディオフレームグループよりも前の第２ターゲット数量のオーディオフレームグループのアクティブ化状態が第２条件に合致する場合に、前記オーディオ信号にターゲット音声が含まれると決定するステップであって、前記ターゲット数量は、第１ターゲット数量と前記第２ターゲット数量に基づいて決定される、ステップと、を含む、請求項１０に記載の方法。
前記オーディオフレームと前記オーディオフレームよりも前の第１ターゲット数量のオーディオフレームの音声状態パラメータに基づいて、前記オーディオフレームが属するオーディオフレームグループのアクティブ化状態を決定する前記ステップは、
前記オーディオフレームグループにおいて音声状態パラメータがターゲット音声を含むオーディオフレームの数量が数量閾値を超えるものである場合に、前記オーディオフレームグループのアクティブ化状態がアクティブ化されていると決定するステップと、
前記オーディオフレームグループにおいて音声状態パラメータがターゲット音声を含むオーディオフレームの数量が前記数量閾値を超えないものである場合に、前記オーディオフレームグループのアクティブ化状態がアクティブ化されていないと決定するステップと、を含む、請求項１１に記載の方法。
前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定する前記ステップは、
前記複数のオーディオフレームの前記複数の周波数帯域上のゲインパラメータに基づいて、前記複数のオーディオフレームに対して雑音抑制を行い、複数のターゲットオーディオフレームを獲得するステップと、
前記複数のターゲットオーディオフレームのエネルギーパラメータに基づいて音声アクティビティ検出ＶＡＤを行い、前記複数のターゲットオーディオフレームのＶＡＤ値を獲得するステップと、
前記複数のターゲットオーディオフレームのＶＡＤ値が第３条件に合致する場合に、前記オーディオ信号にターゲット音声が含まれると決定するステップと、を含む、請求項１に記載の方法。
前記ターゲット音声は、ターゲットオブジェクトの前記複数人の音声通話における発言であり、又は、前記ターゲット音声は、前記ターゲットオブジェクトの音である、請求項１に記載の方法。
オーディオ信号の処理装置であって、端末において配置され、前記装置は、
アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得することに用いられる第１取得モジュールであって、前記アプリケーションプログラムにアカウントがログインしており、前記ターゲットシーンとは、前記アカウントが複数人の音声通話においてマイクミュート状態にあることを指す、第１取得モジュールと、
前記オーディオ信号における複数のオーディオフレームのそれぞれの第１周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得することに用いられる第２取得モジュールと、
前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力することに用いられる出力モジュールであって、前記プロンプトメッセージは、前記アカウントのマイクミュート状態を解除するようにプロンプトすることに用いられる、出力モジュールと、を含む、オーディオ信号の処理装置。
電子機器であって、前記電子機器は、１つ、又は複数のプロセッサと、１つ、又は複数のメモリと、を含み、前記１つ、又は複数のメモリにおいて少なくとも１つのコンピュータプログラムが記憶され、前記少なくとも１つのコンピュータプログラムは、前記１つ、又は複数のプロセッサによりロードされ、かつ実行されることで、請求項１～請求項１４のいずれか１項に記載のオーディオ信号の処理方法を実現する、電子機器。
記憶媒体であって、前記記憶媒体において少なくとも１つのコンピュータプログラムが記憶され、前記少なくとも１つのコンピュータプログラムは、プロセッサによりロードされ、かつ実行されることで、請求項１～請求項１４のいずれか１項に記載のオーディオ信号の処理方法を実現する、記憶媒体。
コンピュータプログラム製品であって、前記コンピュータプログラム製品は、少なくとも１つのコンピュータプログラムを含み、前記少なくとも１つのコンピュータプログラムは、プロセッサによりロードされ、かつ実行されることで、請求項１～請求項１４のいずれか１項に記載のオーディオ信号の処理方法を実現する、コンピュータプログラム製品。