JP2024507916A - オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム - Google Patents

オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム Download PDF

Info

Publication number
JP2024507916A
JP2024507916A JP2023551247A JP2023551247A JP2024507916A JP 2024507916 A JP2024507916 A JP 2024507916A JP 2023551247 A JP2023551247 A JP 2023551247A JP 2023551247 A JP2023551247 A JP 2023551247A JP 2024507916 A JP2024507916 A JP 2024507916A
Authority
JP
Japan
Prior art keywords
audio
target
frequency band
audio frame
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023551247A
Other languages
English (en)
Inventor
思宇 ▲張▼
毅 高
程 ▲羅▼
斌 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2024507916A publication Critical patent/JP2024507916A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/18Status alarms
    • G08B21/24Reminder alarms, e.g. anti-loss alarms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本願は、オーディオ信号の処理方法、装置、電子機器、及び記憶媒体を開示し、オーディオの技術分野に属する。方法は、アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得するステップ(201)と、前記オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得するステップ(202)と、前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力するステップ(203)と、を含む。

Description

本願は、オーディオの技術分野に関し、特にオーディオ信号の処理方法、装置、電子機器、及び記憶媒体に関する。
本願は、2021年9月16日に提出された出願番号が第202111087468.5号であり、発明の名称が「オーディオ信号の処理方法、装置、電子機器、及び記憶媒体」である中国特許出願の優先権を主張し、その全部の内容は引用によって本願において組み込まれている。
オーディオ技術の発展と端末機能の多様化に伴って、異なる端末の間では、VoIP(Voice over Internet Protocol、インターネットプロトコルに基づく音声伝送)技術に基づいて音声通話を行うことが可能である。
本願の実施例は、オーディオ信号の処理方法、装置、電子機器、及び記憶媒体を提供し、複数人の音声通話においてユーザのマイクロホンオフ状態においてのマンマシンインタラクション効率を向上させることができる。該技術的解決手段は以下のとおりである。
一態様では、オーディオ信号の処理方法を提供し、端末により実行され、該方法は、
アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得するステップであって、前記アプリケーションプログラムにアカウントがログインしており、前記ターゲットシーンとは、前記アカウントが複数人の音声通話においてマイクミュート状態にあることを指す、ステップと、
前記オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得するステップと、
前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力するステップであって、前記プロンプトメッセージは、前記アカウントのマイクミュート状態を解除するようにプロンプトすることに用いられる、ステップと、を含む。
一態様では、オーディオ信号の処理装置を提供し、端末において配置され、該装置は、
アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得することに用いられる第1取得モジュールであって、前記アプリケーションプログラムにアカウントがログインしており、前記ターゲットシーンとは、前記アカウントが複数人の音声通話においてマイクミュート状態にあることを指す、第1取得モジュールと、
前記オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得することに用いられる第2取得モジュールと、
前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力することに用いられる出力モジュールであって、前記プロンプトメッセージは、前記アカウントのマイクミュート状態を解除するようにプロンプトすることに用いられる、出力モジュールと、を含む。
一態様では、電子機器を提供し、該電子機器は、1つ、又は複数のプロセッサと、1つ、又は複数のメモリと、を含み、該1つ、又は複数のメモリにおいて少なくとも1つのコンピュータプログラムが記憶され、該少なくとも1つのコンピュータプログラムは、該1つ、又は複数のプロセッサによりロードされ、かつ実行されることで、前記オーディオ信号の処理方法を実現する。
一態様では、記憶媒体を提供し、該記憶媒体において少なくとも1つのコンピュータプログラムが記憶され、該少なくとも1つのコンピュータプログラムは、プロセッサによりロードされ、かつ実行されることで、前記オーディオ信号の処理方法を実現する。
一態様では、コンピュータプログラム製品、又はコンピュータプログラムを提供し、前記コンピュータプログラム製品、又は前記コンピュータプログラムは、1つ、又は複数のプログラムコードを含み、前記1つ、又は複数のプログラムコードは、コンピュータ可読記憶媒体において記憶される。電子機器の1つ、又は複数のプロセッサは、コンピュータ可読記憶媒体の中から前記1つ、又は複数のプログラムコードを読み取ることができ、前記1つ、又は複数のプロセッサは、前記1つ、又は複数のプログラムコードを実行し、電子機器が前記オーディオ信号の処理方法を実行することができるようにする。
本願の実施例における技術的解決手段をより明確に説明するために、以下、実施例に対する記述において使用される必要がある図面を簡単に説明する。
本願の実施例が提供するオーディオ信号の処理方法の実施環境の模式図である。 本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。 本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。 本願の実施例が提供するOpus周波数帯域図である。 本願の実施例が提供するオーディオ信号の処理方法の原理模式図である。 本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。 本願の実施例が提供するオーディオ信号の処理方法の原理模式図である。 本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。 本願の実施例が提供するオーディオ信号の処理方法の原理模式図である。 本願の実施例が提供するテキストプロンプトメッセージの模式図である。 本願の実施例が提供するオーディオ信号の処理装置の構造模式図である。 本願の実施例が提供する電子機器の構造模式図である。 本願の実施例が提供する電子機器の構造模式図である。
多端末のリアルタイムオーディオビデオ通話シーンにおいて、1つの端末に対応するユーザが発言し、複数の端末に対応するユーザが沈黙する状況がよく存在し得る。一方、一部のユーザは、沈黙するときにマイクロホンオフ(又はマイクロホンミュートと呼ばれ、すなわち自身の端末のマイクロホンをオフにする)を選択することで、発言しているユーザを邪魔することを避けることができる。
上記シーンにおいて、マイクロホンをオフにしたユーザが発言をスタートする番になれば、該ユーザは、しばしば自分がマイクロホンオフ状態であることを忘れることがあるため、マイクロホンを再度オンにしていない場合に直接発言してしまい、マイクロホンが依然としてオフにされているために、該ユーザのオーディオ信号を収集してその他の端末に伝送することができない。このとき、その他の端末は、該ユーザに自分がマイクロホンオフ状態であることを注意するようにプロンプトする必要があり、該ユーザはマイクロホンをオンにした後に先ほどの発言を再度繰り返す必要があるため、マンマシンインタラクション効率が低い。
以下、本願の実施例に関する用語を解釈する。
インターネットプロトコルに基づく音声伝送(Voice over Internet Protocol、VoIP):VoIPは、音声通話技術であり、インターネットプロトコル(Internet Protocol、IP、インターネットワーキングプロトコルとも呼ばれる)を経由して音声通話、及びマルチメディア会議を達成し、つまりインターネットを経由して通信する。VoIPのその他の非公式名称は、IP電話、インターネット電話、広帯域電話、広帯域電話サービス等を含む。VoIPは、VoIP電話、スマートフォン、パーソナルコンピュータを含む多くのインターネットアクセス機器に用いられ、セルラネットワーク、WiFi(Wireless Fidelity、無線忠実性)を介して通話、及びショートメールの送信を行うことを可能にする。
VoIP技術において、送信側機器は、オーディオ圧縮アルゴリズムによってオーディオ信号に対して符号化圧縮を行った後に、IPプロトコルに従って符号化圧縮後のオーディオ信号をパケット化し、音声データパケットを獲得し、IPネットワークを介して音声データパケットを受信側機器に対応するIPアドレスに送信する。受信側機器は、音声データパケットを解析、及び解除圧縮した後に、音声データパケットをオリジナルのオーディオ信号に復元し、それによりインターネットを介してオーディオ信号をトランスポートするという目的を達成する。
音声アクティビティ検出(Voice Activity Detection、VAD):音声端点検出、音声境界検出、ミュート抑制、音声アクティビティ測定等とも呼ばれ、VADの目的は、オーディオ信号ストリームから長時間のミュート期間を識別してキャンセルすることで、ビジネス品質を低減させない状況において電話チャネル資源を節約するという作用を達成することである。VADは、VoIP電話アプリケーションの重要な構成部分であり、貴重な帯域幅資源を節約することができ、ユーザが感じるエンドツーエンドの遅延を減少させることに有利である。
直交ミラーフィルタ(Quadrature Mirror Filter、QMF):QMFは、1グループのフィルタであり、常に入力信号に対して周波数帯域分離を行うことに用いられる。たとえば、入力信号を高周波数帯域信号(高周波信号と略称する)と低周波数帯域信号(低周波信号と略称する)に分離する。従って、QMFフィルタグループは、サブバンド信号分解の常用手段であり、信号帯域幅を低減させることができ、各々のサブバンドがチャンネルによりスムーズに処理することができるようにする。
電気電子技術者協会(Institute of Electrical and Electronics Engineers、IEEE)により制定されたスペクトル分割表に従って、低周波信号の周波数帯域範囲は、30~300kHzであり、中間周波信号の周波数帯域範囲は、300~3000kHzであり、高周波信号の周波数帯域範囲は、3~30MHzであり、一方、周波数帯域範囲が30~300MHzであるものは、超高周波信号であり、周波数帯域範囲が300~1000MHzであるか、又はより高いものは、特高周波信号である。ここで、Hzとは、ヘルツを指し、周波数の物理学単位であり、kHzは、すなわちキロヘルツであり、MHzは、すなわちメガヘルツである。
音響エコーキャンセル(Acoustic Echo Cancellation、AEC):音響エコーは、ハンズフリー、又は会議アプリケーションにおいて、スピーカの音がマイクロホンに複数回フィードバックされることに起因することである。いくつかのシーンにおいて、音響エコーキャンセルの処理方法は、1)端末Aの複数人通話システムが端末Bのオーディオ信号を受信することと、2)端末Bのオーディオ信号がサンプリングされ、このサンプリングがエコーキャンセルの参照信号と呼ばれる、ことと、3)その後、端末Bのオーディオ信号を端末Aのスピーカー、及び音響エコーキャンセラに送り込むことと、4)端末Bのオーディオ信号が端末Aに対応するユーザが発する人の声とともに端末Aのマイクロホンによりピックアップされることと、5)マイクロホンによりピックアップされた信号が音響エコーキャンセラに送られ、元のサンプリングされた参照信号と比較され、マイクロホンによりピックアップされた信号の中から参照信号(すなわち端末Bのオーディオ信号)を除去し、音響エコーキャンセルの目的を達成することと、を含む。
雑音抑制(Noise Suppression、NS):雑音抑制技術は、オーディオ信号における背景雑音をキャンセルし、オーディオ信号の信号対雑音比、及び了解度を改善し、人、及び機械により明確に視聴させることに用いられる。シングルチャンネル雑音抑制は、通常、雑音推定、ゲイン係数推定の2つの部分を含む。
回帰型ニューラルネットワーク(Recurrent Neural Network、RNN):RNNは、シーケンス(Sequence)データを入力とし、シーケンスの進化方向に再帰(Recursion)を行い、且つすべてのノード(回帰型ユニット)をチェーンで接続する再帰ニューラルネットワークの1種である。たとえば、オーディオ信号のオーディオフレームシーケンスは、典型的なシーケンスデータの1種である。RNNは、記憶性を有し、パラメータが共有され、且つチューリングが完全であり、従ってシーケンスデータの非線形特徴を学習するときに一定の長所を有する。RNNは、自然言語処理(Natural Language Processing、NLP)、たとえば雑音抑制、音声処理、音声識別、言語モデリング、機械翻訳等の分野で応用されており、各種の時間シーケンスの予報にも用いられる。
自動ゲイン制御(Automatic Gain Control、AGC):自動ゲイン制御とは、増幅回路のゲインを信号強度に伴って自動的に調整する自動制御方法を指す。AGCの定義は、自動レベル制御(Automatic Level Control、ALC)と一致するが、ただ両者の作用メカニズムは異なる。ここで、ALCとは、リピータが最大ゲインで作業し、且つ出力が最大電電力あるときに、入力信号レベルを増加させて、リピータが出力信号レベルを制御する能力を向上させることを指す。比較的に言えば、ALCは、入力信号の強度をフィードバック制御することによって出力信号レベルを制御するという目的を達成するが、AGCは、リピータのゲインをフィードバック制御することによってこの目的を達成する。
ゲインパラメータ(Gain):ゲイン値とも呼ばれ、ゲインの一般的な意味は、簡単に言えば、増幅倍数、又は増幅率である。サウンドシステム内において、一般的に信号ソースの入力レベルが増幅のゲインを決める。本願の実施例において関連するゲインパラメータとは、雑音抑制モデルが個々のオーディオフレームに対して雑音抑制を行うときに予測した、所与の第1周波数帯域範囲内の個々の周波数帯域上の増幅率を指し、雑音抑制の目的は、人の声を増幅して雑音を低減させることである。従って、個々のオーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい。選択可能に、ゲインパラメータは、0よりも大きいか、又は等しく、且つ1よりも小さいか、又は等しい1つの数値である。
エネルギーパラメータ:エネルギー値とも呼ばれ、1つのオーディオフレームのエネルギーパラメータは、該オーディオフレームの信号振幅を特徴付けることに用いられる。
図1は、本願の実施例が提供するオーディオ信号の処理方法の実施環境の模式図である。図1に参照されるように、該実施環境には第1端末120、サーバ140、及び第2端末160が含まれる。
第1端末120には、複数人の音声通話をサポートするアプリケーションプログラムがインストールされて動作しており、ここで、複数人の音声通話は、VoIP技術に基づく複数人のオーディオ通話、又は複数人のビデオ通話を含む。選択可能に、該アプリケーションプログラムは、ソーシャルアプリケーション、エンタープライズアプリケーション、IP電話アプリケーション、遠隔会議アプリケーション、遠隔共同診察アプリケーション、通話アプリケーション等を含むが、これらに限定されず、本願の実施例は、該アプリケーションプログラムのタイプを限定しない。
第1端末120、及び第2端末160は、有線、又は無線通信方式によってサーバ140と直接、又は間接的に通信接続される。
サーバ140は、1台のサーバ、複数台のサーバ、クラウドコンピューティングプラットフォーム、又は仮想化センタのうちの少なくとも1種を含む。サーバ140は、複数人の音声通話をサポートするアプリケーションプログラムのためにバックグラウンドサービスを提供することに用いられる。選択可能に、サーバ140は、主要な計算作業を担当し、第1端末120、及び第2端末160は、二次計算作業を担当するか、又は、サーバ140は、二次計算作業を担当する。第1端末120、及び第2端末160は、主要な計算作業を担当するか、又は、サーバ140、第1端末120、及び第2端末160の三者の間は、分散型コンピューティングアーキテクチャを採用して協調コンピューティングを行う。
選択可能に、サーバ140は、独立した物理サーバであるか、又は複数の物理サーバからなるサーバクラスタ又は分散システムであり、もしくはクラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウド記憶、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、コンテンツ配信ネットワーク(Content Delivery Network、CDN)、及びビッグデータと人工知能プラットフォーム等の基礎的なクラウドコンピューティングサービスを提供するクラウドサーバである。
第2端末160には、複数人の音声通話をサポートするアプリケーションプログラムがインストールされて動作しており、ここで、複数人の音声通話は、VoIP技術に基づく複数人のオーディオ通話、又は複数人のビデオ通話を含む。選択可能に、該アプリケーションプログラムは、ソーシャルアプリケーション、エンタープライズアプリケーション、IP電話アプリケーション、遠隔会議アプリケーション、遠隔共同診察アプリケーション、通話アプリケーション等を含むが、これらに限定されず、本願の実施例は、該アプリケーションプログラムのタイプを限定しない。
二人の音声通話シーンを例とすると、第1端末120は、第1ユーザが使用する端末であり、第1ユーザは、第1端末120上でソーシャルアプリケーションを起動し、第1ユーザは、該ソーシャルアプリケーションにおいて第1アカウントでログインし、かつ第2アカウントとのチャットインタフェースにおける通話オプションに基づいて、第1端末120がサーバ140に第2アカウントについての通話要求を送信するようにトリガする。該通話要求は、第2アカウントが2人の音声通話に加入することを要求することに用いられる。サーバ140は、該通話要求を該第2アカウントでログインしている第2端末160に転送する。第2アカウントが該2人の音声通話に加わることに同意すれば、第1端末120、及び第2端末160は、VoIP技術に基づいてオンライン音声交流を行うことができる。ここでは、2つの端末が複数人の音声通話を行うことを例として説明した。本願の実施例は、さらに3人、又は3人以上の音声通話シーンに適用できるが、ここでは詳細な説明を省略する。該2人の音声通話シーンにおいて、第1ユーザ、又は第2ユーザが一時的に話したくなければ、該ソーシャルアプリケーションの通話インタフェースにおいて随時に自身の対応するアカウントにマイクロホンをオフにする(又はマイクロホンミュートと呼ばれ、すなわち自身の端末のマイクロホンをオフにする)ことで、該2人の音声通話において雑音を発して、通話品質に影響を与えることを回避することができる。
複数人の遠隔会議シーンを例とすると、第1端末120は、会議の司会者が使用する端末であり、会議の司会者は、第1端末120上で遠隔会議アプリケーションを起動し、かつ1つの新たなネットワーク会議を作成し、該ネットワーク会議のスタート時間を指定する。サーバ140は、該ネットワーク会議に会議番号を割り当てる。該ネットワーク会議のスタート時間に到達した後に、会議の司会者は、該遠隔会議アプリケーションにおいて該会議番号を入力し、それにより該ネットワーク会議にアクセスする。同じように、第2端末160は、該ネットワーク会議のいずれか1人の参加者が使用する端末である。参加者は、該遠隔会議アプリケーションにおいて該会議番号を入力し、それにより該ネットワーク会議にアクセスする。通常の場合に、ネットワーク会議の進行過程においては、会議の司会者が講演する必要があり、このような場合に、参加者は、自身の対応するアカウントのマイクロホンをオフにするように設定されており、会議の司会者の講説を邪魔することを防止できる。
選択可能に、第1端末120、及び第2端末160上でインストールされるアプリケーションプログラムは、同じであるか、或いは、2つの端末上でインストールされるアプリケーションプログラムが異なるオペレーティングシステムプラットフォームの同一タイプのアプリケーションプログラムであるか、或いは、2つの端末上でインストールされるアプリケーションプログラムが同一タイプのアプリケーションプログラムが異なる型番の端末向けに開発された異なるバージョンである。たとえば、第1端末120がデスクトップコンピュータであるとすると、PC(Personal Computer、パーソナルコンピュータ)側アプリケーションがインストールされ、第2端末160がスマートフォンであるとすると、移動側アプリケーションがインストールされる。
第1端末120は、複数の端末のうちの1つを総称して指してもよく、第2端末160は、複数の端末のうちの1つを総称して指してもよく、本願の実施例は、第1端末120、及び第2端末160のみを列挙して説明する。第1端末120、及び第2端末160の機器タイプは、同じであるか、又は異なり、該機器タイプは、スマートフォン、タブレットパソコン、スマートスピーカー、スマートウォッチ、ノートパソコン、又はデスクトップコンピュータのうちの少なくとも1種を含むが、これらに限定されない。たとえば、第1端末120は、デスクトップコンピュータであってもよく、第2端末160は、スマートフォンであってもよく、又は、第1端末120、及び第2端末160は、いずれもスマートフォン、又はその他のハンドヘルド型携帯通信機器である。
当業者は、上記端末の数量がより多くてもよく、又はより少なくてもよいことを知ることができる。例えば、上記端末は、1つのみであってもよく、又は上記端末は、数十、又は数百、又はより多くの数量であってもよい。本願の実施例は、端末の数量、及び機器タイプを限定しない。
上記実施環境に基づき、オーディオビデオ通信システムにおいて、特に複数人の音声通話(例えば複数人のリアルタイムオーディオビデオ通話、複数人の遠隔会議等)シーンにおいて、1人が発言するが、複数人が沈黙する状況がよく存在し、一部のユーザは、沈黙するときにマイクロホンオフを選択することで、発言しているユーザを邪魔することを避ける。マイクロホンをオフにしたユーザが発言をスタートする番になると、該ユーザは、しばしば自分がマイクロホンオフ状態であることを忘れていることがあるため、マイクロホンを再度オンにしていない(すなわちマイクロホンオフを解除していない)状況で直接発言してしまう。マイクロホンが依然としてオフにされているため、該ユーザのオーディオ信号を収集してその他の端末に伝送することができない。このとき、該ユーザは複数人の音声通話において発言していると思い込んでいるが、その他のユーザには応答できていない。該ユーザが自分でマイクロホンオフ状態であることに気付かない場合には、他のユーザがプロンプトしてはじめて該ユーザは自分がマイクロホンオフ状態であることに気付くことになり、該ユーザは、マイクロホンをオンにした後に先ほどの発言をもう一度繰り返す必要がある。従ってマンマシンインタラクション効率が低く、ユーザ体験に深刻な影響を与える。
上記状況に鑑みて、本願の実施例は、オーディオ信号の処理方法を提供する。もしユーザが複数人の音声通話において自身のアカウントをマイクミュート状態に設定していれば、マイクミュート状態において、端末上のアプリケーションプログラムは、依然としてマイクロホンを介してユーザのオーディオ信号を収集することができるが、収集したオーディオ信号を該複数人の音声通話に参加するその他のアカウントに送信することはない。アプリケーションプログラムは、マイクロホンにより収集されたオーディオ信号に対して信号分析、及び処理を行い、該オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを利用することによって、該オーディオ信号にターゲット音声が含まれるか否かを判断する。該オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクミュート状態の解除を忘れて発言をスタートしていることを意味し、従ってプロンプトメッセージを出力してユーザにマイクミュート状態を解除するようにプロンプトする。逆に、該オーディオ信号においてターゲット音声が含まれていなければ、該オーディオ信号における雑音の割合が非常に高いことを表しており、ユーザが発言していないか、又はユーザが雑談している(複数人の音声通話において主動的に話したいのではない)ことを意味するため、従っていかなるプロンプトも行う必要がない。
図2は、本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。図2に参照されるように、該実施例は、電子機器により実行され、該電子機器が端末であることを例として説明すると、該端末とは、複数人の音声通話に参加するいずれか1つの端末、たとえば上記実施環境における第1端末120、又は第2端末160を指し、以下、詳述する。
201:端末は、アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得する。該ターゲットシーンとは、該アプリケーションプログラムにログインしているアカウントが複数人の音声通話においてマイクミュート状態にあることである。
端末は、該複数人の音声通話に参加するいずれか1人のユーザが使用する電子機器であり、端末上で複数人の音声通話をサポートするアプリケーションプログラムがインストールされて動作している。該アプリケーションプログラムにアカウントがログインしており、ターゲットシーンとは、該アカウントが複数人の音声通話においてマイクミュート状態にあることを指す。選択可能に、該アプリケーションプログラムは、ソーシャルアプリケーション、エンタープライズアプリケーション、IP電話アプリケーション、遠隔会議アプリケーション、遠隔共同診察アプリケーション、通話アプリケーション等を含むが、これらに限定されず、本願の実施例は、該アプリケーションプログラムのタイプを限定しない。
いくつかの実施例において、該アプリケーションプログラムは、端末の機器タイプの違いよって異なる。例えば、もし端末がノートパソコン、デスクトップコンピュータであるなら、該アプリケーションプログラムは、PC側アプリケーションであり、もし端末がスマートフォンであるなら、該アプリケーションプログラムは、移動側アプリケーションであり、本願の実施例は、これを限定しない。
202:端末は、該オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得する。
いくつかの実施例において、端末は、該オーディオ信号に前処理をして第1信号を獲得し、続いて、該第1信号における複数のオーディオフレームを雑音抑制モデルに入力し、該雑音抑制モデルによって該複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの該第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力する。ここで、該オーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい。
上記過程において、該複数のオーディオフレームにおける個々のオーディオフレームに対して、該オーディオフレームの第1周波数帯域範囲内の個々の周波数帯域上のゲインパラメータをいずれも決定することによって、雑音抑制過程において、人の声の周波数帯域のために雑音周波数帯域よりも高いゲインパラメータを割り当てるため、オーディオ信号における人の声の成分を効果的に強化し、オーディオ信号における雑音成分を抑制するという効果を達成することができる。従って各々のオーディオフレームの各々の周波数帯域上のゲインパラメータによって、各々のオーディオフレームにターゲット音声が含まれるか否かを識別することに寄与することができ、それによりオーディオ信号全体にターゲット音声が含まれるか否かを決定することができる。
203:端末は、該ゲインパラメータに基づいて該オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力し、該プロンプトメッセージは、該マイクミュート状態を解除するようにプロンプトすることに用いられる。
ここで、プロンプト情報は、上記アカウントのマイクミュート状態を解除するようにプロンプトすることに用いられる。該ターゲット音声は、ターゲットオブジェクトの該複数人の音声通話における発言であり、又は、該ターゲット音声は、該ターゲットオブジェクトの音である。ここで、該ターゲットオブジェクトとは、本端末を介して該複数人の音声通話に参加するユーザを指す。
いくつかの実施例において、もし該ターゲット音声がターゲットオブジェクトの該複数人の音声通話における発言であれば、該オーディオ信号にターゲットオブジェクトの該複数人の音声通話における発言が含まれると検出した状況においてのみ、プロンプトメッセージを外部に出力することになる。もし該オーディオ信号にターゲットオブジェクトの音のみが含まれてはいるが、該音が該複数人の音声通話における発言でなければ、ユーザが雑談していることを意味するが、雑談するコンテンツが複数人の音声通話において伝送されたくない可能性があることを意味する。又は、該オーディオ信号においてターゲットオブジェクトの音が含まれておらず、ユーザが音(声)を発していないがいくつかの背景雑音を収集している可能性があることを意味する。上記の2つの場合には、いずれもプロンプトメッセージを外部に出力することはなく、ユーザがいつ複数人の音声通話において発言したいか、かつこのときプロンプトメッセージを出力するかを高精度に識別することができるため、ユーザが雑談しているときにユーザにプロンプトメッセージを出力することによる邪魔を回避することができる。
いくつかの実施例において、該ターゲット音声がターゲットオブジェクトの音であれば、オーディオ信号にターゲットオブジェクトの音が含まれると検出した場合に、プロンプトメッセージを外部に出力することになる。該オーディオ信号においてターゲットオブジェクトの音が含まれていなければ、プロンプトメッセージを外部に出力しない。このようにターゲットオブジェクトの音を検出する感度を向上させることができ、ユーザが比較的短い一言を話すが機械により雑談と判断されてプロンプトしない可能性があるというシーンの発生を回避することができ、従って、ターゲットオブジェクトの音についての検出感度を向上させる。
いくつかの実施例において、端末は、個々のオーディオフレームの個々の周波数帯域上のゲインパラメータに基づいて、該オーディオ信号にターゲット音声が含まれるか否かを判断することができる。ターゲット音声が含まれていれば、ユーザがマイクミュート状態において発言をスタートして無効なやり取りを引き起こすことを意味しており、この場合、プロンプトメッセージを外部に出力することで、ユーザに該マイクミュート状態を解除するようにプロンプトする。ターゲット音声が含まれていなければ、ユーザが発言をスタートしていないか、又はユーザが雑談している(複数人の音声通話において主動的に話したいのではない)ことを意味し、従って、依然としてマイクミュート状態を保持し、いかなるプロンプトを行う必要もない。
いくつかの実施例において、該オーディオ信号にターゲット音声が含まれるか否かを判断するときに、端末は、個々のオーディオフレームの個々の周波数帯域上のゲインパラメータに基づいて判定し、すなわち雑音抑制モデルが個々のオーディオフレームに対して出力したゲインパラメータに基づいてVAD意思決定を行い、それにより該オーディオ信号にターゲット音声が含まれるか否かを決定し、VAD意思決定フローを簡素化し、VAD意思決定の時間長さを短縮することができる。
上記方式は、通常、ターゲット音声がターゲットオブジェクトの音であるというシーンに適用され、オーディオ信号にターゲットオブジェクトの音が含まれるか否かを判断することのみを要件としており、個々のオーディオフレームの個々の周波数帯域上のゲインパラメータを利用してオーディオ信号にターゲットオブジェクトの音が含まれるか否かを比較的良好に判断することができる。もちろん、上記方式は、ターゲット音声がターゲットオブジェクトの該複数人の音声通話における発言であるというシーンにも用いられてもよく、雑談するときには、通常、継続的な音の変動が出現することはないため、VAD意思決定の条件のみをより厳密に設定する必要がある。例えば連続する複数のオーディオフレームの音声アクティビティパラメータすなわちVAD値が1であるだけでオーディオ信号にターゲット音声が含まれると決定すればよく、本願の実施例は、これを限定しない。
いくつかの実施例において、該オーディオ信号にターゲット音声が含まれるか否かを判断するときに、端末は、個々のオーディオフレームの個々の周波数帯域上のゲインパラメータと個々のオーディオフレームのエネルギーパラメータを組み合わせて総合的な判定を行い、すなわち雑音抑制モデルが個々のオーディオフレームに対して出力したゲインパラメータと個々のオーディオフレームのエネルギーパラメータに基づいてVAD意思決定を行い、それにより該オーディオ信号にターゲット音声が含まれるか否かを決定する。ゲインパラメータとエネルギーパラメータの2つの次元の影響因子が導入されるため、オーディオ信号にターゲット音声が含まれるか否かをより正確に識別し、それによりVAD意思決定の正確性を向上させることができる。
上記方式は、通常、ターゲット音声がターゲットオブジェクトの該複数人の音声通話における発言であるというシーンに適用される。オーディオ信号においてターゲットオブジェクトの音を識別する必要があるだけでなく、さらにターゲットオブジェクトの音が雑談であるか、発言であるかを判断する必要がある。ターゲットオブジェクトが発言するときの音量が比較的大きい、すなわち発言時の信号がVAD値が1であるだけでなく、且つさらに比較的大きなエネルギーパラメータを有する一方で、雑談時の音量が比較的小さい、すなわち雑談時の信号がVAD値のみが1であるが比較的小さいエネルギーパラメータを有することを考慮する。従って、ゲインパラメータとエネルギーパラメータの2つの次元を組み合わせて総合的な意思決定を行うと、オーディオ信号にターゲットオブジェクトの該複数人の音声通話における発言が含まれるか否かを比較的良好に判断することができる。もちろん、上記方式は、ターゲット音声がターゲットオブジェクトの音であるというシーンにも用いられてもよく、いくつかのVAD値が1であるがエネルギーパラメータが比較的小さい(たとえばマイクロホンとの距離が比較的遠い)オーディオ信号を正確に検出するようにし、それによりVAD意思決定の正確性を向上させることができる。
いくつかの実施例において、該オーディオ信号にターゲット音声が含まれるか否かを判断するときに、端末は、個々のオーディオフレームの個々の周波数帯域上のゲインパラメータに基づいて各々のオーディオフレームに対して雑音抑制を行い、雑音抑制後の各々のターゲットオーディオフレームを獲得し、続いて各々のターゲットオーディオフレームに対してエネルギーパラメータを計算し、さらにVADアルゴリズムを利用して各々のターゲットオーディオフレームのエネルギーパラメータに対して音声アクティビティ検出を行うことで、該オーディオ信号にターゲット音声が含まれるか否かを決定し、同様にオーディオ信号に含まれるのがターゲット音声であるか、雑音であるかを正確に識別し、それによりVAD意思決定の正確性を向上させることができる。
上記方式は、同様にターゲット音声がターゲットオブジェクトの該複数人の音声通話における発言であるか、又はターゲット音声がターゲットオブジェクトの音であるという2種のシーンに適用され、プロンプトする必要があるターゲット音声の違いに基づいてのみ、VADアルゴリズムを反復訓練するときに訓練データを調整すればよく、従って比較的高い移植可能性と移行可能性を有し、高い可用性と幅広い応用シーンを有する。
いくつかの実施例において、端末は、プロンプトメッセージを出力するときに端末タイプの違いに基づいて適応する。端末がパーソナルコンピュータ、ノートパソコン等の非移動側機器であれば、端末は、デスクトップ側にプロンプトメッセージを出力し、端末が移動側機器であれば、端末は、移動側にプロンプトメッセージを出力し、それにより異なるタイプの端末との互換性が可能になる。
いくつかの実施例において、端末は、プロンプトメッセージを外部にのみ出力するが、ユーザがマイクミュート状態を手動で解除する必要があるため、ユーザがマイクミュート状態を解除するか否かを制御する自律性を保証することができる。いくつかの実施例において、端末は、オーディオ信号にターゲット音声が含まれると検出した場合に、マイクミュート状態を自動的に解除し、かつマイクミュート状態を解除したことを外部にプロンプトする。このとき、ユーザがマイクミュート状態を手動で解除する必要がなく、ユーザ操作の複雑さを低減させることができる。
いくつかの実施例において、プロンプトメッセージの出力方式は、テキスト形式出力、音声形式出力、アニメーション形式出力、動的形式出力等を含むが、これらに限定されず、本願の実施例は、該プロンプトメッセージの出力方式を限定しない。
いくつかの実施例において、端末は、該複数人の音声通話の通話インタフェースにおいてテキストプロンプトメッセージを表示し、該テキストプロンプトメッセージは、ユーザにマイクミュート状態を解除するようにプロンプトすることに用いられる。たとえば、該テキストプロンプトメッセージは、「マイクロホンがミュートになっているため、マイクロホンのミュートを解除してから発言してください」である。選択可能に、該テキストプロンプトメッセージは、ポップアップウィンドウの形式で該通話インタフェースにおいてポップアップされ、又は、該テキストプロンプトメッセージは、フローティング層の形式で該通話インタフェースにおいてフローティングされる、又は、該テキストプロンプトメッセージは、字幕の形式で該通話インタフェースにおいてスクロール表示、又は点滅によりプロンプトされるが、本願の実施例は、テキストプロンプトメッセージの表示方式を限定しない。選択可能に、該テキストプロンプトメッセージは、該通話インタフェースにおいてある期間表示された後に自動的に消失するか、又は、該テキストプロンプトメッセージが、ユーザが該テキストプロンプトメッセージを手動でオフにするまで、該通話インタフェースにおいて継続的に表示されるが、本願の実施例は、該テキストプロンプトメッセージのオフ方式を限定しない。
いくつかの実施例において、端末は、音声プロンプトメッセージを外部に再生し、該音声プロンプトメッセージは、ユーザにマイクミュート状態を解除するようにプロンプトすることに用いられる。たとえば、該音声プロンプトメッセージは、「マイクロホンがミュートになっているため、マイクロホンのミュートを解除してから発言してください」ことである。
いくつかの実施例において、端末は、該複数人の音声通話の通話インタフェースにおいてアニメーションプロンプトメッセージ、又は動的プロンプトメッセージを再生する。該アニメーションプロンプトメッセージ、又は動的プロンプトメッセージは、ユーザにマイクミュート状態を解除するようにプロンプトすることに用いられる。選択可能に、該アニメーションプロンプトメッセージ、又は動的プロンプトメッセージは、該通話インタフェースにおいて1回再生された後に自動的に消失するか、又は、該アニメーションプロンプトメッセージ、又は動的プロンプトメッセージは、ユーザが該アニメーションプロンプトメッセージ、又は動的プロンプトメッセージを手動でオフにするまで、該通話インタフェースにおいて循環再生される。本願の実施例は、該アニメーションプロンプトメッセージ、又は動的プロンプトメッセージのオフ方式を限定しない。
上記選択可能な技術的解決手段は、任意の組み合わせを採用して本開示の選択可能な実施例を形成することができ、ここでは詳細な説明を省略する。
本願の実施例が提供する方法は、複数人の音声通話においてマイクミュート状態にある場合に、アプリケーションプログラムが依然としてユーザのオーディオ信号を収集はするが、収集したオーディオ信号を該複数人の音声通話に参加するその他のアカウントに送信することはない。アプリケーションプログラムは、該オーディオ信号に対して信号分析、及び処理を行い、該オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを利用して、該オーディオ信号にターゲット音声が含まれるか否かを判断し、該オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクミュート状態の解除を忘れて発言をスタートしていることを意味し、そのためプロンプトメッセージを外部に出力し、ユーザにマイクミュート状態を解除するようにタイムリーにプロンプトして、ユーザがマイクミュート状態にあることに気付かないことによるコミュニケーション効率の損失を低減させて、マンマシンインタラクション効率を向上させ、ユーザ体験を最適化することができる。
図3は、本願の実施例が提供するオーディオ信号の処理方法のフローチャートであり、図3に参照されるように、該実施例は、電子機器により実行される。該電子機器が端末であることを例として説明すると、該端末とは、複数人の音声通話に参加するいずれか1つの端末、たとえば上記実施環境における第1端末120、又は第2端末160を指す。
本願の実施例において、端末がどのように個々のオーディオフレームの個々の周波数帯域上のゲインパラメータに基づいて、該オーディオ信号にターゲット音声が含まれるか否かを判定するか、すなわち雑音抑制モデルが個々のオーディオフレームに対して出力したゲインパラメータに基づいてVAD意思決定を行うかを詳細に説明する。該実施例は、以下のステップを含む。
301:端末は、アプリケーションプログラムにおいて複数人の音声通話にアクセスする。
複数人の音声通話は、VoIP技術に基づく複数人のオーディオビデオ通話を含む。例えば、複数人のオーディオ通話、複数人のビデオ通話、又は一部のユーザがオーディオ通話方式でアクセスし、一部のユーザがビデオ通話方式でアクセスする等があるが、本願の実施例は、該複数人の音声通話のタイプを限定しない。選択可能に、該複数人の音声通話は、ソーシャルアプリケーションに基づいて指定されたアカウントに対して開始される2人のリアルタイムオーディオビデオ通話(例えば2人の音声通話、又は2人のビデオ通話)、又は、ソーシャルアプリケーションに基づいて指定されたアカウントグループ内で開始される複数人のリアルタイムオーディオビデオ通話(例えば複数人の音声通話、又は複数人ビデオ通話)、又は、会議アプリケーションに基づいて開始される複数人の遠隔会議(例えば複数人の音声会議、又は複数人のビデオ会議)等を含む。
いくつかの実施例において、ユーザは、該端末上で該複数人の音声通話をサポートするアプリケーションプログラムを起動する。たとえば、該起動操作は、ユーザが端末のデスクトップ上で該アプリケーションプログラムのアイコンに対してタッチ操作を行うことであり、又は、ユーザがスマートアシスタントに該アプリケーションプログラムに対する起動命令を入力することであり、該起動命令は、音声命令、又はテキスト命令を含むが、本願の実施例は、起動命令のタイプを限定しない。選択可能に、ユーザが該アプリケーションプログラムのために自動起動条件を設定しているときに、端末が該アプリケーションプログラムに合致する自動起動条件を検出したときに、オペレーティングシステムにより該アプリケーションプログラムを自動的に起動する。たとえば、該自動起動条件は、オープニング自動起動、又はタイミング自動起動であり、例えば指定された会議をスタートする前の5分に該アプリケーションプログラムを自動的に起動する、等であるが、本願の実施例は、該アプリケーションプログラムの自動起動条件を限定しない。
アプリケーションプログラムが起動された後に、該アプリケーションプログラムのメインインタフェースが表示され、該メインインタフェースにおいてアカウントログインオプションが表示される。ユーザは、該アカウントログインオプションに対してトリガ操作を実行する。該アプリケーションプログラムにおいて該ユーザのアカウントがログインしており、かつログインが完了した後に該メインインタフェースに戻る。いくつかの実施例において、ユーザは、アカウントログインが完了した後に、該アプリケーションプログラムに基づいて該複数人の音声通話においてアクセスする。端末は、該複数人の音声通話の通話インタフェースを表示する。該通話インタフェースにおいて該複数人の音声通話にアクセスする各々のアカウント、及びマイク設定制御部材が表示される。該マイク設定制御部材は、本アカウントの該複数人の音声通話におけるマイクミュート状態をオンにするか、又は解除することに用いられる。
いくつかの実施例において、複数人のリアルタイムオーディオビデオ通話シーンにおいてユーザが該複数人の音声通話にアクセスする方式は、ターゲットアカウントの通話要求を受信したことに応答して、該アプリケーションプログラムにおいて通話要求インタフェースを表示することを含む。選択可能に、該通話要求インタフェースにおいてターゲットアカウントのアバターピクチャ、受け付けオプション、及び切るオプションが表示される。ユーザは、該受け付けオプションに対してトリガ操作を実行して、該複数人の音声通話にアクセスすることを可能にする。選択可能に、該ターゲットアカウントが該複数人の音声通話の開始者アカウントであれば、対応するシーンは、開始者がユーザに通話要求を開始することであり、又は、該ターゲットアカウントが該複数人の音声通話にアクセスしたいずれか1人の参加者アカウントであれば、対応するシーンは、該参加者がユーザを招待して該複数人の音声通話において加入することであるが、本願の実施例は、これを限定しない。
いくつかの実施例において、複数人の会議シーンにおいて、ユーザが該複数人の音声通話にアクセスする方式は、ユーザが該アプリケーションプログラムの会議検索ボックスにおいてターゲット会議の会議番号を入力することにより該会議番号に対応した該ターゲット会議を問い合わせ、かつ表示することを含む。ユーザは、該ターゲット会議の会議入りオプションをクリックすることによって、該複数人の音声通話にアクセスすることを可能にする場合、又は、ユーザがターゲット会議を招集し、又はマーキングし、かつ該ターゲット会議についての会議リマインダ機能をオンにする場合に、該ターゲット会議をスタートする前のターゲット期間内(例えばスタート前の5分)にユーザが該アプリケーションプログラムを起動すれば、該アプリケーションプログラムは、該ターゲット会議の会議スタートリマインダ情報、及び会議入りオプションを自動的にポップアップし、ユーザが該ターゲット会議の会議入りオプションをクリックして該複数人の音声通話にアクセスすることを可能にする。
いくつかの実施例において、異なるタイプの複数人の音声通話について、該通話インタフェースにおいて該複数人の音声通話にアクセスする各々のアカウントに対する表示方式も同じではない。たとえば、複数人のオーディオ通話について、該通話インタフェースにおいて各々のアカウント各自のアバターピクチャが表示され、複数人のビデオ通話について、該通話インタフェースにおいて各々のアカウント各自のビデオストリームが表示され、複数人の会議について、該通話インタフェースにおいて会議の主題、及び会議の講演者が導入したプレゼンテーション(PowerPoint、PPT)が表示される。
302:端末は、該複数人の音声通話において該アプリケーションプログラムにログインしているアカウントをマイクミュート状態に設定する。
端末は、該通話インタフェースにおいてマイク設定制御部材を表示している。マイク設定制御部材のイネーブル状態は、マイクオン状態に対応しており、マイク設定制御部材のディセーブル状態は、マイクミュート状態に対応する。もしアカウントが現在マイクミュート状態にあり、すなわちマイク設定制御部材が現在ディセーブル状態であれば、ユーザが該マイク設定制御部材をクリックするときに、端末は、該マイク設定制御部材をディセーブル状態からイネーブル状態に切り替えて、該マイクミュート状態を解除することを可能にする。もし該アカウントが現在マイクオン状態にあり、すなわちマイク設定制御部材が現在イネーブル状態であるなら、ユーザが該マイク設定制御部材をクリックするときに、端末は、該マイク設定制御部材をイネーブル状態からディセーブル状態に切り替えて、該マイクミュート状態に入り、かつ以下のステップ303を実行することを可能にする。
303:端末は、アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得する。該ターゲットシーンは、該アプリケーションプログラムにログインしているアカウントが複数人の音声通話においてマイクミュート状態にあることである。
いくつかの実施例において、ユーザは、通話インタフェースにおいて該マイク設定制御部材をディセーブル状態に設定し、該アカウントが該複数人の音声通話においてマイクミュート状態にあるようにするときには、ターゲットシーンに合致する。本願の実施例に関するマイクミュート状態において、端末は、マイクロホンをオフにすることはなく、依然としてマイクロホンを呼び出してオーディオ信号を収集するが、該オーディオ信号を該複数人の音声通話に参加するその他のアカウントに送信することはない。
いくつかの実施例において、端末が該オーディオ信号を収集する方式は以下のとおりである。端末は、該アプリケーションプログラムによって録音インターフェース(Application Programming Interface、API)を呼び出し、該録音インターフェースに基づいてマイクロホンを駆動して該オーディオ信号を収集して獲得する。
304:端末は、該オーディオ信号に前処理をして第1信号を獲得する。
端末がオーディオ信号に前処理をする方式は、フレーム化、ウィンドウイング、フーリエ変換、周波数帯域分離、又は音響エコーキャンセルのうちの少なくとも1つを含むが、これらに限定されず、本願の実施例は、前処理の方式を限定しない。
いくつかの実施例において、端末は、該オーディオ信号に対して自然フレーム化を行い、複数の第1オーディオフレームを獲得する、すなわち該オーディオ信号に対するフレーム化処理を完了する。
いくつかの実施例において、端末は、自然フレーム化を基礎として、該オーディオ信号を再度フレーム化し、複数の第2オーディオフレームを獲得する。選択可能に、再度フレーム化の方式は、端末が該複数の第1オーディオフレームに対してウィンドウイング処理を行い、該複数の第2オーディオフレームを獲得することを含み、該第2オーディオフレームは、有限時間を経て分割された第1オーディオフレームであり、ここで、該有限時間は、0よりも大きいか、又は等しいいずれか1つの時間長さである。
いくつかの実施例において、端末は、該複数の第1オーディオフレームをウィンドウ関数に入力し、該複数の第1オーディオフレームの時間領域上でウィンドウ関数を移動させることによって、該複数の第1オーディオフレームを、時間長さが等しい複数の第2オーディオフレームに分割する、すなわち該複数の第1オーディオフレームを再度フレーム化することで複数の第2オーディオフレームを獲得する。選択可能に、該ウィンドウ関数は、ハミング(hamming)ウィンドウ、ハニング(hanning)ウィンドウ、又は矩形ウィンドウ等を含むが、これらに限定されず、本願の実施例は、ウィンドウ関数のタイプを限定しない。
いくつかの実施例において、上記複数の第2オーディオフレームは、ターゲット比率のオーバーラップ率を有し、すなわち時間領域上でウィンドウ関数を移動させるステップサイズが1よりも小さく、該ターゲット比率は、0よりも大きいいずれか1つの数値である。たとえば、ステップサイズが0.6であるときに、ウィンドウ関数により分割された隣接する第2オーディオフレームのオーバーラップ率は、40%である。一定のオーバーラップ率を設定することによって、ウィンドウイング過程においてランダム誤差、又はシステム誤差のため、ウィンドウ関数により切り取られた各々の第2オーディオフレームのエッジ時間領域特徴を損失することを回避することができる。
いくつかの実施例において、端末は、ウィンドウイング処理を基礎として、該オーディオ信号に対してフーリエ変換を行い、複数の第3オーディオフレームを獲得する。選択可能に、ウィンドウ関数により分割された後の各々の第2オーディオフレームは、いずれも定常信号とみなすことができ、従って、端末は、該複数の第2オーディオフレームに対してフーリエ変換を行い、該複数の第3オーディオフレームを獲得する、すなわちオーディオ信号を時間領域から周波数領域に変換し、該オーディオ信号に対する時間周波数変換を完了することができる。
選択可能に、各々の第2オーディオフレームに対してフーリエ変換を行う方式は、高速フーリエ変換(Fast Fourier Transform、FFT)、短時間フーリエ変換(Short-Time Fourier Transform、STFT)、離散コサイン変換(Discrete Cosine Transform、DCT)等を含むが、これらに限定されず、本願の実施例は、フーリエ変換の方式を限定しない。
いくつかの実施例において、端末は、時間周波数変換を基礎として、サンプリングレートの異なるオーディオ信号に対して異なる処理を行う。選択可能に、端末は、該オーディオ信号のサンプリングレートを取得し、該サンプリングレートがサンプリングレート閾値よりも大きければ、該オーディオ信号が超解像度信号であると決定する。超解像度信号に対しては、端末は、周波数帯域分離を行い、超解像度信号における低周波信号と高周波信号とを分離し、低周波信号についてのみ後続のVAD意思決定を行い、VAD意思決定の計算量を減少させることができる。非超解像度信号(例えば高解像度信号)に対しては、端末は、周波数帯域分離を行う必要がなく、全体のオーディオ信号について後続のVAD意思決定を直接行い、オーディオ信号の処理フローを簡素化することができる。
いくつかの実施例において、サンプリングレートがサンプリングレート閾値よりも大きい超解像度信号に対しては、端末が周波数帯域分離を行う方式は、フーリエ変換後の複数の第3オーディオフレームをQMF分析フィルタに入力し、QMF分析フィルタに基づいて該複数の第3オーディオフレームをフィルタリングし、該複数の第3オーディオフレームにおける高周波成分、及び低周波成分をそれぞれ出力することを含む。ここで、フィルタリングして獲得された高周波成分は、すなわちオーディオ信号における高周波信号であり、フィルタリングして獲得された低周波成分は、すなわちオーディオ信号における低周波信号である。たとえば、IEEEにより制定されたスペクトル分割表に従って、低周波信号の周波数帯域範囲は、30~300kHzであり、中間周波信号の周波数帯域範囲は、300~3000kHzであり、高周波信号の周波数帯域範囲は、3~30MHzである。
1つのリアルタイムシーンにおいて、マイクロホンにより収集されたオーディオ信号が16kHzの帯域幅データであると仮定すると、QMF分析フィルタによって周波数帯域分離を行った後に、8kHzの高周波信号と8kHzの低周波信号を出力し、一方、後続の雑音抑制、及びVAD意思決定は、8kHzの低周波信号上にのみ作用し、雑音抑制、及びVAD意思決定の計算量を減少させることができる。
説明する必要があるように、上記周波数帯域分離は、前処理における選択可能なステップであり、例えば超解像度信号についてのみ周波数帯域分離を行い、一方、非超解像度信号について周波数帯域分離を行う必要がなく、本願の実施例は、オーディオ信号に対して周波数帯域分離を行うか否かを限定しない。
いくつかの実施例において、超解像度信号について周波数帯域分離を行って獲得された低周波信号、又は非超解像度信号について、端末は、音響エコーキャンセルを行うことで、低周波信号、又は非超解像度信号における音響エコーをキャンセルし、それにより後続の雑音抑制、及びVAD意思決定の正確性を向上させる。選択可能に、端末は、低周波信号、又は非超解像度信号を音響エコーキャンセラに入力し、該音響エコーキャンセラによって低周波信号、又は非超解像度信号における音響エコーをキャンセルし、前処理後の第1信号を獲得する。
説明する必要があるように、上記音響エコーキャンセルは、前処理における選択可能なステップである。例えば、端末が該複数人の音声通話においてハンズフリー状態がオンであると検出した場合に、ハンズフリー状態においてその他の端末が発したオーディオ信号は、本端末のマイクロホンにより収集されて音響エコーを形成するため、該オーディオ信号に対して音響エコーキャンセルを行う必要があることで、後続の雑音抑制、及びVAD意思決定の正確性を向上させる。端末が該複数人の音声通話においてハンズフリー状態がオフであると検出した場合には、ユーザがイヤホンを介して該複数人の音声通話を受け付けるが、このとき音響エコーを形成することがないか、ユーザが非ハンズフリー状態において受話器を介して該複数人の音声通話を直接受け付け、このときの音響エコーの影響が比較的小さいことを意味する。そうすると、該オーディオ信号に対して音響エコーキャンセルを行う必要がないことで、オーディオ信号の処理過程の計算量を節約する。さらに例えば、端末が音響エコーキャンセラを配置していないと検出した場合に、該オーディオ信号に対して音響エコーキャンセルを行わず、本願の実施例は、オーディオ信号に対して音響エコーキャンセルを行うか否かを限定しない。
第1信号とは、前処理して獲得されたオーディオ信号を指し、上記過程は、周波数帯域分離と音響エコーキャンセルの両方を行うことを例として説明している。いくつかの実施例において、周波数帯域分離、及び音響エコーキャンセルを行わなければ、時間周波数変換により獲得された周波数領域信号は、すなわち第1信号である。周波数帯域分離を行うが音響エコーキャンセルを行わなければ、周波数帯域分離により獲得された低周波信号は、すなわち第1信号である。周波数帯域分離を行わないが音響エコーキャンセルを行えば、音響エコーキャンセルの後に第1信号を獲得するが、本願の実施例は、これを限定しない。
305:端末は、該第1信号における複数のオーディオフレームを雑音抑制モデルに入力し、該雑音抑制モデルによって該複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの該第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力する。ここで、該オーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい。
いくつかの実施例において、該複数のオーディオフレームとは、該第1信号において含まれるすべてのオーディオフレームを指すか、又は、該複数のオーディオフレームとは、該第1信号における一部のオーディオフレームを指す。たとえば、該第1信号における複数のキーフレームを該複数のオーディオフレームとして抽出するか、又は、該第1信号に対して予め設定されたステップサイズごとに1つのオーディオフレームをサンプリングし、サンプリングにより獲得された複数のオーディオフレームを該複数のオーディオフレームとする。ここで、該予め設定されたステップサイズとは、1よりも大きいか、又は等しいいずれか1つの整数を指す。
いくつかの実施例において、端末は、該複数のオーディオフレームにおける個々のオーディオフレームに対して、該オーディオフレームのそれぞれの第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータを取得する。ここで、該第1周波数帯域範囲は、少なくとも人の声の周波数帯域を含む。選択可能に、人の声の周波数帯域に加えて、該第1周波数帯域範囲は、雑音周波数帯域をさらに含む。
選択可能に、該第1周波数帯域範囲において区分された該複数の周波数帯域は、技術者により設定されてもよく、該第1周波数帯域範囲に対して指定された数量の等分が行われてもよいが、本願の実施例は、該第1周波数帯域範囲の周波数帯域の区分方式を限定しない。
いくつかの実施例において、該第1周波数帯域範囲は、技術者により設定された周波数帯域範囲であるか、又は、システムにより設定されたデフォルトの周波数帯域範囲である。たとえば、該第1周波数帯域範囲は、0~8000Hzであり、又は、該第1周波数帯域範囲は、0~20000Hzであるが、本願の実施例は、該第1周波数帯域範囲を限定しない。
いくつかの実施例において、該雑音抑制モデルは、サンプルデータ訓練に基づいて獲得された機械学習モデルであり、選択可能に、該雑音抑制モデルの構造は、RNN、LSTM(Long Short-Term Memory、長短期記憶人工ニューラルネットワーク)、GRU( Gate Recurrent Unit、ゲート付き回帰型ユニット)、CNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)等を含むが、これらに限定されず、本願の実施例は、雑音抑制モデルの構造を限定しない。
1つの実施シーンにおいて、該雑音抑制モデルは、雑音抑制を行うことに用いられるRNNである。RNNにとっては、入力は、前処理して獲得されたオーディオ信号すなわち第1信号における複数のオーディオフレームであり、出力は、個々のオーディオフレームの複数のゲインパラメータである。RNNは、少なくとも1つの隠れ層を含み、個々の隠れ層に複数のニューロンが含まれており、個々の隠れ層におけるニューロンの数量は、入力されたオーディオフレームの数量と同じである。個々の隠れ層におけるニューロンは、いずれも連結され、且つ隣接する隠れ層の間は、直列に接続されており、個々の隠れ層における個々のニューロンにとっては、現在の隠れ層における前のニューロンと前の隠れ層における対応する位置のニューロンにより出力された周波数特徴を、本ニューロンの入力とする。
上記RNN構造に基づき、端末は、該第1信号における複数のオーディオフレームをRNNの少なくとも1つの隠れ層に入力する、すなわち、該複数のオーディオフレームをRNNにおける1番目の隠れ層における複数のニューロンにそれぞれ入力することを指す。ここで、1つのニューロンは、1つのオーディオフレームに対応し、1番目の隠れ層におけるi(i≧1)番目のニューロンに対して、1番目の隠れ層におけるi-1番目のニューロンにより出力された周波数特徴とi番目のオーディオフレームを入力とし、1番目の隠れ層におけるi-1番目のニューロンにより出力された周波数特徴とi番目のオーディオフレームに対して重み付け処理を行い、獲得された周波数特徴を1番目の隠れ層におけるi+1番目のニューロン、及び2番目の隠れ層におけるi番目のニューロンにそれぞれ入力する。このように類推すると、RNNにおけるいずれか1つの隠れ層におけるいずれか1つのニューロンに対して、該いずれか1つのニューロンによって、該いずれか1つの隠れ層における前のニューロンにより出力された周波数特徴と前の隠れ層における対応する位置のニューロンにより出力された周波数特徴に対して重み付け処理を行い、重み付け処理して獲得された周波数特徴を該いずれか1つの隠れ層における次のニューロンと次の隠れ層における対応する位置のニューロンにそれぞれ入力し……最終的に最後の隠れ層により個々のオーディオフレームに対して各自のターゲット周波数特徴を入力し、個々のオーディオフレームのターゲット周波数特徴に対してsoftmax(指数正規化)処理を行い、それにより個々のオーディオフレームに対して複数のゲインパラメータをそれぞれ予測する。個々のゲインパラメータは、第1周波数帯域範囲における1つの周波数帯域に対応する。
人の声の周波数帯域の音声エネルギーは比較的大きいため、信号対雑音比が比較的高く、上記RNNアーキテクチャの雑音抑制モデルを使用して、訓練後に雑音、及び人の声を精度よく識別することができる。それにより人の声に対して比較的大きなゲインパラメータを割り当て、雑音に対して比較的小さいゲインパラメータを割り当て、該雑音抑制モデルがキーボード音等の非定常雑音に対しても非常に高い識別正確率を有するようにする。複雑な畳み込み計算を行うCNNに比べて、RNNの計算消費が比較的低く、リアルタイム通話シーンをより良好に満たすことができ、計算資源を過剰に占有して通話品質に影響を与えることはない。
図4は、本願の実施例が提供するOpus周波数帯域図である。400に示されるように、Opus符号化方式に基づいて区分された周波数帯域図が示されている。ここで、Opusは、非可逆音声符号化のフォーマットである。たとえば、Opus周波数帯域図における0~8000Hzを第1周波数帯域範囲として使用し、かつOpus周波数帯域図における周波数帯域の区分方式を参照とし、第1周波数帯域範囲0~8000Hzを18個の周波数帯域に区分する。個々の点は、1つの周波数帯域値を表し、0~8000Hzの18個の周波数帯域値は、0、200、400、600、800、1000、1200、1400、1600、2000、2400、2800、3200、4000、4800、5600、6800、8000を含み、ここで周波数帯域値の単位は、Hzである。端末は、第1信号における複数のオーディオフレームをRNNに入力した後に、RNNは、個々のオーディオフレームに対していずれも18個のゲインパラメータを出力し、ここで、個々のゲインパラメータは、Opus周波数帯域図における0~8000Hzの1つの周波数帯域に対応する。
上記ステップ304~305において、端末は、該オーディオ信号における複数のオーディオフレームに対して、該複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得する。雑音抑制過程において、人の声の周波数帯域のために雑音周波数帯域よりも高いゲインパラメータを割り当てるため、オーディオ信号における人の声の成分を効果的に強化し、オーディオ信号における雑音成分を抑制するという効果を達成することができる。従って、各々のオーディオフレームの各々の周波数帯域上のゲインパラメータによって、各々のオーディオフレームにターゲット音声が含まれるか否かを識別することに寄与することができ、それによりオーディオ信号全体にターゲット音声が含まれるか否かを決定することができる。
306:端末は、個々のオーディオフレームに対して、該オーディオフレームの第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの第2周波数帯域範囲における個々の周波数帯域上のゲインパラメータを決定し、該第2周波数帯域範囲は、該第1周波数帯域範囲のサブセットである。
いくつかの実施例において、第1周波数帯域範囲において人の声の周波数帯域が含まれるだけでなく、雑音周波数帯域も含まれる。一方、VAD意思決定は、人の声の周波数帯域について細かく判定するだけでよく、雑音周波数帯域に関心を持つ必要がないため、端末が該第1周波数帯域範囲の中から人の声の周波数帯域を取得することからなるサブセットは、該第2周波数帯域範囲であり、端末は、雑音抑制モデルによって個々のオーディオフレームの第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータを取得する。一方、第2周波数帯域範囲は、第1周波数帯域範囲のサブセットでもあるため、個々のオーディオフレームの第2周波数帯域範囲における個々の周波数帯域上のゲインパラメータを決定することができることが明らかである。
説明する必要があるように、該第2周波数帯域範囲は、異なる性別、又は異なる年齢のユーザについて適応的変化を行うことを可能にし、たとえば女性の音周波数は、通常、男性の音周波数よりも高く、従って、端末は、異なるユーザについて異なる第2周波数帯域範囲を配置することを可能にするが、本願の実施例は、第2周波数帯域範囲を限定しない。
1つの実施シーンにおいて、第1周波数帯域範囲とは、Opus周波数帯域図における0~8000Hzの計18個の周波数帯域を指す。一方、第2周波数帯域範囲とは、200~2000Hzの計9つの周波数帯域を指し、200、400、600、800、1000、1200、1400、1600、2000であるか、又は、該第2周波数帯域範囲とは、300~1000Hzの計5つの周波数帯域を指し、300、400、600、800、1000である。ここで周波数帯域値の単位は、Hzである。
307:端末は、該オーディオフレームの該第2周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの音声状態パラメータを決定する。
いくつかの実施例において、個々のオーディオフレームに対して、端末は、該オーディオフレームの該第2周波数帯域範囲における個々の周波数帯域上のゲインパラメータと対応する周波数帯域の重み係数とを乗算し、該オーディオフレームの該第2周波数帯域範囲における個々の周波数帯域上の重み付けされたゲインパラメータを獲得し、該オーディオフレームの該第2周波数帯域範囲における各々の周波数帯域上の重み付けされたゲインパラメータを加算し、該オーディオフレームの総合ゲインパラメータを獲得し、該オーディオフレームの総合ゲインパラメータに基づいて、該オーディオフレームの音声状態パラメータを決定する。
上記過程において、第2周波数帯域範囲は、第1周波数帯域範囲における大部分の人の声の周波数帯域を含む。すなわち人の声のエネルギーの大部分は、第2周波数帯域範囲(例えば200~2000Hz、又は300~1000Hz等)内にあるため、個々のオーディオフレームの第2周波数帯域範囲内の個々の周波数帯域上のゲインパラメータは、現在誰かが話しているか否か(すなわち現在のオーディオフレームにターゲット音声が含まれるか否か)を最もよく表すことができる。
いくつかの実施例において、ターゲット音声がターゲットオブジェクトの音である場合について、比較的広い第2周波数帯域範囲を配置することを可能にすることで、より多くの人の声の周波数帯域上でターゲットオブジェクトの音を識別することを容易にする。ターゲット音声がターゲットオブジェクトの該複数人の音声通話における発言である状況について、比較的狭い第2周波数帯域範囲を配置することを可能にすることで、一部の比較的低い人の声の周波数帯域上で雑談するときに発する音を排除することを容易にするが、本願の実施例は、これを限定しない。
選択可能に、端末には、第2周波数帯域範囲における個々の周波数帯域と重み係数との対応関係が予め保存されており、該第2周波数帯域範囲内の個々の周波数帯域に対して、該対応関係に基づいて該周波数帯域に対応する重み係数を決定し、該オーディオフレームの該周波数帯域上のゲインパラメータと該周波数帯域に対応する重み係数とを乗算し、該オーディオフレームの該周波数帯域上の重み付けされたゲインパラメータを獲得する。
選択可能に、個々のオーディオフレームに対して、端末は、該オーディオフレームの第2周波数帯域範囲内のすべての周波数帯域上の重み付けされたゲインパラメータを加算し、該オーディオフレームの総合ゲインパラメータを獲得する。該総合ゲインパラメータとアクティブ化閾値との大きさ関係に基づいて、該オーディオフレームの音声状態パラメータを決定することを可能にする。選択可能に、該音声状態パラメータは、「ターゲット音声が含まれる」こと、及び「ターゲット音声が含まれない」ことを含む。たとえば、該音声状態パラメータは、1つのブール型データである。ブール型データの値はTrueであり「ターゲット音声が含まれる」ことを意味し、ブール型データの値はFalseであり「ターゲット音声が含まれない」ことを意味している。又は、該音声状態パラメータは、1つの二値化データである。二値化データの値は1であり「ターゲット音声が含まれる」ことを意味し、二値化データの値は0であり「ターゲット音声が含まれない」ことを意味している。又は、該音声状態パラメータは、文字列データ等であるが、本願の実施例は、該音声状態パラメータのデータタイプを限定しない。
いくつかの実施例において、端末は、該総合ゲインパラメータがターゲット倍数を増幅した後にアクティブ化閾値よりも大きい場合に、音声状態パラメータがターゲット音声を含むものであると決定し、該総合ゲインパラメータが該ターゲット倍数を増幅した後に該アクティブ化閾値よりも小さいか、又は等しい場合に、該音声状態パラメータがターゲット音声を含まないものであると決定する。ここで、該ターゲット倍数は、1よりも大きいいずれか1つの数値であり、たとえば、該ターゲット倍数は、10000である。ここで、該アクティブ化閾値は、0よりも大きいいずれか1つの数値であり、たとえば、該アクティブ化閾値は、6000である。
1つの実施シーンにおいて、第2周波数帯域範囲が200~2000Hzであり、ターゲット倍数が10000であり、アクティブ化閾値が6000であることを例として説明する。ユーザは、複数人の音声通話をキーオンにした後に、マイクミュート状態においてマイクロホンに1つの音声を話し、マイクロホンは、オーディオ信号を収集した後に、各フレーム(各フレームの長さが20msであると仮定する)に対して200~2000Hz内の各々の周波数帯域上のゲインパラメータをそれぞれ取得する。ここで、ゲインパラメータは、0よりも大きいか、又は等しく、且つ1よりも小さいか、又は等しい数値であり、各フレームの200~2000Hz内の各々の周波数帯域上のゲインパラメータに対して重み付け積算を行い、各フレームの総合ゲインパラメータを獲得し、各フレームの総合ゲインパラメータを10000倍に増幅する。増幅後の数値が6000よりも大きければ、このフレームがアクティブ化されているとみなされ、このフレームのVAD値を1にし、このフレームの音声状態パラメータがターゲット音声を含むものであることを意味し、増幅後の数値が6000よりも小さいか、又は等しければ、このフレームがアクティブ化されていないとみなされてこのフレームのVAD値を0にし、このフレームの音声状態パラメータがターゲット音声を含まないものであることを意味している。
上記過程において、個々のオーディオフレームに対して、第2周波数帯域範囲内の各々の周波数帯域上のゲインパラメータに対して重み付け積算を行うことによって、該オーディオフレームの総合ゲインパラメータを獲得し、かつ総合ゲインパラメータを増幅した後に現在のオーディオフレームの音声状態を判断することに用いる。すなわち該オーディオフレームの音声状態パラメータを決定し、各々のオーディオフレームの総合ゲインパラメータによって、各々のオーディオフレームにターゲット音声が含まれるか否かを正確に判断し、正確なフレームレベルの人の声の識別を達成することができる。
上記ステップ306~307において、端末は、該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該複数のオーディオフレームの音声状態パラメータを決定する。ここで、該音声状態パラメータは、対応するオーディオフレームがターゲット音声を含むか否かを特徴付けることに用いられる。端末は、該複数のオーディオフレームの音声状態パラメータに基づいて、該オーディオ信号にターゲット音声が含まれると決定することができる。本願の実施例において、第2周波数帯域範囲内の各々の周波数帯域上のゲインパラメータに基づいて重み付け積算を行い、個々のオーディオフレームの総合ゲインパラメータを獲得し、かつ総合ゲインパラメータに基づいて個々のオーディオフレームの音声状態パラメータを決定することを例として説明するが、これは、第2周波数帯域範囲内に大部分の人の声の周波数帯域が含まれるためである。別のいくつかの実施例において、端末は、さらに第1周波数帯域範囲内の各々の周波数帯域上のゲインパラメータに基づいて重み付け積算を行い、個々のオーディオフレームの総合ゲインパラメータを獲得し、かつ総合ゲインパラメータに基づいて個々のオーディオフレームの音声状態パラメータを決定し、このようにオーディオ信号の処理フローを簡素化することができる。
いくつかの実施例において、端末は、個々のオーディオフレームのエネルギーパラメータを取得し、かつ個々のオーディオフレームの総合ゲインパラメータとエネルギーパラメータを組み合わせて、個々のオーディオフレームの音声状態パラメータを決定する。又は、端末は、個々のオーディオフレームの第1周波数帯域範囲内のゲインパラメータに基づいて、第1信号に対して雑音抑制を行い、雑音抑制後の信号をVADアルゴリズムにおいて入力してVAD検出を行い、個々のオーディオフレームの音声状態パラメータを獲得し、これについては後続の実施例において詳細に説明するが、本願の実施例は、個々のオーディオフレームの音声状態パラメータの取得方式を限定しない。
308:端末は、該オーディオフレームと該オーディオフレームよりも前の第1ターゲット数量のオーディオフレームの音声状態パラメータに基づいて、該オーディオフレームが属するオーディオフレームグループのアクティブ化状態を決定する。該オーディオフレームグループは、該オーディオフレームと、該オーディオフレームよりも前の第1ターゲット数量のオーディオフレームと、を含む。
ここで、該オーディオフレームとは、該複数のオーディオフレームにおけるいずれか1つのオーディオフレームを指し、換言すれば、該複数のオーディオフレームにおける個々のオーディオフレームに対していずれも上記ステップ308を実行する。
いくつかの実施例において、ユーザは、通常、マイクロホンにオーディオ信号を絶えず発するため、マイクロホンにより収集されたオーディオ信号は、1つのオーディオストリームである。オーディオストリームのシーンにおいて、オーディオストリームにおけるいずれか1つのオーディオフレームに対して、該オーディオフレームと該オーディオフレームよりも前のターゲット数量のオーディオフレームの音声状態パラメータを参照して、これらのオーディオフレームがカバーする期間内のオーディオ信号にターゲット音声が含まれるか否かを総合的に判断する必要がある。ここで、該ターゲット数量は、第1ターゲット数量と上記第2ターゲット数量に基づいて決定される。たとえば、該ターゲット数量は、第1ターゲット数量に1を加えた値と第2ターゲット数量に1を加えた数値とを乗算した後に1を減らした数値であり、第1ターゲット数量は、1よりも大きいか、又は等しいいずれか1つの整数であり、第2ターゲット数量は、1よりも大きいか、又は等しいいずれか1つの整数である。たとえば、第1ターゲット数量が4であり、該第2ターゲット数量が29であると、ターゲット数量は、(4+1)×(29+1)-1=149である。
いくつかの実施例において、いずれか1つのオーディオフレームに対して、端末は、該オーディオフレームと該オーディオフレームよりも前の第1ターゲット数量のオーディオフレームを該オーディオフレームが属するオーディオフレームグループとして決定し、続いて、該オーディオフレームグループにおける各々のオーディオフレーム各自の音声状態パラメータを取得する。選択可能に、該オーディオフレームグループにおいて音声状態パラメータがターゲット音声を含むオーディオフレームの数量が数量閾値を超えるものである場合に、該オーディオフレームグループのアクティブ化状態がアクティブ化であると決定し、該オーディオフレームグループにおいて音声状態パラメータがターゲット音声を含むオーディオフレームの数量が該数量閾値を超えないものである場合に、該オーディオフレームグループのアクティブ化状態が非アクティブ化であると決定する。ここで、該数量閾値の値の範囲は、1よりも大きいか、又は等しく、且つ第1ターゲット数量に1を加えた数値よりも小さいか、又は等しい。たとえば、第1ターゲット数量が4であれば、該数量閾値の値の範囲は、1よりも大きいか、又は等しく、且つ5よりも小さいか、又は等しい。
上記過程において、個々のオーディオフレームグループに対して、一定の数量閾値を超えるオーディオフレームにターゲット音声が含まれていれば、オーディオフレームグループ全体がアクティブ化されているとみなされ、現在のオーディオフレームグループにターゲット音声が含まれるか否かを比較的良好に判断することができる。非定常雑音が、通常、同一のオーディオフレームグループ内で密集して出現しないために、個別の非定常雑音(例えばキーボード音等)に起因してオーディオフレームグループがアクティブ化されるか否かを誤判断する状況を低減させて、オーディオ信号ターゲット音声が含まれるか否かを識別する正確性を向上させる。
いくつかの実施例において、該オーディオフレームグループにおいて連続する予め設定された閾値が存在するオーディオフレームの音声状態パラメータがいずれもターゲット音声を含むものであれば、該オーディオフレームグループのアクティブ化状態がアクティブ化であると決定し、該オーディオフレームグループにおいて連続する予め設定された閾値が存在しないオーディオフレームの音声状態パラメータがいずれもターゲット音声を含むものであれば、該オーディオフレームグループのアクティブ化状態が非アクティブ化であると決定する。ここで、該予め設定された閾値の値の範囲は、1よりも大きいか、又は等しく、且つ第1ターゲット数量に1を加えた数値よりも小さいか、又は等しく、たとえば、第1ターゲット数量が4であれば、該予め設定された閾値の値の範囲は、1よりも大きいか、又は等しく、且つ5よりも小さいか、又は等しい。
上記過程において、個々のオーディオフレームグループに対して、連続する予め設定された閾値が存在するオーディオフレームにおいてターゲット音声が含まれていれば、オーディオフレームグループ全体がアクティブ化されているとみなされ、現在のオーディオフレームグループにターゲット音声が含まれるか否かを比較的良好に判断することができる。非定常雑音、又はユーザの雑談が、通常、同一のオーディオフレームグループ内で連続する複数のオーディオフレームにおいて継続的に出現しないために、個別の非定常雑音(例えばキーボード音等)に起因してオーディオフレームグループがアクティブ化されるか否かを誤判断する状況を低減させて、オーディオ信号にターゲット音声が含まれるか否かを識別する正確性を向上させる。
1つの実施シーンにおいて、上記のオーディオフレームグループを単位とする判別方式は、ショートフィルタリングアルゴリズムポリシーと呼ばれる。個々のオーディオフレームの長さが20ms(ミリ秒)であると仮定すると、第1ターゲット数量が4である場合に、個々のオーディオフレームグループ内に現在の1つのオーディオフレーム、及び該オーディオフレームよりも前の4つのオーディオフレームが含まれ、すなわち個々のオーディオフレームグループ内に5つのオーディオフレームが含まれ、個々のオーディオフレームグループの長さは、100msである。選択可能に、個々のオーディオフレームグループは、1つのblock(ブロック)と呼ばれ、個々のオーディオフレームの音声状態パラメータすなわちVAD値は1であり、ターゲット音声が含まれることを意味し、音声状態パラメータすなわちVAD値は0であり、ターゲット音声が含まれないことことを意味している。
いくつかの実施例において、個々のblockに対して1回の統計を行い、数量閾値が4であると仮定すると、現在のblock内のVAD値が1のオーディオフレームの数が4を超えれば、現在のblockがアクティブ化されているとみなされ、現在のblock内のVAD値が1のオーディオフレームの数が4を超えなければ、現在のblockがアクティブ化されていないとみなされる。
いくつかの実施例において、個々のblockに対して1回の統計を行い、予め設定された閾値が4であると仮定すると、現在のblock内に連続する4つのオーディオフレームのVAD値が1である状況が存在すれば、現在のblockがアクティブ化されているとみなされ、現在のblock内に連続する4つのオーディオフレームのVAD値が1である状況が存在しなければ、現在のblockがアクティブ化されていないとみなされる。
309:端末は、該オーディオフレームグループと該オーディオフレームグループよりも前の第2ターゲット数量のオーディオフレームグループのアクティブ化状態が第2条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定する。
いくつかの実施例において、該オーディオフレームグループと該オーディオフレームグループよりも前の第2ターゲット数量のオーディオフレームグループにおいて、アクティブ化状態がアクティブ化であるオーディオフレームグループの数量がターゲット閾値を超えれば、第2条件に合致することを意味し、それにより該オーディオ信号にターゲット音声が含まれると決定する。該オーディオフレームグループと該オーディオフレームグループよりも前の第2ターゲット数量のオーディオフレームグループにおいて、アクティブ化状態がアクティブ化であるオーディオフレームグループの数量がターゲット閾値を超えなければ、第2条件に合致しないことを意味し、それにより該オーディオ信号においてターゲット音声が含まれないと決定する。つまり、該第2条件は、該オーディオフレームグループと該オーディオフレームグループよりも前の第2ターゲット数量のオーディオフレームグループにおいて、アクティブ化状態がアクティブ化であるオーディオフレームグループの数量がターゲット閾値を超えることである。ここで、該ターゲット閾値の値の範囲は、1よりも大きいか、又は等しく、且つ第2ターゲット数量に1を加えた数値よりも小さいか、又は等しい。たとえば、第2ターゲット数量が29であれば、該ターゲット閾値の値の範囲は、1よりも大きいか、又は等しく、且つ30よりも小さいか、又は等しい。
上記過程において、該オーディオフレームグループと該オーディオフレームグループよりも前の第2ターゲット数量のオーディオフレームグループにおいて、一定のターゲット閾値を超えるオーディオフレームグループがアクティブ化されれば、オーディオ信号全体にターゲット音声が含まれるとみなされ、いくつかのランダム誤差による干渉を低減させ、オーディオ信号にターゲット音声が含まれるか否かを識別する正確性を向上させることができる。
いくつかの実施例において、該オーディオフレームグループと該オーディオフレームグループよりも前の第2ターゲット数量のオーディオフレームグループにおいて、連続する指定された閾値が存在するオーディオフレームグループのアクティブ化状態がアクティブ化であれば、第2条件に合致することを意味し、それにより該オーディオ信号にターゲット音声が含まれると決定する。該オーディオフレームグループと該オーディオフレームグループよりも前の第2ターゲット数量のオーディオフレームグループにおいて、連続する指定された閾値が存在しないオーディオフレームグループのアクティブ化状態がアクティブ化であれば、第2条件に合致しないことを意味し、それにより該オーディオ信号においてターゲット音声が含まれないと決定する。つまり、該第2条件は、該オーディオフレームグループと該オーディオフレームグループよりも前の第2ターゲット数量のオーディオフレームグループにおいて、連続する指定された閾値が存在するオーディオフレームグループのアクティブ化状態がアクティブ化であることである。ここで、該指定された閾値の値の範囲は、1よりも大きいか、又は等しく、且つ第2ターゲット数量に1を加えた数値よりも小さいか、又は等しい。たとえば、第2ターゲット数量が29であれば、該指定された閾値の値の範囲は、1よりも大きいか、又は等しく、且つ30よりも小さいか、又は等しい。
上記過程において、該オーディオフレームグループと該オーディオフレームグループよりも前の第2ターゲット数量のオーディオフレームグループにおいて、連続する指定された閾値が存在するオーディオフレームグループのアクティブ化状態がアクティブ化であれば、オーディオ信号全体にターゲット音声が含まれるとみなされ、いくつかのランダム誤差による干渉を低減させ、オーディオ信号にターゲット音声が含まれるか否かを識別する正確性を向上させることができる。
1つの実施シーンにおいて、上記第2ターゲット数量に1を加えた数値のオーディオフレームグループを単位とする判別方式は、ロングフィルタリングアルゴリズムポリシーと呼ばれる。個々のオーディオフレームの長さが20msであると仮定し、第1ターゲット数量が4である場合に、個々のオーディオフレームグループ(1つのblockと呼ばれる)の長さは、100msである。第2ターゲット数量が29である場合に、現在のオーディオフレームグループと該オーディオフレームグループよりも前の29個のオーディオフレームグループは、1つのduration(デュレーション)と呼ばれ、個々のdurationは、計30個のオーディオフレームグループを含むため、個々のdurationの長さは、3s(秒)であり、すなわち1つの3sのdurationは、30個の100msのblockを含む。選択可能に、オーディオ信号に対してスライドウィンドウポリシーを使用して統計し、スライドウィンドウのステップサイズが1つのblockであると仮定し、1つのblockの長さが100msであるため、スライドウィンドウの大きさが30である場合に、1つのスライドウィンドウは、ちょうど1つのdurationをカバーすることができ、それによりスライドするたびに1つのdurationに対する1回の統計を実現することができる。換言すれば、オーディオ信号上で大きさが30、ステップサイズが100msであるスライドウィンドウを採用して統計する。
いくつかの実施例において、ターゲット閾値が10であると仮定すると、1つのスライドウィンドウすなわちduration内でアクティブ化されるblockの数量が10を超えれば、第2条件に合致することを意味し、該オーディオ信号にターゲット音声が含まれると決定する。つまり、該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該オーディオ信号にターゲット音声が含まれると決定し、以下のステップ310を実行し、プロンプトメッセージを外部に出力し、そうでなければ、いかなるプロンプト処理も行わない。
いくつかの実施例において、指定された閾値が10であると仮定し、1つのスライドウィンドウすなわちduration内で連続する10個のblockがアクティブ化されることが存在すれば、第2条件に合致することを意味し、該オーディオ信号にターゲット音声が含まれると決定する。つまり、該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該オーディオ信号にターゲット音声が含まれると決定し、以下のステップ310を実行し、プロンプトメッセージを外部に出力し、そうでなければ、いかなるプロンプト処理も行わない。
いくつかの実施例において、オーディオ信号がオーディオストリームである場合に、現在のスライドウィンドウが第2条件に合致する、すなわち該オーディオ信号にターゲット音声が含まれると決定すると検出されれば、スライドウィンドウは、100msのステップサイズに応じてオーディオ信号上で移動して検出するため、端末は、プロンプトメッセージを外部に出力した後に、スライドウィンドウのduration、及びblockに対するすべての統計状態をリセットする。換言すれば、オーディオストリームを断続なく受信する場合に、毎回、ショートフィルタリングアルゴリズムポリシー、及びロングフィルタリングアルゴリズムポリシーに基づいて、現在の時間から3s以内のターゲット数量のオーディオフレームを検出する。第2条件を満たせば、プロンプトメッセージを外部に出力し、かつスライドウィンドウのduration、及びblockに対するすべての統計状態をリセットし、第2条件を満たさなければ、スライドウィンドウが100msのステップサイズに応じて後方にスライドし続けるように制御する。選択可能に、現在収集されたオーディオ信号の長さが3s未満であるか、又はスライドウィンドウがリセットされた後に新たに収集したオーディオ信号の長さが3s未満であれば、このとき、ウィンドウ充填状態にあり、ウィンドウ充填状態においてオーディオ信号にターゲット音声が含まれるか否かが意思決定されず、スライドウィンドウが初回にいっぱいに充填されるまで対応する識別結果が意思決定されない。
上記ステップ308~309において、いずれか1つのオーディオフレームと該オーディオフレームよりも前のターゲット数量のオーディオフレームの音声状態パラメータが第1条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定するという可能な実施形態が提供される。ここで、該ターゲット数量は、第1ターゲット数量と上記第2ターゲット数量に基づいて決定される。つまり、該第1条件は、該オーディオフレームが属するオーディオフレームグループと該オーディオフレームグループよりも前の第2ターゲット数量のオーディオフレームグループのアクティブ化状態が第2条件に合致することである。
310:端末は、プロンプトメッセージを出力し、該プロンプトメッセージは、該マイクミュート状態を解除するようにプロンプトすることに用いられる。
上記ステップ310は、上記ステップ203と類似するため、ここでは詳細な説明を省略する。
上記過程において、端末が該ゲインパラメータに基づいて該オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力し、それによりユーザにマイクミュート状態を解除するようにタイムリーにプロンプトし、無効なやり取り交流を回避し、マンマシンインタラクション効率を向上させることができる。
図5は、本願の実施例が提供するオーディオ信号の処理方法の原理模式図である。500に示されるように、マイクロホンは、オーディオ信号を収集し、フレーム化、ウィンドウイング、フーリエ変換を経た後に、オーディオ信号のサンプリングレートを判定し、サンプリングレートがサンプリングレート閾値よりも大きければ、超解像度信号であり、サンプリングレートがサンプリングレート閾値よりも小さいか、又は等しければ、高解像度信号である。超解像度信号に対して周波数帯域分離を行い、オーディオ信号を低周波信号と高周波信号に分離し、低周波信号を音響エコーキャンセラ(AECモジュール)において直接入力して音響エコーをキャンセルし、高解像度信号に対して周波数帯域分離を行う必要はなく、高解像度信号をAECモジュールにおいて直接入力して音響エコーをキャンセルする。音響エコーキャンセル後のオーディオ信号は、すなわち第1信号であり、第1信号における複数のオーディオフレームをRNN雑音抑制モデルに入力する。RNN雑音抑制モデルは、個々のオーディオフレームに対して0~8000Hzにおける各々の周波数帯域上のゲインパラメータを出力し、個々のオーディオフレームの0~8000Hzにおける各々の周波数帯域上のゲインパラメータをVAD意思決定モジュールにおいて入力し、個々のオーディオフレームに対して200~2000Hzにおける個々の周波数帯域上のゲインパラメータを抽出して重み付け積算を行い、個々のオーディオフレームの総合ゲインパラメータを獲得し、次いで個々のオーディオフレームの音声状態パラメータVAD値を決定する。このとき、端末がマイクミュート状態にあれば、個々のオーディオフレームのVAD値をマイクロホンミュートプロンプトモジュールにおいて入力し、ショートフィルタリングアルゴリズムポリシーに基づいてVAD統計フィルタリングを行い(すなわちある瞬時時間、例えば現在のblockにおいてアクティブ化されるオーディオフレームの数を統計する)、ロングフィルタリングアルゴリズムポリシーに基づいてマイクロホンミュートプロンプトフィルタリングを行い(すなわちある長い時間、例えば現在のduration内でアクティブ化されるblockの数を統計する)、現在のduration内でアクティブ化されるblockの数がターゲット閾値を超えれば、該オーディオ信号にターゲット音声が含まれると決定し、現在のduration内でアクティブ化されるblockの数がターゲット閾値を超えなければ、該オーディオ信号においてターゲット音声が含まれないと決定する。
オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクロホンミュート状態においてターゲット音声を発し、すなわち報告条件に達することを意味し、この場合、プロンプトメッセージを外部に出力する。オーディオ信号においてターゲット音声が含まれていなければ、ユーザがマイクロホンミュート状態においてターゲット音声を発せず、すなわち報告条件に達していないことを意味し、この場合、プロンプトメッセージを出力しない。選択可能に、VAD意思決定モジュールは、個々のオーディオフレームのVAD値を出力した後に、端末がマイクオン状態にあれば、このときマイクロホンにより収集されたオーディオ信号を複数人の音声通話に参加するその他の端末に正常に送信することで、オーディオ信号の正常な伝送を保証する必要があり、超解像度信号について、周波数帯域分離により獲得された低周波信号と元の高周波信号に対して周波数帯域合成を行い、元の超解像度信号を再度復元し、さらに超解像度信号に対して符号化送信を行う必要がある。もちろん、高解像度信号について、周波数帯域分離を行う必要がないため、周波数帯域合成を行う必要もなく、符号化送信を直接行わればよい。いくつかの実施例において、端末は、符号化後のオーディオ信号をサーバに送信し、サーバにより符号化後のオーディオ信号を該複数人の音声通話に参加するその他の端末に転送する。
たとえば、マイクロホンにより収集された16kHzの超解像度信号について、QMF分析フィルタに基づいて周波数帯域分離を行い、8kHzの高周波信号と8kHzの低周波信号を出力し、一方、後続の雑音抑制、及びVAD意思決定は、8kHzの低周波信号上にのみ作用する。このとき端末がマイクオン状態にあれば、QMF合成フィルタを利用して8kHzの高周波信号と8kHzの低周波信号を16kHzの超解像度信号に再度合成し、次に超解像度信号に対して符号化送信を行う必要がある。
いくつかの実施例において、端末がマイクオン状態にある場合に、オーディオ信号に対して周波数帯域合成、及び符号化送信を行う前に、増幅回路のゲインパラメータが自動的に信号強度に伴って調整され、それによりオーディオ信号の伝送効果を向上させるとしても、さらにオーディオ信号に対してAGC処理を行うことをサポートする。
上記選択可能な技術的解決手段は、任意の組み合わせを採用して本開示の選択可能な実施例を形成することができるため、ここでは詳細な説明を省略する。
本願の実施例が提供する方法は、複数人の音声通話においてマイクミュート状態にある場合に、アプリケーションプログラムは、依然としてユーザのオーディオ信号を収集はするが、収集したオーディオ信号を該複数人の音声通話に参加するその他のアカウントに送信することはなく、アプリケーションプログラムは、該オーディオ信号に対して信号分析、及び処理を行い、該オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを利用することで、該オーディオ信号にターゲット音声が含まれるか否かを判断する。該オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクミュート状態の解除を忘れて発言をスタートすることを意味し、それによりプロンプトメッセージを外部に出力し、ユーザにマイクミュート状態を解除するようにタイムリーにプロンプトし、ユーザがマイクミュート状態にあることに気付かないことによるコミュニケーション効率の損失を低減させ、マンマシンインタラクション効率を向上させ、ユーザ体験を最適化することができる。
上記実施例においては、端末がどのように個々のオーディオフレームの個々の周波数帯域上のゲインパラメータに基づいて、該オーディオ信号にターゲット音声が含まれるか否かを判定するかが示されている。一方、本願の実施例において、端末がどのように個々のオーディオフレームの個々の周波数帯域上のゲインパラメータと個々のオーディオフレームのエネルギーパラメータを組み合わせて、該オーディオ信号にターゲット音声が含まれるか否かを総合的に判定する、すなわち個々のオーディオフレームのエネルギーパラメータと雑音抑制モデルが個々のオーディオフレームに対して出力したゲインパラメータに基づいてVAD意思決定を総合的に行うかを、以下に説明する。
図6は、本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。図6に参照されるように、該実施例は、電子機器により実行され、該電子機器が端末であることを例として説明すると、該端末とは、複数人の音声通話に参加するいずれか1つの端末、たとえば上記実施環境における第1端末120、又は第2端末160を指し、該実施例は、以下のステップを含む。
601:端末は、アプリケーションプログラムにおいて複数人の音声通話にアクセスする。
上記ステップ601は、上記ステップ301と類似しており、ここでは詳細な説明を省略する。
602:端末は、該複数人の音声通話において該アプリケーションプログラムにログインしているアカウントをマイクミュート状態に設定する。
上記ステップ602は、上記ステップ302と類似するため、ここでは詳細な説明を省略する。
603:端末は、アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得し、該ターゲットシーンは、該アプリケーションプログラムにログインしているアカウントが複数人の音声通話においてマイクミュート状態にあることである。
上記ステップ603は、上記ステップ303と類似するため、ここでは詳細な説明を省略する。
604:端末は、該オーディオ信号に前処理をして第1信号を獲得する。
上記ステップ604は、上記ステップ304と類似するため、ここでは詳細な説明を省略する。
605:端末は、該第1信号における複数のオーディオフレームを雑音抑制モデルに入力し、該雑音抑制モデルによって該複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの該第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力する。ここで、該オーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい。
上記ステップ605は、上記ステップ305と類似し、ここでは詳細な説明を省略する。
606:端末は、個々のオーディオフレームに対して、該オーディオフレームの第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの第2周波数帯域範囲における個々の周波数帯域上のゲインパラメータを決定し、該第2周波数帯域範囲は、該第1周波数帯域範囲のサブセットである。
上記ステップ606は、上記ステップ306と類似するため、ここでは詳細な説明を省略する。
607:端末は、該オーディオフレームのエネルギーパラメータを取得する。
いくつかの実施例において、端末は、該オーディオフレームの振幅のモジュラスを該オーディオフレームのエネルギーパラメータとして決定する。端末は、個々のオーディオフレームに対していずれも上記ステップ607を実行するため、該オーディオ信号における該複数のオーディオフレームのエネルギーパラメータを取得することができる。
608:端末は、該オーディオフレームの該第2周波数帯域範囲における個々の周波数帯域上のゲインパラメータと該オーディオフレームのエネルギーパラメータに基づいて、該オーディオフレームの音声状態パラメータを決定する。
いくつかの実施例において、個々のオーディオフレームに対して、端末は、該オーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの総合ゲインパラメータを決定し、上記総合ゲインパラメータの取得方式は、上記ステップ307と類似するため、ここでは詳細な説明を省略する。
いくつかの実施例において、端末は、該オーディオフレームの総合ゲインパラメータがターゲット倍数を増幅した後にアクティブ化閾値よりも大きく、且つ該オーディオフレームのエネルギーパラメータがエネルギー閾値よりも大きい場合に、該オーディオフレームの音声状態パラメータがターゲット音声を含むものであると決定し、該オーディオフレームの総合ゲインパラメータが該ターゲット倍数を増幅した後に該アクティブ化閾値よりも小さいか、又は等しく、もしくは該オーディオフレームのエネルギーパラメータが該エネルギー閾値よりも小さいか、又は等しい場合に、該オーディオフレームの音声状態パラメータがターゲット音声を含まないものであると決定する。ここで、該ターゲット倍数は、1よりも大きいいずれか1つの数値である。たとえば、該ターゲット倍数は、10000である。ここで、該アクティブ化閾値は、0よりも大きいいずれか1つの数値であり、たとえば該アクティブ化閾値は、6000である。ここで、該エネルギー閾値は、0よりも大きいか、又は等しく、且つ100よりも小さいか、又は等しいいずれか1つの数値であり、たとえば該エネルギー閾値は、30である。
1つの実施シーンにおいて、第2周波数帯域範囲が200~2000Hzであり、ターゲット倍数が10000であり、アクティブ化閾値が6000であり、エネルギー閾値が30であることを例として説明する。ユーザは、複数人の音声通話をキーオンにした後に、マイクミュート状態においてマイクロホンに1つの音声を話し、マイクロホンは、オーディオ信号を収集した後に、各フレーム(各フレームの長さが20msであると仮定する)に対して200~2000Hz内の各々の周波数帯域上のゲインパラメータをそれぞれ取得する。ここで、ゲインパラメータは、0よりも大きいか、又は等しく、且つ1よりも小さいか、又は等しい数値であり、各フレームの200~2000Hz内の各々の周波数帯域上のゲインパラメータに対して重み付け積算を行い、各フレームの総合ゲインパラメータを獲得し、各フレームの総合ゲインパラメータを10000倍に増幅し、増幅後の数値が6000よりも大きければ、現在のフレームの音声状態がアクティブ化であるとみなされる。同時に現在のフレームのエネルギーパラメータを計算し、エネルギーパラメータが30よりも大きければ、現在のフレームのエネルギーパラメータもアクティブ化されているとみなされる。VAD意思決定において、音声状態とエネルギーパラメータが同時にアクティブ化されるオーディオフレームのみ、音声状態パラメータすなわちVAD値を1にし、そうでなければ、音声状態がアクティブ化されていないか(増幅後のゲインパラメータが6000よりも小さいか、又は等しい)、又はエネルギーパラメータがアクティブ化されていない(エネルギーパラメータが30よりも小さいか、又は等しい)限りは、音声状態パラメータすなわちVAD値を0にする。
上記過程において、個々のオーディオフレームに対してVAD意思決定を行う過程において、ゲインパラメータとエネルギーパラメータの両方各自に対応する条件を満たすことを要件として、現在のフレームのVAD値を1にする、すなわちゲインとエネルギーの両方の要素を総合して現在のフレームのVAD値を計算する。ここで、エネルギーパラメータは、ユーザが話す音量を直感的に反映することで、ユーザとマイクロホンとの間の距離を大まかに推定し、遠方場の音が近傍場の人の声と誤判断されることを防止し、さらに人の声の識別の正確性を高めることができる。
上記ステップ605~608において、端末は、該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータと該複数のオーディオフレームのエネルギーパラメータに基づいて、該複数のオーディオフレームの音声状態パラメータを決定し、RNN雑音抑制モデルとエネルギー検出に基づいて音声アクティビティ検出を行うことができ、それにより比較的小さな計算複雑さを制御する前提においてターゲット音声、及び雑音を正確に識別し、特に非定常雑音について非常に高い識別正確性を有し、誤報告、報告エラーの状況を低減させ、ユーザの発言状態を敏感に捕捉し、かつプロンプトメッセージをタイムリーに報告して出力することができる。
609:端末は、該オーディオフレームと該オーディオフレームよりも前の第1ターゲット数量のオーディオフレームの音声状態パラメータに基づいて、該オーディオフレームが属するオーディオフレームグループのアクティブ化状態を決定し、該オーディオフレームグループは、該オーディオフレームと、該オーディオフレームよりも前の第1ターゲット数量のオーディオフレームと、を含む。
上記ステップ609は、上記ステップ308と類似するため、ここでは詳細な説明を省略する。
610:端末は、該オーディオフレームグループと該オーディオフレームグループよりも前の第2ターゲット数量のオーディオフレームグループのアクティブ化状態が第2条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定する。
上記ステップ610は、上記ステップ309と類似するため、ここでは詳細な説明を省略する。
611:端末は、プロンプトメッセージを出力し、該プロンプトメッセージは、該マイクミュート状態を解除するようにプロンプトすることに用いられる。
上記ステップ611は、上記ステップ310と類似するため、ここでは詳細な説明を省略する。
図7は、本願の実施例が提供するオーディオ信号の処理方法の原理模式図である。700に示されるように、マイクロホンは、オーディオ信号を収集し、フレーム化、ウィンドウイング、フーリエ変換を経た後に、オーディオ信号のサンプリングレートを判定し、サンプリングレートがサンプリングレート閾値よりも大きければ、超解像度信号であり、サンプリングレートがサンプリングレート閾値よりも小さいか、又は等しければ、高解像度信号である。超解像度信号に対して周波数帯域分離を行い、オーディオ信号を低周波信号と高周波信号に分離し、低周波信号をAECモジュールにおいて直接入力して音響エコーをキャンセルし、高解像度信号に対して周波数帯域分離を行う必要がなく、高解像度信号をAECモジュールにおいて直接入力して音響エコーをキャンセルする。音響エコーキャンセル後のオーディオ信号は、すなわち第1信号であり、第1信号における複数のオーディオフレームをRNN雑音抑制モデルに入力し、RNN雑音抑制モデルは、個々のオーディオフレームに対して0~8000Hzにおける各々の周波数帯域上のゲインパラメータを出力し、個々のオーディオフレームの0~8000Hzにおける各々の周波数帯域上のゲインパラメータをVAD意思決定モジュールにおいて入力する。この他、個々のオーディオフレームに対してエネルギー計算を行い、個々のオーディオフレームのエネルギーパラメータもVAD意思決定モジュールにおいて入力する。VAD意思決定モジュールにおいて、個々のオーディオフレームに対して200~2000Hzにおける個々の周波数帯域上のゲインパラメータを抽出して重み付け積算を行い、個々のオーディオフレームの総合ゲインパラメータを獲得し、次いで総合ゲインパラメータとエネルギーパラメータを組み合わせ、個々のオーディオフレームの音声状態パラメータVAD値を総合的に判断し、ゲインとエネルギーの2つの条件がいずれもアクティブ化されることが同時に満たされる場合にのみ、オーディオフレームのVAD値を1にし、そうでなければ、ゲインとエネルギーのうちのいずれか1つの条件がアクティブ化されていない限り、オーディオフレームのVAD値を0にする。
このとき、端末がマイクミュート状態にあれば、個々のオーディオフレームのVAD値をマイクロホンミュートプロンプトモジュールにおいて入力し、ショートフィルタリングアルゴリズムポリシーに基づいてVAD統計フィルタリングを行い(すなわちある瞬時時間、例えば現在のblockにおいてアクティブ化されるオーディオフレームの数を統計する)、ロングフィルタリングアルゴリズムポリシーに基づいてマイクロホンミュートプロンプトフィルタリングを行う(すなわちある長い時間、例えば現在のduration内でアクティブ化されるblockの数を統計する)。現在のduration内でアクティブ化されるblockの数がターゲット閾値を超えれば、該オーディオ信号にターゲット音声が含まれると決定し、現在のduration内でアクティブ化されるblockの数がターゲット閾値を超えなければ、該オーディオ信号においてターゲット音声が含まれないと決定する。
オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクロホンミュート状態においてターゲット音声を発し、すなわち報告条件に達することを意味し、この場合、プロンプトメッセージを外部に出力する。オーディオ信号においてターゲット音声が含まれていなければ、ユーザがマイクロホンミュート状態においてターゲット音声を発せず、すなわち報告条件に達していないことを意味し、この場合、プロンプトメッセージを出力しない。選択可能に、VAD意思決定モジュールは、個々のオーディオフレームのVAD値を出力した後に、端末がマイクオン状態にあれば、このときマイクロホンにより収集されたオーディオ信号を複数人の音声通話に参加するその他の端末に正常に送信することで、オーディオ信号の正常な伝送を保証する必要がある。超解像度信号について、周波数帯域分離により獲得された低周波信号と元の高周波信号に対して周波数帯域合成を行い、元の超解像度信号を再度復元し、さらに超解像度信号に対して符号化送信を行う必要がある。もちろん、高解像度信号について、周波数帯域分離を行う必要がないため、周波数帯域合成を行う必要もなく、符号化送信を直接行わればよい。いくつかの実施例において、端末は、符号化後のオーディオ信号をサーバに送信し、サーバにより符号化後のオーディオ信号を該複数人の音声通話に参加するその他の端末に転送する。
たとえば、マイクロホンにより収集された16kHzの超解像度信号について、QMF分析フィルタに基づいて周波数帯域分離を行い、8kHzの高周波信号と8kHzの低周波信号を出力し、一方、後続の雑音抑制、及びVAD意思決定は、8kHzの低周波信号上にのみ作用する。このとき端末がマイクオン状態にあれば、QMF合成フィルタを利用して8kHzの高周波信号と8kHzの低周波信号を16kHzの超解像度信号に再度合成し、次に超解像度信号に対して符号化送信を行う必要がある。
いくつかの実施例において、端末がマイクオン状態にある場合に、オーディオ信号に対して周波数帯域合成、及び符号化送信を行う前に、増幅回路のゲインパラメータが自動的に信号強度に伴って調整され、それによりオーディオ信号の伝送効果を向上させるとしても、さらにオーディオ信号に対してAGC処理を行うことをサポートする。
上記選択可能な技術的解決手段は、任意の組み合わせを採用して本開示の選択可能な実施例を形成することができ、ここでは詳細な説明を省略する。
本願の実施例が提供する方法は、複数人の音声通話においてマイクミュート状態にある場合に、アプリケーションプログラムは、依然としてユーザのオーディオ信号を収集はするが、収集したオーディオ信号を該複数人の音声通話に参加するその他のアカウントに送信することはなく、アプリケーションプログラムは、該オーディオ信号に対して信号分析、及び処理を行い、該オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを利用することで、該オーディオ信号にターゲット音声が含まれるか否かを判断する。該オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクミュート状態の解除を忘れて発言をスタートしていることを意味し、それによりプロンプトメッセージを外部に出力し、ユーザにマイクミュート状態を解除するようにタイムリーにプロンプトし、ユーザがマイクミュート状態にあることに気付かないことによるコミュニケーション効率の損失を低減させ、マンマシンインタラクション効率を向上させ、ユーザ体験を最適化することができる。
上記各々の実施例において、RNNにより出力された各々のオーディオフレームのゲインパラメータを直接利用してVAD意思決定を行うか、又は、RNNにより出力された各々のオーディオフレームのゲインパラメータと各々のオーディオフレームのエネルギーパラメータを組み合わせてVAD意思決定を同時に行うことがそれぞれ説明されている。上記2つの方式は、いずれも従来のVAD検出アルゴリズムを採用する必要がなく、一方、本願の実施例において、RNN雑音抑制モデルとVAD検出アルゴリズムを組み合わせることで、オーディオ信号にターゲット音声が含まれるか否かを識別する方法に関するものであり、以下に詳述する。
図8は、本願の実施例が提供するオーディオ信号の処理方法のフローチャートである。図8に参照されるように、該実施例は、電子機器により実行され、該電子機器が端末であることを例として説明すると、該端末とは、複数人の音声通話に参加するいずれか1つの端末、たとえば上記実施環境における第1端末120、又は第2端末160であり、該実施例は、以下のステップを含む。
801:端末は、アプリケーションプログラムにおいて複数人の音声通話にアクセスする。
上記ステップ801は、上記ステップ301と類似しており、ここでは詳細な説明を省略する。
802:端末は、該複数人の音声通話において該アプリケーションプログラムにログインしているアカウントをマイクミュート状態に設定する。
上記ステップ802は、上記ステップ302と類似しており、ここでは詳細な説明を省略する。
803:端末は、アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得し、該ターゲットシーンは、該アプリケーションプログラムにログインしているアカウントが複数人の音声通話においてマイクミュート状態にあることである。
上記ステップ803は、上記ステップ303と類似しており、ここでは詳細な説明を省略する。
804:端末は、該オーディオ信号に前処理をして第1信号を獲得する。
上記ステップ804は、上記ステップ304と類似しており、ここでは詳細な説明を省略する。
805:端末は、該第1信号における複数のオーディオフレームを雑音抑制モデルに入力し、該雑音抑制モデルによって該複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの該第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力する。ここで、該オーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい。
上記ステップ805は、上記ステップ305と類似しており、ここでは詳細な説明を省略する。
806:端末は、該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該複数のオーディオフレームに対して雑音抑制を行い、複数のターゲットオーディオフレームを獲得する。
いくつかの実施例において、端末は、個々のオーディオフレームに対して、該オーディオフレームの第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームにおける対応する周波数帯域の信号成分を増幅、又は減衰し、1つのターゲットオーディオフレームを獲得し、複数のオーディオフレームにおける個々のオーディオフレームに対していずれも上記操作を実行し、複数のターゲットオーディオフレームを獲得する。
807:端末は、該複数のターゲットオーディオフレームのエネルギーパラメータに基づいて音声アクティビティ検出VADを行い、該複数のターゲットオーディオフレームのVAD値を獲得する。
いくつかの実施例において、端末は、個々のターゲットオーディオフレームに対して、該ターゲットオーディオフレームの振幅のモジュラスを該ターゲットオーディオフレームのエネルギーパラメータとして取得し、複数のターゲットオーディオフレームにおける個々のターゲットオーディオフレームに対していずれも上記操作を実行し、該複数のターゲットオーディオフレームのエネルギーパラメータを獲得する。
いくつかの実施例において、VAD検出アルゴリズムを利用して該複数のターゲットオーディオフレームのエネルギーパラメータに対して音声アクティビティ検出を行い、該複数のターゲットオーディオフレーム各自のVAD値を出力する。選択可能に、VAD検出アルゴリズムは、GMM(Gaussian Mixture Model、ガウス混合モデル)に基づくVAD検出アルゴリズム、二重閾値に基づくVAD検出アルゴリズム、統計モデルに基づくVAD検出アルゴリズム、経験的モード分解法(Empirical Mode Decomposition、EMD)に基づくVAD検出アルゴリズム、相関係数法に基づくVAD検出アルゴリズム、又はウェーブレット変換法に基づくVAD検出アルゴリズム等を含むが、これらに限定されず、本願の実施例は、これを限定しない。
1つの実施シーンにおいて、GMM-VADを例として説明する。GMM-VADアルゴリズムは、人の声、及び雑音がいずれもガウス分布に合致すると仮定し、かつ雑音が人の声よりも穏やかであり、且つ雑音エネルギーが人の声のエネルギーよりも小さいと仮定すると、すなわち雑音信号の平均値と分散は、人の声の信号の平均値と分散よりも小さい。従って、2つのガウスモデルを使用して入力信号(すなわち該複数のターゲットオーディオフレームとは、雑音抑制された第1信号を指す)における人の声の信号、及び雑音信号をそれぞれフィッティングし、上記仮定によって両者を分けることができる。ガウスモデルによってフィッティング、及び分離した後に、人の声の信号の平均値、分散、及び重み、及び雑音信号の平均値、分散、及び重みの6つのパラメータを出力することになる。
たとえば、入力信号(すなわち該複数のターゲットオーディオフレームは、雑音抑制された第1信号である)は、80Hz~250Hz、250Hz~500Hz、500Hz~1KHz、1KHz~2KHz、2KHz~3KHz、3KHz~4KHzの6つの周波数帯域に区分される。個々の周波数帯域に対していずれもGMMモデルを用いて信号をフィッティングする。
GMM-VADアルゴリズムが初期化されるときに、上記6つのパラメータは、初期値(たとえば予め訓練されたパラメータ)を使用することになる。1つの新たなターゲットオーディオフレームがGMMモデルに入力されるたびに、既存のGMMモデルに基づいて類似確率を計算し、かつ現在のターゲットオーディオフレームが人の声であるか、雑音であるかを判断し、次にGMMモデルの判断結果に従って、最尤推定を用いて上記6つのパラメータを更新し、続いてGMMモデルを更新する。上記過程を反復実行し、個々のターゲットオーディオフレームが人の声であるか、雑音であるかを判断することができ、該ターゲットオーディオフレームが人の声であれば、該ターゲットオーディオフレームのVAD値を1にし、該ターゲットオーディオフレームが雑音であれば、該ターゲットオーディオフレームのVAD値を0にする。
808:端末は、該複数のターゲットオーディオフレームのVAD値が第3条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定する。
いくつかの実施例において、端末は、それぞれショートフィルタリングアルゴリズムポリシーとロングフィルタリングアルゴリズムポリシーに基づいて該複数のターゲットオーディオフレームのVAD値を判断し、該オーディオ信号にターゲット音声が含まれるか否かを決定することもする。
選択可能に、個々のターゲットオーディオフレームに対して、端末は、該ターゲットオーディオフレームと該ターゲットオーディオフレームよりも前の第1ターゲット数量のターゲットオーディオフレームのVAD値に基づいて、該ターゲットオーディオフレームが属するターゲットオーディオフレームグループのアクティブ化状態を決定する。該ターゲットオーディオフレームグループは、該ターゲットオーディオフレームと、該ターゲットオーディオフレームよりも前の第1ターゲット数量のターゲットオーディオフレームと、を含む。該ターゲットオーディオフレームグループと該ターゲットオーディオフレームグループよりも前の第2ターゲット数量のターゲットオーディオフレームグループのアクティブ化状態が第2条件に合致する場合に、該複数のターゲットオーディオフレームのVAD値が第3条件に合致することを意味し、該オーディオ信号にターゲット音声が含まれると決定する。上記判断方式は、上記ステップ308~309と類似するため、ここでは詳細な説明を省略する。
809:端末は、プロンプトメッセージを出力し、該プロンプトメッセージは、該マイクミュート状態を解除するようにプロンプトすることに用いられる。
上記ステップ809は、上記ステップ310と類似するため、ここでは詳細な説明を省略する。
図9は、本願の実施例が提供するオーディオ信号の処理方法の原理模式図である。900に示されるように、マイクロホンは、オーディオ信号を収集し、フレーム化、ウィンドウイング、フーリエ変換を経た後に、オーディオ信号のサンプリングレートを判定する。サンプリングレートがサンプリングレート閾値よりも大きければ、超解像度信号であり、サンプリングレートがサンプリングレート閾値よりも小さいか、又は等しければ、高解像度信号である。超解像度信号に対して周波数帯域分離を行い、オーディオ信号を低周波信号と高周波信号に分離し、低周波信号をAECモジュールにおいて直接入力して音響エコーをキャンセルし、高解像度信号に対して周波数帯域分離を行う必要はなく、高解像度信号をAECモジュールにおいて直接入力して音響エコーをキャンセルする。音響エコーキャンセル後のオーディオ信号は、すなわち第1信号であり、第1信号における複数のオーディオフレームをRNN雑音抑制モデルに入力し、RNN雑音抑制モデルは、個々のオーディオフレームに対して0~8000Hzにおける各々の周波数帯域上のゲインパラメータを出力し、各々のゲインパラメータに基づいて各々のオーディオフレームに対して雑音抑制を行い、複数のターゲットオーディオフレームを獲得する。個々のターゲットオーディオフレームに対してエネルギー計算を行い、個々のターゲットオーディオフレームのエネルギーパラメータを獲得する。個々のターゲットオーディオフレームのエネルギーパラメータをGMM-VADモジュールにおいて入力し、個々のターゲットオーディオフレームに対して、GMMモデルを利用して該ターゲットオーディオフレームがターゲット音声であるか、雑音であるかを予測する。該ターゲットオーディオフレームがターゲット音声であれば、該ターゲットオーディオフレームのVAD値を1にし、該ターゲットオーディオフレームが雑音であれば、該ターゲットオーディオフレームのVAD値を0にする。
このとき、端末がマイクミュート状態にあれば、個々のターゲットオーディオフレームのVAD値をマイクロホンミュートプロンプトモジュールにおいて入力し、ショートフィルタリングアルゴリズムポリシーに基づいてVAD統計フィルタリングを行い(すなわちある瞬時時間、例えば現在のblockにおいてアクティブ化されるターゲットオーディオフレームの数を統計する)、ロングフィルタリングアルゴリズムポリシーに基づいてマイクロホンミュートプロンプトフィルタリングを行う(すなわちある長い時間、例えば現在のduration内でアクティブ化されるblockの数を統計する)。現在のduration内でアクティブ化されるblockの数がターゲット閾値を超えれば、該オーディオ信号にターゲット音声が含まれると決定し、現在のduration内でアクティブ化されるblockの数がターゲット閾値を超えなければ、該オーディオ信号においてターゲット音声が含まれないと決定する。
オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクロホンミュート状態においてターゲット音声を発しており、すなわち報告条件に達することを意味し、この場合、プロンプトメッセージを外部に出力する。オーディオ信号においてターゲット音声が含まれていなければ、ユーザがマイクロホンミュート状態においてターゲット音声を発しておらず、すなわち報告条件に達していないことを意味し、この場合、プロンプトメッセージを出力しない。選択可能に、GMM-VADモジュールは、個々のターゲットオーディオフレームのVAD値を出力した後に、端末がマイクオン状態にあれば、このときマイクロホンにより収集されたオーディオ信号を複数人の音声通話に参加するその他の端末に正常に送信することで、オーディオ信号の正常な伝送を保証する必要がある。超解像度信号について、周波数帯域分離により獲得された低周波信号と元の高周波信号に対して周波数帯域合成を行い、元の超解像度信号を再度復元し、さらに超解像度信号に対して符号化送信を行う必要がある。もちろん、高解像度信号について、周波数帯域分離を行う必要がないため、周波数帯域合成を行う必要もなく、符号化送信を直接行わればよい。いくつかの実施例において、端末は、符号化後のオーディオ信号をサーバに送信し、サーバにより符号化後のオーディオ信号を該複数人の音声通話に参加するその他の端末に転送する。
たとえば、マイクロホンにより収集された16kHzの超解像度信号について、QMF分析フィルタに基づいて周波数帯域分離を行い、8kHzの高周波信号と8kHzの低周波信号を出力し、一方、後続の雑音抑制、及びVAD意思決定は、8kHzの低周波信号上にのみ作用する。このとき端末がマイクオン状態にあれば、QMF合成フィルタを利用して8kHzの高周波信号と8kHzの低周波信号を16kHzの超解像度信号に再度合成し、次に超解像度信号に対して符号化送信を行う必要がある。
いくつかの実施例において、端末がマイクオン状態にある場合に、オーディオ信号に対して周波数帯域合成、及び符号化送信を行う前に、増幅回路のゲインパラメータが自動的に信号強度に伴って調整され、それによりオーディオ信号の伝送効果を向上させるとしても、さらにオーディオ信号に対してAGC処理を行うことをサポートする。
図10は、本願の実施例が提供するテキストプロンプトメッセージの


模式図である。図10に示されるように、オーディオ信号においてターゲット音声が含まれていれば、複数人の音声通話の通話インタフェース1000において、端末は、テキストプロンプトメッセージ1001「マイクロホンがミュートになっているため、マイクロホンのミュートを解除してから発言してください」を表示し、かつディセーブル状態にあるマイク設定制御部材1002を表示する。該テキストプロンプトメッセージ1001は、ユーザがディセーブル状態にあるマイク設定制御部材1002をクリックすることによって、該マイク設定制御部材1002をディセーブル状態からイネーブル状態に設定し、それによりマイクミュート状態を解除するようにプロンプトするために用いられる。
上記すべての選択可能な技術的解決手段は、任意の組み合わせを採用して本開示の選択可能な実施例を形成することができるため、ここでは詳細な説明を省略する。
本願の実施例が提供する方法は、複数人の音声通話においてマイクミュート状態にある場合に、アプリケーションプログラムは、依然としてユーザのオーディオ信号を収集はするが、収集したオーディオ信号を該複数人の音声通話に参加するその他のアカウントに送信することはなく、アプリケーションプログラムは、該オーディオ信号に対して信号分析、及び処理を行い、該オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを利用することで、該オーディオ信号にターゲット音声が含まれるか否かを判断する。該オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクミュート状態の解除を忘れて発言をスタートしていることを意味し、それによりプロンプトメッセージを外部に出力し、ユーザにマイクミュート状態を解除するようにタイムリーにプロンプトし、ユーザがマイクミュート状態にあることに気付かないことによるコミュニケーション効率の損失を低減させ、マンマシンインタラクション効率を向上させ、ユーザ体験を最適化することができる。
テストシーンにおいて、複数のシーンにおける若干の純粋な雑音、純粋な音声(男性の声、女性の声、中国語、英語)、及び雑音付き音声をそれぞれ選び、上記各々の実施例が提供するオーディオ信号の処理方法の安定性、及び感度程度をテストしており、ここで、雑音には、定常雑音(車の雑音、風の雑音、街路、地下鉄、コーヒーショップ等)、及び非定常雑音(工事現場、キーボード、テーブル、叩き、人の声等)がそれぞれ導入されている。本願の実施例が提供する方法は、従来のエネルギーのみに基づくVAD検出に依存しないため、オーディオ信号における人の声についての検出の正確性をある程度で高めつつ、同時に複雑なCNNモデルにも依存しないため、計算の消費も保証され得る。本願の実施例が提供する方法は、各々のオーディオビデオ通話シーン、又はオーディオビデオ会議において、例えば音声通話、ビデオ通話、複数人の音声通話、複数人のビデオ通話、スクリーン共有等に使用されてもよく、複数のライブ、又は通信製品、ソーシャルソフトウェアにおいて使用されてもよく、移動側の最低エネルギー消費の計算ニーズを満たす。
図11は、本願の実施例が提供するオーディオ信号の処理装置の構造模式図である。図11に参照されるように、該装置は、
アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得することに用いられる第1取得モジュール1101であって、該ターゲットシーンは、該アプリケーションプログラムにログインしているアカウントが複数人の音声通話においてマイクミュート状態にある、第1取得モジュール1101と、
該オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得することに用いられる第2取得モジュール1102と、
該ゲインパラメータに基づいて該オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力することに用いられる出力モジュール1103であって、該プロンプトメッセージは、該マイクミュート状態を解除するようにプロンプトすることに用いられる、出力モジュール1103と、を含む。
本願の実施例が提供する装置は、複数人の音声通話においてマイクミュート状態にある場合に、アプリケーションプログラムは、依然としてユーザのオーディオ信号を収集はするが、収集したオーディオ信号を該複数人の音声通話に参加するその他のアカウントに送信することはなく、アプリケーションプログラムは、該オーディオ信号に対して信号分析、及び処理を行い、該オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを利用することで、該オーディオ信号にターゲット音声が含まれるか否かを判断する。該オーディオ信号においてターゲット音声が含まれていれば、ユーザがマイクミュート状態の解除を忘れて発言をスタートしていることを意味し、それによりプロンプトメッセージを外部に出力し、ユーザにマイクミュート状態を解除するようにタイムリーにプロンプトし、ユーザがマイクミュート状態にあることに気付かないことによるコミュニケーション効率の損失を低減させ、マンマシンインタラクション効率を向上させることができる。
1つの可能な実施形態において、該第2取得モジュール1102は、
該オーディオ信号に前処理をして第1信号を獲得することに用いられる前処理ユニットと、
該第1信号における複数のオーディオフレームを雑音抑制モデルに入力し、該雑音抑制モデルによって該複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの該第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力することに用いられる処理ユニットであって、ここで、該オーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい、処理ユニットと、を含む。
1つの可能な実施形態において、該雑音抑制モデルは、回帰型ニューラルネットワークであり、該回帰型ニューラルネットワークは、少なくとも1つの隠れ層を含み、個々の隠れ層において複数のニューロンが含まれ、個々の隠れ層におけるニューロンの数量は、入力されたオーディオフレームの数量と同じであり、
該処理ユニットは、
該回帰型ニューラルネットワークにおけるいずれか1つの隠れ層におけるいずれか1つのニューロンに対して、該いずれか1つのニューロンによって、該いずれか1つの隠れ層における前のニューロンにより出力された周波数特徴と前の隠れ層における対応する位置のニューロンにより出力された周波数特徴に対して重み付け処理を行い、重み付け処理して獲得された周波数特徴を該いずれか1つの隠れ層における次のニューロンと次の隠れ層における対応する位置のニューロンにそれぞれ入力することに用いられる。
1つの可能な実施形態において、図11の装置の構成に基づき、該装置は、
該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該複数のオーディオフレームの音声状態パラメータを決定することに用いられる第1決定モジュールであって、該音声状態パラメータは、対応するオーディオフレームがターゲット音声を含むか否かを特徴付けることに用いられる、第1決定モジュールと、
いずれか1つのオーディオフレームと該オーディオフレームよりも前のターゲット数量のオーディオフレームの音声状態パラメータが第1条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定することに用いられる第2決定モジュールと、をさらに含む。
1つの可能な実施形態において、図11の装置の構成に基づき、該第1決定モジュールは、
個々のオーディオフレームに対して、該オーディオフレームの第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの第2周波数帯域範囲における個々の周波数帯域上のゲインパラメータを決定することに用いられる第1決定ユニットであって、該第2周波数帯域範囲は、該第1周波数帯域範囲のサブセットである、第1決定ユニットと、
該オーディオフレームの該第2周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの音声状態パラメータを決定することに用いられる第2決定ユニットと、を含む。
1つの可能な実施形態において、図11の装置の構成に基づき、該第2決定ユニットは、
該オーディオフレームの該第2周波数帯域範囲における個々の周波数帯域上のゲインパラメータと対応する周波数帯域の重み係数とを乗算し、該オーディオフレームの該第2周波数帯域範囲における個々の周波数帯域上の重み付けされたゲインパラメータを獲得することに用いられる乗算サブユニットと、
該オーディオフレームの該第2周波数帯域範囲における各々の周波数帯域上の重み付けされたゲインパラメータを加算し、該オーディオフレームの総合ゲインパラメータを獲得することに用いられる加算サブユニットと、
該オーディオフレームの総合ゲインパラメータに基づいて、該オーディオフレームの音声状態パラメータを決定することに用いられる決定サブユニットと、を含む。
1つの可能な実施形態において、該決定サブユニットは、
該総合ゲインパラメータがターゲット倍数を増幅した後にアクティブ化閾値よりも大きい場合に、該音声状態パラメータがターゲット音声を含むものであると決定することと、
該総合ゲインパラメータが該ターゲット倍数を増幅した後に該アクティブ化閾値よりも小さいか、又は等しい場合に、該音声状態パラメータがターゲット音声を含まないものであると決定することと、に用いられる。
1つの可能な実施形態において、図11の装置の構成に基づき、該装置は、
該複数のオーディオフレームのエネルギーパラメータを取得することに用いられる第3取得モジュールをさらに含み、
該第1決定モジュールは、
該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータと該複数のオーディオフレームのエネルギーパラメータに基づいて、該複数のオーディオフレームの音声状態パラメータを決定することに用いられる第3決定ユニットを含む。
1つの可能な実施形態において、該第3決定ユニットは、
個々のオーディオフレームに対して、該オーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該オーディオフレームの総合ゲインパラメータを決定することと、
該オーディオフレームの総合ゲインパラメータがターゲット倍数を増幅した後にアクティブ化閾値よりも大きく、且つ該オーディオフレームのエネルギーパラメータがエネルギー閾値よりも大きい場合に、該オーディオフレームの音声状態パラメータがターゲット音声を含むものであると決定することと、
該オーディオフレームの総合ゲインパラメータが該ターゲット倍数を増幅した後に該アクティブ化閾値よりも小さいか、又は等しく、もしくは該オーディオフレームのエネルギーパラメータが該エネルギー閾値よりも小さいか、又は等しい場合に、該オーディオフレームの音声状態パラメータがターゲット音声を含まないものであると決定することと、に用いられる。
1つの可能な実施形態において、図11の装置の構成に基づき、該第2決定モジュールは、
いずれか1つの該オーディオフレームに対して、該オーディオフレームと該オーディオフレームよりも前の第1ターゲット数量のオーディオフレームの音声状態パラメータに基づいて、該オーディオフレームが属するオーディオフレームグループのアクティブ化状態を決定することに用いられる第4決定ユニットであって、該オーディオフレームグループは、該オーディオフレームと、該オーディオフレームよりも前の第1ターゲット数量のオーディオフレームと、を含む、第4決定ユニットと、
該オーディオフレームグループと該オーディオフレームグループよりも前の第2ターゲット数量のオーディオフレームグループのアクティブ化状態が第2条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定することに用いられる第5決定ユニットであって、該ターゲット数量は、第1ターゲット数量と該第2ターゲット数量に基づいて決定される、第5決定ユニットと、を含む。
1つの可能な実施形態において、該第4決定ユニットは、
該オーディオフレームグループにおいて音声状態パラメータがターゲット音声を含むオーディオフレームの数量が数量閾値を超えるものである場合に、該オーディオフレームグループのアクティブ化状態がアクティブ化であると決定することと、
該オーディオフレームグループにおいて音声状態パラメータがターゲット音声を含むオーディオフレームの数量が該数量閾値を超えないものである場合に、該オーディオフレームグループのアクティブ化状態が非アクティブ化であると決定することと、に用いられる。
1つの可能な実施形態において、図11の装置の構成に基づき、該装置は、
該複数のオーディオフレームの該複数の周波数帯域上のゲインパラメータに基づいて、該複数のオーディオフレームに対して雑音抑制を行い、複数のターゲットオーディオフレームを獲得することに用いられる雑音抑制モジュールと、
該複数のターゲットオーディオフレームのエネルギーパラメータに基づいて音声アクティビティ検出VADを行い、該複数のターゲットオーディオフレームのVAD値を獲得することに用いられる音声アクティビティ検出モジュールと、
該複数のターゲットオーディオフレームのVAD値が第3条件に合致する場合に、該オーディオ信号にターゲット音声が含まれると決定することに用いられる第3決定モジュールと、をさらに含む。
1つの可能な実施形態において、該ターゲット音声は、ターゲットオブジェクトの該複数人の音声通話における発言であり、又は、該ターゲット音声は、該ターゲットオブジェクトの音である。
上記すべての選択可能な技術的解決手段は、任意の組み合わせを採用して本開示の選択可能な実施例を形成することができ、ここでは詳細な説明を省略する。
説明する必要があるように、上記実施例が提供するオーディオ信号の処理装置は、オーディオ信号を処理するときに、上記各機能モジュールの区分のみを列挙して説明しているが、実際の応用においては、必要に応じて上記機能を異なる機能モジュールに割り当てて完成することができる。すなわち電子機器の内部構造を異なる機能モジュールに区分することで、以上に記述される全部、又は一部の機能を完成する。また、上記実施例が提供するオーディオ信号の処理装置は、オーディオ信号の処理方法の実施例と同一の構想に属し、その実現過程は、オーディオ信号の処理方法の実施例を詳しく参照し得るため、ここでは詳細な説明を省略する。
図12は、本願の実施例が提供する電子機器の構造模式図である。図12に示されるように、電子機器が端末1200であることを例として説明する。選択可能に、該端末1200の機器タイプは、スマートフォン、タブレットパソコン、MP3プレーヤー(Moving Picture Experts Group Audio Layer III)、MP4(Moving Picture Experts Group Audio Layer IV)プレーヤー、ノートパソコン、又はデスクトップパソコンを含む。端末1200は、さらにユーザ機器、携帯端末、ラップトップ端末、デスクトップ端末等のその他の名称と呼ばれる可能性がある。
通常、端末1200は、プロセッサ1201と、メモリ1202と、を含む。
選択可能に、プロセッサ1201は、例えばクアッドコアプロセッサ、オクタコアプロセッサ等の1つ、又は複数の処理コアを含む。選択可能に、プロセッサ1201は、DSP(Digital Signal Processing、デジタル信号処理)、FPGA(Field-Programmable Gate Array、フィールドプログラマブルゲートアレイ)、PLA(Programmable Logic Array、プログラマブルロジックアレイ)のうちの少なくとも1種のハードウェア形式を採用して実現される。いくつかの実施例において、プロセッサ1201は、メインプロセッサと、コプロセッサと、を含み、メインプロセッサは、ウェイクアップ状態におけるデータを処理することに用いられるプロセッサであり、CPU(Central Processing Unit、中央プロセッサ)とも呼ばれ、コプロセッサは、待機状態におけるデータを処理することに用いられる低消費電力プロセッサである。いくつかの実施例において、プロセッサ1201にはGPU(Graphics Processing Unit、画像プロセッサ)が集積され、GPUは、表示スクリーンに表示される必要があるコンテンツのレンダリング、及び描画を負うことに用いられる。いくつかの実施例において、プロセッサ1201は、AI(Artificial Intelligence、人工知能)プロセッサをさらに含み、該AIプロセッサは、機械学習に関連する計算操作を処理することに用いられる。
いくつかの実施例において、メモリ1202は、1つ、又は複数のコンピュータ可読記憶媒体を含み、選択可能に、該コンピュータ可読記憶媒体は、非一時的である。選択可能に、メモリ1202は、高速ランダムアクセスメモリ、及び、例えば1つ、又は複数の磁気ディスク記憶機器、フラッシュメモリ記憶機器等の不揮発性メモリをさらに含む。いくつかの実施例において、メモリ1202における非一時的なコンピュータ可読記憶媒体は、少なくとも1つのプログラムコードを記憶することに用いられ、該少なくとも1つのプログラムコードは、プロセッサ1201により実行されることで、本願における各々の実施例が提供するオーディオ信号の処理方法を実現することに用いられる。
いくつかの実施例において、端末1200は、さらに選択可能にオーディオ回路1207を含む。
いくつかの実施例において、オーディオ回路1207は、マイクロホンと、スピーカと、を含む。マイクロホンは、ユーザ、及び環境の音波を収集し、かつ音波を電気信号に変換してプロセッサ1201に入力して処理し、又は無線周波数回路1204に入力することで音声通信を実現することに用いられる。ステレオ収集、又は雑音低減の目的から、マイクロホンは、複数であり、それぞれ端末1200の異なる部位に設置される。選択可能に、マイクロホンは、アレイマイクロホン、又は全指向性の集音マイクロホンである。スピーカは、プロセッサ1201、又は無線周波数回路1204からの電気信号を音波に変換することに用いられる。選択可能に、スピーカは、従来の薄膜スピーカであるか、又は圧電セラミックスピーカである。スピーカが圧電セラミックスピーカであるときに、電気信号を人間による可聴音波に変換することができるだけでなく、電気信号を人間の非可聴音波に変換することで測距等の用途を行うこともできる。いくつかの実施例において、オーディオ回路1207は、イヤホンジャックをさらに含む。
図13は、本願の実施例が提供する電子機器の構造模式図であり、該電子機器1300は、配置、又は性能が異なるため、比較的大きな差異が発生し、該電子機器1300は、1つ、又は1つ以上のプロセッサ(Central Processing Units、CPU)1301と、1つ、又は1つ以上のメモリ1302と、を含み、ここで、該メモリ1302において少なくとも1つのコンピュータプログラムが記憶される。該少なくとも1つのコンピュータプログラムは、該1つ、又は1つ以上のプロセッサ1301によりロードされ、かつ実行されることで、上記各々の実施例が提供するオーディオ信号の処理方法を実現する。選択可能に、該電子機器1300は、有線、又は無線ネットワークインターフェース、キーボード、及び入出力インターフェース等のコンポーネントをさらに有することで、入出力を行うことを容易にし、該電子機器1300は、機器の機能を実現することに用いられるその他のコンポーネントをさらに含み、ここでは詳細な説明を省略する。
例示的な実施例において、コンピュータ可読記憶媒体、たとえば少なくとも1つのコンピュータプログラムを含むメモリがさらに提供され、上記少なくとも1つのコンピュータプログラムは、端末におけるプロセッサにより実行されることで、上記各々の実施例におけるオーディオ信号の処理方法を完了することを可能にする。たとえば、該コンピュータ可読記憶媒体は、ROM(Read-Only Memory、読み取り専用メモリ)、RAM(Random-Access Memory、ランダムアクセスメモリ)、CD-ROM(Compact Disc Read-Only Memory、読み取り専用光ディスク)、磁気テープ、フロッピーディスク、及び光データ記憶機器等を含む。
例示的な実施例において、コンピュータプログラム製品、又はコンピュータプログラムがさらに提供され、1つ、又は複数のプログラムコードを含み、該1つ、又は複数のプログラムコードは、コンピュータ可読記憶媒体において記憶される。電子機器の1つ、又は複数のプロセッサは、コンピュータ可読記憶媒体の中から該1つ、又は複数のプログラムコードを読み取ることができ、該1つ、又は複数のプロセッサは、該1つ、又は複数のプログラムコードを実行し、電子機器が実行されることで上記実施例におけるオーディオ信号の処理方法を完了できるようにする。
当業者であれば理解できるように、上記実施例を実現する全部、又は一部のステップは、ハードウェアによって完了されてもよく、プログラムによって関連するハードウェアに指令して完了されてもよく、選択可能に、該プログラムは、コンピュータ可読記憶媒体において記憶され、選択可能に、上記言及された記憶媒体は、読み取り専用メモリ、磁気ディスク、又は光ディスク等である。
以上は、本願の選択可能な実施例に過ぎず、本願を制限するために用いられるものではなく、本願の精神、及び原則内で行われたいかなる修正、等価置換、改良等も、本願の保護範囲内に含まれるべきである。
120 第1端末
140 サーバ
160 第2端末
1000 通話インタフェース
1001 テキストプロンプトメッセージ
1002 マイク設定制御部材
1101 第1取得モジュール
1102 第2取得モジュール
1103 出力モジュール
1200 端末
1201 プロセッサ
1202 メモリ
1204 無線周波数回路
1207 オーディオ回路
1300 電子機器
1301 プロセッサ
1302 メモリ

Claims (18)

  1. 端末により実行される、オーディオ信号の処理方法であって、前記方法は、
    アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得するステップであって、前記アプリケーションプログラムにアカウントがログインしており、前記ターゲットシーンとは、前記アカウントが複数人の音声通話においてマイクミュート状態にあることを指す、ステップと、
    前記オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得するステップと、
    前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力するステップであって、前記プロンプトメッセージは、前記アカウントのマイクミュート状態を解除するようにプロンプトすることに用いられる、ステップと、を含む、オーディオ信号の処理方法。
  2. 前記オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得する前記ステップは、
    前記オーディオ信号に前処理をして第1信号を獲得するステップと、
    前記第1信号における複数のオーディオフレームを雑音抑制モデルに入力し、前記雑音抑制モデルによって前記複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの前記第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力するステップであって、前記オーディオフレームの人の声の周波数帯域上のゲインパラメータは、雑音周波数帯域上のゲインパラメータよりも大きい、ステップと、を含む、請求項1に記載の方法。
  3. 前記雑音抑制モデルは、回帰型ニューラルネットワークであり、前記回帰型ニューラルネットワークは、少なくとも1つの隠れ層を含み、個々の隠れ層において複数のニューロンが含まれ、個々の隠れ層におけるニューロンの数量は、入力されたオーディオフレームの数量と同じであり、
    前記雑音抑制モデルによって前記複数のオーディオフレームにおける個々のオーディオフレームを処理し、個々のオーディオフレームのそれぞれの前記第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータを出力する前記ステップは、
    前記回帰型ニューラルネットワークにおけるいずれか1つの隠れ層におけるいずれか1つのニューロンに対して、前記いずれか1つのニューロンによって、前記いずれか1つの隠れ層における前のニューロンにより出力された周波数特徴と前の隠れ層における対応する位置のニューロンにより出力された周波数特徴に対して重み付け処理を行い、重み付け処理して獲得された周波数特徴を前記いずれか1つの隠れ層における次のニューロンと次の隠れ層における対応する位置のニューロンにそれぞれ入力するステップを含む、請求項2に記載の方法。
  4. 前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定する前記ステップは、
    前記複数のオーディオフレームの前記複数の周波数帯域上のゲインパラメータに基づいて、前記複数のオーディオフレームの音声状態パラメータを決定するステップであって、前記音声状態パラメータは、対応するオーディオフレームがターゲット音声を含むか否かを特徴付けることに用いられる、ステップと、
    前記複数のオーディオフレームの音声状態パラメータに基づいて、前記オーディオ信号にターゲット音声が含まれると決定するステップと、を含む、請求項1に記載の方法。
  5. 前記複数のオーディオフレームの前記複数の周波数帯域上のゲインパラメータに基づいて、前記複数のオーディオフレームの音声状態パラメータを決定する前記ステップは、
    個々のオーディオフレームに対して、前記オーディオフレームの前記第1周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、前記オーディオフレームの第2周波数帯域範囲における個々の周波数帯域上のゲインパラメータを決定するステップであって、前記第2周波数帯域範囲は、前記第1周波数帯域範囲のサブセットである、ステップと、
    前記オーディオフレームの前記第2周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、前記オーディオフレームの音声状態パラメータを決定するステップと、を含む、請求項4に記載の方法。
  6. 前記オーディオフレームの前記第2周波数帯域範囲における個々の周波数帯域上のゲインパラメータに基づいて、前記オーディオフレームの音声状態パラメータを決定する前記ステップは、
    前記オーディオフレームの前記第2周波数帯域範囲における個々の周波数帯域上のゲインパラメータと対応する周波数帯域の重み係数とを乗算し、前記オーディオフレームの前記第2周波数帯域範囲における個々の周波数帯域上の重み付けされたゲインパラメータを獲得するステップと、
    前記オーディオフレームの前記第2周波数帯域範囲における各々の周波数帯域上の重み付けされたゲインパラメータを加算し、前記オーディオフレームの総合ゲインパラメータを獲得するステップと、
    前記オーディオフレームの総合ゲインパラメータに基づいて、前記オーディオフレームの音声状態パラメータを決定するステップと、を含む、請求項5に記載の方法。
  7. 前記オーディオフレームの総合ゲインパラメータに基づいて、前記オーディオフレームの音声状態パラメータを決定する前記ステップは、
    前記総合ゲインパラメータがターゲット倍数を増幅した後にアクティブ化閾値よりも大きい場合に、前記音声状態パラメータがターゲット音声を含むものであると決定するステップと、
    前記総合ゲインパラメータが前記ターゲット倍数を増幅した後に前記アクティブ化閾値よりも小さいか、又は等しい場合に、前記音声状態パラメータがターゲット音声を含まないものであると決定するステップと、を含む、請求項6に記載の方法。
  8. 前記方法は、
    前記複数のオーディオフレームのエネルギーパラメータを取得するステップをさらに含み、
    前記複数のオーディオフレームの前記複数の周波数帯域上のゲインパラメータに基づいて、前記複数のオーディオフレームの音声状態パラメータを決定する前記ステップは、
    前記複数のオーディオフレームの前記複数の周波数帯域上のゲインパラメータと前記複数のオーディオフレームのエネルギーパラメータに基づいて、前記複数のオーディオフレームの音声状態パラメータを決定するステップを含む、請求項4~7のいずれか1項に記載の方法。
  9. 前記複数のオーディオフレームの前記複数の周波数帯域上のゲインパラメータと前記複数のオーディオフレームのエネルギーパラメータに基づいて、前記複数のオーディオフレームの音声状態パラメータを決定する前記ステップは、
    個々のオーディオフレームに対して、前記オーディオフレームの前記複数の周波数帯域上のゲインパラメータに基づいて、前記オーディオフレームの総合ゲインパラメータを決定するステップと、
    前記オーディオフレームの総合ゲインパラメータがターゲット倍数を増幅した後にアクティブ化閾値よりも大きく、且つ前記オーディオフレームのエネルギーパラメータがエネルギー閾値よりも大きい場合に、前記オーディオフレームの音声状態パラメータがターゲット音声を含むものであると決定するステップと、
    前記オーディオフレームの総合ゲインパラメータが前記ターゲット倍数を増幅した後に前記アクティブ化閾値よりも小さいか、又は等しく、もしくは前記オーディオフレームのエネルギーパラメータが前記エネルギー閾値よりも小さいか、又は等しい場合に、前記オーディオフレームの音声状態パラメータがターゲット音声を含まないものであると決定するステップと、を含む、請求項8に記載の方法。
  10. 前記複数のオーディオフレームの音声状態パラメータに基づいて、前記オーディオ信号にターゲット音声が含まれると決定する前記ステップは、
    いずれか1つのオーディオフレームと前記オーディオフレームよりも前のターゲット数量のオーディオフレームの音声状態パラメータが第1条件に合致する場合に、前記オーディオ信号にターゲット音声が含まれると決定するステップを含む、請求項4に記載の方法。
  11. いずれか1つのオーディオフレームと前記オーディオフレームよりも前のターゲット数量のオーディオフレームの音声状態パラメータが第1条件に合致する場合に、前記オーディオ信号にターゲット音声が含まれると決定する前記ステップは、
    いずれか1つの前記オーディオフレームに対して、前記オーディオフレームと前記オーディオフレームよりも前の第1ターゲット数量のオーディオフレームの音声状態パラメータに基づいて、前記オーディオフレームが属するオーディオフレームグループのアクティブ化状態を決定するステップであって、前記オーディオフレームグループは、前記オーディオフレームと、前記オーディオフレームよりも前の第1ターゲット数量のオーディオフレームと、を含む、ステップと、
    前記オーディオフレームグループと前記オーディオフレームグループよりも前の第2ターゲット数量のオーディオフレームグループのアクティブ化状態が第2条件に合致する場合に、前記オーディオ信号にターゲット音声が含まれると決定するステップであって、前記ターゲット数量は、第1ターゲット数量と前記第2ターゲット数量に基づいて決定される、ステップと、を含む、請求項10に記載の方法。
  12. 前記オーディオフレームと前記オーディオフレームよりも前の第1ターゲット数量のオーディオフレームの音声状態パラメータに基づいて、前記オーディオフレームが属するオーディオフレームグループのアクティブ化状態を決定する前記ステップは、
    前記オーディオフレームグループにおいて音声状態パラメータがターゲット音声を含むオーディオフレームの数量が数量閾値を超えるものである場合に、前記オーディオフレームグループのアクティブ化状態がアクティブ化されていると決定するステップと、
    前記オーディオフレームグループにおいて音声状態パラメータがターゲット音声を含むオーディオフレームの数量が前記数量閾値を超えないものである場合に、前記オーディオフレームグループのアクティブ化状態がアクティブ化されていないと決定するステップと、を含む、請求項11に記載の方法。
  13. 前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定する前記ステップは、
    前記複数のオーディオフレームの前記複数の周波数帯域上のゲインパラメータに基づいて、前記複数のオーディオフレームに対して雑音抑制を行い、複数のターゲットオーディオフレームを獲得するステップと、
    前記複数のターゲットオーディオフレームのエネルギーパラメータに基づいて音声アクティビティ検出VADを行い、前記複数のターゲットオーディオフレームのVAD値を獲得するステップと、
    前記複数のターゲットオーディオフレームのVAD値が第3条件に合致する場合に、前記オーディオ信号にターゲット音声が含まれると決定するステップと、を含む、請求項1に記載の方法。
  14. 前記ターゲット音声は、ターゲットオブジェクトの前記複数人の音声通話における発言であり、又は、前記ターゲット音声は、前記ターゲットオブジェクトの音である、請求項1に記載の方法。
  15. オーディオ信号の処理装置であって、端末において配置され、前記装置は、
    アプリケーションプログラムがターゲットシーンにおいて収集したオーディオ信号を取得することに用いられる第1取得モジュールであって、前記アプリケーションプログラムにアカウントがログインしており、前記ターゲットシーンとは、前記アカウントが複数人の音声通話においてマイクミュート状態にあることを指す、第1取得モジュールと、
    前記オーディオ信号における複数のオーディオフレームのそれぞれの第1周波数帯域範囲における複数の周波数帯域上のゲインパラメータを取得することに用いられる第2取得モジュールと、
    前記ゲインパラメータに基づいて前記オーディオ信号にターゲット音声が含まれると決定した場合に、プロンプトメッセージを出力することに用いられる出力モジュールであって、前記プロンプトメッセージは、前記アカウントのマイクミュート状態を解除するようにプロンプトすることに用いられる、出力モジュールと、を含む、オーディオ信号の処理装置。
  16. 電子機器であって、前記電子機器は、1つ、又は複数のプロセッサと、1つ、又は複数のメモリと、を含み、前記1つ、又は複数のメモリにおいて少なくとも1つのコンピュータプログラムが記憶され、前記少なくとも1つのコンピュータプログラムは、前記1つ、又は複数のプロセッサによりロードされ、かつ実行されることで、請求項1~請求項14のいずれか1項に記載のオーディオ信号の処理方法を実現する、電子機器。
  17. 記憶媒体であって、前記記憶媒体において少なくとも1つのコンピュータプログラムが記憶され、前記少なくとも1つのコンピュータプログラムは、プロセッサによりロードされ、かつ実行されることで、請求項1~請求項14のいずれか1項に記載のオーディオ信号の処理方法を実現する、記憶媒体。
  18. コンピュータプログラム製品であって、前記コンピュータプログラム製品は、少なくとも1つのコンピュータプログラムを含み、前記少なくとも1つのコンピュータプログラムは、プロセッサによりロードされ、かつ実行されることで、請求項1~請求項14のいずれか1項に記載のオーディオ信号の処理方法を実現する、コンピュータプログラム製品。
JP2023551247A 2021-09-16 2022-08-10 オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム Pending JP2024507916A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202111087468.5A CN115831155A (zh) 2021-09-16 2021-09-16 音频信号的处理方法、装置、电子设备及存储介质
CN202111087468.5 2021-09-16
PCT/CN2022/111474 WO2023040523A1 (zh) 2021-09-16 2022-08-10 音频信号的处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
JP2024507916A true JP2024507916A (ja) 2024-02-21

Family

ID=85515725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023551247A Pending JP2024507916A (ja) 2021-09-16 2022-08-10 オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US20230317096A1 (ja)
JP (1) JP2024507916A (ja)
CN (1) CN115831155A (ja)
WO (1) WO2023040523A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116633909B (zh) * 2023-07-17 2023-12-19 福建一缕光智能设备有限公司 基于人工智能的会议管理方法和***
CN116631456A (zh) * 2023-07-21 2023-08-22 江西红声技术有限公司 一种声控通讯处理方法、耳机、存储介质及计算机
CN117636909B (zh) * 2024-01-26 2024-04-09 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及计算机可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2354858A1 (en) * 2001-08-08 2003-02-08 Dspfactory Ltd. Subband directional audio signal processing using an oversampled filterbank
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
CN107276777B (zh) * 2017-07-27 2020-05-29 苏州科达科技股份有限公司 会议***的音频处理方法及装置
CN110111805B (zh) * 2019-04-29 2021-10-29 北京声智科技有限公司 远场语音交互中的自动增益控制方法、装置及可读存储介质
CN110085249B (zh) * 2019-05-09 2021-03-16 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110335620B (zh) * 2019-07-08 2021-07-27 广州欢聊网络科技有限公司 一种噪声抑制方法、装置和移动终端
CN111343410A (zh) * 2020-02-14 2020-06-26 北京字节跳动网络技术有限公司 一种静音提示方法、装置、电子设备及存储介质
CN111429932A (zh) * 2020-06-10 2020-07-17 浙江远传信息技术股份有限公司 语音降噪方法、装置、设备及介质

Also Published As

Publication number Publication date
US20230317096A1 (en) 2023-10-05
WO2023040523A1 (zh) 2023-03-23
CN115831155A (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
US11929088B2 (en) Input/output mode control for audio processing
CN111489760B (zh) 语音信号去混响处理方法、装置、计算机设备和存储介质
CN112071328B (zh) 音频降噪
JP5085556B2 (ja) エコー除去の構成
JP2024507916A (ja) オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム
CN113766073B (zh) 会议***中的啸叫检测
US20130211826A1 (en) Audio Signals as Buffered Streams of Audio Signals and Metadata
US20140214426A1 (en) System and method for improving voice communication over a network
US9799329B1 (en) Removing recurring environmental sounds
JP2020115206A (ja) システム及び方法
US11996114B2 (en) End-to-end time-domain multitask learning for ML-based speech enhancement
US11488612B2 (en) Audio fingerprinting for meeting services
JP2022092784A (ja) 遠隔会議システム、通信端末、遠隔会議方法及びプログラム
CN112071324A (zh) 音频通道混合
US11694706B2 (en) Adaptive energy limiting for transient noise suppression
CN113168831A (zh) 用于同时的关键字发现、转录和实时通信的音频管线
Principi et al. A speech-based system for in-home emergency detection and remote assistance
US20230223033A1 (en) Method of Noise Reduction for Intelligent Network Communication
JP2023551704A (ja) サブ帯域ドメイン音響エコーキャンセラに基づく音響状態推定器

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230823

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230823