JP2023521476A - サウンドコーデックにおける音声/音楽分類およびコアエンコーダ選択のための方法およびデバイス - Google Patents

サウンドコーデックにおける音声/音楽分類およびコアエンコーダ選択のための方法およびデバイス Download PDF

Info

Publication number
JP2023521476A
JP2023521476A JP2022562835A JP2022562835A JP2023521476A JP 2023521476 A JP2023521476 A JP 2023521476A JP 2022562835 A JP2022562835 A JP 2022562835A JP 2022562835 A JP2022562835 A JP 2022562835A JP 2023521476 A JP2023521476 A JP 2023521476A
Authority
JP
Japan
Prior art keywords
stage
speech
sound signal
input sound
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022562835A
Other languages
English (en)
Other versions
JPWO2021207825A5 (ja
Inventor
ウラジミール・マレノフスキー
Original Assignee
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴォイスエイジ・コーポレーション filed Critical ヴォイスエイジ・コーポレーション
Publication of JP2023521476A publication Critical patent/JP2023521476A/ja
Publication of JPWO2021207825A5 publication Critical patent/JPWO2021207825A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Auxiliary Devices For Music (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法は、入力サウンド信号を分類し、サウンド信号を符号化するためのコアエンコーダを選択する。第1のステージは、入力サウンド信号をいくつかの最終クラスのうちの1つに分類する。第2のステージは、入力サウンド信号の高レベル特徴を抽出し、抽出された高レベル特徴および第1のステージの中で選択された最終クラスに応じて、入力サウンド信号を符号化するためのコアエンコーダを選択する。

Description

本開示は、サウンドコーディングに関し、より詳細には、限定はしないが特に、たとえば、低ビットレートかつ低遅延での複雑なオーディオシーンの中で良好なサウンド品質を生成することが可能なマルチチャネルサウンドコーデックにおける、音声/音楽分類およびコアエンコーダ選択に関する。
本開示および添付の特許請求の範囲では、
- 「サウンド」という用語は、音声、オーディオ、および任意の他のサウンドに関係し得る。
- 「ステレオ」という用語は、「ステレオフォニック」に対する略語である。
- 「モノ」という用語は、「モノフォニック」に対する略語である。
歴史的に、会話型電話方式は、ユーザの耳のうちの一方のみにサウンドを出力するための1つのトランスジューサしか有しないハンドセットを用いて実装されている。この10年間に、ユーザは、主に音楽を聴くために、ただし、時には音声を聞くためにも、彼らの両耳を介してサウンドを受けるためのヘッドフォンと一緒に彼らのポータブルハンドセットを使用し始めている。とはいえ、会話の音声を送るとともに受けるためにポータブルハンドセットが使用されるとき、コンテンツは、依然としてモノであるが、ヘッドフォンが使用されるときにはユーザの両耳に提示される。
その全内容が参照により本明細書に組み込まれる参考文献[1]に記載されるような最新の3GPP(登録商標)音声コーディング規格EVS(拡張ボイスサービス)を用いて、ポータブルハンドセットを通じて送られるとともに受けられる、コーディングされたサウンド、たとえば、音声および/またはオーディオの品質が、著しく改善されている。次の当然のステップは、通信リンクの他端においてキャプチャされる実生活のオーディオシーンに受信機ができる限り近づくような、ステレオ情報を送ることである。
たとえば、その全内容が参照により本明細書に組み込まれる参考文献[2]に記載されるようなオーディオコーデックでは、ステレオ情報の送信が普通は使用される。
会話型音声コーデックにとってモノ信号が標準である。ステレオサウンド信号の左チャネルと右チャネルの両方がモノコーデックを使用してコーディングされるので、ステレオサウンド信号が送信されるとき、ビットレートは、しばしば、2倍になる。このことは、ほとんどのシナリオでは良好に機能するが、ビットレートを2倍にし2つのチャネル(ステレオサウンド信号の左チャネルおよび右チャネル)の間の潜在的ないかなる冗長性も活用できないという欠点を提示する。さらに、全体的なビットレートを妥当なレベルに保つために、左チャネルおよび右チャネルの各々に対する極めて低いビットレートが使用され、したがって、全体的なサウンド品質に影響を及ぼす。ビットレートを下げるために、効率的なステレオコーディング技法が開発および使用されている。非限定的な例として、低いビットレートにおいて効率的に使用され得る2つのステレオコーディング技法が、以下の段落の中で説明される。
第1のステレオコーディング技法は、パラメトリックステレオと呼ばれる。パラメトリックステレオは、ステレオイメージを表す(ステレオパラメータに対応する)いくらかの量のステレオサイド情報を加えて共通のモノコーデックを使用して、モノ信号として2つの入力(左チャネルおよび右チャネル)を符号化する。2つの入力はモノ信号にダウンミックスされ、次にステレオパラメータが算出される。このことは、通常は周波数領域(FD)において、たとえば、離散フーリエ変換(DFT)領域において実行される。ステレオパラメータは、いわゆるバイノーラルキューまたはチャネル間キューに関係する。バイノーラルキュー(たとえば、その全内容が参照により本明細書に組み込まれる参考文献[3]を参照)は、両耳間レベル差(ILD:Interaural Level Difference)、両耳間時間差(ITD:Interaural Time Difference)、および両耳間相関(IC:Interaural Correlation)を備える。サウンド信号特性、ステレオシーン構成などに応じて、一部または全部のバイノーラルキューがコーディングされデコーダへ送信される。どんなバイノーラルキューがコーディングおよび送信されるのかについての情報が、通常はステレオサイド情報の一部であるシグナリング情報として送られる。また、所与のバイノーラルキューは、様々なコーディング技法を使用して量子化することができ、そのことは、可変数のビットが使用される結果となる。次いで、量子化されたバイノーラルキューに加えて、ステレオサイド情報は、ダウンミキシングから得られる量子化された残差信号を、通常は中程度以上の高いビットレートで含むことがある。残差信号は、エントロピーコーディング技法、たとえば、算術エンコーダを使用してコーディングされ得る。
別のステレオコーディング技法は、時間領域において動作する技法である。このステレオコーディング技法は、2つの入力(左チャネルおよび右チャネル)を混合して、いわゆる1次チャネルおよび2次チャネルにする。たとえば、その全内容が参照により本明細書に組み込まれる参考文献[4]に記載されるような方法に従って、時間領域ミキシングはミキシング比に基づくことができ、ミキシング比は、1次チャネルおよび2次チャネルの生成に対する2つの入力(左チャネルおよび右チャネル)のそれぞれの寄与を決定する。ミキシング比は、いくつかのメトリック、たとえば、モノ信号に対する2つの入力(左チャネルおよび右チャネル)の正規化された相関、または2つの入力(左チャネルおよび右チャネル)の間の長期相関差分から導出される。1次チャネルは、共通のモノコーデックによってコーディングされ得るが、2次チャネルは、ビットレートがもっと低いコーデックによってコーディングされ得る。2次チャネルのコーディングは、1次チャネルと2次チャネルとの間のコヒーレンスを活用してよく、1次チャネルからのいくつかのパラメータを再使用することがある。
さらに、この数年では、オーディオの生成、記録、表現、コーディング、送信、および再生は、聞き手のための拡張された対話式かつ没入型の体験に向かって動きつつある。没入型の体験は、たとえば、サウンドがすべての方向から到来しながらサウンドシーンに深く従事または関与している状態として説明され得る。没入型オーディオ(3D(3次元)オーディオとも呼ばれる)では、サウンドイメージは、音色、指向性、反響、透過性、および(聴覚の)広さの確度のような幅広いサウンド特性を考慮に入れて、聞き手の周囲で3つのすべての次元をなして再生される。没入型オーディオは、ラウドスピーカーベースのシステム、統合型再生システム(サウンドバー)、またはヘッドフォンなどの、特定のサウンドプレイバックまたは再生システムに対して生成される。そのとき、サウンド再生システムの対話性は、たとえば、サウンドレベルを調整し、サウンドの位置を変更し、または再生のための異なる言語を選択するための能力を含んでよい。
没入型の体験を実現するための3つの基本的な手法が存在する。
没入型の体験を実現するための第1の手法は、異なる方向からのサウンドをキャプチャするための離間した複数のマイクロフォンを使用する、チャネルベースのオーディオ手法であり、特定のラウドスピーカーレイアウトの中で1つのマイクロフォンが1つのオーディオチャネルに対応する。記録された各チャネルが、次いで、所与のロケーションにおけるラウドスピーカーに供給される。チャネルベースのオーディオ手法の例は、たとえば、ステレオ、5.1サラウンド、5.1+4などである。
没入型の体験を実現するための第2の手法は、次元成分の合成による時間の関数として定位された空間にわたって所望の音場を表す、シーンベースのオーディオ手法である。シーンベースのオーディオを表すサウンド信号は、オーディオソースの位置から独立しているが、音場はレンダラにおいて、ラウドスピーカーの選ばれたレイアウトに変換される。シーンベースのオーディオの一例は、アンビソニックスである。
没入型の体験を実現するための第3の手法は、オーディオ要素(たとえば、歌手、ドラム、ギターなど)の位置などの情報に付随する、個々のオーディオ要素のセットとして聴覚シーンを表す、オブジェクトベースのオーディオ手法であり、そのため、オーディオ要素は、オーディオ要素の所期のロケーションにおいてサウンド再生システムによってレンダリングされ得る。このことは、各オブジェクトが別々に保たれ個別に操作され得るので、大きいフレキシビリティおよび対話性をオブジェクトベースのオーディオ手法に与える。
没入型の体験を実現するための上述のオーディオ手法の各々は、賛否両論を提示する。したがって、没入型聴覚シーンを作成するために、1つだけのオーディオ手法ではなく、いくつかのオーディオ手法が、複雑なオーディオシステムの中で組み合わせられることが普通である。一例は、シーンベースまたはチャネルベースのオーディオを、オブジェクトベースのオーディオ、たとえば、数個の別々のオーディオオブジェクトを有するアンビソニックスと組み合わせる、オーディオシステムであり得る。
第1の態様によれば、本開示は、入力サウンド信号をいくつかの最終クラスのうちの1つに分類するための第1のステージと、入力サウンド信号の高レベル特徴を抽出するための、かつ抽出された高レベル特徴および第1のステージの中で選択された最終クラスに応じて、入力サウンド信号を符号化するためのコアエンコーダを選択するための、第2のステージとを備える、入力サウンド信号を分類するための、かつサウンド信号を符号化するためのコアエンコーダを選択するための、2ステージ音声/音楽分類デバイスを提供する。
第2の態様によれば、第1のステージにおいて、入力サウンド信号をいくつかの最終クラスのうちの1つに分類することと、第2のステージにおいて、入力サウンド信号の高レベル特徴を抽出すること、ならびに抽出された高レベル特徴および第1のステージの中で選択された最終クラスに応じて、入力サウンド信号を符号化するためのコアエンコーダを選択することとを備える、入力サウンド信号を分類するための、かつサウンド信号を符号化するためのコアエンコーダを選択するための、2ステージ音声/音楽分類方法が提供される。
2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むサウンドコーデックの上記および他の目的、利点、および特徴は、添付の図面を参照しながら単に例として与えられる、それらの例示的な実施形態の以下の非制限的な説明を読むと、より明らかになろう。
2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むサウンドコーデックの実装形態の可能なコンテキストを示す、サウンド処理および通信システムの概略ブロック図である。 2ステージ音声/音楽分類デバイスの第1のステージ、および対応する2ステージ音声/音楽分類方法の第1のステージを同時に示す、概略ブロック図である。 2ステージ音声/音楽分類デバイスの第2のステージ、および対応する2ステージ音声/音楽分類方法の第2のステージを同時に示す、概略ブロック図である。 2ステージ音声/音楽分類デバイスの第1のステージのステートマシン、および2ステージ音声/音楽分類方法の第1のステージの信号区分の動作を同時に示す、概略ブロック図である。 相対フレームエネルギーに基づくオンセット/アタック検出の非限定的な例を示すグラフである。 トレーニングデータベースの中の選択される特徴のヒストグラムである。 ヒストグラム値に基づく異常値特徴の検出を示すグラフである。 電力変換指数λの様々な値に対するBox-Cox変換曲線を示すグラフである。 適応IIRフィルタの忘却係数を計算するために使用される立上りおよび立下りエッジ検出の挙動を、非限定的な例として示すグラフである。 トレーニングデータベースの平滑化された差分スコアwdlp(n)の分布、ならびにSPEECH/NOISEクラス、UNCLEARクラス、およびMUSICクラスの間で遷移するためのしきい値を示すグラフである。 差分スコアの重み付き平均の計算中の、ENTRY状態におけるサンプルの順序付けを示すグラフである。 クラスSPEECH/NOISE、UNCLEAR、およびMUSICの間の遷移のための規則の完全セットを示すクラス遷移図である。 入力サウンド信号の現在のフレームの中のいくつかの短い分節に対して実行される分節アタック検出を示す概略図である。 図3の2ステージ音声/音楽分類デバイスの第2のステージのコアエンコーダ初期選択器によって使用される、コアエンコーダの初期選択のメカニズムを示す概略図である。 2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むサウンドコーデックを実装するハードウェア構成要素の例示的な構成の簡略化されたブロック図である。
近年、3GPP(第3世代パートナーシッププロジェクト)は、EVSコーデック(その全内容が参照により本明細書に組み込まれる参考文献[5]を参照)に基づく、IVAS(没入型音声およびオーディオサービス)と呼ばれる没入型サービスのための3D(3次元)サウンドコーデックの開発において作業し始めた。
本開示は、IVASコーディングフレームワークにおける音声/音楽分類技法およびコアエンコーダ選択技法を説明する。両方の技法は、その結果がコアエンコーダ選択である2ステージ音声/音楽分類方法の一部である。
音声/音楽分類方法および音声/音楽分類デバイスは、EVS(その全内容が参照により本明細書に組み込まれる、参考文献[6]および参考文献[1]、セクション5.1.13.6を参照)におけるものに基づくが、いくつかの改善および発展が実施されている。また、2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスは、本開示全体にわたってIVASコーデック(または、IVASサウンドコーデック)と呼ばれるIVASコーディングフレームワークを参照しながら、単に例として本開示で説明される。ただし、そのような2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスを任意の他のサウンドコーデックの中に組み込むことは、本開示の範囲内である。
図1は、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むサウンドコーデック(IVASコーデック)の実装形態の可能なコンテキストを示す、ステレオサウンド処理および通信システム100の概略ブロック図である。
図1のステレオサウンド処理および通信システム100は、通信リンク101を横断するステレオサウンド信号の送信をサポートする。通信リンク101は、たとえば、ワイヤリンクまたは光ファイバリンクを備えてよい。代替として、通信リンク101は、少なくとも部分的には無線周波数リンクを備えてよい。無線周波数リンクは、しばしば、セルラー電話方式とともに見られ得るような共有帯域幅リソースを必要とする複数の同時通信をサポートする。図示しないが、通信リンク101は、後でプレイバックできるように、コーディングされたステレオサウンド信号を記録および記憶する、システム100の単一デバイス実装形態における記憶デバイスによって置き換えられてよい。
まだ図1を参照すると、たとえば、1対のマイクロフォン102および122が、元のアナログステレオサウンド信号の左チャネル103および右チャネル123を生成する。上記の説明に示したように、サウンド信号は、限定はしないが特に、音声および/またはオーディオを備えてよい。
元のアナログステレオサウンド信号の左チャネル103および右チャネル123は、それらを元のデジタルステレオサウンド信号の左チャネル105および右チャネル125に変換するための、アナログデジタル(A/D)変換器104に供給される。元のデジタルステレオサウンド信号の左チャネル105および右チャネル125も、記録されるとともに記憶デバイス(図示せず)から供給されてよい。
ステレオサウンドエンコーダ106は、元のデジタルステレオサウンド信号の左チャネル105および右チャネル125をコーディングし、それによって、随意の誤り訂正エンコーダ108に配送されるビットストリーム107の形態の下で多重化されるコーディングパラメータのセットを生成する。随意の誤り訂正エンコーダ108は、存在するとき、得られたビットストリーム111を通信リンク101を介して送信する前に、ビットストリーム107の中のコーディングパラメータのバイナリ表現に冗長性を加える。
受信機側において、随意の誤り訂正デコーダ109は、受信ビットストリーム111の中の上述の冗長な情報を利用して、通信リンク101を介した送信中に発生していることがある誤りを検出および訂正し、受信されたコーディングパラメータを用いてビットストリーム112を生成する。ステレオサウンドデコーダ110は、デジタルステレオサウンド信号の合成された左チャネル113および右チャネル133を作成するために、ビットストリーム112の中の受信されたコーディングパラメータを変換する。ステレオサウンドデコーダ110の中で再構成されたデジタルステレオサウンド信号の左チャネル113および右チャネル133は、デジタルアナログ(D/A)変換器115の中で、アナログステレオサウンド信号の合成された左チャネル114および右チャネル134に変換される。
アナログステレオサウンド信号の合成された左チャネル114および右チャネル134は、それぞれ、1対のラウドスピーカーユニットまたはバイノーラルヘッドフォン116および136においてプレイバックされる。代替として、ステレオサウンドデコーダ110からのデジタルステレオサウンド信号の左チャネル113および右チャネル133はまた、記憶デバイス(図示せず)に供給されるとともにその中に記録されてもよい。
たとえば、図1のステレオサウンドエンコーダ106は、図2および図3の2ステージ音声/音楽分類デバイスを含むIVASコーデックのエンコーダによって実装されてよい。
1. 2ステージ音声/音楽分類
上記の説明に示したように、本開示は、IVASコーディングフレームワークにおける音声/音楽分類技法およびコアエンコーダ選択技法を説明する。両方の技法は、その結果が1次(支配的)チャネル(時間領域(TD)ステレオコーディングの場合)またはダウンミックスされたモノチャネル(周波数領域(FD)ステレオコーディングの場合)をコーディングするためのコアエンコーダの選択である、2ステージ音声/音楽分類方法(および、対応するデバイス)の一部である。本技術の開発のための基礎とは、EVSコーデック(参考文献[1])における音声/音楽分類である。本開示は、本開示の中で実施された、かつベースラインIVASコーデックフレームワークの一部である、修正および改善を説明する。
IVASコーデックにおける音声/音楽分類方法および音声/音楽分類デバイスの第1のステージは、ガウシアン混合モデル(GMM:Gaussian Mixture Model)に基づく。EVSコーデックから持ち込まれた初期のモデルが、ステレオ信号の処理のために拡張、改善、および最適化されている。
要約すれば、
- GMMモデルは、入力として特徴ベクトルをとり、音声、音楽、および背景雑音を含む3つのクラスに対して確率的推定値を提供する。
- GMMモデルのパラメータは、サウンド信号の特徴の手作業でラベル付けされたベクトルの大規模な集合に対してトレーニングされる。
- GMMモデルは、すべてのフレーム、たとえば、20msのフレームの中で、3つのクラスの各々に対して確率的推定値を提供する。サブフレームを含むサウンド信号処理フレームは、当業者によく知られているが、そのようなフレームについてのさらなる情報が、たとえば、参考文献[1]の中に見出され得る。
- サウンド信号の1つまたは複数の特徴が正規分布の条件を満たさないフレームの適切な処理を、異常値検出論理が保証する。
- 個々の確率が、ロジスティック回帰を用いて境界のない単一のスコアに変わる。
- 2ステージ音声/音楽分類デバイスは、着信信号を4つの状態のうちの1つに区分するために使用される、それ自体のステートマシンを有する。
- 2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスの現在の状態に応じて、出力スコアに対して適応平滑化が適用される。
- 急速に変化するコンテンツにおける2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスの高速な反応が、相対フレームエネルギーに基づくオンセット/アタック検出論理を用いて実現される。
- 信号タイプの以下の3つのカテゴリー、すなわち、純粋な音声、純粋な音楽、音楽を伴う音声の間の選択を実行するために、平滑化されたスコアが使用される。
図2は、2ステージ音声/音楽分類デバイスの第1のステージ200、および対応する2ステージ音声/音楽分類方法の第1のステージ250を同時に示す、概略ブロック図である。
図2を参照すると、2ステージ音声/音楽分類デバイスの第1のステージは、
- 信号区分のためのステートマシン201、
- 相対フレームエネルギーに基づくオンセット/アタック検出器202、
- 特徴抽出器203、
- ヒストグラムに基づく異常値検出器204、
- 短期特徴ベクトルフィルタ205、
- 非線形特徴ベクトル変換器206(Box-Cox)、
- 主成分分析器(PCA:Principal Component Analyzer)207、
- ガウシアン混合モデル(GMM)計算器208、
- 適応平滑器209、および
- 状態依存カテゴリー分類器210
を備える。
IVASコーデックにおけるコアエンコーダ選択技法(2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第2のステージ)は、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第1のステージの上部に築かれ、ACELP(代数符号励振線形予測)、TCX(変換符号化励振)、およびその全内容が参照により本明細書に組み込まれる参考文献[7]に記載されるようなGSC(汎用オーディオ信号コーダ)からの、コアエンコーダの選択を実行するための最終出力を配送する。他の好適なコアエンコーダも、本開示の範囲内で実施され得る。
要約すれば、
- 選択されたコアエンコーダは、次いで、1次(支配的)チャネル(TDステレオコーディングの場合)またはダウンミックスされたモノチャネル(FDステレオコーディングの場合)を符号化するために適用される。
- コアエンコーダ選択は、一般に2ステージ音声/音楽分類デバイス方法の第1のステージにおいて使用されるウィンドウよりも長いウィンドウにわたって計算された、追加の高レベル特徴を使用する。
- コアエンコーダ選択は、シームレスな切替えを実現するために最適化された、それ自体のアタック/オンセット検出論理を使用する。このアタック/オンセット検出器の出力は、第1のステージのアタック/オンセット検出器の出力とは異なる。
- コアエンコーダは、最初に第1のステージの状態依存カテゴリー分類器210の出力に基づいて選択される。そのような選択は、次いで、追加の高レベル特徴およびこの第2のステージのオンセット/アタック検出器の出力を調査することによって改良される。
図3は、2ステージ音声/音楽分類デバイスの第2のステージ300、および対応する2ステージ音声/音楽分類方法の第2のステージ350を同時に示す、概略ブロック図である。
図3を参照すると、2ステージ音声/音楽分類デバイスの第2のステージは、
- 追加の高レベル特徴の抽出器301、
- コアエンコーダの初期選択器302、および
- コアエンコーダ初期選択の改良器303
を備える。
2. 2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第1のステージ
最初に、GMMモデルが、トレーニングサンプルの手作業でラベル付けされた大規模なデータベースに対して期待値最大化(EM:Expectation-Maximization)アルゴリズムを使用してトレーニングされることが、述べられるべきである。データベースは、EVSコーデックにおいて使用されるモノ項目、およびいくつかの追加のステレオ項目を含む。モノトレーニングデータベースの合計サイズは、ほぼ650MBである。元のモノファイルは、IVASコーデックへの入力として使用される前に、対応する二重モノ変形に変換される。追加のステレオトレーニングデータベースの合計サイズは、ほぼ700MBである。追加のステレオデータベースは、シミュレートされた会話からの音声信号の現実の記録、インターネット上のオープンソースからダウンロードされた音楽のサンプル、および人工的に作成されたいくつかの項目を含む。人工的に作成されたステレオ項目は、モノ音声サンプルを現実のバイノーラル室内インパルス応答(BRIR:Binaural Room Impulse Response)のペアと畳み込むことによって取得される。これらのインパルス応答は、いくつかの典型的な室内構成、たとえば、小規模オフィス、セミナールーム、講堂などに対応する。トレーニング項目に対するラベルが、IVASコーデックから抽出されたボイスアクティビティ検出(VAD:Voice Activity Detection)情報を使用して半自動的に作成される。このことは最適でないが、データベースのサイズを仮定すればフレーム単位の手作業のラベル付けは不可能である。
2.1 信号区分のためのステートマシン
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、信号区分の動作251を備える。この動作を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、ステートマシン201を備える。
第1のステージにおけるステートマシンの概念は、EVSコーデックから持ち込まれる。IVASコーデックに大きい修正は加えられていない。ステートマシン201の目的とは、着信サウンド信号を4つの状態、すなわち、INACTIVE、ENTRY、ACTIVE、およびUNSTABLEのうちの1つに区分することである。
図4は、2ステージ音声/音楽分類デバイスの第1のステージ200のステートマシン201、および2ステージ音声/音楽分類方法の第1のステージ250の信号区分の動作251を同時に示す、概略ブロック図である。
図4の概略図はまた、入力サウンド信号を状態のうちの1つから他の状態に遷移させるためにステートマシン201によって使用される遷移条件を示し、これらの遷移条件は、入力サウンド信号の特性に関係する。
背景雑音を示すINACTIVE状態401が、初期状態として選択される。
VADフラグ403(参考文献[1]を参照)が「0」から「1」に変化すると、ステートマシン201はINACTIVE状態401からENTRY状態402に切り替わる。2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスの第1のステージによって使用されるVADフラグを生成するために、任意のVAD検出器またはSAD(サウンドアクティビティ検出)検出器が利用されてよい。静寂の長時間の期間の後、ENTRY状態402は、入力サウンド信号の中の最初のオンセットまたはアタックにマークする。
たとえば、ENTRY状態402において8個のフレーム405の後、ステートマシン201はACTIVE状態404に入り、ACTIVE状態404は、十分なエネルギー(所与のレベルのエネルギー)を有する安定なサウンド信号の冒頭にマークする。ステートマシン201がENTRY状態402にある間に信号のエネルギー409が突然低くなる場合、ステートマシン201は、ENTRY状態から、背景雑音に近いレベルのエネルギーを有する入力サウンド信号に対応するUNSTABLE状態407に変化する。また、ステートマシン201がENTRY状態402にある間にVADフラグ403が「1」から「0」に変化する場合、ステートマシン201はINACTIVE状態401に戻る。このことは、短い中断の間の分類の連続性を保証する。
安定な信号(ACTIVE状態404)のエネルギー406が背景雑音のレベルのもっと近くに突然落ちるか、またはVADフラグ403が「1」から「0」に変化する場合、ステートマシン201はACTIVE状態404からUNSTABLE状態407に切り替わる。
たとえば、UNSTABLE状態407において12個のフレーム410の期間の後、ステートマシン201はINACTIVE状態401に復帰する。ステートマシン201がUNSTABLE状態407にある間に、不安定な信号のエネルギー408が突然高くなるか、またはVADフラグ403が「0」から「1」に変化する場合、ステートマシン210はACTIVE状態404に戻る。このことは、短い中断の間の分類の連続性を保証する。
以下の説明では、ステートマシン201の現在の状態はfSMと示される。個々の状態に割り当てられる定数は、次のように定義され得る。
INACTIVE fSM=-8
UNSTABLE fSM∈<-7,-1>
ENTRY fSM∈<0,7>
ACTIVE fSM=+8
INACTIVE状態およびACTIVE状態では、fSMは単一の定数に対応するが、UNSTABLE状態およびENTRY状態では、fSMはステートマシン201の進行に応じて複数の値をとる。したがって、UNSTABLE状態およびENTRY状態では、fSMは短期カウンタとして使用され得る。
2.2 オンセット/アタック検出器
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、相対フレームエネルギーに基づくオンセット/アタック検出の動作252を備える。この動作を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、オンセット/アタック検出器202を備える。
オンセット/アタック検出器202および対応するオンセット/アタック検出動作252は、IVASコーデックの音声/音楽分類の目的および機能に適合される。その目的は、限定はしないが特に、音声発話の冒頭(アタック)と音楽クリップのオンセットの両方の定位を備える。これらのイベントは、通常、入力サウンド信号の特性の急激な変化に関連する。信号非アクティビティの期間の後の信号オンセットおよびアタックの検出の成功は、スコア平滑化(本明細書で以下に説明する)のプロセスにおいて過去の情報の影響の低減を可能にする。オンセット/アタック検出論理は、ステートマシン201(図2)における、図4のENTRY状態402と類似の役割を果たす。これらの2つの概念の間の差異は、それらの入力パラメータに関係する。ステートマシン201は、主にHE-SAD(高効率サウンドアクティビティ検出)技術(参考文献[1]を参照)からのVADフラグ403(図4)を使用するが、オンセット/アタック検出器252は相対フレームエネルギーの差分を使用する。
相対フレームエネルギーErは、dB単位でのフレームエネルギーと長期平均エネルギーとの間の差分として算出されてよい。dB単位でのフレームエネルギーは、以下の関係式
Figure 2023521476000002
を使用して算出されてよく、ただし、ECB(i)は臨界帯域当たりの平均エネルギーである(参考文献[1]を参照)。長期平均フレームエネルギーは、初期値
Figure 2023521476000003
であって、以下の関係式
Figure 2023521476000004
を使用して算出されてよい。相対フレームエネルギーは、
Figure 2023521476000005
として計算されてよい。
オンセット/アタック検出器252によって使用されるパラメータは、すべてのフレームの中で更新される、現在のフレームの中の入力サウンド信号の相対エネルギーと前のフレームの中の入力サウンド信号の相対エネルギーとの間の差分の累積和である。このパラメータは0に初期化され、現在のフレームにおける相対エネルギーEr(n)が前のフレームにおける相対エネルギーEr(n-1)よりも高いときのみ更新される。オンセット/アタック検出器252は、たとえば、以下の関係式
vrun(n)=vrun(n-1)+(Er(n)-Er(n-1))
を使用して累積和vrun(n)を更新し、ただし、nは現在のフレームのインデックスである。オンセット/アタック検出器252は、累積和vrun(n)を使用してオンセット/アタックフレームのカウンタvcntを更新する。オンセット/アタック検出器252のカウンタは0に初期化され、ENTRY状態402においてすべてのフレームにおいて1だけインクリメントされ、ただし、vrun>5である。そうでない場合、それは0にリセットされる。
アタック/オンセット検出器202の出力はバイナリフラグfattであり、バイナリフラグfattは、たとえば、オンセット/アタックの検出を示すために、0<vrun<3であるときに1に設定される。そうでない場合、このバイナリフラグは、オンセット/アタックの非検出を示すために0に設定される。このことは、次のように表現され得る。
Figure 2023521476000006
図5のグラフによって、非限定的な例としてオンセット/アタック検出器202の動作が論証される。
2.3 特徴抽出器
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、入力サウンド信号の特徴の抽出の動作253を備える。この動作を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、特徴抽出器203を備える。
GMMモデルのトレーニングステージにおいて、トレーニングサンプルが16kHzにリサンプリングされ、-26dBov(dBovとは、システムの過負荷点と比較したdBレベルである)に正規化され、連結される。次いで、リサンプリングかつ連結されたトレーニングサンプルが、特徴抽出器203を使用して特徴を収集するためにIVASコーデックのエンコーダに供給される。特徴抽出の目的のために、IVASコーデックは、FDステレオコーディングモード、TDステレオコーディングモード、または任意の他のステレオコーディングモードで、かつ任意のビットレートで実行されてよい。非限定的な例として、特徴抽出器203は、16.4kbpsでTDステレオコーディングモードで実行される。特徴抽出器203は、音声/音楽/雑音分類のためのGMMモデルにおいて使用される以下の特徴を抽出する。
Figure 2023521476000007
MFCC特徴を除いて、上の特徴のすべてがEVSコーデックの中にすでに存在する(参考文献[1]を参照)。
特徴抽出器203は、さらなる分析のために開ループピッチTOLおよび発声測度
Figure 2023521476000008
を使用する。これらの測度の両方が、入力サウンド信号の隣接する3つの信号分節にわたる平均として計算される。各分節の長さは10msである。LSF(線スペクトル周波数)特徴はM値のベクトルであり、ただし、MはLP(線形予測)分析の次数である。LP分析からの残差エネルギー∈Pは、Levinson-Durbinアルゴリズムの一部として計算されるM+1値のベクトルである。短期相関マップCmapは、調波スペクトル分析の副産物として計算される単一のパラメータ特徴であり、入力サウンド信号の調和性とスペクトル安定性の両方を反映する。非定常性特徴nstaは、スペクトルエネルギー展開のダイナミクスを反映する。そのダイナミクスは、一般に、音楽信号の中よりも音声信号の中の方が大きい。
MFCC特徴は、メル周波数ケプストラム係数に対応するNmel値のベクトルであり、メル周波数ケプストラム係数は、メル周波数スケール上で表現される、短期エネルギースペクトルの実数対数のコサイン変換の結果である(その全内容が参照により本明細書に組み込まれる参考文献[8]を参照)。
最後の2つの特徴PdiffおよびPstaの計算は、たとえば、
Figure 2023521476000009
として定義された、正規化されたビン当たり電力スペクトル
Figure 2023521476000010
を使用し、ただし、Pkは、IVASスペクトル分析ルーチン(参考文献[1]を参照)の中で計算される、現在のフレームにおけるビン当たり電力スペクトルである。正規化は、150~3500Hzという周波数範囲に対応する範囲<klow,khigh>=<3,70>の中で実行される。
電力スペクトル差分Pdiffは、
Figure 2023521476000011
として定義されてよく、ここで、フレームインデックスを明示的に示すためにインデックス(n)が追加されている。
スペクトル定常性特徴Pstaは、以下の関係式
Figure 2023521476000012
を使用して、正規化されたビン当たり電力スペクトルと電力差分スペクトルとの比の合計から計算されてよい。スペクトル定常性は、一般に、振幅がより大きく同時にスペクトル差分がより小さい周波数ビンを含むフレームの中で、より大きい。
2.4 個別特徴ヒストグラムに基づく異常値検出器
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、個別特徴ヒストグラムに基づいて異常値特徴を検出する動作254を備える。動作254を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、異常値検出器204を備える。
GMMモデルは、大規模なトレーニングデータベース上でIVASコーデックから収集された特徴のベクトルに対してトレーニングされる。GMMモデルの確度は、個別の特徴の統計分布によってかなりの程度まで影響を受ける。特徴が正規分布するとき、たとえば、X~N(μ,σ)であるとき、最良の結果が達成され、ただし、Nは、平均μおよび分散σを有する統計分布を表す。図6は、大規模なトレーニングデータベース上の選択されたいくつかの特徴のヒストグラムを示す。わかるように、図6の中のいくつかの特徴のヒストグラムは、それらが正規分布から引き出されたことを示さない。
GMMモデルは、非正規分布を有する特徴をある程度まで表すことができる。1つまたは複数の特徴の値がその平均値とは著しく異なる場合、特徴のベクトルは異常値として決定される。異常値は、通常、間違った確率推定につながる。特徴のベクトルを廃棄するのではなく、異常値特徴を、たとえば、前のフレームからの特徴値、いくつかの前のフレームにわたる平均の特徴値と、または著しい数の前のフレームにわたる大域的な平均値によって、置き換えることが可能である。
検出器204は、トレーニングデータベース上で計算された個別特徴ヒストグラムの分析に基づいて、2ステージ音声/音楽分類デバイスの第1のステージ200の中で異常値を検出する(たとえば、特徴ヒストグラムを示す図6、およびヒストグラム値に基づく異常値の検出を示すグラフを示す図7を参照)。特徴ごとに、たとえば、以下の関係式
Figure 2023521476000013
Figure 2023521476000014
を使用して、異常値検出のための下限Hlowおよび上限Hhighが計算され、ただし、H(i)は、max(H(i))=1となるように正規化された特徴ヒストグラムであり、iは、0からI=500ビンまでにわたる周波数ビンインデックスであり、imaxは、この特徴に対するヒストグラムの最大値を含むビンである。しきい値thrHは1e-4に設定される。しきい値thrHに対するこの特定の値は、以下の説明を有する。特徴の本当の統計分布が0平均μおよび分散σを有する正規分布であるなら、それはその最大値が1に等しくなるように再スケーリングされ得る。その場合、確率密度関数(PDF:probability density function)は、
Figure 2023521476000015
として表現され得る。
fxs(x|0,σ2)をしきい値thrHで置換し変数を再配置することによって、以下の関係式が取得される。
Figure 2023521476000016
thrH=1e-4に対して、以下が取得される。
x≒2.83σ
したがって、1e-4というしきい値を適用することは、分布が正規分布であり確率密度関数fxs(0|0,σ2)=1となるようにスケーリングされたという条件で、平均値の周囲の±2.83σという範囲に確率密度関数を切り詰めることにつながる。切り詰められた範囲の外側に特徴値がある確率は、たとえば、以下の関係式
Figure 2023521476000017
によって与えられ、ただし、erf(.)は、統計の理論から知られているガウス誤差関数である。
特徴値の分散がσ=1であるなら、検出される異常値のパーセンテージは、ほぼ0.47%であることになる。特徴値の本当の分布が正規分布でないので、上記の計算は近似にすぎない。このことは、図6の中の非定常性特徴nstaのヒストグラムによって図示され、ここで、その平均値の右側における末尾は、その平均値の左側における末尾よりも「重い」。サンプル分散σが異常値検出のための基準として使用され、かつ区間が、たとえば、±3σに設定されるなら、平均値の右側における多くの「良好」値が異常値として分類されることになる。
下限Hlowおよび上限Hhighは、2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスの第1のステージ250/200によって使用される特徴ごとに計算され、IVASコーデックのメモリの中に記憶される。IVASコーデックのエンコーダを実行すると、異常値検出器204は、現在のフレームnの中の各特徴jの値Xj(n)を、その特徴の境界HlowおよびHhighに対して比較し、下限と上限との間で定義された対応する範囲の外側にある値を有する特徴jに、異常値特徴としてマークする。このことは、
Figure 2023521476000018
として表現することができ、ただし、Fは特徴の個数である。異常値検出器204は、たとえば、以下の関係式
Figure 2023521476000019
を使用して、検出された異常値の個数を表す異常値特徴のカウンタcodv(図示せず)を備える。
異常値特徴の個数が、たとえば、2に等しいかまたはそれよりも多い場合、異常値検出器204は、バイナリフラグfoutを1に設定する。このことは、次のように表現され得る。
Figure 2023521476000020
フラグfoutは、特徴のベクトルが異常値であることをシグナリングするために使用される。フラグfoutが1に等しい場合、異常値特徴Xj(n)は、たとえば、次のように、前のフレームからの値と置き換えられる。
fodv(j)=1の場合、j=1,..,Fに対して、Xj(n)=Xj(n-1)
2.5 短期特徴ベクトルフィルタ
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、短期特徴ベクトルをフィルタ処理する動作255を備える。動作255を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、抽出された特徴の短期ベクトルを平滑化するための、短期特徴ベクトルフィルタ205を備える。
音声/音楽分類確度は、特徴ベクトル平滑化を用いて改善される。このことは、短期特徴ベクトルフィルタ205として使用される、以下の短期無限インパルス応答(IIR)フィルタ、すなわち、
Figure 2023521476000021
を適用することによって実行することができ、ただし、
Figure 2023521476000022
は、フレームnの中の短期フィルタ処理済みの特徴を表し、αm=0.5は、いわゆる忘却係数である。
前のフレームにおける特徴ベクトルの報知的可能性が限定される、ACTIVE信号分節の冒頭において、強いアタックまたは異常値におけるスミアリング効果を回避するために、特徴ベクトル平滑化(短期特徴ベクトルをフィルタ処理する動作255)は、fatt=1またはfout=1である、図4のENTRY状態402においてフレームの中で実行されない。平滑化はまた、IVAS過渡分類アルゴリズム(参考文献[1]を参照)によってオンセット/過渡として分類されるフレームの中で、図4のACTIVE状態404(安定な信号)において実行されない。短期特徴ベクトルフィルタ処理動作255が実行されないとき、フィルタ処理されていないベクトルの特徴の値Xj(n)が、単にコピーオーバー(copy over)および使用される。このことは、以下の関係式によって表現され得る。
Figure 2023521476000023
以下の説明では、
Figure 2023521476000024
の代わりに、特徴値Xj(n)に対する元のシンボルが使用され、すなわち、
Figure 2023521476000025
であることが想定される。
2.6 非線形特徴ベクトル変換(Box-Cox)
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、非線形特徴ベクトル変換の動作256を備える。動作256を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、非線形特徴ベクトル変換器206を備える。
図6のヒストグラムによって示すように、音声/音楽分類において使用される複数の特徴は正規分布せず、その結果、GMMの最良の確度が達成され得ない。非限定的な例として、非線形特徴ベクトル変換器206は、非正規特徴を、正規形状を有する特徴に変換するために、その全内容が参照により本明細書に組み込まれる参考文献[9]に記載されるようなBox-Cox変換を使用することができる。特徴XのBox-Cox変換Xboxは、次のように、すなわち、
Figure 2023521476000026
のように定義されるパラメトリック非線形電力変換であり、ただし、λは、-5から+5まで変化する電力変換の指数である(たとえば、図8を参照。図8は、電力変換指数λの様々な値に対するBox-Cox変換曲線を示すグラフである)。Box-Cox変換は、正の入力に対してのみ定義される。したがって、特徴のすべての入力値が正であることを保証するために、いくらかのバイアスΔが加算される。このバイアスは、全体的なトレーニングデータベースにわたる最小の特徴値に相当する。すなわち、
Figure 2023521476000027
であり、ただし、Nはトレーニングデータベースの中の特徴のサンプルの個数である。
トレーニングプロセス中、非線形特徴ベクトル変換器206は、正常性テストに基づいて指数λの最適値を選択するために、指数λのすべての値を検討するとともにそれをテストする。正常性テストは、その全内容が参照により本明細書に組み込まれる参考文献[10]に記載されるような、D'AgostinoおよびPearsonの方法に基づき、確率分布関数のスキューと尖度とを合成する。正常性テストは、以下のスキューおよび尖度測度rsk(S-K測度)
rsk=s2+k2
を生成し、ただし、sは、スキューテストによって戻されるzスコアであり、kは、尖度テストによって戻されるzスコアである。スキューテストおよび尖度テストについての詳細については、その全内容が参照により本明細書に組み込まれる参考文献[11]を参照されたい。
正常性テストはまた、ヌル仮説、すなわち、特徴値が正規分布から引き出されたことに対する、両側カイ2乗確率を戻す。指数λの最適値は、S-K測度を最小化する。このことは、以下の関係式
Figure 2023521476000028
によって表現することができ、ここで、下付き文字jは、上の最小化プロセスが個別の特徴j=1,..,Fごとに行われることを意味する。
エンコーダにおいて、非線形特徴ベクトル変換器206は、S-K測度に関係する次の条件
Figure 2023521476000029
を満たす選択された特徴にしかBox-Cox変換を適用せず、ただし、rsk(j)は、Box-Cox変換の前に第jの特徴に対して計算されるS-K測度であり、
Figure 2023521476000030
は、指数λjの最適値を用いたBox-Cox変換の後のS-K測度である。選択された特徴の最適指数値λjおよび関連するバイアスΔjは、IVASコーデックのメモリの中に記憶される。
以下の説明では、Xbox,j(n)の代わりに、特徴値Xj(n)に対する元のシンボルが使用され、すなわち、
選択された特徴に対して、Xj(n)←Xbox,j(n)
であることが想定される。
2.7 主成分分析器
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、サウンド信号特徴次元数を小さくするとともにサウンド信号クラス弁別性を大きくするために、主成分分析(PCA)の動作257を備える。動作257を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、主成分の主成分分析器207を備える。
短期特徴ベクトルフィルタ処理の動作255および非線形特徴ベクトル変換の動作256の後、主成分分析器207は、特徴の平均を除去すること、およびそれらをスケーリングして単位分散にすることによって、特徴ベクトルを標準化する。その目的のために、以下の関係式
Figure 2023521476000031
が使用することができ、ただし、
Figure 2023521476000032
は、標準化された特徴を表し、μjは、トレーニングデータベースにわたる特徴Xjの平均であり、sjは、そうした特徴Xjの標準偏差であり、上述のように、nは現在のフレームを表す。
特徴Xjの平均μjおよび偏差sjは、次のように、すなわち、
Figure 2023521476000033
Figure 2023521476000034
のように計算されてよく、Nはトレーニングデータベースの中のフレームの総数を表す。
以下の説明では、
Figure 2023521476000035
の代わりに、特徴値Xj(n)に対する元のシンボルが使用され、すなわち、
Figure 2023521476000036
であることが想定される。
主成分分析器207は、次いで、PCAを使用して特徴ベクトルを処理し、ここで、次元数が、たとえば、F=15からFPCA=12に低減される。PCAは、できる限り相関した特徴のセットを変換して、主成分と呼ばれる、線形に相関しない変数のセットにするための、直交変換である(その全内容が参照により本明細書に組み込まれる参考文献[12]を参照)。音声/音楽分類方法では、分析器207は、たとえば、以下の関係式
Figure 2023521476000037
を使用して、特徴ベクトルを変換し、ただし、
Figure 2023521476000038
は、F次元の列特徴ベクトルであり、
Figure 2023521476000039
は、その列が
Figure 2023521476000040
の固有ベクトルであるPCAローディングのF×FPCA行列であり、ここで、上付き文字
Figure 2023521476000041
はベクトル転置を示す。ローディングは、トレーニングデータベースの中の特徴サンプルの特異値分解(SVD)を用いて見つけられる。ローディングは、アクティブなフレームに対してのみ、たとえば、VADフラグが1であるフレームの中で、トレーニング段階において計算される。計算されたローディングは、IVASコーデックのメモリの中に記憶される。
以下の説明では、
Figure 2023521476000042
の代わりに、特徴
Figure 2023521476000043
のベクトルに対する元のシンボルが使用され、すなわち、
Figure 2023521476000044
であることが想定される。
2.8 ガウシアン混合モデル(GMM)
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、ガウシアン混合モデル(GMM)計算の動作258を備える。動作258を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、GMM計算器208を備える。わかるように、GMM計算器208は、トレーニングデータベース上で調波平衡確度を最大化することによって決定バイアスパラメータを推定する。決定バイアスは、不十分なトレーニングデータのため、「MUSIC」クラスの決定の確度を改善するためにGMMに加算されているパラメータである。
多変量GMMは、成分重み、成分平均、および共分散行列の混合によってパラメータ化される。音声/音楽分類方法は、各々がそれ自体のトレーニングデータベース上でトレーニングされた3つのGMM、すなわち、「音声」GMM、「音楽」GMM、および「雑音」GMMを使用する。K個の成分を有するGMMでは、各成分は、それ自体の平均
Figure 2023521476000045
、およびその共分散行列
Figure 2023521476000046
を有する。音声/音楽分類方法では、3つのGMMは、K=6個の成分を用いて定められる。成分重みは、
Figure 2023521476000047
という制約を伴ってφkと示され、その結果、確率分布が正規化される。所与の特徴ベクトル
Figure 2023521476000048
がGMMによって生成される確率
Figure 2023521476000049
は、以下の関係式
Figure 2023521476000050
を使用して計算されてよい。上の関係式において、指数関数exp(...)の計算は複雑な演算である。GMMのパラメータは、期待値最大化(EM)アルゴリズムを使用して計算される。潜在変数(直接観測できず、かつ観測された他の変数の値から実際に推測される、変数)を支配する確率分布の一般形式が知られているという条件を用いてそれらの値を予測するために、それらの潜在変数に対して期待値最大化アルゴリズムが使用され得ることがよく知られている。
確率計算の複雑さを小さくするために、次のように加算項Σの内側の内項の対数をとることによって、上の関係式が簡略化されてよい。
Figure 2023521476000051
上記の、簡略化された式の出力は、「スコア」と呼ばれる。スコアは、対数尤度に比例する、有界でない変数である。スコアが大きければ大きいほど、所与の特徴ベクトルがGMMによって生成された確率が大きくなる。スコアは、3つのGMMの各々に対してGMM計算器208によって計算される。「音声」GMM上のスコア
Figure 2023521476000052
および「音楽」GMM上のスコア
Figure 2023521476000053
は、たとえば、以下の関係式
Figure 2023521476000054
を使用して、それらの差分を計算することによって単一の値
Figure 2023521476000055
に合成されて差分スコア
Figure 2023521476000056
を取得する。差分スコアの負の値は、入力サウンド信号が音声信号であることを示すが、正の値は、入力サウンド信号が音楽信号であることを示す。以下の関係式
Figure 2023521476000057
を使用して非負の値を差分スコアに加算することによって、差分スコア
Figure 2023521476000058
の計算の中に決定バイアスbsを導入することが可能である。決定バイアスbsの値は、トレーニングデータベース上で計算される差分スコアの集団に基づいて見つけられる。決定バイアスbsの値を見つけるプロセスは、次のように説明され得る。
Figure 2023521476000059
がトレーニングデータベースからの特徴ベクトルの行列を表すものとする。対応するラベルベクトルを
Figure 2023521476000060
とする。このベクトルの中のグラウンドトゥルースSPEECHフレームの値が+1.0として、かつ他のフレームの中の値が0として示されるものとする。トレーニングデータベースの中のACTIVEフレームの総数は、Nactとして示される。
EMトレーニングの後、すなわち、GMMのパラメータが知られているとき、差分スコア
Figure 2023521476000061
が、トレーニングデータベースの中のアクティブなフレームにおいて計算されてよい。そのとき、たとえば、以下の関係式
Figure 2023521476000062
を使用して、トレーニングデータベースのアクティブなフレームにおいてラベルypred(n)を予測することが可能であり、ただし、sign[.]は符号関数であり、
Figure 2023521476000063
は、bs=0という想定の下で計算される差分スコアを表す。ラベルypred(n)の得られた値は、SPEECHを示す+1.0またはMUSICもしくはNOISEを示す0のいずれかに等しい。
このバイナリ予測子の確度は、以下の4つの統計測度、すなわち、
Figure 2023521476000064
Figure 2023521476000065
Figure 2023521476000066
Figure 2023521476000067
を用いて要約することができ、ただし、Erは、サンプル重み付け係数として使用される相対フレームエネルギーである。統計測度は以下の意味を有する。すなわち、ctpは、真陽性の数、すなわち、SPEECHクラスの中のヒットの数であり、cfpは、偽陽性の数、すなわち、MUSICクラスの中の間違って分類されたフレームの数であり、ctnは、真陰性の数、すなわち、MUSIC/NOISEクラスの中のヒットの数であり、cfnは、偽陰性の数、すなわち、SPEECHクラスの中の間違って分類されたフレームの数である。
上で定義した統計値は、通常は再現率と呼ばれる真陽性率
Figure 2023521476000068
、および通常は特異性と呼ばれる真陰性率
Figure 2023521476000069
を計算するために使用されてよい。再現率TPRおよび特異性TNRは、以下の関係式を使用してTPRとTNRとの調和平均をとることによって単一の数に合成されてよい。
Figure 2023521476000070
その結果は、調波平衡確度と呼ばれる。
決定バイアスbsの値は、ラベル/予測子ypred(n)を用いて獲得された、上で定義した調波平衡確度を最大化することによって見つけられてよく、ここで、bsは、連続ステップをなす区間(-2,2)から選択される。決定バイアスに対する候補値の間隔は、濃度がより高い値を0の周囲に有して、ほぼ対数的である。
決定バイアスbsの見つかった値を用いて計算される差分スコア
Figure 2023521476000071
は、たとえば、(-30.0,+30.0)という範囲に限定される。VADフラグが0であるとき、または全フレームエネルギーEtotが10dBよりも低いとき、または音声/音楽分類方法がENTRY状態402にありfattもしくはfoutのいずれかが1であるとき、差分スコア
Figure 2023521476000072
は0にリセットされる。
2.9 適応平滑器
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、適応平滑化の動作259を備える。動作259を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、適応平滑器209を備える。
適応平滑器209は、たとえば、GMM計算器208からの、dlp(n)として識別される、フレームnに対する差分スコアdlp(X,bs)を平滑化するための、適応IIRフィルタを備える。適応平滑化、すなわち、フィルタ処理動作259は、以下の演算
wdlp(n)=wght(n)・wdlp(n-1)+(1-wght(n))・dlp(n)
を使用して表すことができ、ただし、wdlp(n)は、得られた平滑化済みの差分スコアであり、wght(n)は、適応IIRフィルタのいわゆる忘却係数であり、nはフレームインデックスを表す。
忘却係数は、以下の関係式に示すような3つの個々のパラメータの積である。
wght(n)=wrelE(n)・wdrop(n)・wrise(n)
パラメータwrelE(n)は、現在のフレームの相対エネルギーEr(n)に線形に比例し、以下の関係式を使用して計算されてよい。
Figure 2023521476000073
パラメータwrelE(n)は、たとえば、区間(0.9,0.99)に限定される。上の関係式の中で使用される定数は、以下の解釈を有する。相対エネルギーが15dBよりも高いとき、パラメータwrelE(n)は、0.99という高い方のしきい値に達する。同様に、相対エネルギーが-15dBよりも低いとき、パラメータwrelE(n)は、0.9という低い方のしきい値に達する。パラメータwrelE(n)の値は、平滑器209の適応IIRフィルタの忘却係数wght(n)に影響を及ぼす。特徴が入力信号についてのさほど重要でない情報を伝えることが予期される、エネルギー的に弱い分節において、平滑化はより強い。
パラメータwdrop(n)は、差分スコアdlp(n)の導関数に比例する。最初に、差分スコアdlp(n)の短期平均dlpST(n)が、たとえば、以下の関係式を使用して、計算される。
dlpST(n)=0.8・dlpST(n-1)+0.2・dlp(n)
パラメータwdrop(n)は0に設定され、以下の2つの条件が満たされるフレームにおいてのみ修正される。
dlp(n)<0
dlp(n)<dlpST(n)
したがって、適応平滑器209は、差分スコアdlp(n)が減少傾向を有するとき、かつ現在のフレームがSPEECHクラスに属することを差分スコアdlp(n)が示すときのみ、パラメータwdrop(n)を更新する。最初のフレームにおいて、2つの条件が満たされるとき、かつdlpST(n)>0である場合、パラメータwdrop(n)は、
wdrop(n)=-dlp(n)
に設定される。
そうでない場合、適応平滑器209は、たとえば、以下の関係式を使用して、パラメータwdrop(n)を着実に大きくする。
wdrop(n)=wdrop(n-1)+(dlpST(n-1)-dlp(n))
上記で定義した2つの条件が真でない場合、パラメータwdrop(n)は0にリセットされる。したがって、パラメータwdrop(n)は、潜在的な音声オンセットを示す0レベルの下方への、差分スコアdlp(n)の突然の降下に反応する。パラメータwdrop(n)の最終値は、以下の関係式に示すように、たとえば、(0.7,1.0)という区間に、線形にマッピングされる。
Figure 2023521476000074
表記法を簡略化するために、上の式ではwdrop(n)の値が「上書き」されることに留意されたい。
適応平滑器209は、潜在的な音楽オンセットを示す差分スコアdlp(n)の突然の上昇にパラメータwdrop(n)が反応する差分を用いて、パラメータwdrop(n)と同様にパラメータwrise(n)を計算する。パラメータwrise(n)は0に設定されるが、次の条件を満たすフレームの中で修正される。
fSM(n)=8(ACTIVE)
dlpST(n)>0
dlpST(n)>dlpST(n-1)
したがって、差分スコアdlp(n)が増加傾向を有するとき、かつ現在のフレームnがMUSICクラスに属することをこの差分スコアdlp(n)が示すとき、適応平滑器209は、入力サウンド信号のACTIVE状態404(図4を参照)においてのみ、パラメータwrise(n)を更新する。
最初のフレームの中で、上記の3つの指定された条件が満たされるとき、かつ短期平均dlpST(n-1)<0である場合、第3のパラメータwrise(n)は、
wrise(n)=-dlpST(n)
に設定される
そうでない場合、適応平滑器209は、たとえば、以下の関係式
wrise(n)=wrise(n-1)+(dlpST(n)-dlpST(n-1))
に従って、パラメータwrise(n)を着実に大きくする。
上記の3つの条件が真でない場合、パラメータwrise(n)は0にリセットされる。したがって、第3のパラメータwrise(n)は、潜在的な音楽オンセットを示す0レベルの上方への、差分スコアdlp(n)の突然の上昇に反応する。パラメータwrise(n)の最終値は、次のように、たとえば、(0.95,1.0)という区間に、線形にマッピングされる。
Figure 2023521476000075
表記法を簡略化するために、上の式ではパラメータwrise(n)の値が「上書き」されることに留意されたい。
図9は、非限定的な例として、バックグラウンドミュージックを伴う音声信号の短い分節に対するパラメータwdrop(n)およびwrise(n)の挙動を示すグラフである。パラメータwdrop(n)のピークは、通常、音声オンセットの近くに位置するが、パラメータwrise(n)のピークは、一般に、音声がゆっくりとバックオフするとともにバックグラウンドミュージックが信号コンテンツで優勢となり始める場所に位置する。
適応平滑器209の適応IIRフィルタの忘却係数wght(n)は、強いSPEECH信号コンテンツまたは強いMUSIC信号コンテンツに応答して小さくされる。その目的のために、適応平滑器209は、たとえば、以下の関係式を使用して計算される差分スコアdlp(n)の長期平均
Figure 2023521476000076
および長期分散
Figure 2023521476000077
を分析する。
Figure 2023521476000078
Figure 2023521476000079
入力サウンド信号のENTRY状態402(図4)において、長期平均は
Figure 2023521476000080
であり、長期分散は
Figure 2023521476000081
である。差分スコアdlp(n)の平均値の周囲で小さいばらつきを伴って、差分スコアdlp(n)の絶対値が大きいとき、音声/音楽分類デバイスがそのコンテンツについての確信を有する良好な機会がある。このことは、以下の長期平均対長期分散比によって表現され得る。
Figure 2023521476000082
式rm2v(n)は、差分スコアの長期標準偏差に相当する。適応平滑器259の適応IIRフィルタの忘却係数wght(n)は、たとえば、以下の関係式を使用して、rm2v(n)>15となるフレームの中で小さくされる。
wght(n)←0.9・wght(n)
適応平滑器209の適応IIRフィルタの忘却係数wght(n)の最終値は、たとえば、(0.01,1.0)という範囲に限定される。全フレームエネルギーEtot(n)が10dB未満であるフレームでは、忘却係数wght(n)は、たとえば、0.92に設定される。このことは、静寂の間の差分スコアdlp(n)の適切な平滑化を保証する。
フィルタ処理され平滑化された差分スコアwdlp(n)は、以下で説明するように、音声/音楽分類方法のカテゴリー決定のためのパラメータである。
2.10 状態依存カテゴリー分類器
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、差分スコア分布および方向依存しきい値に応じた入力サウンド信号の状態依存カテゴリー分類の動作260を備える。動作260を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、状態依存カテゴリー分類器210を備える。
動作260は、2ステージ音声/音楽分類方法の第1のステージ250の最終の動作であり、以下の3つの最終クラスへの入力サウンド信号のカテゴリー化を備える。
・SPEECH/NOISE (0)
・UNCLEAR (1)
・MUSIC (2)
上記において、丸括弧の中の数は、3つの最終クラスに関連付けられた数字定数である。クラスの上記のセットは、差分スコアに関してここまで説明されているクラスとはわずかに異なる。第1の差異は、SPEECHクラスとNOISEクラスとが組み合わせられることである。このことは、音声信号と背景雑音の両方をコーディングするためにACELPエンコーダコアが通常は選択されるコアエンコーダ選択メカニズム(以下の説明の中に記載される)を容易にするためである。新たなクラス、すなわち、UNCLEAR最終クラスが、セットに追加されている。このカテゴリーに分類されるフレームは、通常、高いレベルの加法的バックグラウンドミュージックを有する音声分節の中に見つけられる。クラスUNCLEARの中のフレームの平滑化された差分スコアwdlp(n)は、大部分が0に近い。図10は、トレーニングデータベースの、平滑化された差分スコアwdlp(n)の分布、ならびに最終クラスSPEECH/NOISE、UNCLEAR、およびMUSICとのそれらの関係を示すグラフである。
状態依存カテゴリー分類器210によって選択された最終クラスをdSMC(n)が示すものとする。
入力サウンド信号が、現在のフレームの中で、ENTRY状態402(図4を参照)にあるとき、状態依存カテゴリー分類器210は、ENTRY状態402に属し現在のフレームに先行するフレームの中で計算される差分スコアdlp(n)の重み付き平均に基づいて、最終クラスdSMC(n)を選択する。重み付き平均は、以下の関係式
Figure 2023521476000083
を使用して計算されてよく、ただし、nENTRYは、ENTRY状態402の冒頭(フレーム)を示し、αk(n-nENTRY)は、ENTRY状態におけるdlp(n)のサンプルに対応する重みである。したがって、重み付き平均wdlpENTRY(n)において使用されるサンプルの個数は、ENTRY状態の冒頭(フレーム)に対する現在のフレームの位置に応じて0から7までにわたる。このことは、最も最近のフレームが最も大きい重みに関連付けられるような、降順での重みのソーティングを図示するグラフを示す、図11に図示される。下のTable 2(表2)は、そのような平均化のために使用され得る重みの一例を示す。
Figure 2023521476000084
絶対フレームエネルギーEtotが、現在のフレームの中で、たとえば、10dBよりも低い場合、状態依存カテゴリー分類器210は、差分スコアdlp(n)にかかわらず最終クラスdSMC(n)をSPEECH/NOISEに設定する。このことは、静寂の間の誤分類を回避するためである。
ENTRY状態における差分スコアの重み付き平均wdlpENTRY(n)が、たとえば、2.0よりも小さい場合、状態依存カテゴリー分類器210は、最終クラスdSMC(n)をSPEECH/NOISEに設定する。
ENTRY状態における差分スコアの重み付き平均wdlpENTRY(n)が、たとえば、2.0よりも大きい場合、状態依存カテゴリー分類器210は、現在のフレームにおける平滑化されていない差分スコアdlp(n)に基づいて最終クラスdSMC(n)を設定する。dlp(n)が、たとえば、2.0よりも大きい場合、最終クラスはMUSICである。そうでない場合、最終クラスはUNCLEARである。
入力サウンド信号の他の状態(図4を参照)において、状態依存カテゴリー分類器210は、平滑化された差分スコアwdlp(n)および前のフレームの中で選択された最終クラスに基づいて、現在のフレームにおいて最終クラスを選択する。現在のフレームにおける最終クラスは、最初に前のフレームからのクラスに初期化され、すなわち、
dSMC(n)=dSMC(n-1)
である。
平滑化された差分スコアwdlp(n)が、前のフレームにおいて選択されたクラスとは異なるクラスのしきい値(Table 3(表3)を参照)を横切る場合、状態依存カテゴリー分類器210によって決定が変更され得る。クラス間のこれらの遷移が図10に示される。たとえば、前のフレームにおいて選択された最終クラスdSMC(n)がSPEECH/NOISEであったが、現在のフレームにおける平滑化された差分スコアwdlp(n)が、たとえば、1.0よりも大きい場合、現在のフレームにおける最終クラスdSMC(n)はUNCLEARに変更される。図10のグラフは、INACTIVEフレームを除外してトレーニングデータベース上で計算される、SPEECH/NOISE最終クラスおよびMUSIC最終クラスに対する平滑化された差分スコアwdlp(n)のヒストグラムを示す。図10のグラフからわかるように、しきい値の2つのセットがあり、一方はSPEECH/NOISE->UNCLEAR->MUSIC遷移用であり、他方は反対方向、すなわち、MUSIC->UNCLEAR->SPEECH/NOISE遷移用である。直接SPEECHからMUSICへの、またはその逆の、最終クラスdSMC(n)の切替えはない。決定しきい値の値は、状態依存カテゴリー分類器210がSPEECH/NOISE最終クラスを選好することを示す。クラス間の遷移および関連するしきい値の例が、下のTable 3(表3)に要約される。
Figure 2023521476000085
本明細書において上記で述べたように、クラス間の遷移は、平滑化された差分スコアwdlp(n)の値によるだけでなく、前のフレームにおいて選択された最終クラスによっても駆動される。クラス間の遷移に対する規則の完全セットが、図12のクラス遷移図に示される。
図12の中の矢印は、対応する菱形の内側の条件が満足される場合にクラスが変更され得る方向を示す。菱形の中の複数の条件の場合には、それらの間で論理ANDが想定され、すなわち、遷移が発生するためにすべてが満たされなければならない。矢印が表記法「≧X個のフレーム」によって条件付けされる場合、そのことは、少なくともX個のフレームの後にのみクラスが変更されてよいことを意味する。このことは、いくつかの遷移に短いヒステリシスを加える。
図12において、シンボルfspは、IVASコーデックの安定な高ピッチ分析モジュールの副産物であるショートピッチフラグを示す(参考文献[1]を参照)。ショートピッチフラグは、高い値の発声測度
Figure 2023521476000086
を示す事前選択されたアクティブなフレームの中で、1に設定される。発声測度は、次のように、すなわち、
Figure 2023521476000087
のように、現在のフレームの3つの隣接するハーフフレームにわたる平均正規化相関として計算され、ただし、
Figure 2023521476000088
は、現在のフレームにおける正規化された自己相関関数であり、上の方のインデックス[k]は、ハーフフレームウィンドウの位置を指す。正規化された自己相関関数は、IVASコーデックの開ループピッチ分析モジュールの一部として算出される(参考文献[1]、セクション5.1.11.3.2を参照)。
ショートピッチフラグfspは、次のように、すなわち、
Figure 2023521476000089
のように、事前選択されたフレームにおいて設定されてよく、ただし、
Figure 2023521476000090
は、現在のフレームにおける最大高ピッチ相関値の長期測度であり(参考文献[1]を参照)、
Figure 2023521476000091
は、現在のフレームにおける長期発声測度である。長期測度
Figure 2023521476000092
および
Figure 2023521476000093
は、以下の関係式
Figure 2023521476000094
Figure 2023521476000095
を使用して計算されてよく、
Figure 2023521476000096
は、IVASコーデックの安定な高ピッチ分析モジュールの一部として算出される最大高ピッチ相関値である(参考文献[1]を参照)。
図12において、パラメータcVADはACTIVEフレームのカウンタである。カウンタcVADは0に初期化され、VADフラグが0であるすべてのフレームにおいて0にリセットされる。カウンタcVADは、たとえば、50というしきい値に達するまで、またはVADフラグが0に戻るまで、VADフラグが1であるフレームにおいてのみ1だけ増大する。
パラメータvrun(n)は、本開示のセクション2.2(オンセット/アタック検出)の中で定義されている。
3. コアエンコーダ選択
図3は、2ステージ音声/音楽分類デバイスの第2のステージ300、および対応する2ステージ音声/音楽分類方法の第2のステージ350を同時に示す、概略ブロック図である。
2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスの第2のステージ350/300において、状態依存カテゴリー分類器210によって選択された最終クラスdSMC(n)は、IVASコーデックの3つのコアエンコーダ技術、すなわち、ACELP(代数符号励振線形予測)、GSC(汎用オーディオ信号コーディング)、またはTCX(変換符号化励振)のうちの1つに「マッピング」される。このことは、3ウェイ分類と呼ばれる。ビットレートまたは帯域幅限定などの、決定に影響を及ぼす他の要因が存在するので、このことは、選択された技術がコアエンコーダとして使用されることを保証しない。しかしながら、一般のタイプの入力サウンド信号の場合、コアエンコーダ技術の初期選択が使用される。
第1のステージにおいて状態依存カテゴリー分類器210によって選択されるクラスdSMC(n)以外に、コアエンコーダ選択メカニズムは、いくつかの追加の高レベル特徴を考慮に入れる。
3.1 追加の高レベル特徴抽出器
図3を参照すると、2ステージ音声/音楽分類方法の第2のステージ350は、入力サウンド信号の追加の高レベル特徴の抽出の動作351を備える。動作351を実行するために、2ステージ音声/音楽分類デバイスの第2のステージ300は、追加の高レベル特徴抽出器301を備える。
2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第1のステージ200/250において、ほとんどの特徴が、通常、80msを超過しない、入力サウンド信号の短い分節(フレーム)に対して計算される。このことは、バックグラウンドミュージックの存在下での音声オンセットまたはオフセットなどの、イベントへの急速な反応を可能にする。しかしながら、そのことはまた、比較的高い割合の誤分類につながる。誤分類は、上のセクション2.9で説明した適応平滑化を用いて、いくらかの程度まで軽減されるが、いくつかのタイプの信号に対して、これは十分に効率的ではない。したがって、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第2のステージ300/350の一部として、いくつかのタイプの信号に対して最も適切なコアエンコーダ技術を選択するために、クラスdSMC(n)が改変され得る。そのようなタイプの信号を検出するために、検出器は、通常は入力信号のもっと長い分節に対して、追加の高レベル特徴および/またはフラグを計算する。
3.1.1 長期信号安定性
長期信号安定性は、オペラからのボーカルと音楽との間での、好結果の弁別のために使用され得る、入力サウンド信号の特徴である。コアエンコーダ選択のコンテキストでは、信号安定性は、自己相関が高い分節の長期定常性として理解される。追加の高レベル特徴抽出器301は、「発声」測度
Figure 2023521476000097
に基づいて長期信号安定性特徴を推定する。長期信号安定性は、以下の関係式を使用して、いくつかの、たとえば、10個のフレームにわたって計算された、発声パラメータ
Figure 2023521476000098
の分散corvar(n)を使用して、現在のフレームnにおいて推定され得る。
Figure 2023521476000099
Figure 2023521476000100
上の式において、
Figure 2023521476000101
は、10という個数のフレームにわたる平均発声である。
もっと大きいロバストネスを得るために、現在のフレームnにおける発声パラメータ
Figure 2023521476000102
が、たとえば、以下の式に従って、IIRフィルタを使用して平滑化される。
Figure 2023521476000103
平滑化された発声パラメータcorLT(n)が十分に大きく、かつ発声パラメータの分散corvar(n)が十分に小さい場合、入力信号は、コアエンコーダ選択の目的にとって「安定」と見なされる。これは、値corLT(n)およびcorvar(n)を既定のしきい値と比較すること、ならびに、たとえば、以下の規則を使用して、バイナリフラグを設定することによって測られる。
Figure 2023521476000104
バイナリフラグfSTAB(n)は、長期信号安定性のインジケータであり、本開示の中で後で説明するコアエンコーダ選択において使用される。
3.1.2 分節アタック検出
抽出器301は、図13に示すように、現在のフレームnのいくつかの、たとえば、32個の短い分節から分節アタック特徴を抽出する。
各分節において、追加の高レベル特徴抽出器301が、たとえば、以下の関係式
Figure 2023521476000105
を使用して、エネルギーEata(k)を計算し、ただし、s(n)は現在のフレームnの中の入力サウンド信号であり、kは分節のインデックスであり、iは分節の中のサンプルのインデックスである。アタック位置が、次いで、次のように、最大エネルギーを有する分節のインデックスとして計算される。
Figure 2023521476000106
追加の高レベル特徴抽出器301は、現在のフレームnの冒頭(分節0)から3/4(分節24)までの入力信号s(n)のエネルギーEata(k)の平均(下の関係式の分母)に対して、現在のフレームnのアタック(分節k=kata)から末尾(分節31)までの入力サウンド信号s(n)のエネルギーEata(k)の平均(下の関係式の分子)を比較することによって、アタックの強度strataを推定する。強度strataのこの推定は、たとえば、以下の関係式を使用して行われる。
Figure 2023521476000107
strataの値が、たとえば、8よりも大きい場合、アタックが十分強いと見なされ、分節kataが、現在のフレームnの内側のアタックの位置をシグナリングするためのインジケータとして使用される。そうでない場合、インジケータkataは、アタックが識別されなかったことを示す0に設定される。アタックは、IVASフレームタイプ選択論理(参考文献[1]を参照)によってシグナリングされるGENERICフレームタイプにおいてのみ検出される。誤ったアタック検出を減らすために、たとえば、以下の関係式を使用して、アタックが識別された分節k=kataのエネルギーEata(kata)が、現在のフレームn(分節2~21)の最初の
Figure 2023521476000108
における分節のエネルギーEata(k)と比較される(str3_4(k))。
Figure 2023521476000109
分節k=2,..,21に対する比較値str3_4(k)のうちのいずれかが、たとえば、2(k≠kata)よりも小さい場合、kataは、アタックが識別されなかったことを示す0に設定される。言い換えれば、アタックを含む分節のエネルギーは、現在のフレームの最初の
Figure 2023521476000110
における他の分節のエネルギーの、少なくとも2倍大きくなければならない。
上記で説明したメカニズムは、主に現在のフレームの最後の
Figure 2023521476000111
においてアタックが検出されることを保証し、そのことは、それらをACELP技術またはGSC技術のいずれかを用いた符号化にとって好適にする。
IVAS FEC分類モジュール(参考文献[1]を参照)によってUNVOICED_CLAS、UNVOICED_TRANSITION、またはONSETとして分類される、発声されないフレームの場合、追加の高レベル特徴抽出器301は、たとえば、関係式
Figure 2023521476000112
を使用して、アタック分節k=kataのエネルギーEata(kata)(下の関係式の分子)を、アタックに先行する、前の32個の分節におけるエネルギーEata(k)の平均(下の関係式の分母)と比較することによって、アタックの強度strataを推定する。
上の関係式において、分母の中の負のインデックスは、前のフレームにおける分節エネルギーEata(k)の値を指す。上の式を用いて計算された強度strataが、たとえば、16よりも大きい場合、アタックは十分に強く、kataは、現在のフレームの内側のアタックの位置をシグナリングするために使用される。そうでない場合、kataは、アタックが識別されなかったことを示す0に設定される。IVAS FEC分類モジュールによって最後のフレームがUNVOICED_CLASとして分類された場合には、しきい値は、たとえば、16ではなく12に設定される。
IVAS FEC分類モジュール(参考文献[1]を参照)によってUNVOICED_CLAS、UNVOICED_TRANSITION、またはONSETとして分類される、発声されないフレームの場合、検出されたアタックを十分に強いものと見なすために満たされるべき別の条件がある。次のように、すなわち、
Figure 2023521476000113
であって、
Figure 2023521476000114
のように計算され得る長期平均エネルギー
Figure 2023521476000115
と比較したとき、アタックのエネルギーEata(k)は十分に大きくなければならない。たとえば、比
Figure 2023521476000116
が20よりも大きい場合、アタックは十分に強い。そうでない場合、kataは、アタックが識別されなかったことを示す0に設定される。
前のフレームの中でアタックがすでに検出されている場合には、kataは、現在のフレームnにおいて0にリセットされ、アタックスミアリング効果を防止する。
(上記で説明したようなUNVOICEDおよびGENERICを除外して)他のフレームタイプの場合、追加の高レベル特徴抽出器301は、たとえば、以下の比
Figure 2023521476000117
に従って、他の分節におけるエネルギーEata(k)に対して、アタックを含む分節k=kataのエネルギーEata(kata)を比較し、k=2,..,21(k≠kata)に対する比較値strother(k)のうちのいずれかが、たとえば、1.3よりも小さい場合、アタックは弱いと見なされ、kataは0に設定される。そうでない場合、分節kataは、現在のフレームの内側のアタックの位置をシグナリングするために使用される。
したがって、分節アタック検出に関する、追加の高レベル特徴検出器301の最終出力は、アタックを含む分節のインデックスk=kataであるか、またはkata=0である。インデックスが正である場合、アタックは検出される。そうでない場合、アタックは識別されない。
3.1.3 信号調性推定
2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第2のステージにおける入力サウンド信号の調性は、4kHzまでの入力信号の低い方の周波数範囲の中のスペクトル安定性と調和性の両方を反映する、調性バイナリフラグとして表現される。追加の高レベル特徴抽出器301は、IVASエンコーダにおける音の安定性分析の副産物である相関マップSmap(n,k)から、この調性バイナリフラグを計算する(参考文献[1]を参照)。
相関マップは、信号安定性と調和性の両方の測度である。相関マップは、対数領域における残差エネルギースペクトルの最初の、たとえば、80個のビンEdB,res(k)(k=0,..,79)から計算される(参考文献[1]を参照)。相関マップは、ピークが存在する残差エネルギースペクトルの分節において計算される。これらの分節は、パラメータimin(p)によって定義され、ここで、p=1,...,Nminは分節インデックスであり、Nminは分節の総数である。
特定の分節xに属するインデックスのセットを
PK(p)={i|i≧imin(p)かつi<imin(p+1)かつi<80}
として定義しよう。このとき、相関マップは次のように計算されてよい。
Figure 2023521476000118
相関マップMcor(PK(p))は、たとえば、以下の2つの関係式
Figure 2023521476000119
Figure 2023521476000120
を使用して、IIRフィルタを用いて平滑化され、周波数範囲k=0,...,79の中のビンにわたって合計されて、単一の数をもたらし、ただし、nは現在のフレームを示し、kは周波数ビンを示す。上の式の中で使用される重みβ(n)は、ソフトVADパラメータと呼ばれる。それは0に初期化され、各フレームにおいて
β(n)=0.95・β(n-1)+0.05・fVAD(n)
として更新されてよく、ただし、fVAD(n)は、IVASエンコーダからのバイナリVADフラグである(参考文献[1]を参照)。重みβ(n)は、たとえば、(0.05,0.95)という範囲に限定される。抽出器301は、Smassを適応しきい値thrmassと比較することによって調性フラグftonを設定する。しきい値thrmassは、たとえば、0.65に初期化され、各フレームにおいて、たとえば、0.01刻みでインクリメントまたはデクリメントされる。Smassが0.65よりも大きい場合、しきい値thrmassは0.01だけ大きくされ、そうでない場合、0.01だけ小さくされる。しきい値thrmassは、たとえば、0.75を上限とし、たとえば、0.55を下限とする。このことは、小さいヒステリシスを調性フラグftonに加える。
Smassがthrmassよりも大きい場合、調性フラグftonは1に設定される。そうでない場合、それは0に設定される。
3.1.4 スペクトルピーク対平均比
コアエンコーダ選択メカニズムにおいて使用される別の高レベル特徴は、スペクトルピーク対平均比である。この特徴は、入力サウンド信号s(n)のスペクトルシャープネスの測度である。抽出器301は、たとえば、0から4kHzまでの範囲の中の、対数領域における入力信号s(n)の電力スペクトルSLT(n,k)(k=0,...,79)から、この高レベル特徴を計算する。ただし、電力スペクトルSLT(n,k)は、たとえば、以下の関係式
Figure 2023521476000121
を使用して、IIRフィルタを用いて最初に平滑化され、ただし、nは現在のフレームを示し、kは周波数ビンを示す。スペクトルピーク対平均比は、たとえば、以下の関係式
Figure 2023521476000122
を使用して計算される。
3.2 コアエンコーダ初期選択器
図3を参照すると、2ステージ音声/音楽分類方法の第2のステージ350は、コアエンコーダの初期選択の動作352を備える。動作352を実行するために、2ステージ音声/音楽分類デバイスの第2のステージ300は、コアエンコーダ初期選択器302を備える。
選択器302によるコアエンコーダの初期選択は、本明細書において上記で説明したような、(a)相対フレームエネルギーEr、(b)2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第1のステージの中で選択された最終クラスdSMC(n)、ならびに(c)追加の高レベル特徴rp2a(n)、Smass、およびthrmassに基づく。コアエンコーダ初期選択器302によって使用される選択メカニズムが、図14の概略図に示される。
「0」がACELP技術を表し、「1」がGSC技術を表し、「2」がTCX技術を表して、dcore∈{0,1,2}が、図14の中のメカニズムによって選択されるコアエンコーダ技術を示すものとする。したがって、コアエンコーダ技術の初期選択は、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第1のステージからの最終クラスdSMC(n)割当てに厳密に従う。TCX技術がより良好な品質をもたらすので、例外は、TCX技術が選択されるべき強い音調の信号に関係する。
3.3 コアエンコーダ選択改良器
図3を参照すると、2ステージ音声/音楽分類方法の第2のステージ350は、コアエンコーダの初期選択の改良の動作353を備える。動作353を実行するために、2ステージ音声/音楽分類デバイスの第2のステージ300は、コアエンコーダ選択改良器303を備える。
dcore=1であるとき、すなわち、コアコーディングのためにGSCコアエンコーダが最初に選択されるとき、コアエンコーダ選択改良器303は、コアエンコーダ技術を変更することがある。この状況は、たとえば、400Hz未満で低いエネルギーを有するMUSICとして分類される音楽項目に対して起こり得る。入力信号の、影響を受ける分節は、以下のエネルギー比
Figure 2023521476000123
を分析することによって識別されてよく、ただし、Ebin(k)(k=0,...,127)は、線形領域における入力信号の周波数ビンkごとの電力スペクトルであり、Etotは信号分節(フレーム)の全エネルギーである。
分子における合計は、0~400Hzという周波数範囲に対応するエネルギースペクトルの最初の8個の周波数ビンにわたって延びる。コアエンコーダ選択改良器303は、適度に高い確度を有するMUSICとして以前に分類されたフレームにおけるエネルギー比ratLFを計算および分析する。コアエンコーダ技術は、たとえば、次の条件
Figure 2023521476000124
の下で、GSCからACELPに変更される。
極めて短く安定なピッチ期間を有する信号の場合、GSCは最適なコアコーダ技術ではない。したがって、非限定的な例として、fsp=1であるとき、コアエンコーダ選択改良器303は、次のようにコアエンコーダ技術をGSCからACELPまたはTCXに変更する。
Figure 2023521476000125
小さいエネルギー変動しか伴わない大きく相関した信号は、GSCコアエンコーダ技術がそれにとって好適でない別のタイプの信号である。これらの信号に対して、コアエンコーダ選択改良器303は、コアエンコーダ技術をGSCからTCXに切り替える。非限定的な例として、コアエンコーダのこの変更は、次の条件
Figure 2023521476000126
が満たされるときに行われ、ただし、
Figure 2023521476000127
は、現在のフレームnにおける開ループピッチ分析(参考文献[1]を参照)の、最初のハーフフレームからの絶対ピッチ値である。
最後に、非限定的な例では、コアエンコーダ選択改良器303は、次の条件が満たされるとすれば、アタックが検出されるフレームにおいて初期コアエンコーダ選択をGSCからACELPに変更してよい。
Figure 2023521476000128
フラグfno_GSCは、コアエンコーダ技術の変更が有効にされているというインジケータである。
上の条件は、上昇するエネルギーを有する分節においてのみGSCからACELPへのコアエンコーダのこの変更が起こることを保証する。上の条件が満たされ、かつ同時に、IVASコーデックにおいて遷移フレームカウンタTCcntが1に設定されている場合(参考文献[1])、コアエンコーダ選択改良器303はコアエンコーダをACELPに変更する。すなわち、
Figure 2023521476000129
である。追加として、コアエンコーダ技術がACELPに変更されるとき、フレームタイプはTRANSITIONに設定される。このことは、ACELPコアエンコーダのTRANSITIONモードを用いてアタックが符号化されることを意味する。
上のセクション3.1.2において説明したように、追加の高レベル特徴検出動作351の分節アタック検出手順によってアタックが検出される場合、このアタックのインデックス(位置)kataがさらに調査される。検出されたアタックの位置がフレームnの最後のサブフレームの中にある場合、コアエンコーダ選択改良器303は、たとえば、次の条件が満たされるとき、コアエンコーダ技術をACELPに変更する。
Figure 2023521476000130
追加として、コアエンコーダ技術がACELPに変更されるとき、フレームタイプはTRANSITIONに設定され、新たなアタック「フラグ」fataが次のように設定される。
fata=kata+1
このことは、ACELPコアエンコーダのTRANSITIONモードを用いてアタックが符号化されることを意味する。
検出されたアタックの位置が最後のサブフレームの中に位置しないが少なくとも最初のサブフレームの最初の4分の1を越える場合、コアエンコーダ選択は変更されず、アタックはGSCコアエンコーダを用いて符号化される。前の事例と同様に、新たなアタック「フラグ」fataが、次のように設定されてよい。
fno_GSC=1かつTCcnt≠1かつkata>4の場合、fata=kata+1
パラメータkataは、検出されたアタックの位置を反映することを意図され、そのため、アタックフラグfataはいくぶん冗長である。しかしながら、他の文書との、かつIVASコーデックのソースコードとの整合性のために、本開示ではそれが使用される。
最後に、コアエンコーダ選択改良器303は、初期選択の間にACELPコアコーダ技術がそれに対して選択されている音声フレームにおいて、フレームタイプをGENERICからTRANSITIONに変更する。この状況は、局所的なVADフラグが1に設定されており、かつセクション3.1.2で説明した追加の高レベル特徴検出動作351の分節アタック検出手順によってアタックがその中で検出されている、すなわち、kata>0である、アクティブなフレームにおいてのみ起こる。
アタックフラグは、このとき、前の状況におけるものと類似である。すなわち、
fata=kata+1
である。
4. ハードウェア構成要素の例示的な構成
図15は、2ステージ音声/音楽分類デバイスを含む上述のIVASコーデックを形成するハードウェア構成要素の例示的な構成の簡略化されたブロック図である。
2ステージ音声/音楽分類デバイスを含むIVASコーデックは、モバイル端末の一部として、ポータブルメディアプレーヤの一部として、または任意の類似のデバイスの中に実装されてよい。(図15の中の1500として識別される)2ステージ音声/音楽分類デバイスを含むIVASコーデックは、入力部1502、出力部1504、プロセッサ1506、およびメモリ1508を備える。
入力部1502は、入力サウンド信号s(n)、たとえば、IVASコーデックのエンコーダの場合には、デジタルまたはアナログの形態の入力ステレオサウンド信号の左チャネルおよび右チャネルを受信するように構成される。出力部1504は、IVASコーデックのエンコーダの場合には、符号化され多重化されたビットストリーム供給するように構成される。入力部1502および出力部1504は、共通のモジュール、たとえば、シリアル入力/出力デバイスの中に実装されてよい。
プロセッサ1506は、入力部1502に、出力部1504に、かつメモリ1508に、動作可能に接続される。プロセッサ1506は、添付図面に示すように、かつ/または本開示で説明するように、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含む上述のIVASコーデックの様々な要素および動作の機能をサポートするコード命令を実行するための、1つまたは複数のプロセッサとして実現される。
メモリ1508は、プロセッサ1506によって実行可能なコード命令を記憶するための非一時的メモリ、詳細には、実行されたとき、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むIVASコーデックの要素および動作をプロセッサに実施させる、非一時的命令を記憶するプロセッサ可読メモリを備えてよい。メモリ1508はまた、プロセッサ1506によって実行される様々な機能からの中間処理データを記憶するためのランダムアクセスメモリまたはバッファを備えてよい。
2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むIVASコーデックの説明が、例示的なものにすぎず、いかなる形でも限定的であることを意図されないことを、当業者は了解されよう。他の実施形態は、本開示の利益を有するそのような当業者にそれらを容易に示唆する。さらに、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含む、開示するIVASコーデックは、サウンド、たとえば、ステレオサウンドを符号化および復号することの、既存のニーズおよび問題に有益な解決策を与えるようにカスタマイズされてよい。
明快さのために、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むIVASコーデックの実装形態の型通りの特徴のすべてが図示および説明されているとは限らない。当然、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むIVASコーデックのそのような任意の実際の実装形態の開発において、アプリケーション関連の、システム関連の、ネットワーク関連の、およびビジネス関連の制約への適合などの、開発者の特定の目標を達成するために、数多くの実装形態固有の決定が行われる必要があり得ること、ならびにこれらの特定の目標が、ある実装形態から別の実装形態に、またある開発者から別の開発者に変わることが、諒解されよう。その上、開発の取組みは、複雑であり時間がかかる場合があるが、とはいえ、本開示の利益を有するサウンド処理の分野における当業者にとって、エンジニアリングの型通りの仕事であることになることが、諒解されよう。
本開示によれば、本明細書で説明した要素、処理動作、および/またはデータ構造は、様々なタイプのオペレーティングシステム、コンピューティングプラットフォーム、ネットワークデバイス、コンピュータプログラム、および/または汎用の機械を使用して実施されてよい。加えて、配線接続されたデバイス、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)などの、さほど汎用的でない性質のデバイスも使用され得ることを、当業者は認識されよう。一連の動作および下位動作を備える方法が、プロセッサ、コンピュータ、または機械によって実施され、かつそれらの動作および下位動作が、プロセッサ、コンピュータ、または機械によって読取り可能な一連の非一時的コード命令として記憶され得る場合、それらは有形および/または非一時的な媒体上に記憶されてよい。
本明細書で説明したような、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むIVASコーデックの要素および処理動作は、本明細書で説明した目的に適した、ソフトウェア、ファームウェア、ハードウェア、あるいはソフトウェア、ファームウェア、またはハードウェアの任意の組合せを備えてよい。
2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むIVASコーデックでは、様々な処理動作および下位動作が様々な順序で実行されてよく、処理動作および下位動作のうちのいくつかが随意であってよい。
本開示は、それらの非制限的で例示的な実施形態として上記で説明されているが、これらの実施形態は、本開示の趣旨および本質から逸脱することなく添付の特許請求の範囲内で自由に修正されてよい。
参考文献
本開示は、その全内容が参照により本明細書に組み込まれる、以下の参考文献を挙げる。
[1] 3GPP TS 26.445, v.12.0.0, "Codec for Enhanced Voice Services (EVS); Detailed Algorithmic Description", Sep 2014.
[2] M. Neuendorf, M. Multrus, N. Rettelbach, G. Fuchs, J. Robillard, J. Lecompte, S. Wilde, S. Bayer, S. Disch, C. Helmrich, R. Lefevbre, P. Gournay, et al., "The ISO/MPEG Unified Speech and Audio Coding Standard - Consistent High Quality for All Content Types and at All Bit Rates", J. Audio Eng. Soc., vol. 61, no. 12, pp. 956-977, Dec. 2013.
[3] F. Baumgarte, C. Faller, "Binaural cue coding - Part I: Psychoacoustic fundamentals and design principles," IEEE Trans. Speech Audio Processing, vol. 11, pp. 509-519, Nov. 2003.
[4] Tommy Vaillancourt, "Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels," PCT Application WO2017/049397A1.
[5] 3GPP SA4 contribution S4-170749 "New WID on EVS Codec Extension for Immersive Voice and Audio Services", SA4 meeting #94, June 26-30, 2017, http://www.3gpp.org/ftp/tsg_sa/WG4_CODEC/TSGS4_94/Docs/S4-170749.zip
[6] V. Malenovsky, T. Vaillancourt, W. Zhe, K. Choo and V. Atti, "Two-stage speech/music classifier with decision smoothing and sharpening in the EVS codec," 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, QLD, 2015, pp. 5718-5722.
[7] T. Vaillancourt and M. Jelinek, "Coding generic audio signals at low bitrates and low delay", U.S. Patent No. 9,015,038 B2.
[8] K.S. Rao and A.K. Vuppala, Speech Processing in Mobile Environments, Appendix A: MFCC features, Springer International Publishing, 2014
[9] Box, G. E. P. and Cox, D. R. (1964). An analysis of transformations, Journal of the Royal Statistical Society, Series B, 26, 211-252.
[10] D'Agostino, R. and Pearson, E. S. (1973), "Tests for departure from normality", Biometrika, 60, 613-622.
[11] D'Agostino, A. J. Belanger and R. B. D'Agostino Jr., "A suggestion for using powerful and informative tests of normality", American Statistician 44, pp. 316-321, 1990.
[12] I. Jolliffe, Principal component analysis. New York: Springer Verlag, 2002.
100 ステレオサウンド処理および通信システム
101 通信リンク
102 マイクロフォン
103 左チャネル
104 アナログデジタル(A/D)変換器
105 左チャネル
106 ステレオサウンドエンコーダ
107 ビットストリーム
108 誤り訂正エンコーダ
109 誤り訂正デコーダ
110 ステレオサウンドデコーダ
111 ビットストリーム
112 ビットストリーム
113 左チャネル
114 左チャネル
115 デジタルアナログ(D/A)変換器
116 ラウドスピーカーユニットまたはバイノーラルヘッドフォン
122 マイクロフォン
123 右チャネル
125 右チャネル
133 右チャネル
134 右チャネル
136 ラウドスピーカーユニットまたはバイノーラルヘッドフォン
200 第1のステージ
201 ステートマシン
202 オンセット/アタック検出器
203 特徴抽出器
204 異常値検出器
205 短期特徴ベクトルフィルタ
206 非線形特徴ベクトル変換器
207 主成分分析器
208 ガウシアン混合モデル(GMM)計算器
209 適応平滑器
210 状態依存カテゴリー分類器
300 第2のステージ
301 追加の高レベル特徴抽出器
302 コアエンコーダ初期選択器
303 コアエンコーダ選択改良器
401 INACTIVE状態
402 ENTRY状態
404 ACTIVE状態
407 UNSTABLE状態
1500 IVASコーデック
1502 入力部
1504 出力部
1506 プロセッサ
1508 メモリ

Claims (136)

  1. 入力サウンド信号を分類するための、かつ前記サウンド信号を符号化するためのコアエンコーダを選択するための、2ステージ音声/音楽分類デバイスであって、
    前記入力サウンド信号をいくつかの最終クラスのうちの1つに分類するための第1のステージと、
    前記入力サウンド信号の高レベル特徴を抽出するための、かつ前記抽出された高レベル特徴および前記第1のステージの中で選択された前記最終クラスに応じて、前記入力サウンド信号を符号化するための前記コアエンコーダを選択するための、第2のステージと
    を備える2ステージ音声/音楽分類デバイス。
  2. 前記第1のステージが、相対フレームエネルギーに基づく、前記入力サウンド信号の中のオンセット/アタックの検出器を備える、請求項1に記載の2ステージ音声/音楽分類デバイス。
  3. オンセット/アタックの前記検出器が、現在のフレームの中の前記入力サウンド信号の相対エネルギーと前のフレームの中の前記入力サウンド信号の相対エネルギーとの間の差分の累積和をすべてのフレームの中で更新する、請求項2に記載の2ステージ音声/音楽分類デバイス。
  4. 前記累積和を前記現在のフレームの中で更新するために、オンセット/アタックの前記検出器が、(a)前記前のフレームの中で更新された前記累積和と、(b)前記現在のフレームの中の前記入力サウンド信号の前記相対エネルギーと前記前のフレームの中の前記入力サウンド信号の前記相対エネルギーとの間の前記差分とを加算する、請求項3に記載の2ステージ音声/音楽分類デバイス。
  5. 前記現在のフレームの中の前記入力サウンド信号の前記相対エネルギーが前記前のフレームの中の前記入力サウンド信号の前記相対エネルギーよりも大きい場合のみ、オンセット/アタックの前記検出器が前記累積和を前記現在のフレームの中で更新する、請求項3または4に記載の2ステージ音声/音楽分類デバイス。
  6. オンセット/アタックの前記検出器が、オンセット/アタックフレームのカウンタを更新するために前記累積和を使用し、前記カウンタは、前記累積和が所与の値よりも大きい場合、ステートマシンによって決定される前記入力サウンド信号のENTRY状態においてすべてのフレームの中でインクリメントされ、そうでない場合、リセットされる、請求項3から5のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  7. オンセット/アタックの前記検出器は、オンセット/アタックの検出を示すための所与の範囲内に前記累積和が位置する場合、第1の値に設定され、そうでない場合、オンセット/アタックの非検出を示すための第2の値に設定された、バイナリフラグを出力する、請求項3から6のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  8. 前記第1のステージが、メル周波数ケプストラム係数特徴を含む、前記入力サウンド信号の特徴の抽出器を備える、請求項1から7のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  9. 前記第1のステージが、前記入力サウンド信号の以下の特徴、すなわち、
    (a)開ループピッチ特徴、
    (b)発声測度特徴、
    (c)LP分析からの線スペクトル周波数に関係する特徴、
    (d)前記LP分析からの残差エネルギーに関係する特徴、
    (e)短期相関マップ特徴、
    (f)非定常性特徴、
    (g)メル周波数ケプストラム係数特徴、
    (h)電力スペクトル差分特徴、および
    (i)スペクトル定常性特徴
    のうちの少なくとも1つの抽出器を備える、
    請求項1から7のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  10. 前記第1のステージが、前記入力サウンド信号の特徴の抽出器、および前記抽出された特徴のヒストグラムに基づいて異常値特徴を検出するための異常値検出器を備える、請求項1から7のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  11. 前記異常値検出器が、特徴ごとに下限および上限を計算し、前記特徴の値を前記下限および前記上限と比較し、前記下限と前記上限との間で規定された範囲の外側にその値がある前記特徴に異常値特徴としてマークする、請求項10に記載の2ステージ音声/音楽分類デバイス。
  12. 前記異常値検出器が、前記特徴の正規化されたバージョンの前記ヒストグラム、前記特徴に対する前記ヒストグラムの最大値を含む周波数ビンのインデックス、およびしきい値を使用して前記下限および前記上限を計算する、請求項11に記載の2ステージ音声/音楽分類デバイス。
  13. 前記異常値検出器が、いくつかの検出された異常値特徴に基づいて異常値として前記特徴のベクトルを決定する、請求項10から12のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  14. 前記異常値検出器が、前記異常値ベクトルを廃棄するのではなく、前記ベクトルの中の前記異常値特徴を少なくとも1つの前のフレームから取得された特徴値と置き換える、請求項13に記載の2ステージ音声/音楽分類デバイス。
  15. 前記異常値検出器は、検出された異常値特徴のカウンタを備え、検出された異常値特徴の個数が、特徴の前記ベクトルが異常値であることを示すための所与の値に等しいかまたそれよりも多いとき、フラグを所与の値に設定する、請求項13または14に記載の2ステージ音声/音楽分類デバイス。
  16. 前記第1のステージが、前記抽出された特徴の短期ベクトルを平滑化するためのフィルタを備える、請求項10から15のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  17. 前記フィルタが、忘却係数を使用する無限インパルス応答フィルタである、請求項16に記載の2ステージ音声/音楽分類デバイス。
  18. 前記フィルタが、ステートマシンによって決定されるような前記入力サウンド信号のENTRY状態またはACTIVE状態においてフレームの中で特徴ベクトル平滑化を実行せず、特徴ベクトル平滑化が実行されないとき、前記フィルタ処理されていないベクトルの前記特徴の値が使用される、請求項16または17に記載の2ステージ音声/音楽分類デバイス。
  19. 前記第1のステージが、前記入力サウンド信号から抽出された非正規特徴を、正規形状を有する特徴に変換するための非線形特徴ベクトル変換器を備える、請求項1から18のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  20. 前記非線形特徴ベクトル変換器が、非正規特徴を、正規形状を有する特徴に変換するためにBox-Cox変換を使用する、請求項19に記載の2ステージ音声/音楽分類デバイス。
  21. 前記非線形特徴ベクトル変換器によって実行される前記Box-Cox変換が、指数を用いた電力変換を使用し、前記指数の異なる値が、異なるBox-Cox変換曲線を規定し、前記非線形特徴ベクトル変換器が、正常性テストに基づいて前記Box-Cox変換に対する前記指数の値を選択する、請求項20に記載の2ステージ音声/音楽分類デバイス。
  22. 前記非線形特徴ベクトル変換器によって実行される前記Box-Cox変換が、前記抽出された特徴のすべての入力値が正であることを保証するようにバイアスを使用する、請求項20または21に記載の2ステージ音声/音楽分類デバイス。
  23. 前記正常性テストが、スキューおよび尖度測度を生成し、前記非線形特徴ベクトル変換器が、前記スキューおよび尖度測度に関係する条件を満たす特徴のみに前記Box-Cox変換を適用する、請求項21に記載の2ステージ音声/音楽分類デバイス。
  24. 前記第1のステージが、サウンド信号特徴次元数を小さくするとともにサウンド信号クラス弁別性を大きくするための、主成分の分析器を備え、主成分の前記分析器が、前記入力サウンド信号から抽出された、できる限り相関した特徴のセットを変換して、前記主成分を形成する線形に相関しない変数のセットにするための、直交変換を実行する、請求項1から23のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  25. 主成分の前記分析器が、前記ベクトルの平均を除去するとともに前記ベクトルを単位分散にスケーリングすることによって、前記入力サウンド信号の抽出された特徴のベクトルを標準化する、請求項24に記載の2ステージ音声/音楽分類デバイス。
  26. 主成分の前記分析器が、以下の関係式
    Figure 2023521476000131
    を使用して前記特徴ベクトルを変換し、ただし、
    Figure 2023521476000132
    が列特徴ベクトルであり、
    Figure 2023521476000133
    が主成分分析ローディングの行列であり、上付き文字Tがベクトル転置を示す、
    請求項25に記載の2ステージ音声/音楽分類デバイス。
  27. 前記第1のステージが、前記入力サウンド信号から抽出された特徴の所与のベクトルが音声ガウシアン混合モデル(GMM)によって生成された確率に比例する第1のスコア、および特徴の前記所与のベクトルが音楽GMMによって生成された確率に比例する第2のスコアを決定するための、GMM計算器を備え、前記GMM計算器が、これらの第1のスコアと第2のスコアとの間の差分を計算して差分スコアを生成することによって前記第1のスコアと前記第2のスコアとを合成する、請求項1から26のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  28. 負の差分スコアは、前記入力サウンド信号が音声であることを示し、正の差分スコアは、前記入力サウンド信号が音楽であることを示す、請求項27に記載の2ステージ音声/音楽分類デバイス。
  29. 前記GMM計算器が、前記第1のスコアと前記第2のスコアとの間の前記差分の前記計算において決定バイアスを使用する、請求項27または28に記載の2ステージ音声/音楽分類デバイス。
  30. 前記GMM計算器が、前記第1のスコアと前記第2のスコアとの間の前記差分を計算するために前記第2のスコアから前記第1のスコアを減算し、前記決定バイアスが、前記差分に加算される非負の値である、請求項29に記載の2ステージ音声/音楽分類デバイス。
  31. 前記GMM計算器が、前記入力サウンド信号が音声、音楽、または雑音信号であることを示すラベルをトレーニングデータベースのアクティブなフレームの中で予測し、前記GMM計算器が、前記決定バイアスを見つけるために前記ラベルを使用する、請求項29または30に記載の2ステージ音声/音楽分類デバイス。
  32. 前記GMM計算器が、前記決定バイアスを使用して前記差分スコアを計算し、前記差分スコアが、所与の範囲内に限定された値を有する、請求項29から31のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  33. 前記第1のステージが、前記GMM計算器からの前記差分スコアの適応平滑器を備える、請求項27から32のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  34. 前記適応平滑器が、忘却係数を使用する無限インパルス応答(IIR)フィルタを備える、請求項33に記載の2ステージ音声/音楽分類デバイス。
  35. 前記適応平滑器が、現在のフレームの相対エネルギーに線形に比例し所与の区間内に限定される第1のパラメータを使用して前記忘却係数を計算する、請求項34に記載の2ステージ音声/音楽分類デバイス。
  36. 前記適応平滑器が、前記差分スコアの導関数に比例する第2のパラメータを使用して前記忘却係数を計算する、請求項34または35に記載の2ステージ音声/音楽分類デバイス。
  37. 前記適応平滑器が、以下の動作、すなわち、
    (a)前記差分スコアの短期平均を計算すること、
    (b)前記差分スコアが0よりも小さく前記短期平均よりも小さい場合、前記第2のパラメータを0に設定すること、
    (c)最初のフレームにおいて、前記差分スコアが0よりも小さく前記短期平均よりも小さく、かつ前記短期平均が0よりも大きい場合、前記第2のパラメータをマイナスの前記差分スコアに設定し、そうでない場合、前記適応平滑器が前記第2のパラメータを大きくすること、
    (d)前記差分スコアが0および前記短期平均よりも小さくない場合、前記第2のパラメータを0にリセットすること、ならびに
    (e)最後に前記第2のパラメータを所与の区間にマッピングすること
    のうちの少なくとも1つを使用して前記第2のパラメータを計算する、
    請求項36に記載の2ステージ音声/音楽分類デバイス。
  38. 前記適応平滑器が、潜在的な音楽オンセットを示す、前記差分スコアの突然の上昇に反応する第3のパラメータを使用して、前記忘却係数を計算する、請求項34から37のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  39. 前記適応平滑器が、以下の動作、すなわち、
    (a)前記差分スコアの短期平均を計算すること、
    (b)前記第3のパラメータを0に設定するが、(a)前記入力サウンド信号が、ステートマシンによって決定されるようなACTIVE状態にあり、(b)前記短期平均が0よりも大きく、かつ(c)現在のフレームにおける前記短期平均が前のフレームにおける前記短期平均よりも大きい場合、前記第3のパラメータを修正すること、
    (c)最初のフレームにおいて、(a)前記入力サウンド信号が前記ACTIVE状態にあり、(b)前記現在のフレームにおける前記短期平均が0よりも大きく、(c)前記現在のフレームにおける前記短期平均が前記前のフレームにおける前記短期平均よりも大きく、かつ(d)前記前のフレームにおける前記短期平均が0よりも小さい場合、前記第3のパラメータをマイナスの前記短期平均に設定し、そうでない場合、前記適応平滑器が前記第3のパラメータを大きくすること、
    (d)(a)前記入力サウンド信号が前記ACTIVE状態になく、(b)前記短期平均が0よりも大きくなく、かつ(c)前記現在のフレームにおける前記短期平均が前記前のフレームにおける前記短期平均よりも大きくない場合、前記第3のパラメータを0にリセットすること、および
    (e)最後に前記第3のパラメータを所与の区間にマッピングすること
    のうちの少なくとも1つを使用して前記第3のパラメータを計算する
    請求項38に記載の2ステージ音声/音楽分類デバイス。
  40. 前記適応平滑器が、前記差分スコアの長期平均および長期分散を分析し、以下の動作、すなわち、
    (a)前記入力サウンド信号が、ステートマシンによって決定されるようなENTRY状態にある場合、前記長期平均を前記差分スコアに、かつ前記長期分散を0に設定すること、
    (b)前記差分スコアの長期標準偏差に対応する長期平均対長期分散比を計算すること、
    (c)前記長期標準偏差が所与の値よりも大きいフレームにおける前記忘却係数を小さくすること、および
    (d)前記IIRフィルタの前記忘却係数を所与の範囲内に限定すること
    のうちの少なくとも1つを実行する、
    請求項34から39のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  41. 前記いくつかの最終クラスが、音声に関係する第1の最終クラス、音楽に関係する第2の最終クラス、およびバックグラウンドミュージックを伴う音声に関係する第3の最終クラスを備える、請求項1から40のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  42. 前記第1のステージが、SPEECH/NOISE、MUSIC、およびUNCLEARを含む3つの最終クラスのうちの1つへの、前記入力サウンド信号の状態依存カテゴリー分類器を備え、前記最終クラスUNCLEARが、バックグラウンドミュージックを伴う音声に関係する、請求項27から40のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  43. 現在のフレームの中で、前記入力サウンド信号が、ステートマシンによって決定されるようなENTRY状態にあるとき、前記状態依存カテゴリー分類器が、前記現在のフレームに先行する、前記ENTRY状態におけるフレームにおいて計算される、前記差分スコアの重み付き平均に基づいて、前記3つの最終クラスSPEECH/NOISE、MUSIC、およびUNCLEARのうちの1つを選択する、請求項42に記載の2ステージ音声/音楽分類デバイス。
  44. 絶対フレームエネルギーが前記現在のフレームの中で所与の値よりも低い場合、前記状態依存カテゴリー分類器が、前記最終クラスをSPEECH/NOISEに設定する、請求項43に記載の2ステージ音声/音楽分類デバイス。
  45. 前記入力サウンド信号の前記ENTRY状態におけるフレームにおける前記差分スコアの前記重み付き平均が2.0よりも小さい場合、前記状態依存カテゴリー分類器が、前記最終クラスをSPEECH/NOISEに設定する、請求項43または44に記載の2ステージ音声/音楽分類デバイス。
  46. 前記入力サウンド信号の前記ENTRY状態におけるフレームにおける前記差分スコアの前記重み付き平均が2.0よりも大きい場合、前記状態依存カテゴリー分類器が、前記最終クラスを、前記現在のフレームにおける前記差分スコアが2.0よりも大きい場合にはMUSICに設定し、前記現在のフレームにおける前記差分スコアが2.0よりも大きくない場合にはUNCLEARに設定する、請求項43から45のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  47. 前記ステートマシンによって決定されるようなENTRY以外の前記入力サウンド信号の状態において、前記状態依存カテゴリー分類器が、平滑化されたバージョンの前記差分スコア、および前記前のフレームにおいて選択された前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARに基づいて、前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARを選択する、請求項43から46のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  48. 前記状態依存カテゴリー分類器が、前記現在のフレームにおける前記最終クラスを、前のフレームにおいて設定された前記クラスSPEECH/NOISE、MUSIC、またはUNCLEARに最初に初期化する、請求項42から47のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  49. 前記状態依存カテゴリー分類器が、前記現在のフレームにおける前記最終クラスを、前記前のフレームにおいて設定された前記クラスSPEECH/NOISE、MUSIC、またはUNCLEARに最初に初期化し、前記現在のフレームの中で、前記状態依存カテゴリー分類器が、前記平滑化された差分スコアによる所与のしきい値の横断に応答して、前記前のフレームにおいて設定された前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARから、前記最終クラスのうちの別の最終クラスに遷移する、請求項47に記載の2ステージ音声/音楽分類デバイス。
  50. 前記状態依存カテゴリー分類器が、所与の個数のフレームの後、前のフレームにおいて設定された前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARから、これらのクラスのうちの別のクラスに遷移する、請求項42から45のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  51. ACTIVEフレームのカウンタが第1のしきい値よりも小さく、差分フレームエネルギーの累積和が0に等しく、かつ前記平滑化された差分スコアが第2のしきい値よりも大きい場合、前記状態依存カテゴリー分類器が、前記前のフレームにおいて設定された前記最終クラスSPEECH/NOISEから前記最終クラスUNCLEARに遷移する、請求項49または50に記載の2ステージ音声/音楽分類デバイス。
  52. 前記入力サウンド信号の開ループピッチ分析の副産物であるショートピッチフラグが所与の値に等しく、かつ平滑化されたバージョンの前記差分スコアが所与のしきい値よりも大きい場合、前記状態依存カテゴリー分類器が、前のフレームにおいて設定された前記最終クラスSPEECH/NOISEから前記最終クラスUNCLEARに遷移する、請求項42から51のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  53. 前記状態依存カテゴリー分類器が、前記SPEECH/NOISEクラスと前記MUSICクラスとの間での直接の遷移を実行しない、請求項48から52のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  54. 前記第2のステージが、現在のフレームの中の前記入力サウンド信号の追加の高レベル特徴の抽出器を備え、前記追加の高レベル特徴が、前記入力サウンド信号の調性を備える、請求項1から53のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  55. 前記第2のステージが、現在のフレームの中の前記入力サウンド信号の追加の高レベル特徴の抽出器を備え、前記追加の高レベル特徴が、以下の特徴、すなわち、
    (a)前記入力サウンド信号の調性、
    (b)前記入力サウンド信号の長期安定性であって、追加の高レベル特徴の前記抽出器が、前記入力サウンド信号の長期安定性を示すフラグを生成する、長期安定性、
    (c)前記入力サウンド信号の中の分節アタックであって、追加の高レベル特徴の前記抽出器が、(a)前記入力サウンド信号の現在のフレームの中での分節アタックの位置、または(b)分節アタックの不在の、インジケータを生成する、分節アタック、および
    (d)前記入力サウンド信号の電力スペクトルから計算される、前記入力サウンド信号のスペクトルシャープネスの測度を形成する、スペクトルピーク対平均比
    のうちの少なくとも1つを備える、
    請求項42から53のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  56. 前記入力サウンド信号の前記調性が、所与の周波数までの前記入力サウンド信号の低い方の周波数範囲の中の、スペクトル安定性と調和性の両方を反映する調性フラグによって表現される、請求項55に記載の2ステージ音声/音楽分類デバイス。
  57. 追加の高レベル特徴の前記抽出器が、前記入力サウンド信号の残差エネルギースペクトルの前記低い方の周波数範囲の中の、かつピークが存在する前記残差エネルギースペクトルの分節の中で計算される、いくつかの最初の周波数ビンの中での信号安定性および調和性の測度を形成する相関マップを使用して前記調性フラグを計算する、請求項56に記載の2ステージ音声/音楽分類デバイス。
  58. 追加の高レベル特徴の前記抽出器が、前記相関マップの平滑化を適用し、単一の数をもたらすように前記現在のフレームの中の前記入力サウンド信号の前記低い方の周波数範囲内の前記周波数ビンにわたる前記相関マップの重み付き和を計算する、請求項57に記載の2ステージ音声/音楽分類デバイス。
  59. 追加の高レベル特徴の前記抽出器が、前記単一の数を適応しきい値と比較することによって前記調性フラグを設定する、請求項58に記載の2ステージ音声/音楽分類デバイス。
  60. 前記第2のステージが、(a)相対フレームエネルギー、(b)前記第1のステージによって前記入力サウンド信号がその中に分類される前記最終クラス、および(c)前記抽出された高レベル特徴を使用して、前記コアエンコーダの初期選択を行うための、コアエンコーダ初期選択器を備える、請求項1から59のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  61. 前記第2のステージが、次の条件、すなわち、
    (a)相対フレームエネルギーが第1の値よりも大きく、前記スペクトルピーク対平均比が第2の値よりも大きく、かつ前記単一の数が前記適応しきい値よりも大きい場合、TCXコアエンコーダが最初に選択され、
    (b)条件(a)が存在せず、かつ前記第1のステージによって前記入力サウンド信号がその中に分類される前記最終クラスがSPEECH/NOISEである場合、ACELPコアエンコーダが最初に選択され、
    (c)条件(a)および(b)が存在せず、かつ前記第1のステージによって前記入力サウンド信号がその中に分類される前記最終クラスがUNCLEARである場合、GSCコアエンコーダが最初に選択され、
    (d)条件(a)、(b)、および(c)が存在しない場合、TCXコアエンコーダが最初に選択されることを使用して、
    前記コアエンコーダの初期選択を行うための、コアエンコーダ初期選択器を備える、
    請求項59に記載の2ステージ音声/音楽分類デバイス。
  62. 前記第2のステージが、前記抽出された高レベル特徴、および前記第1のステージの中で選択された前記最終クラスに応じて、前記コアエンコーダの初期選択を行うための、コアエンコーダ初期選択器と、前記コアエンコーダ初期選択器によってGSCコアエンコーダが最初に選択される場合、前記初期コアエンコーダ選択の改良器とを備える、請求項27から40のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
  63. (a)信号分節のいくつかの最初の周波数ビンの中のエネルギーと、この信号分節の全エネルギーとの比が第1の値よりも小さく、かつ(b)前記差分スコアの短期平均が第2の値よりも大きい場合、前記初期コアエンコーダ選択の前記改良器が、GSCコアエンコーダの初期選択をACELPコアエンコーダの選択に変更する、請求項62に記載の2ステージ音声/音楽分類デバイス。
  64. 前記初期コアエンコーダ選択の前記改良器が、短く安定なピッチ期間を伴う入力サウンド信号に対して、(a)平滑化されたバージョンの前記差分スコアが所与の値よりも小さい場合にはACELPコアエンコーダの選択に、そうではなく(b)前記平滑化された差分スコアが前記所与の値よりも大きいかまたはそれに等しい場合にはTCXコアエンコーダの選択に、GSCコアエンコーダの初期選択を変更する、請求項62に記載の2ステージ音声/音楽分類デバイス。
  65. 前記初期コアエンコーダ選択の前記改良器が、(a)前記入力サウンド信号の長期安定性に応じてTCXコアエンコーダの選択に、かつ(b)所与の値よりも大きい開ループピッチに、GSCコアエンコーダの初期選択を変更する、請求項62に記載の2ステージ音声/音楽分類デバイス。
  66. コアエンコーダの選択の変更が有効にされているというインジケータが第1の値を有し、かつ遷移フレームカウンタが第2の値を有するという条件で、前記入力サウンド信号の中で分節アタックが検出される場合、前記初期コアエンコーダ選択の前記改良器が、GSCコアエンコーダの初期選択をACELPコアエンコーダの選択に変更する、請求項62に記載の2ステージ音声/音楽分類デバイス。
  67. コアエンコーダの選択の変更が有効化されているというインジケータが第1の値を有し、遷移フレームカウンタが第2の値を有さず、かつ前記現在のフレームの中での前記アタックの位置に対応する分節を識別するインジケータが第3の値よりも大きいという条件で、前記入力サウンド信号の中で分節アタックが検出される場合、前記初期コアエンコーダ選択の前記改良器が、GSCコアエンコーダの初期選択をACELPコアエンコーダの選択に変更する、請求項62に記載の2ステージ音声/音楽分類デバイス。
  68. 入力サウンド信号を分類するための、かつ前記サウンド信号を符号化するためのコアエンコーダを選択するための、2ステージ音声/音楽分類デバイスであって、
    少なくとも1つのプロセッサと、
    前記プロセッサに結合され非一時的命令を記憶するメモリとを備え、前記非一時的命令が、実行されたとき、前記プロセッサに、
    前記入力サウンド信号をいくつかの最終クラスのうちの1つに分類するための第1のステージと、
    前記入力サウンド信号の高レベル特徴を抽出するための、かつ前記抽出された高レベル特徴および前記第1のステージの中で選択された前記最終クラスに応じて、前記入力サウンド信号を符号化するための前記コアエンコーダを選択するための、第2のステージとを実施させる、
    2ステージ音声/音楽分類デバイス。
  69. 入力サウンド信号を分類するための、かつ前記サウンド信号を符号化するためのコアエンコーダを選択するための、2ステージ音声/音楽分類デバイスであって、
    少なくとも1つのプロセッサと、
    前記プロセッサに結合され非一時的命令を記憶するメモリとを備え、前記非一時的命令が、実行されたとき、前記プロセッサに、
    第1のステージにおいて、前記入力サウンド信号をいくつかの最終クラスのうちの1つに分類させ、
    第2のステージにおいて、前記入力サウンド信号の高レベル特徴を抽出させ、前記抽出された高レベル特徴および前記第1のステージの中で選択された前記最終クラスに応じて、前記入力サウンド信号を符号化するための前記コアエンコーダを選択させる、
    2ステージ音声/音楽分類デバイス。
  70. 入力サウンド信号を分類するための、かつ前記サウンド信号を符号化するためのコアエンコーダを選択するための、2ステージ音声/音楽分類方法であって、
    第1のステージにおいて、前記入力サウンド信号をいくつかの最終クラスのうちの1つに分類するステップと、
    第2のステージにおいて、前記入力サウンド信号の高レベル特徴を抽出するステップ、ならびに前記抽出された高レベル特徴および前記第1のステージの中で選択された前記最終クラスに応じて、前記入力サウンド信号を符号化するための前記コアエンコーダを選択するステップと
    を備える2ステージ音声/音楽分類方法。
  71. 前記第1のステージにおいて、相対フレームエネルギーに基づいて前記入力サウンド信号の中のオンセット/アタックを検出するステップを備える、請求項70に記載の2ステージ音声/音楽分類方法。
  72. 前記入力サウンド信号の中のオンセット/アタックを検出するステップが、現在のフレームの中の前記入力サウンド信号の相対エネルギーと前のフレームの中の前記入力サウンド信号の相対エネルギーとの間の差分の累積和をすべてのフレームの中で更新するステップを備える、請求項71に記載の2ステージ音声/音楽分類方法。
  73. 前記入力サウンド信号の中のオンセット/アタックを検出するステップが、前記累積和を前記現在のフレームの中で更新するために、(a)前記前のフレームの中で更新された前記累積和と、(b)前記現在のフレームの中の前記入力サウンド信号の前記相対エネルギーと前記前のフレームの中の前記入力サウンド信号の前記相対エネルギーとの間の前記差分とを加算するステップを備える、請求項72に記載の2ステージ音声/音楽分類方法。
  74. 前記入力サウンド信号の中のオンセット/アタックを検出するステップが、前記現在のフレームの中の前記入力サウンド信号の前記相対エネルギーが前記前のフレームの中の前記入力サウンド信号の前記相対エネルギーよりも大きい場合のみ、前記累積和を前記現在のフレームの中で更新するステップを備える、請求項72または73に記載の2ステージ音声/音楽分類方法。
  75. 前記入力サウンド信号の中のオンセット/アタックを検出するステップが、オンセット/アタックフレームのカウンタを更新するために前記累積和を使用するステップと、前記累積和が所与の値よりも大きい場合、ステートマシンによって決定される前記入力サウンド信号のENTRY状態においてすべてのフレームの中でカウンタをインクリメントし、そうでない場合、前記累積和をリセットするステップとを備える、請求項72から74のいずれか一項に記載の2ステージ音声/音楽分類方法。
  76. 前記入力サウンド信号の中のオンセット/アタックを検出するステップは、オンセット/アタックの検出を示すための所与の範囲内に前記累積和が位置する場合、第1の値に設定され、そうでない場合、オンセット/アタックの非検出を示すための第2の値に設定された、バイナリフラグを生成するステップを備える、請求項72から75のいずれか一項に記載の2ステージ音声/音楽分類方法。
  77. 前記第1のステージにおいて、メル周波数ケプストラム係数特徴を含む、前記入力サウンド信号の特徴を抽出するステップを備える、請求項70から76のいずれか一項に記載の2ステージ音声/音楽分類方法。
  78. 前記第1のステージにおいて、前記入力サウンド信号の以下の特徴、すなわち、
    (a)開ループピッチ特徴、
    (b)発声測度特徴、
    (c)LP分析からの線スペクトル周波数に関係する特徴、
    (d)前記LP分析からの残差エネルギーに関係する特徴、
    (e)短期相関マップ特徴、
    (f)非定常性特徴、
    (g)メル周波数ケプストラム係数特徴、
    (h)電力スペクトル差分特徴、および
    (i)スペクトル定常性特徴
    のうちの少なくとも1つを抽出するステップを備える、
    請求項70から76のいずれか一項に記載の2ステージ音声/音楽分類方法。
  79. 前記第1のステージにおいて、前記入力サウンド信号の特徴を抽出するステップと、前記抽出された特徴のヒストグラムに基づいて異常値特徴を検出するステップとを備える、請求項70から76のいずれか一項に記載の2ステージ音声/音楽分類方法。
  80. 異常値特徴を検出するステップが、特徴ごとに下限および上限を計算するステップと、前記特徴の値を前記下限および前記上限と比較するステップと、前記下限と前記上限との間で規定された範囲の外側にその値がある前記特徴に異常値特徴としてマークするステップとを備える、請求項79に記載の2ステージ音声/音楽分類方法。
  81. 異常値特徴を検出するステップが、前記特徴の正規化されたバージョンの前記ヒストグラム、前記特徴に対する前記ヒストグラムの最大値を含む周波数ビンのインデックス、およびしきい値を使用して前記下限および前記上限を計算するステップを備える、請求項80に記載の2ステージ音声/音楽分類方法。
  82. 異常値特徴を検出するステップが、いくつかの検出された異常値特徴に基づいて異常値として前記特徴のベクトルを決定するステップを備える、請求項79から81のいずれか一項に記載の2ステージ音声/音楽分類方法。
  83. 異常値特徴を検出するステップが、前記異常値ベクトルを廃棄するのではなく、前記ベクトルの中の前記異常値特徴を少なくとも1つの前のフレームから取得された特徴値と置き換えるステップを備える、請求項82に記載の2ステージ音声/音楽分類方法。
  84. 異常値特徴を検出するステップが、検出された異常値特徴をカウントするステップと、検出された異常値特徴の個数が、特徴の前記ベクトルが異常値であることを示すための所与の値に等しいかまたそれよりも多いとき、フラグを所与の値に設定するステップとを備える、請求項82または83に記載の2ステージ音声/音楽分類方法。
  85. 前記第1のステージにおいて、前記抽出された特徴の短期ベクトルを平滑化するステップを備える、請求項79から84のいずれか一項に記載の2ステージ音声/音楽分類方法。
  86. 前記抽出された特徴の前記短期ベクトルを平滑化するステップが、忘却係数を使用する無限インパルス応答フィルタを用いて、前記抽出された特徴の前記短期ベクトルをフィルタ処理するステップを備える、請求項85に記載の2ステージ音声/音楽分類方法。
  87. ステートマシンによって決定されるような前記入力サウンド信号のENTRY状態またはACTIVE状態においてフレームの中で特徴ベクトル平滑化を実行せず、特徴ベクトル平滑化が実行されないとき、前記フィルタ処理されていないベクトルの前記特徴の値を使用するステップを備える、請求項85または86に記載の2ステージ音声/音楽分類方法。
  88. 前記第1のステージにおいて、前記入力サウンド信号から抽出された非正規特徴の、正規形状を有する特徴への非線形変換を備える、請求項70から87のいずれか一項に記載の2ステージ音声/音楽分類方法。
  89. 前記非線形変換が、非正規特徴を、正規形状を有する特徴に変換するためにBox-Cox変換を使用するステップを備える、請求項88に記載の2ステージ音声/音楽分類方法。
  90. 前記Box-Cox変換が、指数を用いた電力変換を使用するステップであって、前記指数の異なる値が、異なるBox-Cox変換曲線を規定する、ステップと、正常性テストに基づいて前記Box-Cox変換に対する前記指数の値を選択するステップとを備える、請求項89に記載の2ステージ音声/音楽分類方法。
  91. 前記Box-Cox変換が、前記抽出された特徴のすべての入力値が正であることを保証するようにバイアスを使用するステップを備える、請求項89または90に記載の2ステージ音声/音楽分類方法。
  92. 前記正常性テストが、スキューおよび尖度測度を生成し、前記Box-Cox変換が、前記スキューおよび尖度測度に関係する条件を満たす特徴のみに適用される、請求項90に記載の2ステージ音声/音楽分類方法。
  93. 前記第1のステージにおいて、サウンド信号特徴次元数を小さくするとともにサウンド信号クラス弁別性を大きくするために、主成分を分析するステップを備え、主成分を分析するステップが、前記入力サウンド信号から抽出された、できる限り相関した特徴のセットを変換して、前記主成分を形成する線形に相関しない変数のセットにするための、直交変換を備える、請求項70から92のいずれか一項に記載の2ステージ音声/音楽分類方法。
  94. 主成分を分析するステップが、前記ベクトルの平均を除去するとともに前記ベクトルを単位分散にスケーリングすることによって、前記入力サウンド信号の抽出された特徴のベクトルを標準化するステップを備える、請求項93に記載の2ステージ音声/音楽分類方法。
  95. 主成分を分析するステップが、以下の関係式
    Figure 2023521476000134
    を使用して前記特徴ベクトルを変換するステップを備え、ただし、
    Figure 2023521476000135
    が列特徴ベクトルであり、
    Figure 2023521476000136
    が主成分分析ローディングの行列であり、上付き文字Tがベクトル転置を示す、
    請求項94に記載の2ステージ音声/音楽分類方法。
  96. 前記第1のステージにおいて、前記入力サウンド信号から抽出された特徴の所与のベクトルが音声ガウシアン混合モデル(GMM)によって生成された確率に比例する第1のスコア、および特徴の前記所与のベクトルが音楽GMMによって生成された確率に比例する第2のスコアを決定するための、GMM計算を備え、前記GMM計算が、これらの第1のスコアと第2のスコアとの間の差分を計算して差分スコアを生成することによって前記第1のスコアと前記第2のスコアとを合成するステップを備える、請求項70から95のいずれか一項に記載の2ステージ音声/音楽分類方法。
  97. 負の差分スコアは、前記入力サウンド信号が音声であることを示し、正の差分スコアは、前記入力サウンド信号が音楽であることを示す、請求項96に記載の2ステージ音声/音楽分類方法。
  98. 前記GMM計算が、前記第1のスコアと前記第2のスコアとの間の前記差分の前記計算において決定バイアスを使用するステップを備える、請求項96または97に記載の2ステージ音声/音楽分類方法。
  99. 前記GMM計算が、前記第1のスコアと前記第2のスコアとの間の前記差分を計算するために前記第2のスコアから前記第1のスコアを減算するステップを備え、前記決定バイアスが、前記差分に加算される非負の値である、請求項98に記載の2ステージ音声/音楽分類方法。
  100. 前記GMM計算が、前記入力サウンド信号が音声、音楽、または雑音信号であることを示すラベルをトレーニングデータベースのアクティブなフレームの中で予測し、前記GMM計算が、前記決定バイアスを見つけるために前記ラベルを使用するステップを備える、請求項98または99に記載の2ステージ音声/音楽分類方法。
  101. 前記GMM計算が、前記決定バイアスを使用して前記差分スコアを計算するステップを備え、前記差分スコアが、所与の範囲内に限定された値を有する、請求項98から100のいずれか一項に記載の2ステージ音声/音楽分類方法。
  102. 前記第1のステージにおいて、前記差分スコアの適応平滑化を備える、請求項96から101のいずれか一項に記載の2ステージ音声/音楽分類方法。
  103. 前記適応平滑化が、忘却係数を使用する無限インパルス応答(IIR)フィルタ自体を使用するステップを備える、請求項102に記載の2ステージ音声/音楽分類方法。
  104. 前記適応平滑化が、現在のフレームの相対エネルギーに線形に比例し所与の区間内に限定される第1のパラメータを使用して前記忘却係数を計算するステップを備える、請求項103に記載の2ステージ音声/音楽分類方法。
  105. 前記適応平滑化が、前記差分スコアの導関数に比例する第2のパラメータを使用して前記忘却係数を計算するステップを備える、請求項103または104に記載の2ステージ音声/音楽分類方法。
  106. 前記適応平滑化が、以下の動作、すなわち、
    (a)前記差分スコアの短期平均を計算するステップ、
    (b)前記差分スコアが0よりも小さく前記短期平均よりも小さい場合、前記第2のパラメータを0に設定するステップ、
    (c)最初のフレームにおいて、前記差分スコアが0よりも小さく前記短期平均よりも小さく、かつ前記短期平均が0よりも大きい場合、前記第2のパラメータをマイナスの前記差分スコアに設定し、そうでない場合、前記適応平滑化が前記第2のパラメータを大きくするステップ、
    (d)前記差分スコアが0および前記短期平均よりも小さくない場合、前記第2のパラメータを0にリセットするステップ、ならびに
    (e)最後に前記第2のパラメータを所与の区間にマッピングするステップ
    のうちの少なくとも1つを使用して前記第2のパラメータを計算するステップを備える、
    請求項105に記載の2ステージ音声/音楽分類方法。
  107. 前記適応平滑化が、潜在的な音楽オンセットを示す、前記差分スコアの突然の上昇に反応する第3のパラメータを使用して、前記忘却係数を計算するステップを備える、請求項103から106のいずれか一項に記載の2ステージ音声/音楽分類方法。
  108. 前記適応平滑化が、以下の動作、すなわち、
    (a)前記差分スコアの短期平均を計算するステップ、
    (b)前記第3のパラメータを0に設定するが、(a)前記入力サウンド信号が、ステートマシンによって決定されるようなACTIVE状態にあり、(b)前記短期平均が0よりも大きく、かつ(c)現在のフレームにおける前記短期平均が前のフレームにおける前記短期平均よりも大きい場合、前記第3のパラメータを修正するステップ、
    (c)最初のフレームにおいて、(a)前記入力サウンド信号が前記ACTIVE状態にあり、(b)前記現在のフレームにおける前記短期平均が0よりも大きく、(c)前記現在のフレームにおける前記短期平均が前記前のフレームにおける前記短期平均よりも大きく、かつ(d)前記前のフレームにおける前記短期平均が0よりも小さい場合、前記第3のパラメータをマイナスの前記短期平均に設定し、そうでない場合、前記適応平滑化が前記第3のパラメータを大きくするステップ、
    (d)(a)前記入力サウンド信号が前記ACTIVE状態になく、(b)前記短期平均が0よりも大きくなく、かつ(c)前記現在のフレームにおける前記短期平均が前記前のフレームにおける前記短期平均よりも大きくない場合、前記第3のパラメータを0にリセットするステップ、および
    (e)最後に前記第3のパラメータを所与の区間にマッピングするステップ
    のうちの少なくとも1つを使用して前記第3のパラメータを計算する、
    請求項107に記載の2ステージ音声/音楽分類方法。
  109. 前記適応平滑化が、前記差分スコアの長期平均および長期分散を分析するステップと、以下の動作、すなわち、
    (a)前記入力サウンド信号が、ステートマシンによって決定されるようなENTRY状態にある場合、前記長期平均を前記差分スコアに、かつ前記長期分散を0に設定するステップ、
    (b)前記差分スコアの長期標準偏差に対応する長期平均対長期分散比を計算するステップ、
    (c)前記長期標準偏差が所与の値よりも大きいフレームにおける前記忘却係数を小さくするステップ、および
    (d)前記IIRフィルタの前記忘却係数を所与の範囲内に限定するステップ
    のうちの少なくとも1つを実行するステップとを備える、
    請求項103から108のいずれか一項に記載の2ステージ音声/音楽分類方法。
  110. 前記いくつかの最終クラスが、音声に関係する第1の最終クラス、音楽に関係する第2の最終クラス、およびバックグラウンドミュージックを伴う音声に関係する第3の最終クラスを備える、請求項70から109のいずれか一項に記載の2ステージ音声/音楽分類方法。
  111. 前記第1のステージにおいて、SPEECH/NOISE、MUSIC、およびUNCLEARを含む3つの最終クラスのうちの1つへの、前記入力サウンド信号の状態依存カテゴリー分類を備え、前記最終クラスUNCLEARが、バックグラウンドミュージックを伴う音声に関係する、請求項96から109のいずれか一項に記載の2ステージ音声/音楽分類方法。
  112. 現在のフレームの中で、前記入力サウンド信号が、ステートマシンによって決定されるようなENTRY状態にあるとき、前記状態依存カテゴリー分類が、前記現在のフレームに先行する、前記ENTRY状態におけるフレームにおいて計算される、前記差分スコアの重み付き平均に基づいて、前記3つの最終クラスSPEECH/NOISE、MUSIC、およびUNCLEARのうちの1つを選択するステップを備える、請求項111に記載の2ステージ音声/音楽分類方法。
  113. 絶対フレームエネルギーが前記現在のフレームの中で所与の値よりも低い場合、前記状態依存カテゴリー分類が、前記最終クラスをSPEECH/NOISEに設定するステップを備える、請求項112に記載の2ステージ音声/音楽分類方法。
  114. 前記入力サウンド信号の前記ENTRY状態におけるフレームにおける前記差分スコアの前記重み付き平均が2.0よりも小さい場合、前記状態依存カテゴリー分類が、前記最終クラスをSPEECH/NOISEに設定するステップを備える、請求項112または113に記載の2ステージ音声/音楽分類方法。
  115. 前記入力サウンド信号の前記ENTRY状態におけるフレームにおける前記差分スコアの前記重み付き平均が2.0よりも大きい場合、前記状態依存カテゴリー分類が、前記最終クラスを、前記現在のフレームにおける前記差分スコアが2.0よりも大きい場合にはMUSICに設定し、前記現在のフレームにおける前記差分スコアが2.0よりも大きくない場合にはUNCLEARに設定するステップを備える、請求項112から114のいずれか一項に記載の2ステージ音声/音楽分類方法。
  116. 前記ステートマシンによって決定されるようなENTRY以外の前記入力サウンド信号の状態において、前記状態依存カテゴリー分類が、平滑化されたバージョンの前記差分スコア、および前記前のフレームにおいて選択された前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARに基づいて、前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARを選択するステップを備える、請求項112から115のいずれか一項に記載の2ステージ音声/音楽分類方法。
  117. 前記状態依存カテゴリー分類が、前記現在のフレームにおける前記最終クラスを、前のフレームにおいて設定された前記クラスSPEECH/NOISE、MUSIC、またはUNCLEARに最初に初期化するステップを備える、請求項111から116のいずれか一項に記載の2ステージ音声/音楽分類方法。
  118. 前記状態依存カテゴリー分類が、前記現在のフレームにおける前記最終クラスを、前記前のフレームにおいて設定された前記クラスSPEECH/NOISE、MUSIC、またはUNCLEARに最初に初期化するステップを備え、前記現在のフレームの中で、前記状態依存カテゴリー分類が、前記平滑化された差分スコアによる所与のしきい値の横断に応答して、前記前のフレームにおいて設定された前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARから、前記最終クラスのうちの別の最終クラスに遷移するステップを備える、請求項116に記載の2ステージ音声/音楽分類方法。
  119. 前記状態依存カテゴリー分類が、所与の個数のフレームの後、前のフレームにおいて設定された前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARから、これらのクラスのうちの別のクラスに遷移するステップを備える、請求項111から114のいずれか一項に記載の2ステージ音声/音楽分類方法。
  120. ACTIVEフレームのカウンタが第1のしきい値よりも小さく、差分フレームエネルギーの累積和が0に等しく、かつ前記平滑化された差分スコアが第2のしきい値よりも大きい場合、前記状態依存カテゴリー分類が、前記前のフレームにおいて設定された前記最終クラスSPEECH/NOISEから前記最終クラスUNCLEARに遷移するステップを備える、請求項118または119に記載の2ステージ音声/音楽分類方法。
  121. 前記入力サウンド信号の開ループピッチ分析の副産物であるショートピッチフラグが所与の値に等しく、かつ平滑化されたバージョンの前記差分スコアが所与のしきい値よりも大きい場合、前記状態依存カテゴリー分類が、前のフレームにおいて設定された前記最終クラスSPEECH/NOISEから前記最終クラスUNCLEARに遷移するステップを備える、請求項111から120のいずれか一項に記載の2ステージ音声/音楽分類方法。
  122. 前記状態依存カテゴリー分類が、前記SPEECH/NOISEクラスと前記MUSICクラスとの間での直接の遷移を実行しないステップを備える、請求項117から121のいずれか一項に記載の2ステージ音声/音楽分類方法。
  123. 前記第2のステージにおいて、現在のフレームの中の前記入力サウンド信号の追加の高レベル特徴を抽出するステップを備え、前記追加の高レベル特徴が、前記入力サウンド信号の調性を備える、請求項70から122のいずれか一項に記載の2ステージ音声/音楽分類方法。
  124. 前記第2のステージにおいて、現在のフレームの中の前記入力サウンド信号の追加の高レベル特徴を抽出するステップを備え、前記追加の高レベル特徴が、以下の特徴、すなわち、
    (a)前記入力サウンド信号の調性、
    (b)前記入力サウンド信号の長期安定性であって、追加の高レベル特徴を抽出するステップが、前記入力サウンド信号の長期安定性を示すフラグを生成するステップを備える、長期安定性、
    (c)前記入力サウンド信号の中の分節アタックであって、追加の高レベル特徴を抽出するステップが、(a)前記入力サウンド信号の現在のフレームの中での分節アタックの位置、または(b)分節アタックの不在の、インジケータを生成するステップを備える、分節アタック、および
    (d)前記入力サウンド信号のスペクトルシャープネスの測度を形成するスペクトルピーク対平均比であって、追加の高レベル特徴を抽出するステップが、前記入力サウンド信号の電力スペクトルから前記スペクトルピーク対平均比を計算するステップを備える、スペクトルピーク対平均比
    のうちの少なくとも1つを備える、
    請求項111から122のいずれか一項に記載の2ステージ音声/音楽分類方法。
  125. 前記入力サウンド信号の前記調性を抽出するステップが、所与の周波数までの前記入力サウンド信号の低い方の周波数範囲の中の、スペクトル安定性と調和性の両方を反映する調性フラグによって前記調性を表現するステップを備える、請求項124に記載の2ステージ音声/音楽分類方法。
  126. 前記調性フラグを抽出するステップが、前記入力サウンド信号の残差エネルギースペクトルの前記低い方の周波数範囲の中の、かつピークが存在する前記残差エネルギースペクトルの分節の中で計算される、いくつかの最初の周波数ビンの中での信号安定性および調和性の測度を形成する相関マップを使用して前記調性フラグを計算するステップを備える、請求項125に記載の2ステージ音声/音楽分類方法。
  127. 前記調性フラグを抽出するステップが、前記相関マップの平滑化を適用するステップと、単一の数をもたらすように前記現在のフレームの中の前記入力サウンド信号の前記低い方の周波数範囲内の前記周波数ビンにわたる前記相関マップの重み付き和を計算するステップとを備える、請求項126に記載の2ステージ音声/音楽分類方法。
  128. 前記調性フラグを抽出するステップが、前記単一の数を適応しきい値と比較することによって前記調性フラグを設定するステップを備える、請求項127に記載の2ステージ音声/音楽分類方法。
  129. 前記第2のステージにおいて、(a)相対フレームエネルギー、(b)前記第1のステージによって前記入力サウンド信号がその中に分類される前記最終クラス、および(c)前記抽出された高レベル特徴を使用する、前記コアエンコーダの初期選択を備える、請求項70から128のいずれか一項に記載の2ステージ音声/音楽分類方法。
  130. 前記第2のステージにおいて、次の条件、すなわち、
    (a)相対フレームエネルギーが第1の値よりも大きく、前記スペクトルピーク対平均比が第2の値よりも大きく、かつ前記単一の数が前記適応しきい値よりも大きい場合、TCXコアエンコーダが最初に選択され、
    (b)条件(a)が存在せず、かつ前記第1のステージによって前記入力サウンド信号がその中に分類される前記最終クラスがSPEECH/NOISEである場合、ACELPコアエンコーダが最初に選択され、
    (c)条件(a)および(b)が存在せず、かつ前記第1のステージによって前記入力サウンド信号がその中に分類される前記最終クラスがUNCLEARである場合、GSCコアエンコーダが最初に選択され、
    (d)条件(a)、(b)、および(c)が存在しない場合、TCXコアエンコーダが最初に選択されることを使用する、
    前記コアエンコーダの初期選択を備える、
    請求項128に記載の2ステージ音声/音楽分類方法。
  131. 前記第2のステージにおいて、前記抽出された高レベル特徴、および前記第1のステージの中で選択された前記最終クラスに応じた、前記コアエンコーダの初期選択と、前記コアエンコーダ初期選択によってGSCコアエンコーダが最初に選択される場合、前記初期コアエンコーダ選択を改良するステップとを備える、請求項96から109のいずれか一項に記載の2ステージ音声/音楽分類方法。
  132. (a)信号分節のいくつかの最初の周波数ビンの中のエネルギーと、この信号分節の全エネルギーとの比が第1の値よりも小さく、かつ(b)前記差分スコアの短期平均が第2の値よりも大きい場合、前記初期コアエンコーダ選択を改良するステップが、GSCコアエンコーダの初期選択をACELPコアエンコーダの選択に変更するステップを備える、請求項131に記載の2ステージ音声/音楽分類方法。
  133. 前記初期コアエンコーダ選択を改良するステップが、短く安定なピッチ期間を伴う入力サウンド信号に対して、(a)平滑化されたバージョンの前記差分スコアが所与の値よりも小さい場合にはACELPコアエンコーダの選択に、そうではなく(b)前記平滑化された差分スコアが前記所与の値よりも大きいかまたはそれに等しい場合にはTCXコアエンコーダの選択に、GSCコアエンコーダの初期選択を変更するステップを備える、請求項131に記載の2ステージ音声/音楽分類方法。
  134. 前記初期コアエンコーダ選択を改良するステップが、(a)前記入力サウンド信号の長期安定性に応じてTCXコアエンコーダの選択に、かつ(b)所与の値よりも大きい開ループピッチに、GSCコアエンコーダの初期選択を変更するステップを備える、請求項131に記載の2ステージ音声/音楽分類方法。
  135. コアエンコーダの選択の変更が有効にされているというインジケータが第1の値を有し、かつ遷移フレームカウンタが第2の値を有するという条件で、前記入力サウンド信号の中で分節アタックが検出される場合、前記初期コアエンコーダ選択を改良するステップが、GSCコアエンコーダの初期選択をACELPコアエンコーダの選択に変更するステップを備える、請求項131に記載の2ステージ音声/音楽分類方法。
  136. コアエンコーダの選択の変更が有効化されているというインジケータが第1の値を有し、遷移フレームカウンタが第2の値を有さず、かつ前記現在のフレームの中での前記アタックの位置に対応する分節を識別するインジケータが第3の値よりも大きいという条件で、前記入力サウンド信号の中で分節アタックが検出される場合、前記初期コアエンコーダ選択を改良するステップが、GSCコアエンコーダの初期選択をACELPコアエンコーダの選択に変更するステップを備える、請求項131に記載の2ステージ音声/音楽分類方法。
JP2022562835A 2020-04-16 2021-04-08 サウンドコーデックにおける音声/音楽分類およびコアエンコーダ選択のための方法およびデバイス Pending JP2023521476A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063010798P 2020-04-16 2020-04-16
US63/010,798 2020-04-16
PCT/CA2021/050465 WO2021207825A1 (en) 2020-04-16 2021-04-08 Method and device for speech/music classification and core encoder selection in a sound codec

Publications (2)

Publication Number Publication Date
JP2023521476A true JP2023521476A (ja) 2023-05-24
JPWO2021207825A5 JPWO2021207825A5 (ja) 2024-04-18

Family

ID=78083501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022562835A Pending JP2023521476A (ja) 2020-04-16 2021-04-08 サウンドコーデックにおける音声/音楽分類およびコアエンコーダ選択のための方法およびデバイス

Country Status (7)

Country Link
US (1) US20230215448A1 (ja)
EP (1) EP4136638A4 (ja)
JP (1) JP2023521476A (ja)
KR (1) KR20230002332A (ja)
CN (1) CN115428068A (ja)
CA (1) CA3170065A1 (ja)
WO (1) WO2021207825A1 (ja)

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001276588A1 (en) * 2001-01-11 2002-07-24 K. P. P. Kalyan Chakravarthy Adaptive-block-length audio coder
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
US8856049B2 (en) * 2008-03-26 2014-10-07 Nokia Corporation Audio signal classification by shape parameter estimation for a plurality of audio signal samples
US8428949B2 (en) * 2008-06-30 2013-04-23 Waves Audio Ltd. Apparatus and method for classification and segmentation of audio content, based on the audio signal
AU2009267507B2 (en) * 2008-07-11 2012-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and discriminator for classifying different segments of a signal
US9196249B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for identifying speech and music components of an analyzed audio signal
US8693697B2 (en) * 2011-06-06 2014-04-08 Reality Ip Pty Ltd Matrix encoder with improved channel separation
KR102038171B1 (ko) * 2012-03-29 2019-10-29 스뮬, 인코포레이티드 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
US9767791B2 (en) * 2013-05-21 2017-09-19 Speech Morphing Systems, Inc. Method and apparatus for exemplary segment classification
CN104347067B (zh) * 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
US9620105B2 (en) * 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
US10991379B2 (en) * 2018-06-22 2021-04-27 Babblelabs Llc Data driven audio enhancement
US10937443B2 (en) * 2018-09-04 2021-03-02 Babblelabs Llc Data driven radio enhancement

Also Published As

Publication number Publication date
EP4136638A1 (en) 2023-02-22
CA3170065A1 (en) 2021-10-21
KR20230002332A (ko) 2023-01-05
WO2021207825A1 (en) 2021-10-21
US20230215448A1 (en) 2023-07-06
CN115428068A (zh) 2022-12-02
EP4136638A4 (en) 2024-04-10

Similar Documents

Publication Publication Date Title
JP7124170B2 (ja) セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
CN102089803B (zh) 用以将信号的不同段分类的方法与鉴别器
JP6185457B2 (ja) 効率的なコンテンツ分類及びラウドネス推定
TWI480856B (zh) 音訊編解碼器中之雜訊產生技術
US10062390B2 (en) Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
JP2017526956A (ja) 時間ドメイン符号化と周波数ドメイン符号化の間の分類の改善
KR20080093074A (ko) 오디오신호들의 분류
US20110218803A1 (en) Method and system for assessing intelligibility of speech represented by a speech signal
US11463833B2 (en) Method and apparatus for voice or sound activity detection for spatial audio
Lee et al. Speech/audio signal classification using spectral flux pattern recognition
Özaydın et al. Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates
JP2023521476A (ja) サウンドコーデックにおける音声/音楽分類およびコアエンコーダ選択のための方法およびデバイス
JP3490324B2 (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
US20240021208A1 (en) Method and device for classification of uncorrelated stereo content, cross-talk detection, and stereo mode selection in a sound codec
Lu et al. An MELP Vocoder Based on UVS and MVF
Kulesza et al. High quality speech coding using combined parametric and perceptual modules
JP2001343984A (ja) 有音/無音判定装置、音声復号化装置及び音声復号化方法
Petkov et al. LISTA D2. 2–Controlling Context Indicator for Acoustic Input
CN116529814A (zh) 用于音频编解码器中的音频带宽检测和音频带宽切换的方法和设备
Djamel et al. An Efficient Front-End for Distributed Speech Recognition over Mobile
Chen Adaptive variable bit-rate speech coder for wireless applications
Kulesza et al. High Quality Speech Coding using Combined Parametric and Perceptual Modules
Czyzewski Speech coding employing intelligent signal processing techniques

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240408

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240408