JP2023521476A

JP2023521476A - サウンドコーデックにおける音声／音楽分類およびコアエンコーダ選択のための方法およびデバイス

Info

Publication number: JP2023521476A
Application number: JP2022562835A
Authority: JP
Inventors: ウラジミール・マレノフスキー
Original assignee: ヴォイスエイジ・コーポレーション
Priority date: 2020-04-16
Filing date: 2021-04-08
Publication date: 2023-05-24
Also published as: EP4136638A1; CA3170065A1; KR20230002332A; WO2021207825A1; US20230215448A1; CN115428068A; EP4136638A4

Abstract

2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法は、入力サウンド信号を分類し、サウンド信号を符号化するためのコアエンコーダを選択する。第1のステージは、入力サウンド信号をいくつかの最終クラスのうちの1つに分類する。第2のステージは、入力サウンド信号の高レベル特徴を抽出し、抽出された高レベル特徴および第1のステージの中で選択された最終クラスに応じて、入力サウンド信号を符号化するためのコアエンコーダを選択する。

Description

本開示は、サウンドコーディングに関し、より詳細には、限定はしないが特に、たとえば、低ビットレートかつ低遅延での複雑なオーディオシーンの中で良好なサウンド品質を生成することが可能なマルチチャネルサウンドコーデックにおける、音声/音楽分類およびコアエンコーダ選択に関する。

本開示および添付の特許請求の範囲では、
- 「サウンド」という用語は、音声、オーディオ、および任意の他のサウンドに関係し得る。
- 「ステレオ」という用語は、「ステレオフォニック」に対する略語である。
- 「モノ」という用語は、「モノフォニック」に対する略語である。

歴史的に、会話型電話方式は、ユーザの耳のうちの一方のみにサウンドを出力するための1つのトランスジューサしか有しないハンドセットを用いて実装されている。この10年間に、ユーザは、主に音楽を聴くために、ただし、時には音声を聞くためにも、彼らの両耳を介してサウンドを受けるためのヘッドフォンと一緒に彼らのポータブルハンドセットを使用し始めている。とはいえ、会話の音声を送るとともに受けるためにポータブルハンドセットが使用されるとき、コンテンツは、依然としてモノであるが、ヘッドフォンが使用されるときにはユーザの両耳に提示される。

その全内容が参照により本明細書に組み込まれる参考文献[1]に記載されるような最新の3GPP(登録商標)音声コーディング規格EVS(拡張ボイスサービス)を用いて、ポータブルハンドセットを通じて送られるとともに受けられる、コーディングされたサウンド、たとえば、音声および/またはオーディオの品質が、著しく改善されている。次の当然のステップは、通信リンクの他端においてキャプチャされる実生活のオーディオシーンに受信機ができる限り近づくような、ステレオ情報を送ることである。

たとえば、その全内容が参照により本明細書に組み込まれる参考文献[2]に記載されるようなオーディオコーデックでは、ステレオ情報の送信が普通は使用される。

会話型音声コーデックにとってモノ信号が標準である。ステレオサウンド信号の左チャネルと右チャネルの両方がモノコーデックを使用してコーディングされるので、ステレオサウンド信号が送信されるとき、ビットレートは、しばしば、2倍になる。このことは、ほとんどのシナリオでは良好に機能するが、ビットレートを2倍にし2つのチャネル(ステレオサウンド信号の左チャネルおよび右チャネル)の間の潜在的ないかなる冗長性も活用できないという欠点を提示する。さらに、全体的なビットレートを妥当なレベルに保つために、左チャネルおよび右チャネルの各々に対する極めて低いビットレートが使用され、したがって、全体的なサウンド品質に影響を及ぼす。ビットレートを下げるために、効率的なステレオコーディング技法が開発および使用されている。非限定的な例として、低いビットレートにおいて効率的に使用され得る2つのステレオコーディング技法が、以下の段落の中で説明される。

第1のステレオコーディング技法は、パラメトリックステレオと呼ばれる。パラメトリックステレオは、ステレオイメージを表す(ステレオパラメータに対応する)いくらかの量のステレオサイド情報を加えて共通のモノコーデックを使用して、モノ信号として2つの入力(左チャネルおよび右チャネル)を符号化する。2つの入力はモノ信号にダウンミックスされ、次にステレオパラメータが算出される。このことは、通常は周波数領域(FD)において、たとえば、離散フーリエ変換(DFT)領域において実行される。ステレオパラメータは、いわゆるバイノーラルキューまたはチャネル間キューに関係する。バイノーラルキュー(たとえば、その全内容が参照により本明細書に組み込まれる参考文献[3]を参照)は、両耳間レベル差(ILD:Interaural Level Difference)、両耳間時間差(ITD:Interaural Time Difference)、および両耳間相関(IC:Interaural Correlation)を備える。サウンド信号特性、ステレオシーン構成などに応じて、一部または全部のバイノーラルキューがコーディングされデコーダへ送信される。どんなバイノーラルキューがコーディングおよび送信されるのかについての情報が、通常はステレオサイド情報の一部であるシグナリング情報として送られる。また、所与のバイノーラルキューは、様々なコーディング技法を使用して量子化することができ、そのことは、可変数のビットが使用される結果となる。次いで、量子化されたバイノーラルキューに加えて、ステレオサイド情報は、ダウンミキシングから得られる量子化された残差信号を、通常は中程度以上の高いビットレートで含むことがある。残差信号は、エントロピーコーディング技法、たとえば、算術エンコーダを使用してコーディングされ得る。

別のステレオコーディング技法は、時間領域において動作する技法である。このステレオコーディング技法は、2つの入力(左チャネルおよび右チャネル)を混合して、いわゆる1次チャネルおよび2次チャネルにする。たとえば、その全内容が参照により本明細書に組み込まれる参考文献[4]に記載されるような方法に従って、時間領域ミキシングはミキシング比に基づくことができ、ミキシング比は、1次チャネルおよび2次チャネルの生成に対する2つの入力(左チャネルおよび右チャネル)のそれぞれの寄与を決定する。ミキシング比は、いくつかのメトリック、たとえば、モノ信号に対する2つの入力(左チャネルおよび右チャネル)の正規化された相関、または2つの入力(左チャネルおよび右チャネル)の間の長期相関差分から導出される。1次チャネルは、共通のモノコーデックによってコーディングされ得るが、2次チャネルは、ビットレートがもっと低いコーデックによってコーディングされ得る。2次チャネルのコーディングは、1次チャネルと2次チャネルとの間のコヒーレンスを活用してよく、1次チャネルからのいくつかのパラメータを再使用することがある。

さらに、この数年では、オーディオの生成、記録、表現、コーディング、送信、および再生は、聞き手のための拡張された対話式かつ没入型の体験に向かって動きつつある。没入型の体験は、たとえば、サウンドがすべての方向から到来しながらサウンドシーンに深く従事または関与している状態として説明され得る。没入型オーディオ(3D(3次元)オーディオとも呼ばれる)では、サウンドイメージは、音色、指向性、反響、透過性、および(聴覚の)広さの確度のような幅広いサウンド特性を考慮に入れて、聞き手の周囲で3つのすべての次元をなして再生される。没入型オーディオは、ラウドスピーカーベースのシステム、統合型再生システム(サウンドバー)、またはヘッドフォンなどの、特定のサウンドプレイバックまたは再生システムに対して生成される。そのとき、サウンド再生システムの対話性は、たとえば、サウンドレベルを調整し、サウンドの位置を変更し、または再生のための異なる言語を選択するための能力を含んでよい。

没入型の体験を実現するための3つの基本的な手法が存在する。

没入型の体験を実現するための第1の手法は、異なる方向からのサウンドをキャプチャするための離間した複数のマイクロフォンを使用する、チャネルベースのオーディオ手法であり、特定のラウドスピーカーレイアウトの中で1つのマイクロフォンが1つのオーディオチャネルに対応する。記録された各チャネルが、次いで、所与のロケーションにおけるラウドスピーカーに供給される。チャネルベースのオーディオ手法の例は、たとえば、ステレオ、5.1サラウンド、5.1+4などである。

没入型の体験を実現するための第2の手法は、次元成分の合成による時間の関数として定位された空間にわたって所望の音場を表す、シーンベースのオーディオ手法である。シーンベースのオーディオを表すサウンド信号は、オーディオソースの位置から独立しているが、音場はレンダラにおいて、ラウドスピーカーの選ばれたレイアウトに変換される。シーンベースのオーディオの一例は、アンビソニックスである。

没入型の体験を実現するための第3の手法は、オーディオ要素(たとえば、歌手、ドラム、ギターなど)の位置などの情報に付随する、個々のオーディオ要素のセットとして聴覚シーンを表す、オブジェクトベースのオーディオ手法であり、そのため、オーディオ要素は、オーディオ要素の所期のロケーションにおいてサウンド再生システムによってレンダリングされ得る。このことは、各オブジェクトが別々に保たれ個別に操作され得るので、大きいフレキシビリティおよび対話性をオブジェクトベースのオーディオ手法に与える。

没入型の体験を実現するための上述のオーディオ手法の各々は、賛否両論を提示する。したがって、没入型聴覚シーンを作成するために、1つだけのオーディオ手法ではなく、いくつかのオーディオ手法が、複雑なオーディオシステムの中で組み合わせられることが普通である。一例は、シーンベースまたはチャネルベースのオーディオを、オブジェクトベースのオーディオ、たとえば、数個の別々のオーディオオブジェクトを有するアンビソニックスと組み合わせる、オーディオシステムであり得る。

第1の態様によれば、本開示は、入力サウンド信号をいくつかの最終クラスのうちの1つに分類するための第1のステージと、入力サウンド信号の高レベル特徴を抽出するための、かつ抽出された高レベル特徴および第1のステージの中で選択された最終クラスに応じて、入力サウンド信号を符号化するためのコアエンコーダを選択するための、第2のステージとを備える、入力サウンド信号を分類するための、かつサウンド信号を符号化するためのコアエンコーダを選択するための、2ステージ音声/音楽分類デバイスを提供する。

第2の態様によれば、第1のステージにおいて、入力サウンド信号をいくつかの最終クラスのうちの1つに分類することと、第2のステージにおいて、入力サウンド信号の高レベル特徴を抽出すること、ならびに抽出された高レベル特徴および第1のステージの中で選択された最終クラスに応じて、入力サウンド信号を符号化するためのコアエンコーダを選択することとを備える、入力サウンド信号を分類するための、かつサウンド信号を符号化するためのコアエンコーダを選択するための、2ステージ音声/音楽分類方法が提供される。

2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むサウンドコーデックの上記および他の目的、利点、および特徴は、添付の図面を参照しながら単に例として与えられる、それらの例示的な実施形態の以下の非制限的な説明を読むと、より明らかになろう。

2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むサウンドコーデックの実装形態の可能なコンテキストを示す、サウンド処理および通信システムの概略ブロック図である。 2ステージ音声/音楽分類デバイスの第1のステージ、および対応する2ステージ音声/音楽分類方法の第1のステージを同時に示す、概略ブロック図である。 2ステージ音声/音楽分類デバイスの第2のステージ、および対応する2ステージ音声/音楽分類方法の第2のステージを同時に示す、概略ブロック図である。 2ステージ音声/音楽分類デバイスの第1のステージのステートマシン、および2ステージ音声/音楽分類方法の第1のステージの信号区分の動作を同時に示す、概略ブロック図である。相対フレームエネルギーに基づくオンセット/アタック検出の非限定的な例を示すグラフである。トレーニングデータベースの中の選択される特徴のヒストグラムである。ヒストグラム値に基づく異常値特徴の検出を示すグラフである。電力変換指数λの様々な値に対するBox-Cox変換曲線を示すグラフである。適応IIRフィルタの忘却係数を計算するために使用される立上りおよび立下りエッジ検出の挙動を、非限定的な例として示すグラフである。トレーニングデータベースの平滑化された差分スコアwdlp(n)の分布、ならびにSPEECH/NOISEクラス、UNCLEARクラス、およびMUSICクラスの間で遷移するためのしきい値を示すグラフである。差分スコアの重み付き平均の計算中の、ENTRY状態におけるサンプルの順序付けを示すグラフである。クラスSPEECH/NOISE、UNCLEAR、およびMUSICの間の遷移のための規則の完全セットを示すクラス遷移図である。入力サウンド信号の現在のフレームの中のいくつかの短い分節に対して実行される分節アタック検出を示す概略図である。図3の2ステージ音声/音楽分類デバイスの第2のステージのコアエンコーダ初期選択器によって使用される、コアエンコーダの初期選択のメカニズムを示す概略図である。 2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むサウンドコーデックを実装するハードウェア構成要素の例示的な構成の簡略化されたブロック図である。

近年、3GPP(第3世代パートナーシッププロジェクト)は、EVSコーデック(その全内容が参照により本明細書に組み込まれる参考文献[5]を参照)に基づく、IVAS(没入型音声およびオーディオサービス)と呼ばれる没入型サービスのための3D(3次元)サウンドコーデックの開発において作業し始めた。

本開示は、IVASコーディングフレームワークにおける音声/音楽分類技法およびコアエンコーダ選択技法を説明する。両方の技法は、その結果がコアエンコーダ選択である2ステージ音声/音楽分類方法の一部である。

音声/音楽分類方法および音声/音楽分類デバイスは、EVS(その全内容が参照により本明細書に組み込まれる、参考文献[6]および参考文献[1]、セクション5.1.13.6を参照)におけるものに基づくが、いくつかの改善および発展が実施されている。また、2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスは、本開示全体にわたってIVASコーデック(または、IVASサウンドコーデック)と呼ばれるIVASコーディングフレームワークを参照しながら、単に例として本開示で説明される。ただし、そのような2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスを任意の他のサウンドコーデックの中に組み込むことは、本開示の範囲内である。

図1は、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むサウンドコーデック(IVASコーデック)の実装形態の可能なコンテキストを示す、ステレオサウンド処理および通信システム100の概略ブロック図である。

図1のステレオサウンド処理および通信システム100は、通信リンク101を横断するステレオサウンド信号の送信をサポートする。通信リンク101は、たとえば、ワイヤリンクまたは光ファイバリンクを備えてよい。代替として、通信リンク101は、少なくとも部分的には無線周波数リンクを備えてよい。無線周波数リンクは、しばしば、セルラー電話方式とともに見られ得るような共有帯域幅リソースを必要とする複数の同時通信をサポートする。図示しないが、通信リンク101は、後でプレイバックできるように、コーディングされたステレオサウンド信号を記録および記憶する、システム100の単一デバイス実装形態における記憶デバイスによって置き換えられてよい。

まだ図1を参照すると、たとえば、1対のマイクロフォン102および122が、元のアナログステレオサウンド信号の左チャネル103および右チャネル123を生成する。上記の説明に示したように、サウンド信号は、限定はしないが特に、音声および/またはオーディオを備えてよい。

元のアナログステレオサウンド信号の左チャネル103および右チャネル123は、それらを元のデジタルステレオサウンド信号の左チャネル105および右チャネル125に変換するための、アナログデジタル(A/D)変換器104に供給される。元のデジタルステレオサウンド信号の左チャネル105および右チャネル125も、記録されるとともに記憶デバイス(図示せず)から供給されてよい。

ステレオサウンドエンコーダ106は、元のデジタルステレオサウンド信号の左チャネル105および右チャネル125をコーディングし、それによって、随意の誤り訂正エンコーダ108に配送されるビットストリーム107の形態の下で多重化されるコーディングパラメータのセットを生成する。随意の誤り訂正エンコーダ108は、存在するとき、得られたビットストリーム111を通信リンク101を介して送信する前に、ビットストリーム107の中のコーディングパラメータのバイナリ表現に冗長性を加える。

受信機側において、随意の誤り訂正デコーダ109は、受信ビットストリーム111の中の上述の冗長な情報を利用して、通信リンク101を介した送信中に発生していることがある誤りを検出および訂正し、受信されたコーディングパラメータを用いてビットストリーム112を生成する。ステレオサウンドデコーダ110は、デジタルステレオサウンド信号の合成された左チャネル113および右チャネル133を作成するために、ビットストリーム112の中の受信されたコーディングパラメータを変換する。ステレオサウンドデコーダ110の中で再構成されたデジタルステレオサウンド信号の左チャネル113および右チャネル133は、デジタルアナログ(D/A)変換器115の中で、アナログステレオサウンド信号の合成された左チャネル114および右チャネル134に変換される。

アナログステレオサウンド信号の合成された左チャネル114および右チャネル134は、それぞれ、1対のラウドスピーカーユニットまたはバイノーラルヘッドフォン116および136においてプレイバックされる。代替として、ステレオサウンドデコーダ110からのデジタルステレオサウンド信号の左チャネル113および右チャネル133はまた、記憶デバイス(図示せず)に供給されるとともにその中に記録されてもよい。

たとえば、図1のステレオサウンドエンコーダ106は、図2および図3の2ステージ音声/音楽分類デバイスを含むIVASコーデックのエンコーダによって実装されてよい。

1. 2ステージ音声/音楽分類
上記の説明に示したように、本開示は、IVASコーディングフレームワークにおける音声/音楽分類技法およびコアエンコーダ選択技法を説明する。両方の技法は、その結果が1次(支配的)チャネル(時間領域(TD)ステレオコーディングの場合)またはダウンミックスされたモノチャネル(周波数領域(FD)ステレオコーディングの場合)をコーディングするためのコアエンコーダの選択である、2ステージ音声/音楽分類方法(および、対応するデバイス)の一部である。本技術の開発のための基礎とは、EVSコーデック(参考文献[1])における音声/音楽分類である。本開示は、本開示の中で実施された、かつベースラインIVASコーデックフレームワークの一部である、修正および改善を説明する。

IVASコーデックにおける音声/音楽分類方法および音声/音楽分類デバイスの第1のステージは、ガウシアン混合モデル(GMM:Gaussian Mixture Model)に基づく。EVSコーデックから持ち込まれた初期のモデルが、ステレオ信号の処理のために拡張、改善、および最適化されている。

要約すれば、
- GMMモデルは、入力として特徴ベクトルをとり、音声、音楽、および背景雑音を含む3つのクラスに対して確率的推定値を提供する。
- GMMモデルのパラメータは、サウンド信号の特徴の手作業でラベル付けされたベクトルの大規模な集合に対してトレーニングされる。
- GMMモデルは、すべてのフレーム、たとえば、20msのフレームの中で、3つのクラスの各々に対して確率的推定値を提供する。サブフレームを含むサウンド信号処理フレームは、当業者によく知られているが、そのようなフレームについてのさらなる情報が、たとえば、参考文献[1]の中に見出され得る。
- サウンド信号の1つまたは複数の特徴が正規分布の条件を満たさないフレームの適切な処理を、異常値検出論理が保証する。
- 個々の確率が、ロジスティック回帰を用いて境界のない単一のスコアに変わる。
- 2ステージ音声/音楽分類デバイスは、着信信号を4つの状態のうちの1つに区分するために使用される、それ自体のステートマシンを有する。
- 2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスの現在の状態に応じて、出力スコアに対して適応平滑化が適用される。
- 急速に変化するコンテンツにおける2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスの高速な反応が、相対フレームエネルギーに基づくオンセット/アタック検出論理を用いて実現される。
- 信号タイプの以下の3つのカテゴリー、すなわち、純粋な音声、純粋な音楽、音楽を伴う音声の間の選択を実行するために、平滑化されたスコアが使用される。

図2は、2ステージ音声/音楽分類デバイスの第1のステージ200、および対応する2ステージ音声/音楽分類方法の第1のステージ250を同時に示す、概略ブロック図である。

図2を参照すると、2ステージ音声/音楽分類デバイスの第1のステージは、
- 信号区分のためのステートマシン201、
- 相対フレームエネルギーに基づくオンセット/アタック検出器202、
- 特徴抽出器203、
- ヒストグラムに基づく異常値検出器204、
- 短期特徴ベクトルフィルタ205、
- 非線形特徴ベクトル変換器206(Box-Cox)、
- 主成分分析器(PCA:Principal Component Analyzer)207、
- ガウシアン混合モデル(GMM)計算器208、
- 適応平滑器209、および
- 状態依存カテゴリー分類器210
を備える。

IVASコーデックにおけるコアエンコーダ選択技法(2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第2のステージ)は、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第1のステージの上部に築かれ、ACELP(代数符号励振線形予測)、TCX(変換符号化励振)、およびその全内容が参照により本明細書に組み込まれる参考文献[7]に記載されるようなGSC(汎用オーディオ信号コーダ)からの、コアエンコーダの選択を実行するための最終出力を配送する。他の好適なコアエンコーダも、本開示の範囲内で実施され得る。

要約すれば、
- 選択されたコアエンコーダは、次いで、1次(支配的)チャネル(TDステレオコーディングの場合)またはダウンミックスされたモノチャネル(FDステレオコーディングの場合)を符号化するために適用される。
- コアエンコーダ選択は、一般に2ステージ音声/音楽分類デバイス方法の第1のステージにおいて使用されるウィンドウよりも長いウィンドウにわたって計算された、追加の高レベル特徴を使用する。
- コアエンコーダ選択は、シームレスな切替えを実現するために最適化された、それ自体のアタック/オンセット検出論理を使用する。このアタック/オンセット検出器の出力は、第1のステージのアタック/オンセット検出器の出力とは異なる。
- コアエンコーダは、最初に第1のステージの状態依存カテゴリー分類器210の出力に基づいて選択される。そのような選択は、次いで、追加の高レベル特徴およびこの第2のステージのオンセット/アタック検出器の出力を調査することによって改良される。

図3は、2ステージ音声/音楽分類デバイスの第2のステージ300、および対応する2ステージ音声/音楽分類方法の第2のステージ350を同時に示す、概略ブロック図である。

図3を参照すると、2ステージ音声/音楽分類デバイスの第2のステージは、
- 追加の高レベル特徴の抽出器301、
- コアエンコーダの初期選択器302、および
- コアエンコーダ初期選択の改良器303
を備える。

2. 2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第1のステージ
最初に、GMMモデルが、トレーニングサンプルの手作業でラベル付けされた大規模なデータベースに対して期待値最大化(EM:Expectation-Maximization)アルゴリズムを使用してトレーニングされることが、述べられるべきである。データベースは、EVSコーデックにおいて使用されるモノ項目、およびいくつかの追加のステレオ項目を含む。モノトレーニングデータベースの合計サイズは、ほぼ650MBである。元のモノファイルは、IVASコーデックへの入力として使用される前に、対応する二重モノ変形に変換される。追加のステレオトレーニングデータベースの合計サイズは、ほぼ700MBである。追加のステレオデータベースは、シミュレートされた会話からの音声信号の現実の記録、インターネット上のオープンソースからダウンロードされた音楽のサンプル、および人工的に作成されたいくつかの項目を含む。人工的に作成されたステレオ項目は、モノ音声サンプルを現実のバイノーラル室内インパルス応答(BRIR:Binaural Room Impulse Response)のペアと畳み込むことによって取得される。これらのインパルス応答は、いくつかの典型的な室内構成、たとえば、小規模オフィス、セミナールーム、講堂などに対応する。トレーニング項目に対するラベルが、IVASコーデックから抽出されたボイスアクティビティ検出(VAD:Voice Activity Detection)情報を使用して半自動的に作成される。このことは最適でないが、データベースのサイズを仮定すればフレーム単位の手作業のラベル付けは不可能である。

2.1 信号区分のためのステートマシン
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、信号区分の動作251を備える。この動作を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、ステートマシン201を備える。

第1のステージにおけるステートマシンの概念は、EVSコーデックから持ち込まれる。IVASコーデックに大きい修正は加えられていない。ステートマシン201の目的とは、着信サウンド信号を4つの状態、すなわち、INACTIVE、ENTRY、ACTIVE、およびUNSTABLEのうちの1つに区分することである。

図4は、2ステージ音声/音楽分類デバイスの第1のステージ200のステートマシン201、および2ステージ音声/音楽分類方法の第1のステージ250の信号区分の動作251を同時に示す、概略ブロック図である。

図4の概略図はまた、入力サウンド信号を状態のうちの1つから他の状態に遷移させるためにステートマシン201によって使用される遷移条件を示し、これらの遷移条件は、入力サウンド信号の特性に関係する。

背景雑音を示すINACTIVE状態401が、初期状態として選択される。

VADフラグ403(参考文献[1]を参照)が「0」から「1」に変化すると、ステートマシン201はINACTIVE状態401からENTRY状態402に切り替わる。2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスの第1のステージによって使用されるVADフラグを生成するために、任意のVAD検出器またはSAD(サウンドアクティビティ検出)検出器が利用されてよい。静寂の長時間の期間の後、ENTRY状態402は、入力サウンド信号の中の最初のオンセットまたはアタックにマークする。

たとえば、ENTRY状態402において8個のフレーム405の後、ステートマシン201はACTIVE状態404に入り、ACTIVE状態404は、十分なエネルギー(所与のレベルのエネルギー)を有する安定なサウンド信号の冒頭にマークする。ステートマシン201がENTRY状態402にある間に信号のエネルギー409が突然低くなる場合、ステートマシン201は、ENTRY状態から、背景雑音に近いレベルのエネルギーを有する入力サウンド信号に対応するUNSTABLE状態407に変化する。また、ステートマシン201がENTRY状態402にある間にVADフラグ403が「1」から「0」に変化する場合、ステートマシン201はINACTIVE状態401に戻る。このことは、短い中断の間の分類の連続性を保証する。

安定な信号(ACTIVE状態404)のエネルギー406が背景雑音のレベルのもっと近くに突然落ちるか、またはVADフラグ403が「1」から「0」に変化する場合、ステートマシン201はACTIVE状態404からUNSTABLE状態407に切り替わる。

たとえば、UNSTABLE状態407において12個のフレーム410の期間の後、ステートマシン201はINACTIVE状態401に復帰する。ステートマシン201がUNSTABLE状態407にある間に、不安定な信号のエネルギー408が突然高くなるか、またはVADフラグ403が「0」から「1」に変化する場合、ステートマシン210はACTIVE状態404に戻る。このことは、短い中断の間の分類の連続性を保証する。

以下の説明では、ステートマシン201の現在の状態はf_SMと示される。個々の状態に割り当てられる定数は、次のように定義され得る。
INACTIVE f_SM=-8
UNSTABLE f_SM∈<-7,-1>
ENTRY f_SM∈<0,7>
ACTIVE f_SM=+8

INACTIVE状態およびACTIVE状態では、f_SMは単一の定数に対応するが、UNSTABLE状態およびENTRY状態では、f_SMはステートマシン201の進行に応じて複数の値をとる。したがって、UNSTABLE状態およびENTRY状態では、f_SMは短期カウンタとして使用され得る。

2.2 オンセット/アタック検出器
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、相対フレームエネルギーに基づくオンセット/アタック検出の動作252を備える。この動作を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、オンセット/アタック検出器202を備える。

オンセット/アタック検出器202および対応するオンセット/アタック検出動作252は、IVASコーデックの音声/音楽分類の目的および機能に適合される。その目的は、限定はしないが特に、音声発話の冒頭(アタック)と音楽クリップのオンセットの両方の定位を備える。これらのイベントは、通常、入力サウンド信号の特性の急激な変化に関連する。信号非アクティビティの期間の後の信号オンセットおよびアタックの検出の成功は、スコア平滑化(本明細書で以下に説明する)のプロセスにおいて過去の情報の影響の低減を可能にする。オンセット/アタック検出論理は、ステートマシン201(図2)における、図4のENTRY状態402と類似の役割を果たす。これらの2つの概念の間の差異は、それらの入力パラメータに関係する。ステートマシン201は、主にHE-SAD(高効率サウンドアクティビティ検出)技術(参考文献[1]を参照)からのVADフラグ403(図4)を使用するが、オンセット/アタック検出器252は相対フレームエネルギーの差分を使用する。

相対フレームエネルギーE_rは、dB単位でのフレームエネルギーと長期平均エネルギーとの間の差分として算出されてよい。dB単位でのフレームエネルギーは、以下の関係式

を使用して算出されてよく、ただし、E_CB(i)は臨界帯域当たりの平均エネルギーである(参考文献[1]を参照)。長期平均フレームエネルギーは、初期値

であって、以下の関係式

を使用して算出されてよい。相対フレームエネルギーは、

として計算されてよい。

オンセット/アタック検出器252によって使用されるパラメータは、すべてのフレームの中で更新される、現在のフレームの中の入力サウンド信号の相対エネルギーと前のフレームの中の入力サウンド信号の相対エネルギーとの間の差分の累積和である。このパラメータは0に初期化され、現在のフレームにおける相対エネルギーE_r(n)が前のフレームにおける相対エネルギーE_r(n-1)よりも高いときのみ更新される。オンセット/アタック検出器252は、たとえば、以下の関係式
v_run(n)=v_run(n-1)+(E_r(n)-E_r(n-1))
を使用して累積和v_run(n)を更新し、ただし、nは現在のフレームのインデックスである。オンセット/アタック検出器252は、累積和v_run(n)を使用してオンセット/アタックフレームのカウンタv_cntを更新する。オンセット/アタック検出器252のカウンタは0に初期化され、ENTRY状態402においてすべてのフレームにおいて1だけインクリメントされ、ただし、v_run>5である。そうでない場合、それは0にリセットされる。

アタック/オンセット検出器202の出力はバイナリフラグf_attであり、バイナリフラグf_attは、たとえば、オンセット/アタックの検出を示すために、0<v_run<3であるときに1に設定される。そうでない場合、このバイナリフラグは、オンセット/アタックの非検出を示すために0に設定される。このことは、次のように表現され得る。

図5のグラフによって、非限定的な例としてオンセット/アタック検出器202の動作が論証される。

2.3 特徴抽出器
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、入力サウンド信号の特徴の抽出の動作253を備える。この動作を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、特徴抽出器203を備える。

GMMモデルのトレーニングステージにおいて、トレーニングサンプルが16kHzにリサンプリングされ、-26dBov(dBovとは、システムの過負荷点と比較したdBレベルである)に正規化され、連結される。次いで、リサンプリングかつ連結されたトレーニングサンプルが、特徴抽出器203を使用して特徴を収集するためにIVASコーデックのエンコーダに供給される。特徴抽出の目的のために、IVASコーデックは、FDステレオコーディングモード、TDステレオコーディングモード、または任意の他のステレオコーディングモードで、かつ任意のビットレートで実行されてよい。非限定的な例として、特徴抽出器203は、16.4kbpsでTDステレオコーディングモードで実行される。特徴抽出器203は、音声/音楽/雑音分類のためのGMMモデルにおいて使用される以下の特徴を抽出する。

MFCC特徴を除いて、上の特徴のすべてがEVSコーデックの中にすでに存在する(参考文献[1]を参照)。

特徴抽出器203は、さらなる分析のために開ループピッチT_OLおよび発声測度

を使用する。これらの測度の両方が、入力サウンド信号の隣接する3つの信号分節にわたる平均として計算される。各分節の長さは10msである。LSF(線スペクトル周波数)特徴はM値のベクトルであり、ただし、MはLP(線形予測)分析の次数である。LP分析からの残差エネルギー∈_Pは、Levinson-Durbinアルゴリズムの一部として計算されるM+1値のベクトルである。短期相関マップC_mapは、調波スペクトル分析の副産物として計算される単一のパラメータ特徴であり、入力サウンド信号の調和性とスペクトル安定性の両方を反映する。非定常性特徴n_staは、スペクトルエネルギー展開のダイナミクスを反映する。そのダイナミクスは、一般に、音楽信号の中よりも音声信号の中の方が大きい。

MFCC特徴は、メル周波数ケプストラム係数に対応するN_mel値のベクトルであり、メル周波数ケプストラム係数は、メル周波数スケール上で表現される、短期エネルギースペクトルの実数対数のコサイン変換の結果である(その全内容が参照により本明細書に組み込まれる参考文献[8]を参照)。

最後の2つの特徴P_diffおよびP_staの計算は、たとえば、

として定義された、正規化されたビン当たり電力スペクトル

を使用し、ただし、P_kは、IVASスペクトル分析ルーチン(参考文献[1]を参照)の中で計算される、現在のフレームにおけるビン当たり電力スペクトルである。正規化は、150～3500Hzという周波数範囲に対応する範囲<k_low,k_high>=<3,70>の中で実行される。

電力スペクトル差分P_diffは、

として定義されてよく、ここで、フレームインデックスを明示的に示すためにインデックス(n)が追加されている。

スペクトル定常性特徴P_staは、以下の関係式

を使用して、正規化されたビン当たり電力スペクトルと電力差分スペクトルとの比の合計から計算されてよい。スペクトル定常性は、一般に、振幅がより大きく同時にスペクトル差分がより小さい周波数ビンを含むフレームの中で、より大きい。

2.4 個別特徴ヒストグラムに基づく異常値検出器
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、個別特徴ヒストグラムに基づいて異常値特徴を検出する動作254を備える。動作254を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、異常値検出器204を備える。

GMMモデルは、大規模なトレーニングデータベース上でIVASコーデックから収集された特徴のベクトルに対してトレーニングされる。GMMモデルの確度は、個別の特徴の統計分布によってかなりの程度まで影響を受ける。特徴が正規分布するとき、たとえば、X～N(μ,σ)であるとき、最良の結果が達成され、ただし、Nは、平均μおよび分散σを有する統計分布を表す。図6は、大規模なトレーニングデータベース上の選択されたいくつかの特徴のヒストグラムを示す。わかるように、図6の中のいくつかの特徴のヒストグラムは、それらが正規分布から引き出されたことを示さない。

GMMモデルは、非正規分布を有する特徴をある程度まで表すことができる。1つまたは複数の特徴の値がその平均値とは著しく異なる場合、特徴のベクトルは異常値として決定される。異常値は、通常、間違った確率推定につながる。特徴のベクトルを廃棄するのではなく、異常値特徴を、たとえば、前のフレームからの特徴値、いくつかの前のフレームにわたる平均の特徴値と、または著しい数の前のフレームにわたる大域的な平均値によって、置き換えることが可能である。

検出器204は、トレーニングデータベース上で計算された個別特徴ヒストグラムの分析に基づいて、2ステージ音声/音楽分類デバイスの第1のステージ200の中で異常値を検出する(たとえば、特徴ヒストグラムを示す図6、およびヒストグラム値に基づく異常値の検出を示すグラフを示す図7を参照)。特徴ごとに、たとえば、以下の関係式

を使用して、異常値検出のための下限H_lowおよび上限H_highが計算され、ただし、H(i)は、max(H(i))=1となるように正規化された特徴ヒストグラムであり、iは、0からI=500ビンまでにわたる周波数ビンインデックスであり、i_maxは、この特徴に対するヒストグラムの最大値を含むビンである。しきい値thr_Hは1e^-4に設定される。しきい値thr_Hに対するこの特定の値は、以下の説明を有する。特徴の本当の統計分布が0平均μおよび分散σを有する正規分布であるなら、それはその最大値が1に等しくなるように再スケーリングされ得る。その場合、確率密度関数(PDF:probability density function)は、

として表現され得る。

f_xs(x|0,σ²)をしきい値thr_Hで置換し変数を再配置することによって、以下の関係式が取得される。

thr_H=1e^-4に対して、以下が取得される。
x≒2.83σ

したがって、1e^-4というしきい値を適用することは、分布が正規分布であり確率密度関数f_xs(0|0,σ²)=1となるようにスケーリングされたという条件で、平均値の周囲の±2.83σという範囲に確率密度関数を切り詰めることにつながる。切り詰められた範囲の外側に特徴値がある確率は、たとえば、以下の関係式

によって与えられ、ただし、erf(.)は、統計の理論から知られているガウス誤差関数である。

特徴値の分散がσ=1であるなら、検出される異常値のパーセンテージは、ほぼ0.47%であることになる。特徴値の本当の分布が正規分布でないので、上記の計算は近似にすぎない。このことは、図6の中の非定常性特徴n_staのヒストグラムによって図示され、ここで、その平均値の右側における末尾は、その平均値の左側における末尾よりも「重い」。サンプル分散σが異常値検出のための基準として使用され、かつ区間が、たとえば、±3σに設定されるなら、平均値の右側における多くの「良好」値が異常値として分類されることになる。

下限H_lowおよび上限H_highは、2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスの第1のステージ250/200によって使用される特徴ごとに計算され、IVASコーデックのメモリの中に記憶される。IVASコーデックのエンコーダを実行すると、異常値検出器204は、現在のフレームnの中の各特徴jの値X_j(n)を、その特徴の境界H_lowおよびH_highに対して比較し、下限と上限との間で定義された対応する範囲の外側にある値を有する特徴jに、異常値特徴としてマークする。このことは、

として表現することができ、ただし、Fは特徴の個数である。異常値検出器204は、たとえば、以下の関係式

を使用して、検出された異常値の個数を表す異常値特徴のカウンタc_odv(図示せず)を備える。

異常値特徴の個数が、たとえば、2に等しいかまたはそれよりも多い場合、異常値検出器204は、バイナリフラグf_outを1に設定する。このことは、次のように表現され得る。

フラグf_outは、特徴のベクトルが異常値であることをシグナリングするために使用される。フラグf_outが1に等しい場合、異常値特徴X_j(n)は、たとえば、次のように、前のフレームからの値と置き換えられる。
f_odv(j)=1の場合、j=1,..,Fに対して、X_j(n)=X_j(n-1)

2.5 短期特徴ベクトルフィルタ
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、短期特徴ベクトルをフィルタ処理する動作255を備える。動作255を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、抽出された特徴の短期ベクトルを平滑化するための、短期特徴ベクトルフィルタ205を備える。

音声/音楽分類確度は、特徴ベクトル平滑化を用いて改善される。このことは、短期特徴ベクトルフィルタ205として使用される、以下の短期無限インパルス応答(IIR)フィルタ、すなわち、

を適用することによって実行することができ、ただし、

は、フレームnの中の短期フィルタ処理済みの特徴を表し、α_m=0.5は、いわゆる忘却係数である。

前のフレームにおける特徴ベクトルの報知的可能性が限定される、ACTIVE信号分節の冒頭において、強いアタックまたは異常値におけるスミアリング効果を回避するために、特徴ベクトル平滑化(短期特徴ベクトルをフィルタ処理する動作255)は、f_att=1またはf_out=1である、図4のENTRY状態402においてフレームの中で実行されない。平滑化はまた、IVAS過渡分類アルゴリズム(参考文献[1]を参照)によってオンセット/過渡として分類されるフレームの中で、図4のACTIVE状態404(安定な信号)において実行されない。短期特徴ベクトルフィルタ処理動作255が実行されないとき、フィルタ処理されていないベクトルの特徴の値X_j(n)が、単にコピーオーバー(copy over)および使用される。このことは、以下の関係式によって表現され得る。

以下の説明では、

の代わりに、特徴値X_j(n)に対する元のシンボルが使用され、すなわち、

であることが想定される。

2.6 非線形特徴ベクトル変換(Box-Cox)
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、非線形特徴ベクトル変換の動作256を備える。動作256を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、非線形特徴ベクトル変換器206を備える。

図6のヒストグラムによって示すように、音声/音楽分類において使用される複数の特徴は正規分布せず、その結果、GMMの最良の確度が達成され得ない。非限定的な例として、非線形特徴ベクトル変換器206は、非正規特徴を、正規形状を有する特徴に変換するために、その全内容が参照により本明細書に組み込まれる参考文献[9]に記載されるようなBox-Cox変換を使用することができる。特徴XのBox-Cox変換X_boxは、次のように、すなわち、

のように定義されるパラメトリック非線形電力変換であり、ただし、λは、-5から+5まで変化する電力変換の指数である(たとえば、図8を参照。図8は、電力変換指数λの様々な値に対するBox-Cox変換曲線を示すグラフである)。Box-Cox変換は、正の入力に対してのみ定義される。したがって、特徴のすべての入力値が正であることを保証するために、いくらかのバイアスΔが加算される。このバイアスは、全体的なトレーニングデータベースにわたる最小の特徴値に相当する。すなわち、

であり、ただし、Nはトレーニングデータベースの中の特徴のサンプルの個数である。

トレーニングプロセス中、非線形特徴ベクトル変換器206は、正常性テストに基づいて指数λの最適値を選択するために、指数λのすべての値を検討するとともにそれをテストする。正常性テストは、その全内容が参照により本明細書に組み込まれる参考文献[10]に記載されるような、D'AgostinoおよびPearsonの方法に基づき、確率分布関数のスキューと尖度とを合成する。正常性テストは、以下のスキューおよび尖度測度r_sk(S-K測度)
r_sk=s²+k²
を生成し、ただし、sは、スキューテストによって戻されるzスコアであり、kは、尖度テストによって戻されるzスコアである。スキューテストおよび尖度テストについての詳細については、その全内容が参照により本明細書に組み込まれる参考文献[11]を参照されたい。

正常性テストはまた、ヌル仮説、すなわち、特徴値が正規分布から引き出されたことに対する、両側カイ2乗確率を戻す。指数λの最適値は、S-K測度を最小化する。このことは、以下の関係式

によって表現することができ、ここで、下付き文字jは、上の最小化プロセスが個別の特徴j=1,..,Fごとに行われることを意味する。

エンコーダにおいて、非線形特徴ベクトル変換器206は、S-K測度に関係する次の条件

を満たす選択された特徴にしかBox-Cox変換を適用せず、ただし、r_sk(j)は、Box-Cox変換の前に第jの特徴に対して計算されるS-K測度であり、

は、指数λ_jの最適値を用いたBox-Cox変換の後のS-K測度である。選択された特徴の最適指数値λ_jおよび関連するバイアスΔ_jは、IVASコーデックのメモリの中に記憶される。

以下の説明では、X_box,j(n)の代わりに、特徴値X_j(n)に対する元のシンボルが使用され、すなわち、
選択された特徴に対して、X_j(n)←X_box,j(n)
であることが想定される。

2.7 主成分分析器
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、サウンド信号特徴次元数を小さくするとともにサウンド信号クラス弁別性を大きくするために、主成分分析(PCA)の動作257を備える。動作257を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、主成分の主成分分析器207を備える。

短期特徴ベクトルフィルタ処理の動作255および非線形特徴ベクトル変換の動作256の後、主成分分析器207は、特徴の平均を除去すること、およびそれらをスケーリングして単位分散にすることによって、特徴ベクトルを標準化する。その目的のために、以下の関係式

が使用することができ、ただし、

は、標準化された特徴を表し、μ_jは、トレーニングデータベースにわたる特徴X_jの平均であり、s_jは、そうした特徴X_jの標準偏差であり、上述のように、nは現在のフレームを表す。

特徴X_jの平均μ_jおよび偏差s_jは、次のように、すなわち、

のように計算されてよく、Nはトレーニングデータベースの中のフレームの総数を表す。

以下の説明では、

であることが想定される。

主成分分析器207は、次いで、PCAを使用して特徴ベクトルを処理し、ここで、次元数が、たとえば、F=15からF_PCA=12に低減される。PCAは、できる限り相関した特徴のセットを変換して、主成分と呼ばれる、線形に相関しない変数のセットにするための、直交変換である(その全内容が参照により本明細書に組み込まれる参考文献[12]を参照)。音声/音楽分類方法では、分析器207は、たとえば、以下の関係式

を使用して、特徴ベクトルを変換し、ただし、

は、F次元の列特徴ベクトルであり、

は、その列が

の固有ベクトルであるPCAローディングのF×F_PCA行列であり、ここで、上付き文字

はベクトル転置を示す。ローディングは、トレーニングデータベースの中の特徴サンプルの特異値分解(SVD)を用いて見つけられる。ローディングは、アクティブなフレームに対してのみ、たとえば、VADフラグが1であるフレームの中で、トレーニング段階において計算される。計算されたローディングは、IVASコーデックのメモリの中に記憶される。

以下の説明では、

の代わりに、特徴

のベクトルに対する元のシンボルが使用され、すなわち、

であることが想定される。

2.8 ガウシアン混合モデル(GMM)
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、ガウシアン混合モデル(GMM)計算の動作258を備える。動作258を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、GMM計算器208を備える。わかるように、GMM計算器208は、トレーニングデータベース上で調波平衡確度を最大化することによって決定バイアスパラメータを推定する。決定バイアスは、不十分なトレーニングデータのため、「MUSIC」クラスの決定の確度を改善するためにGMMに加算されているパラメータである。

多変量GMMは、成分重み、成分平均、および共分散行列の混合によってパラメータ化される。音声/音楽分類方法は、各々がそれ自体のトレーニングデータベース上でトレーニングされた3つのGMM、すなわち、「音声」GMM、「音楽」GMM、および「雑音」GMMを使用する。K個の成分を有するGMMでは、各成分は、それ自体の平均

、およびその共分散行列

を有する。音声/音楽分類方法では、3つのGMMは、K=6個の成分を用いて定められる。成分重みは、

という制約を伴ってφ_kと示され、その結果、確率分布が正規化される。所与の特徴ベクトル

がGMMによって生成される確率

は、以下の関係式

を使用して計算されてよい。上の関係式において、指数関数exp(...)の計算は複雑な演算である。GMMのパラメータは、期待値最大化(EM)アルゴリズムを使用して計算される。潜在変数(直接観測できず、かつ観測された他の変数の値から実際に推測される、変数)を支配する確率分布の一般形式が知られているという条件を用いてそれらの値を予測するために、それらの潜在変数に対して期待値最大化アルゴリズムが使用され得ることがよく知られている。

確率計算の複雑さを小さくするために、次のように加算項Σの内側の内項の対数をとることによって、上の関係式が簡略化されてよい。

上記の、簡略化された式の出力は、「スコア」と呼ばれる。スコアは、対数尤度に比例する、有界でない変数である。スコアが大きければ大きいほど、所与の特徴ベクトルがGMMによって生成された確率が大きくなる。スコアは、3つのGMMの各々に対してGMM計算器208によって計算される。「音声」GMM上のスコア

および「音楽」GMM上のスコア

は、たとえば、以下の関係式

を使用して、それらの差分を計算することによって単一の値

に合成されて差分スコア

を取得する。差分スコアの負の値は、入力サウンド信号が音声信号であることを示すが、正の値は、入力サウンド信号が音楽信号であることを示す。以下の関係式

を使用して非負の値を差分スコアに加算することによって、差分スコア

の計算の中に決定バイアスb_sを導入することが可能である。決定バイアスb_sの値は、トレーニングデータベース上で計算される差分スコアの集団に基づいて見つけられる。決定バイアスb_sの値を見つけるプロセスは、次のように説明され得る。

がトレーニングデータベースからの特徴ベクトルの行列を表すものとする。対応するラベルベクトルを

とする。このベクトルの中のグラウンドトゥルースSPEECHフレームの値が+1.0として、かつ他のフレームの中の値が0として示されるものとする。トレーニングデータベースの中のACTIVEフレームの総数は、N_actとして示される。

EMトレーニングの後、すなわち、GMMのパラメータが知られているとき、差分スコア

が、トレーニングデータベースの中のアクティブなフレームにおいて計算されてよい。そのとき、たとえば、以下の関係式

を使用して、トレーニングデータベースのアクティブなフレームにおいてラベルy_pred(n)を予測することが可能であり、ただし、sign[.]は符号関数であり、

は、b_s=0という想定の下で計算される差分スコアを表す。ラベルy_pred(n)の得られた値は、SPEECHを示す+1.0またはMUSICもしくはNOISEを示す0のいずれかに等しい。

このバイナリ予測子の確度は、以下の4つの統計測度、すなわち、

を用いて要約することができ、ただし、E_rは、サンプル重み付け係数として使用される相対フレームエネルギーである。統計測度は以下の意味を有する。すなわち、c_tpは、真陽性の数、すなわち、SPEECHクラスの中のヒットの数であり、c_fpは、偽陽性の数、すなわち、MUSICクラスの中の間違って分類されたフレームの数であり、c_tnは、真陰性の数、すなわち、MUSIC/NOISEクラスの中のヒットの数であり、c_fnは、偽陰性の数、すなわち、SPEECHクラスの中の間違って分類されたフレームの数である。

上で定義した統計値は、通常は再現率と呼ばれる真陽性率

、および通常は特異性と呼ばれる真陰性率

を計算するために使用されてよい。再現率TPRおよび特異性TNRは、以下の関係式を使用してTPRとTNRとの調和平均をとることによって単一の数に合成されてよい。

その結果は、調波平衡確度と呼ばれる。

決定バイアスb_sの値は、ラベル/予測子y_pred(n)を用いて獲得された、上で定義した調波平衡確度を最大化することによって見つけられてよく、ここで、b_sは、連続ステップをなす区間(-2,2)から選択される。決定バイアスに対する候補値の間隔は、濃度がより高い値を0の周囲に有して、ほぼ対数的である。

決定バイアスb_sの見つかった値を用いて計算される差分スコア

は、たとえば、(-30.0,+30.0)という範囲に限定される。VADフラグが0であるとき、または全フレームエネルギーE_totが10dBよりも低いとき、または音声/音楽分類方法がENTRY状態402にありf_attもしくはf_outのいずれかが1であるとき、差分スコア

は0にリセットされる。

2.9 適応平滑器
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、適応平滑化の動作259を備える。動作259を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、適応平滑器209を備える。

適応平滑器209は、たとえば、GMM計算器208からの、dlp(n)として識別される、フレームnに対する差分スコアdlp(X,b_s)を平滑化するための、適応IIRフィルタを備える。適応平滑化、すなわち、フィルタ処理動作259は、以下の演算
wdlp(n)=wght(n)・wdlp(n-1)+(1-wght(n))・dlp(n)
を使用して表すことができ、ただし、wdlp(n)は、得られた平滑化済みの差分スコアであり、wght(n)は、適応IIRフィルタのいわゆる忘却係数であり、nはフレームインデックスを表す。

忘却係数は、以下の関係式に示すような3つの個々のパラメータの積である。
wght(n)=wrelE(n)・wdrop(n)・wrise(n)

パラメータwrelE(n)は、現在のフレームの相対エネルギーE_r(n)に線形に比例し、以下の関係式を使用して計算されてよい。

パラメータwrelE(n)は、たとえば、区間(0.9,0.99)に限定される。上の関係式の中で使用される定数は、以下の解釈を有する。相対エネルギーが15dBよりも高いとき、パラメータwrelE(n)は、0.99という高い方のしきい値に達する。同様に、相対エネルギーが-15dBよりも低いとき、パラメータwrelE(n)は、0.9という低い方のしきい値に達する。パラメータwrelE(n)の値は、平滑器209の適応IIRフィルタの忘却係数wght(n)に影響を及ぼす。特徴が入力信号についてのさほど重要でない情報を伝えることが予期される、エネルギー的に弱い分節において、平滑化はより強い。

パラメータwdrop(n)は、差分スコアdlp(n)の導関数に比例する。最初に、差分スコアdlp(n)の短期平均dlp_ST(n)が、たとえば、以下の関係式を使用して、計算される。
dlp_ST(n)=0.8・dlp_ST(n-1)+0.2・dlp(n)

パラメータwdrop(n)は0に設定され、以下の2つの条件が満たされるフレームにおいてのみ修正される。
dlp(n)<0
dlp(n)<dlp_ST(n)

したがって、適応平滑器209は、差分スコアdlp(n)が減少傾向を有するとき、かつ現在のフレームがSPEECHクラスに属することを差分スコアdlp(n)が示すときのみ、パラメータwdrop(n)を更新する。最初のフレームにおいて、2つの条件が満たされるとき、かつdlp_ST(n)>0である場合、パラメータwdrop(n)は、
wdrop(n)=-dlp(n)
に設定される。

そうでない場合、適応平滑器209は、たとえば、以下の関係式を使用して、パラメータwdrop(n)を着実に大きくする。
wdrop(n)=wdrop(n-1)+(dlp_ST(n-1)-dlp(n))

上記で定義した2つの条件が真でない場合、パラメータwdrop(n)は0にリセットされる。したがって、パラメータwdrop(n)は、潜在的な音声オンセットを示す0レベルの下方への、差分スコアdlp(n)の突然の降下に反応する。パラメータwdrop(n)の最終値は、以下の関係式に示すように、たとえば、(0.7,1.0)という区間に、線形にマッピングされる。

表記法を簡略化するために、上の式ではwdrop(n)の値が「上書き」されることに留意されたい。

適応平滑器209は、潜在的な音楽オンセットを示す差分スコアdlp(n)の突然の上昇にパラメータwdrop(n)が反応する差分を用いて、パラメータwdrop(n)と同様にパラメータwrise(n)を計算する。パラメータwrise(n)は0に設定されるが、次の条件を満たすフレームの中で修正される。
f_SM(n)=8(ACTIVE)
dlp_ST(n)>0
dlp_ST(n)>dlp_ST(n-1)

したがって、差分スコアdlp(n)が増加傾向を有するとき、かつ現在のフレームnがMUSICクラスに属することをこの差分スコアdlp(n)が示すとき、適応平滑器209は、入力サウンド信号のACTIVE状態404(図4を参照)においてのみ、パラメータwrise(n)を更新する。

最初のフレームの中で、上記の3つの指定された条件が満たされるとき、かつ短期平均dlp_ST(n-1)<0である場合、第3のパラメータwrise(n)は、
wrise(n)=-dlp_ST(n)
に設定される

そうでない場合、適応平滑器209は、たとえば、以下の関係式
wrise(n)=wrise(n-1)+(dlp_ST(n)-dlp_ST(n-1))
に従って、パラメータwrise(n)を着実に大きくする。

上記の3つの条件が真でない場合、パラメータwrise(n)は0にリセットされる。したがって、第3のパラメータwrise(n)は、潜在的な音楽オンセットを示す0レベルの上方への、差分スコアdlp(n)の突然の上昇に反応する。パラメータwrise(n)の最終値は、次のように、たとえば、(0.95,1.0)という区間に、線形にマッピングされる。

表記法を簡略化するために、上の式ではパラメータwrise(n)の値が「上書き」されることに留意されたい。

図9は、非限定的な例として、バックグラウンドミュージックを伴う音声信号の短い分節に対するパラメータwdrop(n)およびwrise(n)の挙動を示すグラフである。パラメータwdrop(n)のピークは、通常、音声オンセットの近くに位置するが、パラメータwrise(n)のピークは、一般に、音声がゆっくりとバックオフするとともにバックグラウンドミュージックが信号コンテンツで優勢となり始める場所に位置する。

適応平滑器209の適応IIRフィルタの忘却係数wght(n)は、強いSPEECH信号コンテンツまたは強いMUSIC信号コンテンツに応答して小さくされる。その目的のために、適応平滑器209は、たとえば、以下の関係式を使用して計算される差分スコアdlp(n)の長期平均

および長期分散

を分析する。

入力サウンド信号のENTRY状態402(図4)において、長期平均は

であり、長期分散は

である。差分スコアdlp(n)の平均値の周囲で小さいばらつきを伴って、差分スコアdlp(n)の絶対値が大きいとき、音声/音楽分類デバイスがそのコンテンツについての確信を有する良好な機会がある。このことは、以下の長期平均対長期分散比によって表現され得る。

式r_m2v(n)は、差分スコアの長期標準偏差に相当する。適応平滑器259の適応IIRフィルタの忘却係数wght(n)は、たとえば、以下の関係式を使用して、r_m2v(n)>15となるフレームの中で小さくされる。
wght(n)←0.9・wght(n)

適応平滑器209の適応IIRフィルタの忘却係数wght(n)の最終値は、たとえば、(0.01,1.0)という範囲に限定される。全フレームエネルギーE_tot(n)が10dB未満であるフレームでは、忘却係数wght(n)は、たとえば、0.92に設定される。このことは、静寂の間の差分スコアdlp(n)の適切な平滑化を保証する。

フィルタ処理され平滑化された差分スコアwdlp(n)は、以下で説明するように、音声/音楽分類方法のカテゴリー決定のためのパラメータである。

2.10 状態依存カテゴリー分類器
図2を参照すると、2ステージ音声/音楽分類方法の第1のステージ250は、差分スコア分布および方向依存しきい値に応じた入力サウンド信号の状態依存カテゴリー分類の動作260を備える。動作260を実行するために、2ステージ音声/音楽分類デバイスの第1のステージ200は、状態依存カテゴリー分類器210を備える。

動作260は、2ステージ音声/音楽分類方法の第1のステージ250の最終の動作であり、以下の3つの最終クラスへの入力サウンド信号のカテゴリー化を備える。
・SPEECH/NOISE (0)
・UNCLEAR (1)
・MUSIC (2)

上記において、丸括弧の中の数は、3つの最終クラスに関連付けられた数字定数である。クラスの上記のセットは、差分スコアに関してここまで説明されているクラスとはわずかに異なる。第1の差異は、SPEECHクラスとNOISEクラスとが組み合わせられることである。このことは、音声信号と背景雑音の両方をコーディングするためにACELPエンコーダコアが通常は選択されるコアエンコーダ選択メカニズム(以下の説明の中に記載される)を容易にするためである。新たなクラス、すなわち、UNCLEAR最終クラスが、セットに追加されている。このカテゴリーに分類されるフレームは、通常、高いレベルの加法的バックグラウンドミュージックを有する音声分節の中に見つけられる。クラスUNCLEARの中のフレームの平滑化された差分スコアwdlp(n)は、大部分が0に近い。図10は、トレーニングデータベースの、平滑化された差分スコアwdlp(n)の分布、ならびに最終クラスSPEECH/NOISE、UNCLEAR、およびMUSICとのそれらの関係を示すグラフである。

状態依存カテゴリー分類器210によって選択された最終クラスをd_SMC(n)が示すものとする。

入力サウンド信号が、現在のフレームの中で、ENTRY状態402(図4を参照)にあるとき、状態依存カテゴリー分類器210は、ENTRY状態402に属し現在のフレームに先行するフレームの中で計算される差分スコアdlp(n)の重み付き平均に基づいて、最終クラスd_SMC(n)を選択する。重み付き平均は、以下の関係式

を使用して計算されてよく、ただし、n_ENTRYは、ENTRY状態402の冒頭(フレーム)を示し、α_k(n-n_ENTRY)は、ENTRY状態におけるdlp(n)のサンプルに対応する重みである。したがって、重み付き平均wdlp_ENTRY(n)において使用されるサンプルの個数は、ENTRY状態の冒頭(フレーム)に対する現在のフレームの位置に応じて0から7までにわたる。このことは、最も最近のフレームが最も大きい重みに関連付けられるような、降順での重みのソーティングを図示するグラフを示す、図11に図示される。下のTable 2(表2)は、そのような平均化のために使用され得る重みの一例を示す。

絶対フレームエネルギーE_totが、現在のフレームの中で、たとえば、10dBよりも低い場合、状態依存カテゴリー分類器210は、差分スコアdlp(n)にかかわらず最終クラスd_SMC(n)をSPEECH/NOISEに設定する。このことは、静寂の間の誤分類を回避するためである。

ENTRY状態における差分スコアの重み付き平均wdlp_ENTRY(n)が、たとえば、2.0よりも小さい場合、状態依存カテゴリー分類器210は、最終クラスd_SMC(n)をSPEECH/NOISEに設定する。

ENTRY状態における差分スコアの重み付き平均wdlp_ENTRY(n)が、たとえば、2.0よりも大きい場合、状態依存カテゴリー分類器210は、現在のフレームにおける平滑化されていない差分スコアdlp(n)に基づいて最終クラスd_SMC(n)を設定する。dlp(n)が、たとえば、2.0よりも大きい場合、最終クラスはMUSICである。そうでない場合、最終クラスはUNCLEARである。

入力サウンド信号の他の状態(図4を参照)において、状態依存カテゴリー分類器210は、平滑化された差分スコアwdlp(n)および前のフレームの中で選択された最終クラスに基づいて、現在のフレームにおいて最終クラスを選択する。現在のフレームにおける最終クラスは、最初に前のフレームからのクラスに初期化され、すなわち、
d_SMC(n)=d_SMC(n-1)
である。

平滑化された差分スコアwdlp(n)が、前のフレームにおいて選択されたクラスとは異なるクラスのしきい値(Table 3(表3)を参照)を横切る場合、状態依存カテゴリー分類器210によって決定が変更され得る。クラス間のこれらの遷移が図10に示される。たとえば、前のフレームにおいて選択された最終クラスd_SMC(n)がSPEECH/NOISEであったが、現在のフレームにおける平滑化された差分スコアwdlp(n)が、たとえば、1.0よりも大きい場合、現在のフレームにおける最終クラスd_SMC(n)はUNCLEARに変更される。図10のグラフは、INACTIVEフレームを除外してトレーニングデータベース上で計算される、SPEECH/NOISE最終クラスおよびMUSIC最終クラスに対する平滑化された差分スコアwdlp(n)のヒストグラムを示す。図10のグラフからわかるように、しきい値の2つのセットがあり、一方はSPEECH/NOISE->UNCLEAR->MUSIC遷移用であり、他方は反対方向、すなわち、MUSIC->UNCLEAR->SPEECH/NOISE遷移用である。直接SPEECHからMUSICへの、またはその逆の、最終クラスd_SMC(n)の切替えはない。決定しきい値の値は、状態依存カテゴリー分類器210がSPEECH/NOISE最終クラスを選好することを示す。クラス間の遷移および関連するしきい値の例が、下のTable 3(表3)に要約される。

本明細書において上記で述べたように、クラス間の遷移は、平滑化された差分スコアwdlp(n)の値によるだけでなく、前のフレームにおいて選択された最終クラスによっても駆動される。クラス間の遷移に対する規則の完全セットが、図12のクラス遷移図に示される。

図12の中の矢印は、対応する菱形の内側の条件が満足される場合にクラスが変更され得る方向を示す。菱形の中の複数の条件の場合には、それらの間で論理ANDが想定され、すなわち、遷移が発生するためにすべてが満たされなければならない。矢印が表記法「≧X個のフレーム」によって条件付けされる場合、そのことは、少なくともX個のフレームの後にのみクラスが変更されてよいことを意味する。このことは、いくつかの遷移に短いヒステリシスを加える。

図12において、シンボルf_spは、IVASコーデックの安定な高ピッチ分析モジュールの副産物であるショートピッチフラグを示す(参考文献[1]を参照)。ショートピッチフラグは、高い値の発声測度

を示す事前選択されたアクティブなフレームの中で、1に設定される。発声測度は、次のように、すなわち、

のように、現在のフレームの3つの隣接するハーフフレームにわたる平均正規化相関として計算され、ただし、

は、現在のフレームにおける正規化された自己相関関数であり、上の方のインデックス[k]は、ハーフフレームウィンドウの位置を指す。正規化された自己相関関数は、IVASコーデックの開ループピッチ分析モジュールの一部として算出される(参考文献[1]、セクション5.1.11.3.2を参照)。

ショートピッチフラグf_spは、次のように、すなわち、

のように、事前選択されたフレームにおいて設定されてよく、ただし、

は、現在のフレームにおける最大高ピッチ相関値の長期測度であり(参考文献[1]を参照)、

は、現在のフレームにおける長期発声測度である。長期測度

および

は、以下の関係式

を使用して計算されてよく、

は、IVASコーデックの安定な高ピッチ分析モジュールの一部として算出される最大高ピッチ相関値である(参考文献[1]を参照)。

図12において、パラメータc_VADはACTIVEフレームのカウンタである。カウンタc_VADは0に初期化され、VADフラグが0であるすべてのフレームにおいて0にリセットされる。カウンタc_VADは、たとえば、50というしきい値に達するまで、またはVADフラグが0に戻るまで、VADフラグが1であるフレームにおいてのみ1だけ増大する。

パラメータv_run(n)は、本開示のセクション2.2(オンセット/アタック検出)の中で定義されている。

3. コアエンコーダ選択
図3は、2ステージ音声/音楽分類デバイスの第2のステージ300、および対応する2ステージ音声/音楽分類方法の第2のステージ350を同時に示す、概略ブロック図である。

2ステージ音声/音楽分類方法および2ステージ音声/音楽分類デバイスの第2のステージ350/300において、状態依存カテゴリー分類器210によって選択された最終クラスd_SMC(n)は、IVASコーデックの3つのコアエンコーダ技術、すなわち、ACELP(代数符号励振線形予測)、GSC(汎用オーディオ信号コーディング)、またはTCX(変換符号化励振)のうちの1つに「マッピング」される。このことは、3ウェイ分類と呼ばれる。ビットレートまたは帯域幅限定などの、決定に影響を及ぼす他の要因が存在するので、このことは、選択された技術がコアエンコーダとして使用されることを保証しない。しかしながら、一般のタイプの入力サウンド信号の場合、コアエンコーダ技術の初期選択が使用される。

第1のステージにおいて状態依存カテゴリー分類器210によって選択されるクラスd_SMC(n)以外に、コアエンコーダ選択メカニズムは、いくつかの追加の高レベル特徴を考慮に入れる。

3.1 追加の高レベル特徴抽出器
図3を参照すると、2ステージ音声/音楽分類方法の第2のステージ350は、入力サウンド信号の追加の高レベル特徴の抽出の動作351を備える。動作351を実行するために、2ステージ音声/音楽分類デバイスの第2のステージ300は、追加の高レベル特徴抽出器301を備える。

2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第1のステージ200/250において、ほとんどの特徴が、通常、80msを超過しない、入力サウンド信号の短い分節(フレーム)に対して計算される。このことは、バックグラウンドミュージックの存在下での音声オンセットまたはオフセットなどの、イベントへの急速な反応を可能にする。しかしながら、そのことはまた、比較的高い割合の誤分類につながる。誤分類は、上のセクション2.9で説明した適応平滑化を用いて、いくらかの程度まで軽減されるが、いくつかのタイプの信号に対して、これは十分に効率的ではない。したがって、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第2のステージ300/350の一部として、いくつかのタイプの信号に対して最も適切なコアエンコーダ技術を選択するために、クラスd_SMC(n)が改変され得る。そのようなタイプの信号を検出するために、検出器は、通常は入力信号のもっと長い分節に対して、追加の高レベル特徴および/またはフラグを計算する。

3.1.1 長期信号安定性
長期信号安定性は、オペラからのボーカルと音楽との間での、好結果の弁別のために使用され得る、入力サウンド信号の特徴である。コアエンコーダ選択のコンテキストでは、信号安定性は、自己相関が高い分節の長期定常性として理解される。追加の高レベル特徴抽出器301は、「発声」測度

に基づいて長期信号安定性特徴を推定する。長期信号安定性は、以下の関係式を使用して、いくつかの、たとえば、10個のフレームにわたって計算された、発声パラメータ

の分散cor_var(n)を使用して、現在のフレームnにおいて推定され得る。

上の式において、

は、10という個数のフレームにわたる平均発声である。

もっと大きいロバストネスを得るために、現在のフレームnにおける発声パラメータ

が、たとえば、以下の式に従って、IIRフィルタを使用して平滑化される。

平滑化された発声パラメータcor_LT(n)が十分に大きく、かつ発声パラメータの分散cor_var(n)が十分に小さい場合、入力信号は、コアエンコーダ選択の目的にとって「安定」と見なされる。これは、値cor_LT(n)およびcor_var(n)を既定のしきい値と比較すること、ならびに、たとえば、以下の規則を使用して、バイナリフラグを設定することによって測られる。

バイナリフラグf_STAB(n)は、長期信号安定性のインジケータであり、本開示の中で後で説明するコアエンコーダ選択において使用される。

3.1.2 分節アタック検出
抽出器301は、図13に示すように、現在のフレームnのいくつかの、たとえば、32個の短い分節から分節アタック特徴を抽出する。

各分節において、追加の高レベル特徴抽出器301が、たとえば、以下の関係式

を使用して、エネルギーE_ata(k)を計算し、ただし、s(n)は現在のフレームnの中の入力サウンド信号であり、kは分節のインデックスであり、iは分節の中のサンプルのインデックスである。アタック位置が、次いで、次のように、最大エネルギーを有する分節のインデックスとして計算される。

追加の高レベル特徴抽出器301は、現在のフレームnの冒頭(分節0)から3/4(分節24)までの入力信号s(n)のエネルギーE_ata(k)の平均(下の関係式の分母)に対して、現在のフレームnのアタック(分節k=k_ata)から末尾(分節31)までの入力サウンド信号s(n)のエネルギーE_ata(k)の平均(下の関係式の分子)を比較することによって、アタックの強度str_ataを推定する。強度str_ataのこの推定は、たとえば、以下の関係式を使用して行われる。

str_ataの値が、たとえば、8よりも大きい場合、アタックが十分強いと見なされ、分節k_ataが、現在のフレームnの内側のアタックの位置をシグナリングするためのインジケータとして使用される。そうでない場合、インジケータk_ataは、アタックが識別されなかったことを示す0に設定される。アタックは、IVASフレームタイプ選択論理(参考文献[1]を参照)によってシグナリングされるGENERICフレームタイプにおいてのみ検出される。誤ったアタック検出を減らすために、たとえば、以下の関係式を使用して、アタックが識別された分節k=k_ataのエネルギーE_ata(k_ata)が、現在のフレームn(分節2～21)の最初の

における分節のエネルギーE_ata(k)と比較される(str_{3_4}(k))。

分節k=2,..,21に対する比較値str_{3_4}(k)のうちのいずれかが、たとえば、2(k≠k_ata)よりも小さい場合、k_ataは、アタックが識別されなかったことを示す0に設定される。言い換えれば、アタックを含む分節のエネルギーは、現在のフレームの最初の

における他の分節のエネルギーの、少なくとも2倍大きくなければならない。

上記で説明したメカニズムは、主に現在のフレームの最後の

においてアタックが検出されることを保証し、そのことは、それらをACELP技術またはGSC技術のいずれかを用いた符号化にとって好適にする。

IVAS FEC分類モジュール(参考文献[1]を参照)によってUNVOICED_CLAS、UNVOICED_TRANSITION、またはONSETとして分類される、発声されないフレームの場合、追加の高レベル特徴抽出器301は、たとえば、関係式

を使用して、アタック分節k=k_ataのエネルギーE_ata(k_ata)(下の関係式の分子)を、アタックに先行する、前の32個の分節におけるエネルギーE_ata(k)の平均(下の関係式の分母)と比較することによって、アタックの強度str_ataを推定する。

上の関係式において、分母の中の負のインデックスは、前のフレームにおける分節エネルギーE_ata(k)の値を指す。上の式を用いて計算された強度str_ataが、たとえば、16よりも大きい場合、アタックは十分に強く、k_ataは、現在のフレームの内側のアタックの位置をシグナリングするために使用される。そうでない場合、k_ataは、アタックが識別されなかったことを示す0に設定される。IVAS FEC分類モジュールによって最後のフレームがUNVOICED_CLASとして分類された場合には、しきい値は、たとえば、16ではなく12に設定される。

IVAS FEC分類モジュール(参考文献[1]を参照)によってUNVOICED_CLAS、UNVOICED_TRANSITION、またはONSETとして分類される、発声されないフレームの場合、検出されたアタックを十分に強いものと見なすために満たされるべき別の条件がある。次のように、すなわち、

であって、

のように計算され得る長期平均エネルギー

と比較したとき、アタックのエネルギーE_ata(k)は十分に大きくなければならない。たとえば、比

が20よりも大きい場合、アタックは十分に強い。そうでない場合、k_ataは、アタックが識別されなかったことを示す0に設定される。

前のフレームの中でアタックがすでに検出されている場合には、k_ataは、現在のフレームnにおいて0にリセットされ、アタックスミアリング効果を防止する。

(上記で説明したようなUNVOICEDおよびGENERICを除外して)他のフレームタイプの場合、追加の高レベル特徴抽出器301は、たとえば、以下の比

に従って、他の分節におけるエネルギーE_ata(k)に対して、アタックを含む分節k=k_ataのエネルギーE_ata(k_ata)を比較し、k=2,..,21(k≠k_ata)に対する比較値str_other(k)のうちのいずれかが、たとえば、1.3よりも小さい場合、アタックは弱いと見なされ、k_ataは0に設定される。そうでない場合、分節k_ataは、現在のフレームの内側のアタックの位置をシグナリングするために使用される。

したがって、分節アタック検出に関する、追加の高レベル特徴検出器301の最終出力は、アタックを含む分節のインデックスk=k_ataであるか、またはk_ata=0である。インデックスが正である場合、アタックは検出される。そうでない場合、アタックは識別されない。

3.1.3 信号調性推定
2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第2のステージにおける入力サウンド信号の調性は、4kHzまでの入力信号の低い方の周波数範囲の中のスペクトル安定性と調和性の両方を反映する、調性バイナリフラグとして表現される。追加の高レベル特徴抽出器301は、IVASエンコーダにおける音の安定性分析の副産物である相関マップS_map(n,k)から、この調性バイナリフラグを計算する(参考文献[1]を参照)。

相関マップは、信号安定性と調和性の両方の測度である。相関マップは、対数領域における残差エネルギースペクトルの最初の、たとえば、80個のビンE_dB,res(k)(k=0,..,79)から計算される(参考文献[1]を参照)。相関マップは、ピークが存在する残差エネルギースペクトルの分節において計算される。これらの分節は、パラメータi_min(p)によって定義され、ここで、p=1,...,N_minは分節インデックスであり、N_minは分節の総数である。

特定の分節xに属するインデックスのセットを
PK(p)={i|i≧i_min(p)かつi<i_min(p+1)かつi<80}
として定義しよう。このとき、相関マップは次のように計算されてよい。

相関マップM_cor(PK(p))は、たとえば、以下の2つの関係式

を使用して、IIRフィルタを用いて平滑化され、周波数範囲k=0,...,79の中のビンにわたって合計されて、単一の数をもたらし、ただし、nは現在のフレームを示し、kは周波数ビンを示す。上の式の中で使用される重みβ(n)は、ソフトVADパラメータと呼ばれる。それは0に初期化され、各フレームにおいて
β(n)=0.95・β(n-1)+0.05・f_VAD(n)
として更新されてよく、ただし、f_VAD(n)は、IVASエンコーダからのバイナリVADフラグである(参考文献[1]を参照)。重みβ(n)は、たとえば、(0.05,0.95)という範囲に限定される。抽出器301は、S_massを適応しきい値thr_massと比較することによって調性フラグf_tonを設定する。しきい値thr_massは、たとえば、0.65に初期化され、各フレームにおいて、たとえば、0.01刻みでインクリメントまたはデクリメントされる。S_massが0.65よりも大きい場合、しきい値thr_massは0.01だけ大きくされ、そうでない場合、0.01だけ小さくされる。しきい値thr_massは、たとえば、0.75を上限とし、たとえば、0.55を下限とする。このことは、小さいヒステリシスを調性フラグf_tonに加える。

S_massがthr_massよりも大きい場合、調性フラグf_tonは1に設定される。そうでない場合、それは0に設定される。

3.1.4 スペクトルピーク対平均比
コアエンコーダ選択メカニズムにおいて使用される別の高レベル特徴は、スペクトルピーク対平均比である。この特徴は、入力サウンド信号s(n)のスペクトルシャープネスの測度である。抽出器301は、たとえば、0から4kHzまでの範囲の中の、対数領域における入力信号s(n)の電力スペクトルS_LT(n,k)(k=0,...,79)から、この高レベル特徴を計算する。ただし、電力スペクトルS_LT(n,k)は、たとえば、以下の関係式

を使用して、IIRフィルタを用いて最初に平滑化され、ただし、nは現在のフレームを示し、kは周波数ビンを示す。スペクトルピーク対平均比は、たとえば、以下の関係式

を使用して計算される。

3.2 コアエンコーダ初期選択器
図3を参照すると、2ステージ音声/音楽分類方法の第2のステージ350は、コアエンコーダの初期選択の動作352を備える。動作352を実行するために、2ステージ音声/音楽分類デバイスの第2のステージ300は、コアエンコーダ初期選択器302を備える。

選択器302によるコアエンコーダの初期選択は、本明細書において上記で説明したような、(a)相対フレームエネルギーE_r、(b)2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第1のステージの中で選択された最終クラスd_SMC(n)、ならびに(c)追加の高レベル特徴r_p2a(n)、S_mass、およびthr_massに基づく。コアエンコーダ初期選択器302によって使用される選択メカニズムが、図14の概略図に示される。

「0」がACELP技術を表し、「1」がGSC技術を表し、「2」がTCX技術を表して、d_core∈{0,1,2}が、図14の中のメカニズムによって選択されるコアエンコーダ技術を示すものとする。したがって、コアエンコーダ技術の初期選択は、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法の第1のステージからの最終クラスd_SMC(n)割当てに厳密に従う。TCX技術がより良好な品質をもたらすので、例外は、TCX技術が選択されるべき強い音調の信号に関係する。

3.3 コアエンコーダ選択改良器
図3を参照すると、2ステージ音声/音楽分類方法の第2のステージ350は、コアエンコーダの初期選択の改良の動作353を備える。動作353を実行するために、2ステージ音声/音楽分類デバイスの第2のステージ300は、コアエンコーダ選択改良器303を備える。

d_core=1であるとき、すなわち、コアコーディングのためにGSCコアエンコーダが最初に選択されるとき、コアエンコーダ選択改良器303は、コアエンコーダ技術を変更することがある。この状況は、たとえば、400Hz未満で低いエネルギーを有するMUSICとして分類される音楽項目に対して起こり得る。入力信号の、影響を受ける分節は、以下のエネルギー比

を分析することによって識別されてよく、ただし、E_bin(k)(k=0,...,127)は、線形領域における入力信号の周波数ビンkごとの電力スペクトルであり、E_totは信号分節(フレーム)の全エネルギーである。

分子における合計は、0～400Hzという周波数範囲に対応するエネルギースペクトルの最初の8個の周波数ビンにわたって延びる。コアエンコーダ選択改良器303は、適度に高い確度を有するMUSICとして以前に分類されたフレームにおけるエネルギー比rat_LFを計算および分析する。コアエンコーダ技術は、たとえば、次の条件

の下で、GSCからACELPに変更される。

極めて短く安定なピッチ期間を有する信号の場合、GSCは最適なコアコーダ技術ではない。したがって、非限定的な例として、f_sp=1であるとき、コアエンコーダ選択改良器303は、次のようにコアエンコーダ技術をGSCからACELPまたはTCXに変更する。

小さいエネルギー変動しか伴わない大きく相関した信号は、GSCコアエンコーダ技術がそれにとって好適でない別のタイプの信号である。これらの信号に対して、コアエンコーダ選択改良器303は、コアエンコーダ技術をGSCからTCXに切り替える。非限定的な例として、コアエンコーダのこの変更は、次の条件

が満たされるときに行われ、ただし、

は、現在のフレームnにおける開ループピッチ分析(参考文献[1]を参照)の、最初のハーフフレームからの絶対ピッチ値である。

最後に、非限定的な例では、コアエンコーダ選択改良器303は、次の条件が満たされるとすれば、アタックが検出されるフレームにおいて初期コアエンコーダ選択をGSCからACELPに変更してよい。

フラグf_{no_GSC}は、コアエンコーダ技術の変更が有効にされているというインジケータである。

上の条件は、上昇するエネルギーを有する分節においてのみGSCからACELPへのコアエンコーダのこの変更が起こることを保証する。上の条件が満たされ、かつ同時に、IVASコーデックにおいて遷移フレームカウンタTC_cntが1に設定されている場合(参考文献[1])、コアエンコーダ選択改良器303はコアエンコーダをACELPに変更する。すなわち、

である。追加として、コアエンコーダ技術がACELPに変更されるとき、フレームタイプはTRANSITIONに設定される。このことは、ACELPコアエンコーダのTRANSITIONモードを用いてアタックが符号化されることを意味する。

上のセクション3.1.2において説明したように、追加の高レベル特徴検出動作351の分節アタック検出手順によってアタックが検出される場合、このアタックのインデックス(位置)k_ataがさらに調査される。検出されたアタックの位置がフレームnの最後のサブフレームの中にある場合、コアエンコーダ選択改良器303は、たとえば、次の条件が満たされるとき、コアエンコーダ技術をACELPに変更する。

追加として、コアエンコーダ技術がACELPに変更されるとき、フレームタイプはTRANSITIONに設定され、新たなアタック「フラグ」f_ataが次のように設定される。
f_ata=k_ata+1

このことは、ACELPコアエンコーダのTRANSITIONモードを用いてアタックが符号化されることを意味する。

検出されたアタックの位置が最後のサブフレームの中に位置しないが少なくとも最初のサブフレームの最初の4分の1を越える場合、コアエンコーダ選択は変更されず、アタックはGSCコアエンコーダを用いて符号化される。前の事例と同様に、新たなアタック「フラグ」f_ataが、次のように設定されてよい。
f_{no_GSC}=1かつTC_cnt≠1かつk_ata>4の場合、f_ata=k_ata+1

パラメータk_ataは、検出されたアタックの位置を反映することを意図され、そのため、アタックフラグf_ataはいくぶん冗長である。しかしながら、他の文書との、かつIVASコーデックのソースコードとの整合性のために、本開示ではそれが使用される。

最後に、コアエンコーダ選択改良器303は、初期選択の間にACELPコアコーダ技術がそれに対して選択されている音声フレームにおいて、フレームタイプをGENERICからTRANSITIONに変更する。この状況は、局所的なVADフラグが1に設定されており、かつセクション3.1.2で説明した追加の高レベル特徴検出動作351の分節アタック検出手順によってアタックがその中で検出されている、すなわち、k_ata>0である、アクティブなフレームにおいてのみ起こる。

アタックフラグは、このとき、前の状況におけるものと類似である。すなわち、
f_ata=k_ata+1
である。

4. ハードウェア構成要素の例示的な構成
図15は、2ステージ音声/音楽分類デバイスを含む上述のIVASコーデックを形成するハードウェア構成要素の例示的な構成の簡略化されたブロック図である。

2ステージ音声/音楽分類デバイスを含むIVASコーデックは、モバイル端末の一部として、ポータブルメディアプレーヤの一部として、または任意の類似のデバイスの中に実装されてよい。(図15の中の1500として識別される)2ステージ音声/音楽分類デバイスを含むIVASコーデックは、入力部1502、出力部1504、プロセッサ1506、およびメモリ1508を備える。

入力部1502は、入力サウンド信号s(n)、たとえば、IVASコーデックのエンコーダの場合には、デジタルまたはアナログの形態の入力ステレオサウンド信号の左チャネルおよび右チャネルを受信するように構成される。出力部1504は、IVASコーデックのエンコーダの場合には、符号化され多重化されたビットストリーム供給するように構成される。入力部1502および出力部1504は、共通のモジュール、たとえば、シリアル入力/出力デバイスの中に実装されてよい。

プロセッサ1506は、入力部1502に、出力部1504に、かつメモリ1508に、動作可能に接続される。プロセッサ1506は、添付図面に示すように、かつ/または本開示で説明するように、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含む上述のIVASコーデックの様々な要素および動作の機能をサポートするコード命令を実行するための、1つまたは複数のプロセッサとして実現される。

メモリ1508は、プロセッサ1506によって実行可能なコード命令を記憶するための非一時的メモリ、詳細には、実行されたとき、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むIVASコーデックの要素および動作をプロセッサに実施させる、非一時的命令を記憶するプロセッサ可読メモリを備えてよい。メモリ1508はまた、プロセッサ1506によって実行される様々な機能からの中間処理データを記憶するためのランダムアクセスメモリまたはバッファを備えてよい。

2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むIVASコーデックの説明が、例示的なものにすぎず、いかなる形でも限定的であることを意図されないことを、当業者は了解されよう。他の実施形態は、本開示の利益を有するそのような当業者にそれらを容易に示唆する。さらに、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含む、開示するIVASコーデックは、サウンド、たとえば、ステレオサウンドを符号化および復号することの、既存のニーズおよび問題に有益な解決策を与えるようにカスタマイズされてよい。

明快さのために、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むIVASコーデックの実装形態の型通りの特徴のすべてが図示および説明されているとは限らない。当然、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むIVASコーデックのそのような任意の実際の実装形態の開発において、アプリケーション関連の、システム関連の、ネットワーク関連の、およびビジネス関連の制約への適合などの、開発者の特定の目標を達成するために、数多くの実装形態固有の決定が行われる必要があり得ること、ならびにこれらの特定の目標が、ある実装形態から別の実装形態に、またある開発者から別の開発者に変わることが、諒解されよう。その上、開発の取組みは、複雑であり時間がかかる場合があるが、とはいえ、本開示の利益を有するサウンド処理の分野における当業者にとって、エンジニアリングの型通りの仕事であることになることが、諒解されよう。

本開示によれば、本明細書で説明した要素、処理動作、および/またはデータ構造は、様々なタイプのオペレーティングシステム、コンピューティングプラットフォーム、ネットワークデバイス、コンピュータプログラム、および/または汎用の機械を使用して実施されてよい。加えて、配線接続されたデバイス、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)などの、さほど汎用的でない性質のデバイスも使用され得ることを、当業者は認識されよう。一連の動作および下位動作を備える方法が、プロセッサ、コンピュータ、または機械によって実施され、かつそれらの動作および下位動作が、プロセッサ、コンピュータ、または機械によって読取り可能な一連の非一時的コード命令として記憶され得る場合、それらは有形および/または非一時的な媒体上に記憶されてよい。

本明細書で説明したような、2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むIVASコーデックの要素および処理動作は、本明細書で説明した目的に適した、ソフトウェア、ファームウェア、ハードウェア、あるいはソフトウェア、ファームウェア、またはハードウェアの任意の組合せを備えてよい。

2ステージ音声/音楽分類デバイスおよび2ステージ音声/音楽分類方法を含むIVASコーデックでは、様々な処理動作および下位動作が様々な順序で実行されてよく、処理動作および下位動作のうちのいくつかが随意であってよい。

本開示は、それらの非制限的で例示的な実施形態として上記で説明されているが、これらの実施形態は、本開示の趣旨および本質から逸脱することなく添付の特許請求の範囲内で自由に修正されてよい。

参考文献
本開示は、その全内容が参照により本明細書に組み込まれる、以下の参考文献を挙げる。
[1] 3GPP TS 26.445, v.12.0.0, "Codec for Enhanced Voice Services (EVS); Detailed Algorithmic Description", Sep 2014.
[2] M. Neuendorf, M. Multrus, N. Rettelbach, G. Fuchs, J. Robillard, J. Lecompte, S. Wilde, S. Bayer, S. Disch, C. Helmrich, R. Lefevbre, P. Gournay, et al., "The ISO/MPEG Unified Speech and Audio Coding Standard - Consistent High Quality for All Content Types and at All Bit Rates", J. Audio Eng. Soc., vol. 61, no. 12, pp. 956-977, Dec. 2013.
[3] F. Baumgarte, C. Faller, "Binaural cue coding - Part I: Psychoacoustic fundamentals and design principles," IEEE Trans. Speech Audio Processing, vol. 11, pp. 509-519, Nov. 2003.
[4] Tommy Vaillancourt, "Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels," PCT Application WO2017/049397A1.
[5] 3GPP SA4 contribution S4-170749 "New WID on EVS Codec Extension for Immersive Voice and Audio Services", SA4 meeting #94, June 26-30, 2017, http://www.3gpp.org/ftp/tsg_sa/WG4_CODEC/TSGS4_94/Docs/S4-170749.zip
[6] V. Malenovsky, T. Vaillancourt, W. Zhe, K. Choo and V. Atti, "Two-stage speech/music classifier with decision smoothing and sharpening in the EVS codec," 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, QLD, 2015, pp. 5718-5722.
[7] T. Vaillancourt and M. Jelinek, "Coding generic audio signals at low bitrates and low delay", U.S. Patent No. 9,015,038 B2.
[8] K.S. Rao and A.K. Vuppala, Speech Processing in Mobile Environments, Appendix A: MFCC features, Springer International Publishing, 2014
[9] Box, G. E. P. and Cox, D. R. (1964). An analysis of transformations, Journal of the Royal Statistical Society, Series B, 26, 211-252.
[10] D'Agostino, R. and Pearson, E. S. (1973), "Tests for departure from normality", Biometrika, 60, 613-622.
[11] D'Agostino, A. J. Belanger and R. B. D'Agostino Jr., "A suggestion for using powerful and informative tests of normality", American Statistician 44, pp. 316-321, 1990.
[12] I. Jolliffe, Principal component analysis. New York: Springer Verlag, 2002.

100 ステレオサウンド処理および通信システム
101 通信リンク
102 マイクロフォン
103 左チャネル
104 アナログデジタル(A/D)変換器
105 左チャネル
106 ステレオサウンドエンコーダ
107 ビットストリーム
108 誤り訂正エンコーダ
109 誤り訂正デコーダ
110 ステレオサウンドデコーダ
111 ビットストリーム
112 ビットストリーム
113 左チャネル
114 左チャネル
115 デジタルアナログ(D/A)変換器
116 ラウドスピーカーユニットまたはバイノーラルヘッドフォン
122 マイクロフォン
123 右チャネル
125 右チャネル
133 右チャネル
134 右チャネル
136 ラウドスピーカーユニットまたはバイノーラルヘッドフォン
200 第1のステージ
201 ステートマシン
202 オンセット/アタック検出器
203 特徴抽出器
204 異常値検出器
205 短期特徴ベクトルフィルタ
206 非線形特徴ベクトル変換器
207 主成分分析器
208 ガウシアン混合モデル(GMM)計算器
209 適応平滑器
210 状態依存カテゴリー分類器
300 第2のステージ
301 追加の高レベル特徴抽出器
302 コアエンコーダ初期選択器
303 コアエンコーダ選択改良器
401 INACTIVE状態
402 ENTRY状態
404 ACTIVE状態
407 UNSTABLE状態
1500 IVASコーデック
1502 入力部
1504 出力部
1506 プロセッサ
1508 メモリ

Claims

入力サウンド信号を分類するための、かつ前記サウンド信号を符号化するためのコアエンコーダを選択するための、2ステージ音声/音楽分類デバイスであって、
前記入力サウンド信号をいくつかの最終クラスのうちの1つに分類するための第1のステージと、
前記入力サウンド信号の高レベル特徴を抽出するための、かつ前記抽出された高レベル特徴および前記第1のステージの中で選択された前記最終クラスに応じて、前記入力サウンド信号を符号化するための前記コアエンコーダを選択するための、第2のステージと
を備える2ステージ音声/音楽分類デバイス。
前記第1のステージが、相対フレームエネルギーに基づく、前記入力サウンド信号の中のオンセット/アタックの検出器を備える、請求項1に記載の2ステージ音声/音楽分類デバイス。
オンセット/アタックの前記検出器が、現在のフレームの中の前記入力サウンド信号の相対エネルギーと前のフレームの中の前記入力サウンド信号の相対エネルギーとの間の差分の累積和をすべてのフレームの中で更新する、請求項2に記載の2ステージ音声/音楽分類デバイス。
前記累積和を前記現在のフレームの中で更新するために、オンセット/アタックの前記検出器が、(a)前記前のフレームの中で更新された前記累積和と、(b)前記現在のフレームの中の前記入力サウンド信号の前記相対エネルギーと前記前のフレームの中の前記入力サウンド信号の前記相対エネルギーとの間の前記差分とを加算する、請求項3に記載の2ステージ音声/音楽分類デバイス。
前記現在のフレームの中の前記入力サウンド信号の前記相対エネルギーが前記前のフレームの中の前記入力サウンド信号の前記相対エネルギーよりも大きい場合のみ、オンセット/アタックの前記検出器が前記累積和を前記現在のフレームの中で更新する、請求項3または4に記載の2ステージ音声/音楽分類デバイス。
オンセット/アタックの前記検出器が、オンセット/アタックフレームのカウンタを更新するために前記累積和を使用し、前記カウンタは、前記累積和が所与の値よりも大きい場合、ステートマシンによって決定される前記入力サウンド信号のENTRY状態においてすべてのフレームの中でインクリメントされ、そうでない場合、リセットされる、請求項3から5のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
オンセット/アタックの前記検出器は、オンセット/アタックの検出を示すための所与の範囲内に前記累積和が位置する場合、第1の値に設定され、そうでない場合、オンセット/アタックの非検出を示すための第2の値に設定された、バイナリフラグを出力する、請求項3から6のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記第1のステージが、メル周波数ケプストラム係数特徴を含む、前記入力サウンド信号の特徴の抽出器を備える、請求項1から7のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記第1のステージが、前記入力サウンド信号の以下の特徴、すなわち、
(a)開ループピッチ特徴、
(b)発声測度特徴、
(c)LP分析からの線スペクトル周波数に関係する特徴、
(d)前記LP分析からの残差エネルギーに関係する特徴、
(e)短期相関マップ特徴、
(f)非定常性特徴、
(g)メル周波数ケプストラム係数特徴、
(h)電力スペクトル差分特徴、および
(i)スペクトル定常性特徴
のうちの少なくとも1つの抽出器を備える、
請求項1から7のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記第1のステージが、前記入力サウンド信号の特徴の抽出器、および前記抽出された特徴のヒストグラムに基づいて異常値特徴を検出するための異常値検出器を備える、請求項1から7のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記異常値検出器が、特徴ごとに下限および上限を計算し、前記特徴の値を前記下限および前記上限と比較し、前記下限と前記上限との間で規定された範囲の外側にその値がある前記特徴に異常値特徴としてマークする、請求項10に記載の2ステージ音声/音楽分類デバイス。
前記異常値検出器が、前記特徴の正規化されたバージョンの前記ヒストグラム、前記特徴に対する前記ヒストグラムの最大値を含む周波数ビンのインデックス、およびしきい値を使用して前記下限および前記上限を計算する、請求項11に記載の2ステージ音声/音楽分類デバイス。
前記異常値検出器が、いくつかの検出された異常値特徴に基づいて異常値として前記特徴のベクトルを決定する、請求項10から12のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記異常値検出器が、前記異常値ベクトルを廃棄するのではなく、前記ベクトルの中の前記異常値特徴を少なくとも1つの前のフレームから取得された特徴値と置き換える、請求項13に記載の2ステージ音声/音楽分類デバイス。
前記異常値検出器は、検出された異常値特徴のカウンタを備え、検出された異常値特徴の個数が、特徴の前記ベクトルが異常値であることを示すための所与の値に等しいかまたそれよりも多いとき、フラグを所与の値に設定する、請求項13または14に記載の2ステージ音声/音楽分類デバイス。
前記第1のステージが、前記抽出された特徴の短期ベクトルを平滑化するためのフィルタを備える、請求項10から15のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記フィルタが、忘却係数を使用する無限インパルス応答フィルタである、請求項16に記載の2ステージ音声/音楽分類デバイス。
前記フィルタが、ステートマシンによって決定されるような前記入力サウンド信号のENTRY状態またはACTIVE状態においてフレームの中で特徴ベクトル平滑化を実行せず、特徴ベクトル平滑化が実行されないとき、前記フィルタ処理されていないベクトルの前記特徴の値が使用される、請求項16または17に記載の2ステージ音声/音楽分類デバイス。
前記第1のステージが、前記入力サウンド信号から抽出された非正規特徴を、正規形状を有する特徴に変換するための非線形特徴ベクトル変換器を備える、請求項1から18のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記非線形特徴ベクトル変換器が、非正規特徴を、正規形状を有する特徴に変換するためにBox-Cox変換を使用する、請求項19に記載の2ステージ音声/音楽分類デバイス。
前記非線形特徴ベクトル変換器によって実行される前記Box-Cox変換が、指数を用いた電力変換を使用し、前記指数の異なる値が、異なるBox-Cox変換曲線を規定し、前記非線形特徴ベクトル変換器が、正常性テストに基づいて前記Box-Cox変換に対する前記指数の値を選択する、請求項20に記載の2ステージ音声/音楽分類デバイス。
前記非線形特徴ベクトル変換器によって実行される前記Box-Cox変換が、前記抽出された特徴のすべての入力値が正であることを保証するようにバイアスを使用する、請求項20または21に記載の2ステージ音声/音楽分類デバイス。
前記正常性テストが、スキューおよび尖度測度を生成し、前記非線形特徴ベクトル変換器が、前記スキューおよび尖度測度に関係する条件を満たす特徴のみに前記Box-Cox変換を適用する、請求項21に記載の2ステージ音声/音楽分類デバイス。
前記第1のステージが、サウンド信号特徴次元数を小さくするとともにサウンド信号クラス弁別性を大きくするための、主成分の分析器を備え、主成分の前記分析器が、前記入力サウンド信号から抽出された、できる限り相関した特徴のセットを変換して、前記主成分を形成する線形に相関しない変数のセットにするための、直交変換を実行する、請求項1から23のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
主成分の前記分析器が、前記ベクトルの平均を除去するとともに前記ベクトルを単位分散にスケーリングすることによって、前記入力サウンド信号の抽出された特徴のベクトルを標準化する、請求項24に記載の2ステージ音声/音楽分類デバイス。
主成分の前記分析器が、以下の関係式

を使用して前記特徴ベクトルを変換し、ただし、

が列特徴ベクトルであり、

が主成分分析ローディングの行列であり、上付き文字Tがベクトル転置を示す、
請求項25に記載の2ステージ音声/音楽分類デバイス。
前記第1のステージが、前記入力サウンド信号から抽出された特徴の所与のベクトルが音声ガウシアン混合モデル(GMM)によって生成された確率に比例する第1のスコア、および特徴の前記所与のベクトルが音楽GMMによって生成された確率に比例する第2のスコアを決定するための、GMM計算器を備え、前記GMM計算器が、これらの第1のスコアと第2のスコアとの間の差分を計算して差分スコアを生成することによって前記第1のスコアと前記第2のスコアとを合成する、請求項1から26のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
負の差分スコアは、前記入力サウンド信号が音声であることを示し、正の差分スコアは、前記入力サウンド信号が音楽であることを示す、請求項27に記載の2ステージ音声/音楽分類デバイス。
前記GMM計算器が、前記第1のスコアと前記第2のスコアとの間の前記差分の前記計算において決定バイアスを使用する、請求項27または28に記載の2ステージ音声/音楽分類デバイス。
前記GMM計算器が、前記第1のスコアと前記第2のスコアとの間の前記差分を計算するために前記第2のスコアから前記第1のスコアを減算し、前記決定バイアスが、前記差分に加算される非負の値である、請求項29に記載の2ステージ音声/音楽分類デバイス。
前記GMM計算器が、前記入力サウンド信号が音声、音楽、または雑音信号であることを示すラベルをトレーニングデータベースのアクティブなフレームの中で予測し、前記GMM計算器が、前記決定バイアスを見つけるために前記ラベルを使用する、請求項29または30に記載の2ステージ音声/音楽分類デバイス。
前記GMM計算器が、前記決定バイアスを使用して前記差分スコアを計算し、前記差分スコアが、所与の範囲内に限定された値を有する、請求項29から31のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記第1のステージが、前記GMM計算器からの前記差分スコアの適応平滑器を備える、請求項27から32のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記適応平滑器が、忘却係数を使用する無限インパルス応答(IIR)フィルタを備える、請求項33に記載の2ステージ音声/音楽分類デバイス。
前記適応平滑器が、現在のフレームの相対エネルギーに線形に比例し所与の区間内に限定される第1のパラメータを使用して前記忘却係数を計算する、請求項34に記載の2ステージ音声/音楽分類デバイス。
前記適応平滑器が、前記差分スコアの導関数に比例する第2のパラメータを使用して前記忘却係数を計算する、請求項34または35に記載の2ステージ音声/音楽分類デバイス。
前記適応平滑器が、以下の動作、すなわち、
(a)前記差分スコアの短期平均を計算すること、
(b)前記差分スコアが0よりも小さく前記短期平均よりも小さい場合、前記第2のパラメータを0に設定すること、
(c)最初のフレームにおいて、前記差分スコアが0よりも小さく前記短期平均よりも小さく、かつ前記短期平均が0よりも大きい場合、前記第2のパラメータをマイナスの前記差分スコアに設定し、そうでない場合、前記適応平滑器が前記第2のパラメータを大きくすること、
(d)前記差分スコアが0および前記短期平均よりも小さくない場合、前記第2のパラメータを0にリセットすること、ならびに
(e)最後に前記第2のパラメータを所与の区間にマッピングすること
のうちの少なくとも1つを使用して前記第2のパラメータを計算する、
請求項36に記載の2ステージ音声/音楽分類デバイス。
前記適応平滑器が、潜在的な音楽オンセットを示す、前記差分スコアの突然の上昇に反応する第3のパラメータを使用して、前記忘却係数を計算する、請求項34から37のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記適応平滑器が、以下の動作、すなわち、
(a)前記差分スコアの短期平均を計算すること、
(b)前記第3のパラメータを0に設定するが、(a)前記入力サウンド信号が、ステートマシンによって決定されるようなACTIVE状態にあり、(b)前記短期平均が0よりも大きく、かつ(c)現在のフレームにおける前記短期平均が前のフレームにおける前記短期平均よりも大きい場合、前記第3のパラメータを修正すること、
(c)最初のフレームにおいて、(a)前記入力サウンド信号が前記ACTIVE状態にあり、(b)前記現在のフレームにおける前記短期平均が0よりも大きく、(c)前記現在のフレームにおける前記短期平均が前記前のフレームにおける前記短期平均よりも大きく、かつ(d)前記前のフレームにおける前記短期平均が0よりも小さい場合、前記第3のパラメータをマイナスの前記短期平均に設定し、そうでない場合、前記適応平滑器が前記第3のパラメータを大きくすること、
(d)(a)前記入力サウンド信号が前記ACTIVE状態になく、(b)前記短期平均が0よりも大きくなく、かつ(c)前記現在のフレームにおける前記短期平均が前記前のフレームにおける前記短期平均よりも大きくない場合、前記第3のパラメータを0にリセットすること、および
(e)最後に前記第3のパラメータを所与の区間にマッピングすること
のうちの少なくとも1つを使用して前記第3のパラメータを計算する
請求項38に記載の2ステージ音声/音楽分類デバイス。
前記適応平滑器が、前記差分スコアの長期平均および長期分散を分析し、以下の動作、すなわち、
(a)前記入力サウンド信号が、ステートマシンによって決定されるようなENTRY状態にある場合、前記長期平均を前記差分スコアに、かつ前記長期分散を0に設定すること、
(b)前記差分スコアの長期標準偏差に対応する長期平均対長期分散比を計算すること、
(c)前記長期標準偏差が所与の値よりも大きいフレームにおける前記忘却係数を小さくすること、および
(d)前記IIRフィルタの前記忘却係数を所与の範囲内に限定すること
のうちの少なくとも1つを実行する、
請求項34から39のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記いくつかの最終クラスが、音声に関係する第1の最終クラス、音楽に関係する第2の最終クラス、およびバックグラウンドミュージックを伴う音声に関係する第3の最終クラスを備える、請求項1から40のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記第1のステージが、SPEECH/NOISE、MUSIC、およびUNCLEARを含む3つの最終クラスのうちの1つへの、前記入力サウンド信号の状態依存カテゴリー分類器を備え、前記最終クラスUNCLEARが、バックグラウンドミュージックを伴う音声に関係する、請求項27から40のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
現在のフレームの中で、前記入力サウンド信号が、ステートマシンによって決定されるようなENTRY状態にあるとき、前記状態依存カテゴリー分類器が、前記現在のフレームに先行する、前記ENTRY状態におけるフレームにおいて計算される、前記差分スコアの重み付き平均に基づいて、前記3つの最終クラスSPEECH/NOISE、MUSIC、およびUNCLEARのうちの1つを選択する、請求項42に記載の2ステージ音声/音楽分類デバイス。
絶対フレームエネルギーが前記現在のフレームの中で所与の値よりも低い場合、前記状態依存カテゴリー分類器が、前記最終クラスをSPEECH/NOISEに設定する、請求項43に記載の2ステージ音声/音楽分類デバイス。
前記入力サウンド信号の前記ENTRY状態におけるフレームにおける前記差分スコアの前記重み付き平均が2.0よりも小さい場合、前記状態依存カテゴリー分類器が、前記最終クラスをSPEECH/NOISEに設定する、請求項43または44に記載の2ステージ音声/音楽分類デバイス。
前記入力サウンド信号の前記ENTRY状態におけるフレームにおける前記差分スコアの前記重み付き平均が2.0よりも大きい場合、前記状態依存カテゴリー分類器が、前記最終クラスを、前記現在のフレームにおける前記差分スコアが2.0よりも大きい場合にはMUSICに設定し、前記現在のフレームにおける前記差分スコアが2.0よりも大きくない場合にはUNCLEARに設定する、請求項43から45のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記ステートマシンによって決定されるようなENTRY以外の前記入力サウンド信号の状態において、前記状態依存カテゴリー分類器が、平滑化されたバージョンの前記差分スコア、および前記前のフレームにおいて選択された前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARに基づいて、前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARを選択する、請求項43から46のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記状態依存カテゴリー分類器が、前記現在のフレームにおける前記最終クラスを、前のフレームにおいて設定された前記クラスSPEECH/NOISE、MUSIC、またはUNCLEARに最初に初期化する、請求項42から47のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記状態依存カテゴリー分類器が、前記現在のフレームにおける前記最終クラスを、前記前のフレームにおいて設定された前記クラスSPEECH/NOISE、MUSIC、またはUNCLEARに最初に初期化し、前記現在のフレームの中で、前記状態依存カテゴリー分類器が、前記平滑化された差分スコアによる所与のしきい値の横断に応答して、前記前のフレームにおいて設定された前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARから、前記最終クラスのうちの別の最終クラスに遷移する、請求項47に記載の2ステージ音声/音楽分類デバイス。
前記状態依存カテゴリー分類器が、所与の個数のフレームの後、前のフレームにおいて設定された前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARから、これらのクラスのうちの別のクラスに遷移する、請求項42から45のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
ACTIVEフレームのカウンタが第1のしきい値よりも小さく、差分フレームエネルギーの累積和が0に等しく、かつ前記平滑化された差分スコアが第2のしきい値よりも大きい場合、前記状態依存カテゴリー分類器が、前記前のフレームにおいて設定された前記最終クラスSPEECH/NOISEから前記最終クラスUNCLEARに遷移する、請求項49または50に記載の2ステージ音声/音楽分類デバイス。
前記入力サウンド信号の開ループピッチ分析の副産物であるショートピッチフラグが所与の値に等しく、かつ平滑化されたバージョンの前記差分スコアが所与のしきい値よりも大きい場合、前記状態依存カテゴリー分類器が、前のフレームにおいて設定された前記最終クラスSPEECH/NOISEから前記最終クラスUNCLEARに遷移する、請求項42から51のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記状態依存カテゴリー分類器が、前記SPEECH/NOISEクラスと前記MUSICクラスとの間での直接の遷移を実行しない、請求項48から52のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記第2のステージが、現在のフレームの中の前記入力サウンド信号の追加の高レベル特徴の抽出器を備え、前記追加の高レベル特徴が、前記入力サウンド信号の調性を備える、請求項1から53のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記第2のステージが、現在のフレームの中の前記入力サウンド信号の追加の高レベル特徴の抽出器を備え、前記追加の高レベル特徴が、以下の特徴、すなわち、
(a)前記入力サウンド信号の調性、
(b)前記入力サウンド信号の長期安定性であって、追加の高レベル特徴の前記抽出器が、前記入力サウンド信号の長期安定性を示すフラグを生成する、長期安定性、
(c)前記入力サウンド信号の中の分節アタックであって、追加の高レベル特徴の前記抽出器が、(a)前記入力サウンド信号の現在のフレームの中での分節アタックの位置、または(b)分節アタックの不在の、インジケータを生成する、分節アタック、および
(d)前記入力サウンド信号の電力スペクトルから計算される、前記入力サウンド信号のスペクトルシャープネスの測度を形成する、スペクトルピーク対平均比
のうちの少なくとも1つを備える、
請求項42から53のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記入力サウンド信号の前記調性が、所与の周波数までの前記入力サウンド信号の低い方の周波数範囲の中の、スペクトル安定性と調和性の両方を反映する調性フラグによって表現される、請求項55に記載の2ステージ音声/音楽分類デバイス。
追加の高レベル特徴の前記抽出器が、前記入力サウンド信号の残差エネルギースペクトルの前記低い方の周波数範囲の中の、かつピークが存在する前記残差エネルギースペクトルの分節の中で計算される、いくつかの最初の周波数ビンの中での信号安定性および調和性の測度を形成する相関マップを使用して前記調性フラグを計算する、請求項56に記載の2ステージ音声/音楽分類デバイス。
追加の高レベル特徴の前記抽出器が、前記相関マップの平滑化を適用し、単一の数をもたらすように前記現在のフレームの中の前記入力サウンド信号の前記低い方の周波数範囲内の前記周波数ビンにわたる前記相関マップの重み付き和を計算する、請求項57に記載の2ステージ音声/音楽分類デバイス。
追加の高レベル特徴の前記抽出器が、前記単一の数を適応しきい値と比較することによって前記調性フラグを設定する、請求項58に記載の2ステージ音声/音楽分類デバイス。
前記第2のステージが、(a)相対フレームエネルギー、(b)前記第1のステージによって前記入力サウンド信号がその中に分類される前記最終クラス、および(c)前記抽出された高レベル特徴を使用して、前記コアエンコーダの初期選択を行うための、コアエンコーダ初期選択器を備える、請求項1から59のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
前記第2のステージが、次の条件、すなわち、
(a)相対フレームエネルギーが第1の値よりも大きく、前記スペクトルピーク対平均比が第2の値よりも大きく、かつ前記単一の数が前記適応しきい値よりも大きい場合、TCXコアエンコーダが最初に選択され、
(b)条件(a)が存在せず、かつ前記第1のステージによって前記入力サウンド信号がその中に分類される前記最終クラスがSPEECH/NOISEである場合、ACELPコアエンコーダが最初に選択され、
(c)条件(a)および(b)が存在せず、かつ前記第1のステージによって前記入力サウンド信号がその中に分類される前記最終クラスがUNCLEARである場合、GSCコアエンコーダが最初に選択され、
(d)条件(a)、(b)、および(c)が存在しない場合、TCXコアエンコーダが最初に選択されることを使用して、
前記コアエンコーダの初期選択を行うための、コアエンコーダ初期選択器を備える、
請求項59に記載の2ステージ音声/音楽分類デバイス。
前記第2のステージが、前記抽出された高レベル特徴、および前記第1のステージの中で選択された前記最終クラスに応じて、前記コアエンコーダの初期選択を行うための、コアエンコーダ初期選択器と、前記コアエンコーダ初期選択器によってGSCコアエンコーダが最初に選択される場合、前記初期コアエンコーダ選択の改良器とを備える、請求項27から40のいずれか一項に記載の2ステージ音声/音楽分類デバイス。
(a)信号分節のいくつかの最初の周波数ビンの中のエネルギーと、この信号分節の全エネルギーとの比が第1の値よりも小さく、かつ(b)前記差分スコアの短期平均が第2の値よりも大きい場合、前記初期コアエンコーダ選択の前記改良器が、GSCコアエンコーダの初期選択をACELPコアエンコーダの選択に変更する、請求項62に記載の2ステージ音声/音楽分類デバイス。
前記初期コアエンコーダ選択の前記改良器が、短く安定なピッチ期間を伴う入力サウンド信号に対して、(a)平滑化されたバージョンの前記差分スコアが所与の値よりも小さい場合にはACELPコアエンコーダの選択に、そうではなく(b)前記平滑化された差分スコアが前記所与の値よりも大きいかまたはそれに等しい場合にはTCXコアエンコーダの選択に、GSCコアエンコーダの初期選択を変更する、請求項62に記載の2ステージ音声/音楽分類デバイス。
前記初期コアエンコーダ選択の前記改良器が、(a)前記入力サウンド信号の長期安定性に応じてTCXコアエンコーダの選択に、かつ(b)所与の値よりも大きい開ループピッチに、GSCコアエンコーダの初期選択を変更する、請求項62に記載の2ステージ音声/音楽分類デバイス。
コアエンコーダの選択の変更が有効にされているというインジケータが第1の値を有し、かつ遷移フレームカウンタが第2の値を有するという条件で、前記入力サウンド信号の中で分節アタックが検出される場合、前記初期コアエンコーダ選択の前記改良器が、GSCコアエンコーダの初期選択をACELPコアエンコーダの選択に変更する、請求項62に記載の2ステージ音声/音楽分類デバイス。
コアエンコーダの選択の変更が有効化されているというインジケータが第1の値を有し、遷移フレームカウンタが第2の値を有さず、かつ前記現在のフレームの中での前記アタックの位置に対応する分節を識別するインジケータが第3の値よりも大きいという条件で、前記入力サウンド信号の中で分節アタックが検出される場合、前記初期コアエンコーダ選択の前記改良器が、GSCコアエンコーダの初期選択をACELPコアエンコーダの選択に変更する、請求項62に記載の2ステージ音声/音楽分類デバイス。
入力サウンド信号を分類するための、かつ前記サウンド信号を符号化するためのコアエンコーダを選択するための、2ステージ音声/音楽分類デバイスであって、
少なくとも1つのプロセッサと、
前記プロセッサに結合され非一時的命令を記憶するメモリとを備え、前記非一時的命令が、実行されたとき、前記プロセッサに、
前記入力サウンド信号をいくつかの最終クラスのうちの1つに分類するための第1のステージと、
前記入力サウンド信号の高レベル特徴を抽出するための、かつ前記抽出された高レベル特徴および前記第1のステージの中で選択された前記最終クラスに応じて、前記入力サウンド信号を符号化するための前記コアエンコーダを選択するための、第2のステージとを実施させる、
2ステージ音声/音楽分類デバイス。
入力サウンド信号を分類するための、かつ前記サウンド信号を符号化するためのコアエンコーダを選択するための、2ステージ音声/音楽分類デバイスであって、
少なくとも1つのプロセッサと、
前記プロセッサに結合され非一時的命令を記憶するメモリとを備え、前記非一時的命令が、実行されたとき、前記プロセッサに、
第1のステージにおいて、前記入力サウンド信号をいくつかの最終クラスのうちの1つに分類させ、
第2のステージにおいて、前記入力サウンド信号の高レベル特徴を抽出させ、前記抽出された高レベル特徴および前記第1のステージの中で選択された前記最終クラスに応じて、前記入力サウンド信号を符号化するための前記コアエンコーダを選択させる、
2ステージ音声/音楽分類デバイス。
入力サウンド信号を分類するための、かつ前記サウンド信号を符号化するためのコアエンコーダを選択するための、2ステージ音声/音楽分類方法であって、
第1のステージにおいて、前記入力サウンド信号をいくつかの最終クラスのうちの1つに分類するステップと、
第2のステージにおいて、前記入力サウンド信号の高レベル特徴を抽出するステップ、ならびに前記抽出された高レベル特徴および前記第1のステージの中で選択された前記最終クラスに応じて、前記入力サウンド信号を符号化するための前記コアエンコーダを選択するステップと
を備える2ステージ音声/音楽分類方法。
前記第1のステージにおいて、相対フレームエネルギーに基づいて前記入力サウンド信号の中のオンセット/アタックを検出するステップを備える、請求項70に記載の2ステージ音声/音楽分類方法。
前記入力サウンド信号の中のオンセット/アタックを検出するステップが、現在のフレームの中の前記入力サウンド信号の相対エネルギーと前のフレームの中の前記入力サウンド信号の相対エネルギーとの間の差分の累積和をすべてのフレームの中で更新するステップを備える、請求項71に記載の2ステージ音声/音楽分類方法。
前記入力サウンド信号の中のオンセット/アタックを検出するステップが、前記累積和を前記現在のフレームの中で更新するために、(a)前記前のフレームの中で更新された前記累積和と、(b)前記現在のフレームの中の前記入力サウンド信号の前記相対エネルギーと前記前のフレームの中の前記入力サウンド信号の前記相対エネルギーとの間の前記差分とを加算するステップを備える、請求項72に記載の2ステージ音声/音楽分類方法。
前記入力サウンド信号の中のオンセット/アタックを検出するステップが、前記現在のフレームの中の前記入力サウンド信号の前記相対エネルギーが前記前のフレームの中の前記入力サウンド信号の前記相対エネルギーよりも大きい場合のみ、前記累積和を前記現在のフレームの中で更新するステップを備える、請求項72または73に記載の2ステージ音声/音楽分類方法。
前記入力サウンド信号の中のオンセット/アタックを検出するステップが、オンセット/アタックフレームのカウンタを更新するために前記累積和を使用するステップと、前記累積和が所与の値よりも大きい場合、ステートマシンによって決定される前記入力サウンド信号のENTRY状態においてすべてのフレームの中でカウンタをインクリメントし、そうでない場合、前記累積和をリセットするステップとを備える、請求項72から74のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記入力サウンド信号の中のオンセット/アタックを検出するステップは、オンセット/アタックの検出を示すための所与の範囲内に前記累積和が位置する場合、第1の値に設定され、そうでない場合、オンセット/アタックの非検出を示すための第2の値に設定された、バイナリフラグを生成するステップを備える、請求項72から75のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記第1のステージにおいて、メル周波数ケプストラム係数特徴を含む、前記入力サウンド信号の特徴を抽出するステップを備える、請求項70から76のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記第1のステージにおいて、前記入力サウンド信号の以下の特徴、すなわち、
(a)開ループピッチ特徴、
(b)発声測度特徴、
(c)LP分析からの線スペクトル周波数に関係する特徴、
(d)前記LP分析からの残差エネルギーに関係する特徴、
(e)短期相関マップ特徴、
(f)非定常性特徴、
(g)メル周波数ケプストラム係数特徴、
(h)電力スペクトル差分特徴、および
(i)スペクトル定常性特徴
のうちの少なくとも1つを抽出するステップを備える、
請求項70から76のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記第1のステージにおいて、前記入力サウンド信号の特徴を抽出するステップと、前記抽出された特徴のヒストグラムに基づいて異常値特徴を検出するステップとを備える、請求項70から76のいずれか一項に記載の2ステージ音声/音楽分類方法。
異常値特徴を検出するステップが、特徴ごとに下限および上限を計算するステップと、前記特徴の値を前記下限および前記上限と比較するステップと、前記下限と前記上限との間で規定された範囲の外側にその値がある前記特徴に異常値特徴としてマークするステップとを備える、請求項79に記載の2ステージ音声/音楽分類方法。
異常値特徴を検出するステップが、前記特徴の正規化されたバージョンの前記ヒストグラム、前記特徴に対する前記ヒストグラムの最大値を含む周波数ビンのインデックス、およびしきい値を使用して前記下限および前記上限を計算するステップを備える、請求項80に記載の2ステージ音声/音楽分類方法。
異常値特徴を検出するステップが、いくつかの検出された異常値特徴に基づいて異常値として前記特徴のベクトルを決定するステップを備える、請求項79から81のいずれか一項に記載の2ステージ音声/音楽分類方法。
異常値特徴を検出するステップが、前記異常値ベクトルを廃棄するのではなく、前記ベクトルの中の前記異常値特徴を少なくとも1つの前のフレームから取得された特徴値と置き換えるステップを備える、請求項82に記載の2ステージ音声/音楽分類方法。
異常値特徴を検出するステップが、検出された異常値特徴をカウントするステップと、検出された異常値特徴の個数が、特徴の前記ベクトルが異常値であることを示すための所与の値に等しいかまたそれよりも多いとき、フラグを所与の値に設定するステップとを備える、請求項82または83に記載の2ステージ音声/音楽分類方法。
前記第1のステージにおいて、前記抽出された特徴の短期ベクトルを平滑化するステップを備える、請求項79から84のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記抽出された特徴の前記短期ベクトルを平滑化するステップが、忘却係数を使用する無限インパルス応答フィルタを用いて、前記抽出された特徴の前記短期ベクトルをフィルタ処理するステップを備える、請求項85に記載の2ステージ音声/音楽分類方法。
ステートマシンによって決定されるような前記入力サウンド信号のENTRY状態またはACTIVE状態においてフレームの中で特徴ベクトル平滑化を実行せず、特徴ベクトル平滑化が実行されないとき、前記フィルタ処理されていないベクトルの前記特徴の値を使用するステップを備える、請求項85または86に記載の2ステージ音声/音楽分類方法。
前記第1のステージにおいて、前記入力サウンド信号から抽出された非正規特徴の、正規形状を有する特徴への非線形変換を備える、請求項70から87のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記非線形変換が、非正規特徴を、正規形状を有する特徴に変換するためにBox-Cox変換を使用するステップを備える、請求項88に記載の2ステージ音声/音楽分類方法。
前記Box-Cox変換が、指数を用いた電力変換を使用するステップであって、前記指数の異なる値が、異なるBox-Cox変換曲線を規定する、ステップと、正常性テストに基づいて前記Box-Cox変換に対する前記指数の値を選択するステップとを備える、請求項89に記載の2ステージ音声/音楽分類方法。
前記Box-Cox変換が、前記抽出された特徴のすべての入力値が正であることを保証するようにバイアスを使用するステップを備える、請求項89または90に記載の2ステージ音声/音楽分類方法。
前記正常性テストが、スキューおよび尖度測度を生成し、前記Box-Cox変換が、前記スキューおよび尖度測度に関係する条件を満たす特徴のみに適用される、請求項90に記載の2ステージ音声/音楽分類方法。
前記第1のステージにおいて、サウンド信号特徴次元数を小さくするとともにサウンド信号クラス弁別性を大きくするために、主成分を分析するステップを備え、主成分を分析するステップが、前記入力サウンド信号から抽出された、できる限り相関した特徴のセットを変換して、前記主成分を形成する線形に相関しない変数のセットにするための、直交変換を備える、請求項70から92のいずれか一項に記載の2ステージ音声/音楽分類方法。
主成分を分析するステップが、前記ベクトルの平均を除去するとともに前記ベクトルを単位分散にスケーリングすることによって、前記入力サウンド信号の抽出された特徴のベクトルを標準化するステップを備える、請求項93に記載の2ステージ音声/音楽分類方法。
主成分を分析するステップが、以下の関係式

を使用して前記特徴ベクトルを変換するステップを備え、ただし、

が列特徴ベクトルであり、

が主成分分析ローディングの行列であり、上付き文字Tがベクトル転置を示す、
請求項94に記載の2ステージ音声/音楽分類方法。
前記第1のステージにおいて、前記入力サウンド信号から抽出された特徴の所与のベクトルが音声ガウシアン混合モデル(GMM)によって生成された確率に比例する第1のスコア、および特徴の前記所与のベクトルが音楽GMMによって生成された確率に比例する第2のスコアを決定するための、GMM計算を備え、前記GMM計算が、これらの第1のスコアと第2のスコアとの間の差分を計算して差分スコアを生成することによって前記第1のスコアと前記第2のスコアとを合成するステップを備える、請求項70から95のいずれか一項に記載の2ステージ音声/音楽分類方法。
負の差分スコアは、前記入力サウンド信号が音声であることを示し、正の差分スコアは、前記入力サウンド信号が音楽であることを示す、請求項96に記載の2ステージ音声/音楽分類方法。
前記GMM計算が、前記第1のスコアと前記第2のスコアとの間の前記差分の前記計算において決定バイアスを使用するステップを備える、請求項96または97に記載の2ステージ音声/音楽分類方法。
前記GMM計算が、前記第1のスコアと前記第2のスコアとの間の前記差分を計算するために前記第2のスコアから前記第1のスコアを減算するステップを備え、前記決定バイアスが、前記差分に加算される非負の値である、請求項98に記載の2ステージ音声/音楽分類方法。
前記GMM計算が、前記入力サウンド信号が音声、音楽、または雑音信号であることを示すラベルをトレーニングデータベースのアクティブなフレームの中で予測し、前記GMM計算が、前記決定バイアスを見つけるために前記ラベルを使用するステップを備える、請求項98または99に記載の2ステージ音声/音楽分類方法。
前記GMM計算が、前記決定バイアスを使用して前記差分スコアを計算するステップを備え、前記差分スコアが、所与の範囲内に限定された値を有する、請求項98から100のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記第1のステージにおいて、前記差分スコアの適応平滑化を備える、請求項96から101のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記適応平滑化が、忘却係数を使用する無限インパルス応答(IIR)フィルタ自体を使用するステップを備える、請求項102に記載の2ステージ音声/音楽分類方法。
前記適応平滑化が、現在のフレームの相対エネルギーに線形に比例し所与の区間内に限定される第1のパラメータを使用して前記忘却係数を計算するステップを備える、請求項103に記載の2ステージ音声/音楽分類方法。
前記適応平滑化が、前記差分スコアの導関数に比例する第2のパラメータを使用して前記忘却係数を計算するステップを備える、請求項103または104に記載の2ステージ音声/音楽分類方法。
前記適応平滑化が、以下の動作、すなわち、
(a)前記差分スコアの短期平均を計算するステップ、
(b)前記差分スコアが0よりも小さく前記短期平均よりも小さい場合、前記第2のパラメータを0に設定するステップ、
(c)最初のフレームにおいて、前記差分スコアが0よりも小さく前記短期平均よりも小さく、かつ前記短期平均が0よりも大きい場合、前記第2のパラメータをマイナスの前記差分スコアに設定し、そうでない場合、前記適応平滑化が前記第2のパラメータを大きくするステップ、
(d)前記差分スコアが0および前記短期平均よりも小さくない場合、前記第2のパラメータを0にリセットするステップ、ならびに
(e)最後に前記第2のパラメータを所与の区間にマッピングするステップ
のうちの少なくとも1つを使用して前記第2のパラメータを計算するステップを備える、
請求項105に記載の2ステージ音声/音楽分類方法。
前記適応平滑化が、潜在的な音楽オンセットを示す、前記差分スコアの突然の上昇に反応する第3のパラメータを使用して、前記忘却係数を計算するステップを備える、請求項103から106のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記適応平滑化が、以下の動作、すなわち、
(a)前記差分スコアの短期平均を計算するステップ、
(b)前記第3のパラメータを0に設定するが、(a)前記入力サウンド信号が、ステートマシンによって決定されるようなACTIVE状態にあり、(b)前記短期平均が0よりも大きく、かつ(c)現在のフレームにおける前記短期平均が前のフレームにおける前記短期平均よりも大きい場合、前記第3のパラメータを修正するステップ、
(c)最初のフレームにおいて、(a)前記入力サウンド信号が前記ACTIVE状態にあり、(b)前記現在のフレームにおける前記短期平均が0よりも大きく、(c)前記現在のフレームにおける前記短期平均が前記前のフレームにおける前記短期平均よりも大きく、かつ(d)前記前のフレームにおける前記短期平均が0よりも小さい場合、前記第3のパラメータをマイナスの前記短期平均に設定し、そうでない場合、前記適応平滑化が前記第3のパラメータを大きくするステップ、
(d)(a)前記入力サウンド信号が前記ACTIVE状態になく、(b)前記短期平均が0よりも大きくなく、かつ(c)前記現在のフレームにおける前記短期平均が前記前のフレームにおける前記短期平均よりも大きくない場合、前記第3のパラメータを0にリセットするステップ、および
(e)最後に前記第3のパラメータを所与の区間にマッピングするステップ
のうちの少なくとも1つを使用して前記第3のパラメータを計算する、
請求項107に記載の2ステージ音声/音楽分類方法。
前記適応平滑化が、前記差分スコアの長期平均および長期分散を分析するステップと、以下の動作、すなわち、
(a)前記入力サウンド信号が、ステートマシンによって決定されるようなENTRY状態にある場合、前記長期平均を前記差分スコアに、かつ前記長期分散を0に設定するステップ、
(b)前記差分スコアの長期標準偏差に対応する長期平均対長期分散比を計算するステップ、
(c)前記長期標準偏差が所与の値よりも大きいフレームにおける前記忘却係数を小さくするステップ、および
(d)前記IIRフィルタの前記忘却係数を所与の範囲内に限定するステップ
のうちの少なくとも1つを実行するステップとを備える、
請求項103から108のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記いくつかの最終クラスが、音声に関係する第1の最終クラス、音楽に関係する第2の最終クラス、およびバックグラウンドミュージックを伴う音声に関係する第3の最終クラスを備える、請求項70から109のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記第1のステージにおいて、SPEECH/NOISE、MUSIC、およびUNCLEARを含む3つの最終クラスのうちの1つへの、前記入力サウンド信号の状態依存カテゴリー分類を備え、前記最終クラスUNCLEARが、バックグラウンドミュージックを伴う音声に関係する、請求項96から109のいずれか一項に記載の2ステージ音声/音楽分類方法。
現在のフレームの中で、前記入力サウンド信号が、ステートマシンによって決定されるようなENTRY状態にあるとき、前記状態依存カテゴリー分類が、前記現在のフレームに先行する、前記ENTRY状態におけるフレームにおいて計算される、前記差分スコアの重み付き平均に基づいて、前記3つの最終クラスSPEECH/NOISE、MUSIC、およびUNCLEARのうちの1つを選択するステップを備える、請求項111に記載の2ステージ音声/音楽分類方法。
絶対フレームエネルギーが前記現在のフレームの中で所与の値よりも低い場合、前記状態依存カテゴリー分類が、前記最終クラスをSPEECH/NOISEに設定するステップを備える、請求項112に記載の2ステージ音声/音楽分類方法。
前記入力サウンド信号の前記ENTRY状態におけるフレームにおける前記差分スコアの前記重み付き平均が2.0よりも小さい場合、前記状態依存カテゴリー分類が、前記最終クラスをSPEECH/NOISEに設定するステップを備える、請求項112または113に記載の2ステージ音声/音楽分類方法。
前記入力サウンド信号の前記ENTRY状態におけるフレームにおける前記差分スコアの前記重み付き平均が2.0よりも大きい場合、前記状態依存カテゴリー分類が、前記最終クラスを、前記現在のフレームにおける前記差分スコアが2.0よりも大きい場合にはMUSICに設定し、前記現在のフレームにおける前記差分スコアが2.0よりも大きくない場合にはUNCLEARに設定するステップを備える、請求項112から114のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記ステートマシンによって決定されるようなENTRY以外の前記入力サウンド信号の状態において、前記状態依存カテゴリー分類が、平滑化されたバージョンの前記差分スコア、および前記前のフレームにおいて選択された前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARに基づいて、前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARを選択するステップを備える、請求項112から115のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記状態依存カテゴリー分類が、前記現在のフレームにおける前記最終クラスを、前のフレームにおいて設定された前記クラスSPEECH/NOISE、MUSIC、またはUNCLEARに最初に初期化するステップを備える、請求項111から116のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記状態依存カテゴリー分類が、前記現在のフレームにおける前記最終クラスを、前記前のフレームにおいて設定された前記クラスSPEECH/NOISE、MUSIC、またはUNCLEARに最初に初期化するステップを備え、前記現在のフレームの中で、前記状態依存カテゴリー分類が、前記平滑化された差分スコアによる所与のしきい値の横断に応答して、前記前のフレームにおいて設定された前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARから、前記最終クラスのうちの別の最終クラスに遷移するステップを備える、請求項116に記載の2ステージ音声/音楽分類方法。
前記状態依存カテゴリー分類が、所与の個数のフレームの後、前のフレームにおいて設定された前記最終クラスSPEECH/NOISE、MUSIC、またはUNCLEARから、これらのクラスのうちの別のクラスに遷移するステップを備える、請求項111から114のいずれか一項に記載の2ステージ音声/音楽分類方法。
ACTIVEフレームのカウンタが第1のしきい値よりも小さく、差分フレームエネルギーの累積和が0に等しく、かつ前記平滑化された差分スコアが第2のしきい値よりも大きい場合、前記状態依存カテゴリー分類が、前記前のフレームにおいて設定された前記最終クラスSPEECH/NOISEから前記最終クラスUNCLEARに遷移するステップを備える、請求項118または119に記載の2ステージ音声/音楽分類方法。
前記入力サウンド信号の開ループピッチ分析の副産物であるショートピッチフラグが所与の値に等しく、かつ平滑化されたバージョンの前記差分スコアが所与のしきい値よりも大きい場合、前記状態依存カテゴリー分類が、前のフレームにおいて設定された前記最終クラスSPEECH/NOISEから前記最終クラスUNCLEARに遷移するステップを備える、請求項111から120のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記状態依存カテゴリー分類が、前記SPEECH/NOISEクラスと前記MUSICクラスとの間での直接の遷移を実行しないステップを備える、請求項117から121のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記第2のステージにおいて、現在のフレームの中の前記入力サウンド信号の追加の高レベル特徴を抽出するステップを備え、前記追加の高レベル特徴が、前記入力サウンド信号の調性を備える、請求項70から122のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記第2のステージにおいて、現在のフレームの中の前記入力サウンド信号の追加の高レベル特徴を抽出するステップを備え、前記追加の高レベル特徴が、以下の特徴、すなわち、
(a)前記入力サウンド信号の調性、
(b)前記入力サウンド信号の長期安定性であって、追加の高レベル特徴を抽出するステップが、前記入力サウンド信号の長期安定性を示すフラグを生成するステップを備える、長期安定性、
(c)前記入力サウンド信号の中の分節アタックであって、追加の高レベル特徴を抽出するステップが、(a)前記入力サウンド信号の現在のフレームの中での分節アタックの位置、または(b)分節アタックの不在の、インジケータを生成するステップを備える、分節アタック、および
(d)前記入力サウンド信号のスペクトルシャープネスの測度を形成するスペクトルピーク対平均比であって、追加の高レベル特徴を抽出するステップが、前記入力サウンド信号の電力スペクトルから前記スペクトルピーク対平均比を計算するステップを備える、スペクトルピーク対平均比
のうちの少なくとも1つを備える、
請求項111から122のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記入力サウンド信号の前記調性を抽出するステップが、所与の周波数までの前記入力サウンド信号の低い方の周波数範囲の中の、スペクトル安定性と調和性の両方を反映する調性フラグによって前記調性を表現するステップを備える、請求項124に記載の2ステージ音声/音楽分類方法。
前記調性フラグを抽出するステップが、前記入力サウンド信号の残差エネルギースペクトルの前記低い方の周波数範囲の中の、かつピークが存在する前記残差エネルギースペクトルの分節の中で計算される、いくつかの最初の周波数ビンの中での信号安定性および調和性の測度を形成する相関マップを使用して前記調性フラグを計算するステップを備える、請求項125に記載の2ステージ音声/音楽分類方法。
前記調性フラグを抽出するステップが、前記相関マップの平滑化を適用するステップと、単一の数をもたらすように前記現在のフレームの中の前記入力サウンド信号の前記低い方の周波数範囲内の前記周波数ビンにわたる前記相関マップの重み付き和を計算するステップとを備える、請求項126に記載の2ステージ音声/音楽分類方法。
前記調性フラグを抽出するステップが、前記単一の数を適応しきい値と比較することによって前記調性フラグを設定するステップを備える、請求項127に記載の2ステージ音声/音楽分類方法。
前記第2のステージにおいて、(a)相対フレームエネルギー、(b)前記第1のステージによって前記入力サウンド信号がその中に分類される前記最終クラス、および(c)前記抽出された高レベル特徴を使用する、前記コアエンコーダの初期選択を備える、請求項70から128のいずれか一項に記載の2ステージ音声/音楽分類方法。
前記第2のステージにおいて、次の条件、すなわち、
(a)相対フレームエネルギーが第1の値よりも大きく、前記スペクトルピーク対平均比が第2の値よりも大きく、かつ前記単一の数が前記適応しきい値よりも大きい場合、TCXコアエンコーダが最初に選択され、
(b)条件(a)が存在せず、かつ前記第1のステージによって前記入力サウンド信号がその中に分類される前記最終クラスがSPEECH/NOISEである場合、ACELPコアエンコーダが最初に選択され、
(c)条件(a)および(b)が存在せず、かつ前記第1のステージによって前記入力サウンド信号がその中に分類される前記最終クラスがUNCLEARである場合、GSCコアエンコーダが最初に選択され、
(d)条件(a)、(b)、および(c)が存在しない場合、TCXコアエンコーダが最初に選択されることを使用する、
前記コアエンコーダの初期選択を備える、
請求項128に記載の2ステージ音声/音楽分類方法。
前記第2のステージにおいて、前記抽出された高レベル特徴、および前記第1のステージの中で選択された前記最終クラスに応じた、前記コアエンコーダの初期選択と、前記コアエンコーダ初期選択によってGSCコアエンコーダが最初に選択される場合、前記初期コアエンコーダ選択を改良するステップとを備える、請求項96から109のいずれか一項に記載の2ステージ音声/音楽分類方法。
(a)信号分節のいくつかの最初の周波数ビンの中のエネルギーと、この信号分節の全エネルギーとの比が第1の値よりも小さく、かつ(b)前記差分スコアの短期平均が第2の値よりも大きい場合、前記初期コアエンコーダ選択を改良するステップが、GSCコアエンコーダの初期選択をACELPコアエンコーダの選択に変更するステップを備える、請求項131に記載の2ステージ音声/音楽分類方法。
前記初期コアエンコーダ選択を改良するステップが、短く安定なピッチ期間を伴う入力サウンド信号に対して、(a)平滑化されたバージョンの前記差分スコアが所与の値よりも小さい場合にはACELPコアエンコーダの選択に、そうではなく(b)前記平滑化された差分スコアが前記所与の値よりも大きいかまたはそれに等しい場合にはTCXコアエンコーダの選択に、GSCコアエンコーダの初期選択を変更するステップを備える、請求項131に記載の2ステージ音声/音楽分類方法。
前記初期コアエンコーダ選択を改良するステップが、(a)前記入力サウンド信号の長期安定性に応じてTCXコアエンコーダの選択に、かつ(b)所与の値よりも大きい開ループピッチに、GSCコアエンコーダの初期選択を変更するステップを備える、請求項131に記載の2ステージ音声/音楽分類方法。
コアエンコーダの選択の変更が有効にされているというインジケータが第1の値を有し、かつ遷移フレームカウンタが第2の値を有するという条件で、前記入力サウンド信号の中で分節アタックが検出される場合、前記初期コアエンコーダ選択を改良するステップが、GSCコアエンコーダの初期選択をACELPコアエンコーダの選択に変更するステップを備える、請求項131に記載の2ステージ音声/音楽分類方法。
コアエンコーダの選択の変更が有効化されているというインジケータが第1の値を有し、遷移フレームカウンタが第2の値を有さず、かつ前記現在のフレームの中での前記アタックの位置に対応する分節を識別するインジケータが第3の値よりも大きいという条件で、前記入力サウンド信号の中で分節アタックが検出される場合、前記初期コアエンコーダ選択を改良するステップが、GSCコアエンコーダの初期選択をACELPコアエンコーダの選択に変更するステップを備える、請求項131に記載の2ステージ音声/音楽分類方法。