JP5642882B2

JP5642882B2 - 時間展開情報をもつ基底関数を使用する音楽信号の分解

Info

Publication number: JP5642882B2
Application number: JP2013536730A
Authority: JP
Inventors: ビッサー、エリック; グオ、インイ; ジュ、モフェイ; リュ、サン−ウク; キム、レ−ホン; シン、ジョンウォン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-10-25
Filing date: 2011-10-25
Publication date: 2014-12-17
Anticipated expiration: 2031-10-25
Also published as: CN103189915A; WO2012058225A1; US20120101826A1; EP2633523B1; CN103189915B; JP2013546018A; KR20130112898A; US8805697B2; KR101564151B1; EP2633523A1

Description

米国特許法第１１９条に基づく優先権の主張

本特許出願は、本出願の譲受人に譲渡され、２０１０年１０月２５日に出願された「CASA (COMPUTATIONAL AUDITORY SCENE ANALYSIS) FOR MUSIC APPLICATIONS: DECOMPOSITION OF MUSIC SIGNALS USING BASIS FUNCTION INVENTORY AND SPARSE RECOVERY」と題する仮出願第６１／４０６，３７６号の優先権を主張する。

本開示は、オーディオ信号処理に関する。

ポータブルデバイス（たとえば、スマートフォン、ネットブック、ラップトップ、タブレットコンピュータ）またはビデオゲームコンソール上の多くの音楽アプリケーションは、シングルユーザ事例のために利用可能である。これらの事例では、デバイスのユーザは、メロディをハミングするか、歌を歌うか、または楽器をプレイし、その間、デバイスは、生じたオーディオ信号を記録する。記録された信号は、次いで、それのピッチ（pitch:音調）／ノート（note：音色）の等高（contour）についてアプリケーションによって分析され得、ユーザは、等高を補正するかまたは場合によっては改変すること、異なるピッチまたは楽器音色を用いて信号をアップミックスすることなど、処理動作を選択することができる。そのようなアプリケーションの例には、ＱＵＳＩＣアプリケーション（ＱＵＡＬＣＯＭＭ社、サンディエゴ、ＣＡ）、ＧｕｉｔａｒＨｅｒｏおよびＲｏｃｋＢａｎｄ（ＨａｒｍｏｎｉｘＭｕｓｉｃＳｙｓｔｅｍｓ、ケンブリッジ、ＭＡ）などのビデオゲーム、ならびにカラオケ、ワンマンバンド、および他の記録アプリケーションがある。

多くのビデオゲーム（たとえば、ＧｕｉｔａｒＨｅｒｏ、ＲｏｃｋＢａｎｄ）およびコンサート音楽シーンは、複数の楽器およびボーカリストが同時にプレイすることを伴い得る。現在の商用ゲームおよび音楽生成システムでは、これらのシナリオを別々に分析し、後処理し、アップミックスすることが可能であるように、それらのシナリオが、連続的にプレイされるか、または近接して配置されたマイクロフォンを用いてプレイされる必要がある。これらの制約は、音楽生成の場合、干渉を制御する能力および／または空間効果を記録する能力を制限し得、ビデオゲームの場合、制限されたユーザエクスペリエンスをもたらし得る。

一般的構成による、オーディオ信号を分解する方法は、オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算することを含む。本方法はまた、複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算することを含む。本方法では、ベクトルの各アクティブ化係数は、複数の基底関数のうちの異なる基底関数に対応し、複数の基底関数の各々は、周波数範囲にわたる第１の対応する信号表現と、前記第１の対応する信号表現とは異なる、周波数範囲にわたる第２の対応する信号表現とを備える。また、特徴を読み取る機械にそのような方法を実行させる実体的な特徴を有するコンピュータ可読記憶媒体（たとえば、非一時的媒体）が開示される。

一般的構成による、オーディオ信号を分解するための装置は、オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するための手段と、複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算するための手段とを含む。本装置では、ベクトルの各アクティブ化係数は、複数の基底関数のうちの異なる基底関数に対応し、複数の基底関数の各々は、周波数範囲にわたる第１の対応する信号表現と、前記第１の対応する信号表現とは異なる、周波数範囲にわたる第２の対応する信号表現とを備える。

別の一般的構成による、オーディオ信号を分解するための装置は、オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するように構成された変換モジュールと、複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算するように構成された係数ベクトル計算器とを含む。本装置では、ベクトルの各アクティブ化係数は、複数の基底関数のうちの異なる基底関数に対応し、複数の基底関数の各々は、周波数範囲にわたる第１の対応する信号表現と、前記第１の対応する信号表現とは異なる、周波数範囲にわたる第２の対応する信号表現とを備える。

図１Ａは、一般的構成による方法Ｍ１００のフローチャートを示す。図１Ｂは、方法Ｍ１００の実装形態Ｍ２００のフローチャートを示す。図１Ｃは、一般的構成による、オーディオ信号を分解するための装置ＭＦ１００のブロック図を示す。図１Ｄは、別の一般的構成による、オーディオ信号を分解するための装置Ａ１００のブロック図を示す。図２Ａは、方法Ｍ１００の実装形態Ｍ３００のフローチャートを示す。図２Ｂは、装置Ａ１００の実装形態Ａ３００のブロック図を示す。図３Ｃは、装置Ａ１００の別の実装形態Ａ３１０のブロック図を示す。図３Ａは、方法Ｍ２００の実装形態Ｍ４００のフローチャートを示す。図３Ｂは、方法Ｍ２００の実装形態Ｍ５００のフローチャートを示す。図４Ａは、方法Ｍ１００の実装形態Ｍ６００のフローチャートを示す。図４Ｂは、装置Ａ１００の実装形態Ａ７００のブロック図を示す。図５は、装置Ａ１００の実装形態Ａ８００のブロック図を示す。図６は、基底関数インベントリの第２の例を示す。図７は、調波ホンク（honk）を伴う音声のスペクトログラムを示す。図８は、図６のインベントリにおける図７のスペクトログラムのスパース表現を示す。図９は、モデルＢｆ＝ｙを図示する。図１０は、方法Ｍ１００によって生成された分離結果のプロットを示す。図１１は、図９のモデルの変形Ｂ’ｆ＝ｙを図示する。図１２は、ピアノとフルートとについてのノートのペンデンシ（pendency）中の基底関数の時間領域展開のプロットを示す。図１３は、方法Ｍ４００によって生成された分離結果のプロットを示す。図１４は、ノートＦ５におけるピアノおよびフルートの基底関数のプロット（左）と、ノートＦ５におけるピアノおよびフルートのプリエンファシスされた（pre-emphasized:高域側増幅）基底関数のプロット（右）とを示す。図１５は、複数の音源がアクティブであるシナリオを図示する。図１６は、音源が互いに近接して位置し、ある音源が別の音源の後ろに位置するシナリオを図示する。図１７は、個々の空間クラスタを分析した結果を図示する。図１８は、基底関数インベントリの第１の例を示す。図１９は、ギターノートのスペクトログラムを示す。図２０は、図１８のインベントリにおける図１９のスペクトログラムのスパース表現を示す。図２１は、オンセット検出方法を２つの異なるコンポジット信号例に適用した結果のスペクトログラムを示す。図２２は、オンセット検出ベースの後処理を第１のコンポジット信号例に適用した結果を表す。図２３は、オンセット検出ベースの後処理を第１のコンポジット信号例に適用した結果を表す。図２４は、オンセット検出ベースの後処理を第１のコンポジット信号例に適用した結果を表す。図２５は、オンセット検出ベースの後処理を第１のコンポジット信号例に適用した結果を表す。図２６は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を表す。図２７は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を表す。図２８は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を表す。図２９は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を表す。図３０は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を表す。図３１は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を表す。図３２は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を表す。図３３は、オンセット検出ベースの後処理を第１のコンポジット信号例に適用した結果を示すスペクトログラムである。図３４は、オンセット検出ベースの後処理を第１のコンポジット信号例に適用した結果を示すスペクトログラムである。図３５は、オンセット検出ベースの後処理を第１のコンポジット信号例に適用した結果を示すスペクトログラムである。図３６は、オンセット検出ベースの後処理を第１のコンポジット信号例に適用した結果を示すスペクトログラムである。図３７は、オンセット検出ベースの後処理を第１のコンポジット信号例に適用した結果を示すスペクトログラムである。図３８は、オンセット検出ベースの後処理を第１のコンポジット信号例に適用した結果を示すスペクトログラムである。図３９は、オンセット検出ベースの後処理を第１のコンポジット信号例に適用した結果を示すスペクトログラムである。図４０は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を示すスペクトログラムである。図４１は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を示すスペクトログラムである。図４２は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を示すスペクトログラムである。図４３は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を示すスペクトログラムである。図４４は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を示すスペクトログラムである。図４５は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を示すスペクトログラムである。図４６は、オンセット検出ベースの後処理を第２のコンポジット信号例に適用した結果を示すスペクトログラムである。図４７Ａは、ピアノフルートテストケースに適用されたオンセット検出方法の性能を評価した結果を示す。図４７Ｂは、通信デバイスＤ２０のブロック図を示す。図４８は、ハンドセットＨ１００の前面図、後面図、および側面図を示す。

詳細な説明

ノートのペンデンシにわたる楽音のスペクトルの変化に関係する情報を含む基底関数インベントリとスパース復元技法とを使用するオーディオ信号の分解を開示する。そのような分解は、信号の分析、符号化、再生、および／または合成をサポートするために使用され得る。本明細書では、調波楽器（すなわち、非打楽器）および打楽器からの混合音を含むオーディオ信号の定量分析の例を示す。

それの文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置（またはメモリ位置のセット）の状態を含む、それの通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「発生（generating）」という用語は、本明細書では、計算（computing）または別様の生成（producing）など、それの通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「計算（calculating）」という用語は、本明細書では、複数の値からの計算（computing）、評価、平滑化、および／または選択など、それの通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「取得（obtaining）」という用語は、計算（calculating）、導出、（たとえば、外部デバイスからの）受信、および／または（たとえば、記憶要素のアレイからの）検索など、それの通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「選択（selecting）」という用語は、２つ以上のセットのうちの少なくとも１つ、およびすべてよりも少数を識別、指示、適用、および／または使用することなど、それの通常の意味のいずれをも示すのに使用される。「備える（comprising）」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外しない。「に基づく」（「ＡはＢに基づく」など）という用語は、（ｉ）「から導出される」（たとえば、「ＢはＡのプリカーサー（precursor: 先駆体）である」）、（ｉｉ）「少なくとも〜に基づく」（たとえば、「Ａは少なくともＢに基づく」）、および特定の文脈で適当な場合に、（ｉｉｉ）「に等しい」（たとえば、「ＡはＢに等しい」）という場合を含む、それの通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、それの通常の意味のいずれをも示すのに使用される。

マルチマイクロフォンオーディオ感知デバイスのマイクロフォンの「ロケーション」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面の中心のロケーションを示す。「チャネル」という用語は、特定の文脈に応じて、時々、信号経路を示すのに使用され、また他のときには、そのような経路によって搬送される信号を示すのに使用される。別段に規定されていない限り、「一連」という用語は、２つ以上のアイテムのシーケンスを示すのに使用される。「対数」という用語は、１０を底とする対数を示すのに使用されるが、他の底（たとえば、底２）へのそのような演算の拡張は本開示の範囲内である。「周波数成分」という用語は、（たとえば、高速フーリエ変換によって生成される）信号の周波数領域表現のサンプル、あるいは信号のサブバンド（たとえば、バーク尺度またはメル尺度サブバンド）など、信号の周波数または周波数帯域のセットのうちの１つを示すのに使用される。

別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。「構成」という用語は、それの特定の文脈によって示されるように、方法、装置、および／またはシステムに関して使用され得る。「方法」、「プロセス」、「プロシージャ」、および「技法」という用語は、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、一般に、より大きい構成の一部分を示すのに使用される。それの文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、それの通常の意味のいずれをも示すのに使用される。また、文書の一部分の参照によるいかなる組込みも、その部分内で参照される用語または変数の定義が、その文書中の他の場所、ならびに組み込まれた部分中で参照される図に現れた場合、そのような定義を組み込んでいることを理解されたい。定冠詞によって最初に導入されない限り、請求項要素を修飾するために使用される序数用語（たとえば、「第１の」、「第２の」、「第３の」など）は、それ自体では、別の請求項要素に対するその請求項要素の優先順位または順序を示さず、むしろ、（序数用語の使用を除いて）同じ名称を有する別の請求項要素からその請求項要素を区別するにすぎない。それの文脈によって明確に限定されない限り、「複数」という用語は、本明細書では、１よりも大きい整数量を示すのに使用される。

本明細書で説明する方法は、キャプチャされた信号を一連のセグメントとして処理するように構成され得る。典型的なセグメント長は約５または１０ミリ秒から約４０または５０ミリ秒にわたり、セグメントは、重複する（たとえば、隣接するセグメントが２５％または５０％だけ重複する）ことも重複しないこともある。１つの特定の例では、上記信号は、１０ミリ秒の長さをそれぞれ有する一連の重複しないセグメントまたは「フレーム」に分割される。また、そのような方法によって処理されるセグメントは、異なる演算によって処理されるより大きいセグメントのセグメント（すなわち、「サブフレーム」）であり得、またはその逆も同様である。

２つ以上の楽器および／またはボーカル信号の混合から個々のノート／ピッチプロファイルを抽出するために音楽シーンを分解することが望ましいことがある。潜在的な使用事例には、複数のマイクロフォンを用いてコンサート／ビデオゲームシーンをテープに記録すること、空間／スパース復元処理を用いて楽器とボーカルとを分解すること、ピッチ／ノートプロファイルを抽出すること、補正ピッチ／ノートプロファイルを用いて個々の音源を部分的にまたは完全にアップミックスすることがある。そのような動作は、音楽アプリケーション（たとえば、ＱｕａｌｃｏｍｍのＱＵＳＩＣアプリケーション、ＲｏｃｋＢａｎｄまたはＧｕｉｔａｒＨｅｒｏなどのビデオゲーム）の機能をマルチプレーヤ／シンガーシナリオに拡張するために使用され得る。

音楽アプリケーションが、（たとえば、図１５に示すように）２人以上のボーカリストがアクティブであり、および／または複数の楽器が同時にプレイされるシナリオを処理することを可能にすることが望ましいことがある。そのような機能は、現実的な音楽テープ記録シナリオ（マルチピッチシーン）をサポートするために望ましいことがある。ユーザは、各音源を別々に編集および再合成する能力を希望し得るが、サウンドトラックを生成することは、それらの音源を同時に記録することを伴い得る。

本開示では、複数の音源が同時にアクティブになり得る音楽アプリケーションのための使用事例を可能にするために使用され得る方法について説明する。そのような方法は、基底関数インベントリベースのスパース復元（たとえば、スパース分解）技法を使用してオーディオ混合信号を分析するように構成され得る。

基底関数のセットについて（たとえば、効率的なスパース復元アルゴリズムを使用して）アクティブ化係数の最もスパースなベクトルを見つけることによって混合信号スペクトルを音源成分に分解することが望ましいことがある。アクティブ化係数ベクトルを（たとえば、基底関数のセットとともに）使用して、混合信号を再構成するかまたは混合信号の（たとえば、１つまたは複数の選択された楽器からの）選択された部分を再構成し得る。また、（たとえば、大きさ（magnitude）および時間サポートに従って）スパース係数ベクトルを後処理することが望ましいことがある。

図１Ａに、一般的構成による、オーディオ信号を分解する方法Ｍ１００のフローチャートを示す。方法Ｍ１００は、オーディオ信号のフレームからの情報に基づいて、周波数範囲にわたる対応する信号表現を計算するタスクＴ１００を含む。方法Ｍ１００は、タスクＴ１００によって計算された信号表現と、複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算するタスクＴ２００をも含み、アクティブ化係数の各々は、複数の基底関数のうちの異なる１つに対応する。

タスクＴ１００は、周波数領域ベクトルとして信号表現を計算するように実装され得る。そのようなベクトルの各要素は、メルまたはバーク尺度に従って取得され得る、サブバンドのセットの対応する１つのサブバンドのエネルギーを示し得る。しかしながら、そのようなベクトルは、一般に、高速フーリエ変換（ＦＦＴ）、または短時間フーリエ変換（ＳＴＦＴ）など、離散フーリエ変換（ＤＦＴ）を使用して計算される。そのようなベクトルは、たとえば、６４、１２８、２５６、５１２、または１０２４ビンの長さを有し得る。一例では、オーディオ信号は、８ｋＨｚのサンプリングレートを有し、０〜４ｋＨｚ帯域は、長さ３２ミリ秒の各フレームについて２５６ビンの周波数領域ベクトルによって表される。別の例では、信号表現は、オーディオ信号の重複セグメントにわたる修正離散コサイン変換（ＭＤＣＴ）を使用して計算される。

さらなる一例では、タスクＴ１００は、フレームの短期電力スペクトルを表すケプストラム係数（たとえば、メル周波数ケプストラム係数またはＭＦＣＣ）のベクトルとして信号表現を計算するように実装される。この場合、タスクＴ１００は、フレームのＤＦＴ周波数領域ベクトルの大きさにメル尺度フィルタバンクを適用することと、フィルタ出力の対数をとることと、対数値のＤＣＴをとることとによって、そのようなベクトルを計算するように実装され得る。そのようなプロシージャは、たとえば、「STQ: DSR - Front-end feature extraction algorithm; compression algorithm」と題するＥＴＳＩ文書ＥＳ２０１１０８（欧州通信規格協会、２０００年）に記載されているオーロラ規格に記述されている。

楽器は、一般に、明確な音色を有する。楽器の音色は、それのスペクトルエンベロープ（たとえば、周波数範囲にわたるエネルギーの分布）によって記述され得るので、異なる楽器の音色の範囲は、個々の楽器のスペクトルエンベロープを符号化する基底関数のインベントリを使用してモデル化され得る。

各基底関数は、周波数範囲にわたる対応する信号表現を備える。これらの信号表現の各々は、タスクＴ１００によって計算された信号表現と同じ形態を有することが望ましいことがある。たとえば、各基底関数は、長さ６４、１２８、２５６、５１２、または１０２４ビンの周波数領域ベクトルであり得る。代替的に、各基底関数は、ＭＦＣＣのベクトルなどのケプストラム領域ベクトルであり得る。さらなる一例では、各基底関数はウェーブレット領域ベクトルである。

基底関数インベントリＡは、各楽器ｎ（たとえば、ピアノ、フルート、ギター、ドラムなど）の基底関数のセットＡ_nを含み得る。たとえば、楽器の音色は、概して、各楽器ｎの基底関数のセットＡ_nが、一般に、楽器ごとに異なり得るある所望のピッチ範囲にわたる各ピッチについて少なくとも１つの基底関数を含むようなピッチ従属である。たとえば、半音階スケールにチューニングされた楽器に対応する基底関数のセットは、オクターブ当たり１２ピッチの各々の異なる基底関数を含み得る。ピアノの基底関数のセットは、ピアノの各キーについて異なる基底関数を含み、合計で８８個の基底関数を含み得る。別の例では、各楽器の基底関数のセットは、５オクターブ（たとえば、５６ピッチ）または６オクターブ（たとえば、６７ピッチ）など、所望のピッチ範囲内の各ピッチについて異なる基底関数を含む。基底関数のこれらのセットＡ_nは独立であり得、または２つ以上のセットが１つまたは複数の基底関数を共有し得る。

図６に、基底関数のセットの各基底関数が、異なる対応するピッチにおける楽器の音色を符号化する、特定の調波楽器の１４個の基底関数のセットについてのプロット（ピッチインデックス対周波数）の一例を示す。音楽信号のコンテキストでは、人間ボイスは、インベントリが１つまたは複数の人間ボイスモデルの各々の基底関数のセットを含み得るような楽器と見なされ得る。図７に、調波ホンクを伴う音声のスペクトログラム（Ｈｚ単位の周波数対サンプル単位の時間）を示し、図８に、図６に示した調波基底関数セット中のこの信号の表現を示す。

基底関数のインベントリは、アドホック記録された個々の楽器記録から学習された一般的な楽器ピッチデータベースに基づき得、および／または（たとえば、独立の成分分析（ＩＣＡ：independent component analysis）、期待値最大化（ＥＭ：expectation-maximization）などの分離方式を使用した）混合の分離されたストリームに基づき得る。

タスクＴ１００によって計算された信号表現と、インベントリＡからの複数Ｂの基底関数とに基づいて、タスクＴ２００はアクティブ化係数のベクトルを計算する。このベクトルの各係数は、複数Ｂの基底関数のうちの異なる１つに対応する。たとえば、タスクＴ２００は、複数Ｂの基底関数に従って、ベクトルが信号表現のための最も有望なモデルを示すように、ベクトルを計算するように構成され得る。図９に、そのようなモデルＢｆ＝ｙを示し、ここで、複数Ｂの基底関数は、Ｂの列が個々の基底関数であり、ｆが基底関数アクティブ化係数の列ベクトルであり、ｙが、記録された混合信号のフレーム（たとえば、スペクトログラム周波数ベクトルの形態の５、１０、または２０ミリ秒フレーム）の列ベクトルであるような行列である。

タスクＴ２００は、線形プログラミング問題を解くことによって、オーディオ信号の各フレームのアクティブ化係数ベクトルを復元するように構成され得る。そのような問題を解くために使用され得る方法の例には、非負値行列因子分解（ＮＮＭＦ：nonnegative matrix factorization）がある。ＮＮＭＦに基づくシングルチャネル基準方法は、（たとえば、以下で説明するように）期待値最大化（ＥＭ）更新ルールを使用して、基底関数とアクティブ化係数とを同時に計算するように構成され得る。

既知または部分的に既知の基底関数空間における最もスパースなアクティブ化係数ベクトルを見つけることによって、オーディオ混合信号を（１つまたは複数の人間ボイスを含み得る）個々の楽器に分解することが望ましいことがある。たとえば、タスクＴ２００は、既知の楽器基底関数のセットを使用して、（たとえば、効率的なスパース復元アルゴリズムを使用して）基底関数インベントリにおける最もスパースなアクティブ化係数ベクトルを見つけることによって、入力信号表現を音源成分（たとえば、１つまたは複数の個々の楽器）に分解するように構成され得る。

劣決定系の連立一次方程式（すなわち、式よりも多い未知数を有する系）の最小Ｌ１ノルム解は、しばしばそのシステムの最もスパースな解でもあることが知られている。Ｌ１ノルムの最小化によるスパース復元は、以下のように実行され得る。

ターゲットベクトルｆ₀は、Ｋ＜Ｎ個の非０成分を有する長さＮのスパースベクトルであり（すなわち、「Ｋスパース」であり）、射影行列（すなわち、基底関数行列）Ａは、サイズ約Ｋのセットについてインコヒーレント（ランダム様）であると仮定する。信号ｙ＝Ａｆ₀であることがわかる。したがって、Ａｆ＝ｙを条件とする

（ただし、

は

として定義される）を解くことは、ｆ₀を正確に復元することになる。その上、扱いやすい（tractable）プログラムを解くことによって、

個のインコヒーレント測定値からｆ₀を復元することができる。測定値の数Ｍは、アクティブな成分の数にほぼ等しい。

１つの手法は、圧縮センシング（compressive sensing）からのスパース復元アルゴリズムを使用することである。圧縮センシング（「compressed sensing」とも呼ばれる）の一例では、信号復元Φｘ＝ｙであり、ｙは、長さＭの観測信号ベクトルであり、ｘは、ｙの凝縮（condensed）表現である、Ｋ＜Ｎ個の非０成分を有する長さＮのスパースベクトル（すなわち、「Ｋスパースモデル」）であり、Φは、サイズＭ×Ｎのランダム射影行列である。ランダム射影Φはフルランクではないが、それは高い確率でスパース／圧縮可能信号モデルに対して可逆である（すなわち、それは非適切な逆問題（ill-posed inverse problem）を解く）。

図１０には、方法Ｍ１００のスパース復元実装形態によって生成された分離結果のプロット（ピッチインデックス対フレームインデックス）が示されている。この場合、入力混合信号は、ノートＣ５−Ｆ５−Ｇ５−Ｇ＃５−Ｇ５−Ｆ５−Ｃ５−Ｄ＃５のシーケンスをプレイするピアノと、ノートＣ６−Ａ＃５−Ｇ＃５−Ｇ５のシーケンスをプレイするフルートとを含む。ピアノの分離された結果は、破線（ピッチシーケンス０−５−７−８−７−５−０−３）で示され、フルートの分離された結果は、実線（ピッチシーケンス１２−１０−８−７）で示されている。

アクティブ化係数ベクトルｆは、対応する基底関数セットＡ_nのアクティブ化係数を含む各楽器ｎのサブベクトルｆ_nを含むと見なされ得る。これらの楽器固有のアクティブ化サブベクトルは、（たとえば、後処理演算において）独立して処理され得る。たとえば、１つまたは複数のスパーシティ制約（たとえば、ベクトル要素の少なくとも半分が０であること、楽器固有のサブベクトル中の非０要素の数が最大値を超えないことなど）をエンフォースすることが望ましいことがある。アクティブ化係数ベクトルの処理は、各フレームについて各非０アクティブ化係数のインデックス番号を符号化すること、各非０アクティブ化係数のインデックスと値とを符号化すること、またはスパースベクトル全体を符号化することを含み得る。そのような情報は、示されたアクティブな基底関数を使用して混合信号を再生するため、または混合信号の特定の部分のみ（たとえば、特定の楽器によってプレイされるノートのみ）を再生するために、（たとえば、別の時間および／またはロケーションにおいて）使用され得る。

楽器によって生成されるオーディオ信号は、ノートと呼ばれる一連のイベントとしてモデル化され得る。ノートをプレイする調波楽器の音は、たとえば、（アタックとも呼ばれる）オンセット段階、（サスティーンとも呼ばれる）定常段階、および（リリースとも呼ばれる）オフセット段階の時間的に異なる領域に分割され得る。ノートの時間エンベロープの別の記述（ＡＤＳＲ）は、アタックとサスティーンとの間の追加のディケイ（decay）段階を含む。このコンテキストでは、ノートの持続時間は、アタック段階の開始からリリース段階の終了まで（または、同じ弦上の別のノートの開始など、そのノートを終了する別のイベントまで）の間隔として定義され得る。ノートは単一のピッチを有すると仮定されるが、インベントリは、単一のアタックと（たとえば、ビブラートまたはポルタメントなどのピッチベンディング効果によって生成される）複数のピッチとを有するノートをモデル化するようにも実装され得る。いくつかの楽器（たとえば、ピアノ、ギター、またはハープ）は、コードと呼ばれるイベントにおいて一度に２つ以上のノートを生成し得る。

異なる楽器によって生成されるノートはサスティーン段階中に同様の音色を有し得るので、そのような期間中にどの楽器がプレイしているかを識別することは困難であり得る。しかしながら、ノートの音色は、段階ごとに変化することが予想され得る。たとえば、アクティブな楽器を識別することは、サスティーン段階中よりもアタックまたはリリース段階中に容易であり得る。

図１２に、ピアノ（破線）とフルート（実線）とについてのオクターブＣ５−Ｃ６における１２個の異なるピッチの基底関数の時間領域展開のプロット（ピッチインデックス対時間領域フレームインデックス）を示す。たとえば、ピアノの基底関数の場合のアタック段階とサスティーン段階との間の関係は、フルートの基底関数の場合のアタック段階とサスティーン段階との間の関係とは著しく異なることがわかり得る。

アクティブ化係数ベクトルが適切な基底関数を示す可能性を高めるために、基底関数間の差を最大にすることが望ましいことがある。たとえば、基底関数が時間に対するノートのスペクトルの変化に関係する情報を含むことが望ましいことがある。

時間に対する音色の変化に基づいて基底関数を選択することが望ましいことがある。そのような手法は、ノートの音色のそのような時間領域展開に関係する情報を基底関数インベントリに符号化することを含み得る。たとえば、特定の楽器ｎの基底関数のセットＡ_nは、２つ以上の対応する信号表現の各々がノートの展開における異なる時間（たとえば、アタック段階の時間、サスティーン段階の時間、およびリリース段階の時間）に対応するように、各ピッチにおいてこれらの信号表現を含み得る。これらの基底関数は、ノートをプレイする楽器の記録の対応するフレームから抽出され得る。

図１Ｃに、一般的構成による、オーディオ信号を分解するための装置ＭＦ１００のブロック図を示す。装置ＭＦ１００は、（たとえば、タスクＴ１００に関して本明細書で説明したように）オーディオ信号のフレームからの情報に基づいて、周波数範囲にわたる対応する信号表現を計算するための手段Ｆ１００を含む。装置ＭＦ１００は、（たとえば、タスクＴ２００に関して本明細書で説明したように）手段Ｆ１００によって計算された信号表現と、複数の基底関数とに基づいて、アクティブ化係数の各々が複数の基底関数のうちの異なる１つに対応する、アクティブ化係数のベクトルを計算するための手段Ｆ２００をも含む。

図１Ｄに、変換モジュール１００と係数ベクトル計算器２００とを含む、別の一般的構成による、オーディオ信号を分解するための装置Ａ１００のブロック図を示す。変換モジュール１００は、（たとえば、タスクＴ１００に関して本明細書で説明したように）オーディオ信号のフレームからの情報に基づいて、周波数範囲にわたる対応する信号表現を計算するように構成される。係数ベクトル計算器２００は、（たとえば、タスクＴ２００に関して本明細書で説明したように）変換モジュール１００によって計算された信号表現と、複数の基底関数とに基づいて、アクティブ化係数の各々が複数の基底関数のうちの異なる１つに対応する、アクティブ化係数のベクトルを計算するように構成される。

図１Ｂに、基底関数インベントリが各ピッチにおける各楽器のための複数の信号表現を含む、方法Ｍ１００の実装形態Ｍ２００のフローチャートを示す。これらの複数の信号表現の各々は、周波数範囲にわたるエネルギーの複数の異なる分布（たとえば、複数の異なる音色）を記述する。インベントリはまた、異なる時間関係モダリティのための異なる複数の信号表現を含むように構成され得る。１つのそのような例では、インベントリは、各ピッチにおける弾かれた（bowed）弦の複数の信号表現と、各ピッチにおけるかき鳴らされた（plucked）（たとえば、ピッツィカート（pizzicato）の）弦の異なる複数の信号表現とを含む。

方法Ｍ２００は、タスクＴ１００の複数のインスタンス（この例では、タスクＴ１００ＡおよびＴ１００Ｂ）を含み、各インスタンスは、オーディオ信号の対応する異なるフレームからの情報に基づいて、周波数範囲にわたる対応する信号表現を計算する。様々な信号表現は連結され得、同様に、各基底関数は複数の信号表現の連結であり得る。この例では、タスクＴ２００は、混合フレームの連結を各ピッチにおける信号表現の連結にマッチさせる。図１１に、混合信号ｙのフレームｐ１とフレームｐ２とがマッチングのために連結された、図Ｓ５のモデルＢｆ＝ｙの変形Ｂ’ｆ＝ｙの例を示す。

インベントリは、各ピッチにおける複数の信号表現がトレーニング信号の連続するフレームからとられるように構築され得る。他の実装形態では、各ピッチにおける複数の信号表現が、時間的により大きいウィンドウにわたる（たとえば、連続するフレームではなく時間的に分離されたフレームを含む）ことが望ましいことがある。たとえば、各ピッチにおける複数の信号表現が、アタック段階と、サスティーン段階と、リリース段階とのうちの少なくとも２つからの信号表現を含むことが望ましいことがある。ノートの時間領域展開に関するより多くの情報を含むことによって、異なるノートの基底関数のセット間の差が増加され得る。

図１４の左側には、ノートＦ５におけるピアノの基底関数（破線）とノートＦ５におけるフルートの基底関数（実線）とのプロット（振幅対周波数）が示されている。この特定のピッチにおける楽器の音色を示すこれらの基底関数がまったく同様であることがわかり得る。したがって、実際には、それらの間のある程度のミスマッチが予想され得る。よりロバストな分離結果では、インベントリの基底関数の間の差を最大にすることが望ましいことがある。

フルートの実際の音色は、ピアノの音色よりも多くの高周波エネルギーを含んでいるが、図１４の左側のプロットに示す基底関数はこの情報を符号化しない。図１４の右側に、ノートＦ５におけるピアノの基底関数（破線）とノートＦ５におけるフルートの基底関数（実線）との別のプロット（振幅対周波数）を示す。この場合、基底関数は、音源信号の高周波領域がプリエンファシスされていることを除いて、左側のプロットにおける基底関数と同じ音源信号から導出される。ピアノ音源信号は、フルート音源信号よりも著しくより少ない高周波エネルギーを含んでいるので、右側のプロットに示されている基底関数間の差は、左側のプロットに示されている基底関数間の差よりも明らかに大きい。

図２Ａに、セグメントの高周波を強調するタスクＴ３００を含む方法Ｍ１００の実装形態Ｍ３００のフローチャートを示す。この例では、タスクＴ１００は、プリエンファシス後にセグメントの信号表現を計算するように構成される。図３Ａに、タスクＴ３００の複数のインスタンスＴ３００Ａ、Ｔ３００Ｂを含む、方法Ｍ２００の実装形態Ｍ４００のフローチャートを示す。一例では、プリエンファシスタスクＴ３００は、２００Ｈｚを上回るエネルギーと総エネルギーとの比を増加させる。

図２Ｂに、変換モジュール１００の上流でオーディオ信号に対して高周波強調を実行するように構成されたプリエンファシスフィルタ３００（たとえば、１次高域フィルタなどの高域フィルタ）を含む装置Ａ１００の実装形態Ａ３００のブロック図を示す。図２Ｃに、プリエンファシスフィルタ３００が変換係数に対して高周波プリエンファシスを実行するように構成された、装置Ａ１００の別の実装形態Ａ３１０のブロック図を示す。これらの場合、また、複数Ｂの基底関数に対して高周波プリエンファシス（たとえば、高域フィルタ処理）を実行することが望ましいことがある。図１３に、図１０の分離結果と同じ入力混合信号に関する、方法Ｍ３００によって生成された分離結果のプロット（ピッチインデックス対フレームインデックス）を示す。

楽音は、ビブラートおよび／またはトレモロなどのカラーレーション効果を含み得る。ビブラートは、一般に、４または５から７、８、１０、または１２ヘルツまでの範囲内にある変調レートをもつ周波数変調である。ビブラートによるピッチ変化は、シンガーの場合には、０．６から２半音の間で変動し得、管弦楽器の場合には、概して＋／−０．５半音よりも少ない（たとえば、弦楽器の場合には、０．２から０．３５半音の間である）。トレモロは、一般に同様の変調レートを有する振幅変調である。

基底関数インベントリにおいてそのような効果をモデル化することは困難であり得る。そのような効果の存在を検出することが望ましいことがある。たとえば、ビブラートの存在は、４〜８Ｈｚの範囲内の周波数領域ピークによって示され得る。また、そのような特性は、再生中に効果を復元するために使用され得るので、検出された効果のレベルの測定を（たとえば、このピークのエネルギーとして）記録することが望ましいことがある。トレモロの検出および定量化では、同様の処理が時間領域において実行され得る。効果が検出され、場合によっては定量化された後、ビブラートの場合には時間に対して周波数を平滑化することによって、またはトレモロの場合には時間に対して振幅を平滑化することによって変調を除去することが望ましいことがある。

図４Ｂに、変調レベル計算器ＭＬＣを含む装置Ａ１００の実装形態Ａ７００のブロック図を示す。計算器ＭＬＣは、上記で説明したように、オーディオ信号のセグメント中の検出された変調の測定（たとえば、時間または周波数領域における検出された変調ピークのエネルギー）を計算し、場合によっては記録するように構成される。

本開示では、複数の音源が同時にアクティブになり得る音楽アプリケーションのための使用事例を可能にするために使用され得る方法について説明する。そのような事例では、可能な場合、アクティブ化係数ベクトルを計算する前に音源を分離することが望ましいことがある。この目的を達成するために、マルチチャネル技法とシングルチャネル技法との組合せを提案する。

図３Ｂに、信号を空間クラスタに分離するタスクＴ５００を含む方法Ｍ１００の実装形態Ｍ５００のフローチャートを示す。タスクＴ５００は、音源をできる限り多くの空間クラスタに隔離するように構成され得る。一例では、タスクＴ５００は、記録された音響シナリオをできる限り多くの空間クラスタに分離するために、マルチマイクロフォン処理を使用する。そのような処理は、マイクロフォン信号間の利得差および／または位相差に基づき得、そのような差は、周波数帯域全体にわたって評価されるか、あるいは複数の異なる周波数サブバンドまたは周波数ビンの各々において評価され得る。

空間分離方法のみでは、所望の分離レベルを達成するには不十分であり得る。たとえば、いくつかの音源は、マイクロフォンアレイに対して近接しすぎているか、または場合によっては準最適に構成されることがある（たとえば、複数のバイオリン奏者および／または調波楽器が１つのコーナーに位置し得、打楽器奏者が通常後方に位置する）。典型的な音楽バンドシナリオでは、音源は（たとえば、図１６に示すように）互いに近接して位置するかまたは他の音源のさらに後ろに位置し得るので、空間情報のみを使用して、バンドに対して同じ概略的な方向にあるマイクロフォンのアレイによってキャプチャされた信号を処理することは、音源のすべてを互いから区別することができないことがある。タスクＴ１００およびＴ２００は、（たとえば、図１７に示すように）個々の楽器を分離するために、本明細書で説明するシングルチャネル基底関数インベントリベースのスパース復元（たとえば、スパース分解）技法を使用して個々の空間クラスタを分析する。

計算しやすさのために、複数Ｂの基底関数は、基底関数のインベントリＡよりもかなり小さいことが望ましいことがある。大きいインベントリから開始して、所与の分離タスクのためのインベントリを絞り込むことが望ましいことがある。一例では、そのような低減は、セグメントが打楽器からの音を含むのか調波楽器からの音を含むのかを決定することと、マッチングのためにインベントリから基底関数の適切な複数のＢを選択することとによって実行され得る。打楽器は、調波音の場合の水平線とは反対にインパルス様のスペクトログラム（たとえば、垂直線）を有する傾向がある。

調波楽器は、一般に、ある基本ピッチおよび関連する音色と、この調波パターンの対応する高周波拡張とによって、スペクトログラムにおいて特徴づけられ得る。したがって、別の例では、スペクトルの高周波レプリカは、低周波スペクトルに基づいて予測され得るので、これらのスペクトルのより低いオクターブのみを分析することによって計算タスクを低減することが望ましいことがある。マッチングの後に、アクティブな基底関数を高周波に外挿し、混合信号から減算して、残差信号を取得し得、残差信号は、符号化されおよび／またはさらに分解され得る。

そのような低減はまた、グラフィカルユーザインターフェースにおけるユーザ選択を通して実行され、ならびに／あるいは、第１のスパース復元ランまたは最尤適合に基づく、可能性が最も高い楽器および／またはピッチの事前分類によって実行され得る。たとえば、スパース復元演算の第１のランを実行して、復元されたスパース係数の第１のセットを取得し得、この第１のセットに基づいて、適用可能なノート基底関数がスパース復元演算の別の実行のために絞り込まれ得る。

１つの低減手法は、いくつかのピッチ間隔においてスパーシティスコアを測定することによって、いくつかの楽器音の存在を検出することを含む。そのような手法は、初期ピッチ推定値に基づいて、１つまたは複数の基底関数のスペクトル形状を改良することと、方法Ｍ１００において、改良された基底関数を複数Ｂとして使用することとを含み得る。

低減手法は、対応する基底関数に射影された音楽信号のスパーシティスコアを測定することによってピッチを識別するように構成され得る。最良のピッチスコアが与えられれば、基底関数の振幅形状は、楽器音を識別するために最適化され得る。アクティブな基底関数の低減されたセットは、次いで、方法Ｍ１００において複数Ｂとして使用され得る。

図１８に、ファーストラン手法において使用され得るスパース調波信号表現のための基底関数インベントリの一例を示す。図１９に、ギターノートのスペクトログラム（Ｈｚ単位の周波数対サンプル単位の時間）を示し、図２０に、図１８に示す基底関数のセットにおけるこのスペクトログラムのスパース表現（基底関数番号対フレーム単位の時間）を示す。

図４Ａに、そのような第１ランインベントリ低減を含む方法Ｍ１００の実装形態Ｍ６００のフローチャートを示す。方法Ｍ６００は、（たとえば、メルまたはバーク尺度の場合のように、隣接する要素間の周波数距離が周波数とともに増加する）非線形周波数領域におけるセグメントの信号表現を計算するタスクＴ６００を含む。一例では、タスクＴ６００は、コンスタントＱ変換（constant-Q transform）を使用して非線形信号表現を計算するように構成される。方法Ｍ６００は、非線形信号表現と、複数の同様に非線形の基底関数とに基づいて、アクティブ化係数の第２のベクトルを計算するタスクＴ７００をも含む。第２のアクティブ化係数ベクトルからの（たとえば、アクティブなピッチ範囲を示し得るアクティブ化された基底関数の識別情報からの）情報に基づいて、タスクＴ８００は、タスクＴ２００において使用する基底関数の複数Ｂを選択する。また、方法Ｍ２００、Ｍ３００、およびＭ４００は、そのようなタスクＴ６００、Ｔ７００、およびＴ８００を含むように実装され得ることに明確に留意されたい。

図５に、基底関数のより大きいセットから（たとえば、インベントリから）複数の基底関数を選択するように構成されたインベントリ低減モジュールＩＲＭを含む装置Ａ１００の実装形態Ａ８００のブロック図を示す。モジュールＩＲＭは、（たとえば、定Ｑ変換に従って）非線形周波数領域におけるセグメントの信号表現を計算するように構成された第２の変換モジュール１１０を含む。モジュールＩＲＭは、本明細書で説明するように、非線形周波数領域における計算された信号表現と、第２の複数の基底関数とに基づいて、アクティブ化係数の第２のベクトルを計算するように構成された第２の係数ベクトル計算器をも含む。モジュールＩＲＭは、本明細書で説明するように、第２のアクティブ化係数ベクトルからの情報に基づいて、基底関数のインベントリの中から複数の基底関数を選択するように構成された基底関数セレクタをも含む。

方法Ｍ１００は、オンセット検出（たとえば、楽音のオンセットを検出すること）と、調波楽器スパース係数を改良するための後処理とを含むことが望ましいことがある。アクティブ化係数ベクトルｆは、楽器固有の基底関数セットＢ_nのアクティブ化係数を含む、各楽器ｎの対応するサブベクトルｆ_nを含むと見なされ得、これらのサブベクトルは独立して処理され得る。図２１〜図４６に、コンポジット信号例１（同じオクターブにおいてプレイするピアノおよびフルート）およびコンポジット信号例２（打楽器とともに同じオクターブにおいてプレイするピアノおよびフルート）に対してそのような方式を使用する音楽分解の態様を示す。

一般的なオンセット検出方法はスペクトルの大きさ（たとえば、エネルギー差）に基づき得る。たとえば、そのような方法は、スペクトルエネルギーおよび／またはピークスロープに基づいてピークを見つけることを含み得る。図２１は、そのような方法を、それぞれ、コンポジット信号例１（同じオクターブにおいてプレイするピアノおよびフルート）およびコンポジット信号例２（打楽器とともに同じオクターブにおいてプレイするピアノおよびフルート）に適用した結果のスペクトログラム（Ｈｚ単位の周波数対フレーム単位の時間）を示しており、垂直線は検出されたオンセットを示す。

また、各個々の楽器のオンセットを検出することが望ましいことがある。たとえば、調波楽器の中のオンセット検出の方法は、時間的な対応する係数差に基づき得る。１つのそのような例では、調波楽器ｎのオンセット検出は、現在のフレームの楽器ｎの係数ベクトル（サブベクトルｆ_n）の最大大きさの要素のインデックスが、前のフレームの楽器ｎの係数ベクトルの最大大きさの要素のインデックスに等しくない場合にトリガされる。そのような動作は、各楽器について反復され得る。

調波楽器のスパース係数ベクトルの後処理を実行することが望ましいことがある。たとえば、調波楽器では、大きい大きさを有し、および／または指定された基準を満たす（たとえば、十分に鋭い）アタックプロファイルを有する、対応するサブベクトルの係数を保持すること、ならびに／あるいは残差係数を除去（たとえば、ゼロアウト）することが望ましいことがある。

各調波楽器について、支配的な大きさと許容できるアタック時間とを有する係数が保持され、残差係数がゼロ化されるように、（たとえば、オンセット検出が示されたときに）各オンセットフレームにおいて係数ベクトルを後処理することが望ましいことがある。アタック時間は、時間に対する平均大きさなどの基準に従って評価され得る。１つのそのような例では、係数の現在の平均値が係数の過去の平均値よりも小さい場合（たとえば、フレーム（ｔ−５）からフレーム（ｔ＋４）までなどの現在のウィンドウにわたる係数の値の和が、フレーム（ｔ−１５）からフレーム（ｔ−６）までなどの過去のウィンドウにわたる係数の値の和よりも小さい場合）、現在のフレームｔの楽器の各係数はゼロアウトされる（すなわち、アタック時間は許容できない）。各オンセットフレームにおける調波楽器の係数ベクトルのそのような後処理はまた、最大大きさをもつ係数を保持することと、他の係数をゼロアウトすることとを含み得る。各非オンセットフレームにおける各調波楽器について、前のフレーム中の値が０でなかった係数のみを保持し、ベクトルの他の係数をゼロアウトするように係数ベクトルを後処理することが望ましいことがある。

図２２〜図２５は、オンセット検出ベースの後処理をコンポジット信号例１（同じオクターブをプレイすることでのピアノおよびフルート）に適用した結果を示している。これらの図では、垂直軸はスパース係数インデックスであり、水平軸はフレーム単位の時間であり、垂直線は、オンセット検出が示されたフレームを示す。図２２および図２３は、それぞれ、後処理の前および後のピアノのスパース係数を示している。図２４および図２５は、それぞれ、後処理の前および後のフルートのスパース係数を示している。

図２６〜図３０は、オンセット検出ベースの後処理をコンポジット信号例２（打楽器とともに同じオクターブをプレイすることでのピアノおよびフルート）に適用した結果を示している。これらの図では、垂直軸はスパース係数インデックスであり、水平軸はフレーム単位の時間であり、垂直線は、オンセット検出が示されたフレームを示す。図２６および図２７は、それぞれ、後処理の前および後のピアノのスパース係数を示している。図２８および図２９は、それぞれ、後処理の前および後のフルートのスパース係数を示している。図３０は、ドラムのスパース係数を示している。

図３１〜図３９は、本明細書で説明するオンセット検出方法をコンポジット信号例１（同じオクターブにおいてプレイするピアノおよびフルート）に適用した結果を示すスペクトログラムである。図３１は、元のコンポジット信号のスペクトログラムを示している。図３２は、後処理なしに再構成されたピアノ成分のスペクトログラムを示している。図３３は、後処理を用いて再構成されたピアノ成分のスペクトログラムを示している。図３４は、ＥＭアルゴリズムを使用して取得されたインベントリによってモデル化されたピアノを示している。図３５は、元のピアノを示している。図３６は、後処理なしに再構成されたフルート成分のスペクトログラムを示している。図３７は、後処理を用いて再構成されたフルート成分のスペクトログラムを示している。図３８は、ＥＭアルゴリズムを使用して取得されたインベントリによってモデル化されたフルートを示している。図３９は、元のフルート成分のスペクトログラムを示している。

図４０〜図４６は、本明細書で説明するオンセット検出方法をコンポジット信号例２（同じオクターブにおいてプレイするピアノおよびフルートとドラム）に適用した結果を示すスペクトログラムである。図４０は、元のコンポジット信号のスペクトログラムを示している。図４１は、後処理なしに再構成されたピアノ成分のスペクトログラムを示している。図４２は、後処理を用いて再構成されたピアノ成分のスペクトログラムを示している。図４３は、後処理なしに再構成されたフルート成分のスペクトログラムを示している。図４４は、後処理を用いて再構成されたフルート成分のスペクトログラムを示している。図４５および図４６は、それぞれ、再構成されたドラム成分のスペクトログラムおよび元のドラム成分のスペクトログラムを示している。

図４７Ａに、Ｖｉｎｃｅｎｔらによって記述された評価メトリクス（Performance Measurement in Blind Audio Source Separation、ＩＥＥＥＴｒａｎｓ．ＡＳＳＰ、第１４巻、第４号、２００６年７月、１４６２〜１４６９ページ）を使用して、ピアノフルートテストケースに適用された、本明細書で説明するオンセット検出方法の性能を評価した結果を示す。信号対干渉比（ＳＩＲ）は、不要な音源の抑制の測定であり、

として定義される。信号対アーティファクト比（ＳＡＲ）は、分離プロセスによって導入された（音楽雑音などの）アーティファクトの測定であり、

として定義される。信号対ひずみ比（ＳＤＲ）は、上記の基準の両方を考慮するので、性能の全体的な測定であり、

として定義される。この定量的評価は、許容できるレベルのアーティファクト生成を伴うロバストな音源分離を示す。

ＥＭアルゴリズムは、初期基底関数行列を生成するため、および／または（たとえば、アクティブ化係数ベクトルに基づいて）基底関数行列を更新するために使用され得る。ＥＭ手法のための更新ルールの例について次に説明する。スペクトログラムＶ_ftが与えられれば、各時間フレームについてスペクトル基底ベクトル

と重みベクトルＰ_t（ｚ）とを推定することが望まれる。これらの分布から行列分解が得られる。

以下のようにＥＭアルゴリズムを適用する。最初に、重みベクトルＰ_t（ｚ）とスペクトル基底ベクトル

とをランダムに初期化する。次いで、収束するまで後続のステップ間を反復する。１）予想（Ｅ）ステップ − スペクトル基底ベクトル

と重みベクトルＰ_t（ｚ）とが与えられれば、後の分布

を推定する。この推定は、以下のように表され得る。

２）最大化（Ｍ）ステップ − 後の分布

が与えられれば、重みベクトルＰ_t（ｚ）とスペクトル基底ベクトル

とを推定する。重みベクトルの推定は、以下のように表され得る。

スペクトル基底ベクトルの推定は、以下のように表され得る。

音響信号を受信するように構成された２つ以上のマイクロフォンのアレイを有するポータブルオーディオ感知デバイス内で本明細書で説明する方法を実行することが望ましいことがある。そのようなアレイを含むように実装され得、オーディオ記録および／またはボイス通信適用例のために使用され得るポータブルオーディオ感知デバイスの例には、電話ハンドセット（たとえば、セルラー電話ハンドセット）、ワイヤードまたはワイヤレスヘッドセット（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ヘッドセット）、ハンドヘルドオーディオおよび／またはビデオレコーダ、オーディオおよび／またはビデオコンテンツを記録するように構成されたパーソナルメディアプレーヤ、携帯情報端末（ＰＤＡ）または他のハンドヘルドコンピューティングデバイス、およびノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、または他のポータブルコンピューティングデバイスがある。ポータブルコンピューティングデバイスの種類は現在、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、ウルトラポータブルコンピュータ、タブレットコンピュータ、モバイルインターネットデバイス、スマートブック、およびスマートフォンなどの名称を有するデバイスを含む。そのようなデバイスは、ディスプレイスクリーンを含む上部パネルと、キーボードを含み得る下部パネルとを有し得、２つのパネルは、クラムシェルまたは他のヒンジ結合関係で接続され得る。そのようなデバイスは、上面上にタッチスクリーンディスプレイを含むタブレットコンピュータとして同様に実装され得る。そのような方法を実行するように構築され得、オーディオ記録および／またはボイス通信適用例のために使用され得るオーディオ感知デバイスの他の例には、テレビジョンディスプレイ、セットトップボックス、ならびにオーディオおよび／またはビデオ会議デバイスがある。

図４７Ｂに、通信デバイスＤ２０のブロック図を示す。デバイスＤ２０は、本明細書で説明する装置Ａ１００（またはＭＦ１００）の実装形態を含むチップまたはチップセットＣＳ１０（たとえば、移動局モデム（ＭＳＭ）チップセット）を含む。チップ／チップセットＣＳ１０は、装置Ａ１００またはＭＦ１００の動作の全部または一部を（たとえば、命令として）実行するように構成され得る１つまたは複数のプロセッサを含み得る。

チップ／チップセットＣＳ１０は、（たとえば、アンテナＣ４０を介して）無線周波（ＲＦ）通信信号を受信することと、ＲＦ信号内で符号化されたオーディオ信号を復号し、（たとえば、ラウドスピーカーＳＰ１０を介して）再生することとを行うように構成された受信機を含む。チップ／チップセットＣＳ１０は、装置Ａ１００によって生成された出力信号に基づくオーディオ信号を符号化することと、符号化されたオーディオ信号を記述するＲＦ通信信号を（たとえば、アンテナＣ４０を介して）送信することと行うように構成された送信機をも含む。たとえば、チップ／チップセットＣＳ１０の１つまたは複数のプロセッサは、符号化されたオーディオ信号が分解された信号に基づくように、マルチチャネルオーディオ入力信号の１つまたは複数のチャネルに対して上記で説明した分解演算を実行するように構成され得る。この例では、デバイスＤ２０はまた、ユーザ制御と対話とをサポートするためのキーパッドＣ１０とディスプレイＣ２０とを含む。

図４８に、デバイスＤ２０のインスタンスとして実装され得るハンドセットＨ１００（たとえば、スマートフォン）の前面図、後面図、および側面図を示す。ハンドセットＨ１００は、前面上に構成された３つのマイクロフォンＭＦ１０、ＭＦ２０、およびＭＦ３０と、後面上に構成された２つのマイクロフォンＭＲ１０およびＭＲ２０とカメラレンズＬ１０とを含む。ラウドスピーカーＬＳ１０は、マイクロフォンＭＦ１０の近くの前面の上部中央に構成され、（たとえば、スピーカーフォン適用例のための）２つの他のラウドスピーカーＬＳ２０Ｌ、ＬＳ２０Ｒも設けられる。そのようなハンドセットのマイクロフォン間の最大距離は、一般に約１０または１２センチメートルである。本明細書で開示するシステム、方法、および装置の適用範囲は、本明細書で言及する特定の例に限定されないことが明確に開示される。

本明細書で開示した方法および装置は、概して任意の送受信および／またはオーディオ感知適用例において適用され、そのような適用例のモバイルまたは場合によってはポータブルインスタンスを含み、および／または遠距離音源からの信号成分を感知し得る。たとえば、本明細書で開示した構成の範囲は、符号分割多元接続（ＣＤＭＡ）無線インターフェースを採用するように構成されたワイヤレステレフォニー通信システム中に常駐する通信デバイスを含む。とはいえ、本明細書で説明した特徴を有する方法および装置は、ワイヤードおよび／またはワイヤレス（たとえば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、および／またはＴＤ−ＳＣＤＭＡ）送信チャネルを介したボイスオーバＩＰ（ＶｏＩＰ）を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。

本明細書で開示した通信デバイスは、パケット交換式であるネットワーク（たとえば、ＶｏＩＰなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび／またはワイヤレスネットワーク）および／または回線交換式であるネットワークにおける使用に適応され得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示した通信デバイスは、狭帯域コーディングシステム（たとえば、約４または５キロヘルツの可聴周波数範囲を符号化するシステム）での使用、ならびに／あるいは全帯域広帯域コーディングシステムおよびスプリットバンド広帯域コーディングシステムを含む、広帯域コーディングシステム（たとえば、５キロヘルツを超える可聴周波数を符号化するシステム）での使用に適応され得ることが明確に企図され、本明細書によって開示される。

説明した構成の上記の提示は、本明細書で開示した方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形態も本開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般原理は他の構成にも同様に適用され得る。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。

情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者なら理解されよう。たとえば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表され得る。

本明細書で開示した構成の実装形態の重要な設計要件は、圧縮されたオーディオもしくはオーディオビジュアル情報（たとえば、本明細書で識別される例のうちの１つなど、圧縮形式に従って符号化されるファイルまたはストリーム）の再生などの計算集約的適用例、または広帯域通信（たとえば、１２、１６、４４．１、４８、または１９２ｋＨｚなど、８キロヘルツよりも高いサンプリングレートにおけるボイス通信）の適用例では特に、（一般に百万命令毎秒またはＭＩＰＳで測定される）処理遅延および／または計算複雑さを最小にすることを含み得る。

マルチマイクロフォン処理システムの目的は、全体で１０〜１２ｄＢの雑音低減を達成すること、所望の話者の移動中にボイスレベルおよびカラーを保持すること、アグレッシブな雑音除去の代わりに雑音が背景に移動されたという知覚を得ること、音声の残響除去、および／またはよりアグレッシブな雑音低減のための後処理のオプションを可能にすることを含み得る。

本明細書で開示した装置（たとえば、装置Ａ１００、Ａ３００、Ａ３１０、Ａ７００、およびＭＦ１００）は、意図された適用例に好適と見なされる、ソフトウェアとの、および／またはファームウェアとのハードウェアの任意の組合せで実装され得る。たとえば、そのような装置の要素は、たとえば、同じチップ上に、またはチップセット中の２つ以上のチップ間に常駐する電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも１つまたは複数のそのようなアレイとして実装され得る。これらの装置の要素のうちの任意の２つ以上、さらにはすべてが、同じ１つまたは複数のアレイ内に実装され得る。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装され得る。

本明細書で開示した装置の様々な実装形態の１つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、およびＡＳＩＣ（特定用途向け集積回路）など、論理要素の１つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数のセットとしても実装され得る。本明細書で開示した装置の実装形態の様々な要素のいずれも、１つまたは複数のコンピュータ（たとえば、「プロセッサ」とも呼ばれる、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）としても実施され得、これらの要素のうちの任意の２つ以上、さらにはすべてが、同じそのような１つまたは複数のコンピュータ内に実装され得る。

本明細書で開示したプロセッサまたは処理するための他の手段は、たとえば、同じチップ上に、またはチップセット中の２つ以上のチップ間に常駐する１つまたは複数の電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも１つまたは複数のそのようなアレイとして実装され得る。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装され得る。そのようなアレイの例には、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、ＤＳＰ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなど、論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示したプロセッサまたは処理するための他の手段は、１つまたは複数のコンピュータ（たとえば、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）あるいは他のプロセッサとしても実施され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム（たとえば、オーディオ感知デバイス）の別の動作に関係するタスクなど、本明細書で説明した音楽分解プロシージャに直接関係しないタスクを実行するかまたは命令の他のセットを実行するために使用することが可能である。また、本明細書で開示した方法の一部はオーディオ感知デバイスのプロセッサによって実行され、その方法の別の一部は１つまたは複数の他のプロセッサの制御下で実行されることが可能である。

本明細書で開示した構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装され得ることを、当業者なら諒解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示した構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣまたはＡＳＳＰ、ＦＰＧＡまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされるかもしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。ソフトウェアモジュールは、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読取り専用メモリ）、フラッシュＲＡＭなどの不揮発性ＲＡＭ（ＮＶＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体はＡＳＩＣ中に常駐し得る。ＡＳＩＣはユーザ端末中に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別構成要素として常駐し得る。

本明細書で開示した様々な方法（たとえば、方法Ｍ１００、および本明細書で説明した様々な装置の動作の説明として開示した他の方法）は、プロセッサなどの論理要素のアレイによって実行され得、本明細書で説明した装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令（たとえば、論理式）を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムは１つのモジュールまたはシステムに結合され得、１つのモジュールまたはシステムは、同じ機能を実行する複数のモジュールまたはシステムに分離され得ることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装されるとき、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の１つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読記憶媒体に記憶され得、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信され得る。

本明細書で開示した方法、方式、および技法の実装形態は、（たとえば、本明細書に記載する１つまたは複数のコンピュータ可読媒体中で）論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械によって読取り可能および／または実行可能な命令の１つまたは複数のセットとしても実体的に実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む、任意の媒体を含み得る。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ＲＯＭ、フラッシュメモリ、消去可能ＲＯＭ（ＥＲＯＭ）、フロッピー（登録商標）ディスケットまたは他の磁気ストレージ、ＣＤ−ＲＯＭ／ＤＶＤまたは他の光ストレージ、ハードディスク、光ファイバー媒体、無線周波（ＲＦ）リンク、あるいは所望の情報を記憶するために使用され得、アクセスされ得る、任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、エアリンク、電磁リンク、ＲＦリンクなどの伝送媒体を介して伝播することができるどんな信号をも含み得る。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。

本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその２つの組合せで実施され得る。本明細書で開示した方法の実装形態の典型的な適用例では、論理要素のアレイ（たとえば、論理ゲート）は、この方法の様々なタスクのうちの１つ、複数、さらにはすべてを実行するように構成される。タスクのうちの１つまたは複数（場合によってはすべて）は、論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械（たとえば、コンピュータ）によって読取り可能および／または実行可能であるコンピュータプログラム製品（たとえば、ディスク、フラッシュメモリカードまたは他の不揮発性メモリカード、半導体メモリチップなど、１つまたは複数のデータ記憶媒体など）に埋め込まれたコード（たとえば、命令の１つまたは複数のセット）としても実装され得る。本明細書で開示した方法の実装形態のタスクは、２つ以上のそのようなアレイまたは機械によっても実行され得る。これらまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能を有する他のデバイス内で実行され得る。そのようなデバイスは、（たとえば、ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）回線交換および／またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および／または送信するように構成されたＲＦ回路を含み得る。

本明細書で開示した様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末（ＰＤＡ）などのポータブル通信デバイスによって実行され得、本明細書で説明した様々な装置は、そのようなデバイス内に含まれ得ることが明確に開示される。典型的なリアルタイム（たとえば、オンライン）適用例は、そのようなモバイルデバイスを使用して行われる電話会話である。

１つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装する場合、そのような動作は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信（たとえば、伝送）媒体の両方を含む。限定ではなく例として、コンピュータ可読記憶媒体は、（限定はしないが、ダイナミックまたはスタティックＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、および／またはフラッシュＲＡＭを含み得る）半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの記憶要素のアレイ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、ならびに／あるいは磁気ディスクストレージまたは他の磁気ストレージデバイスを備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、命令またはデータ構造の形態で所望のプログラムコードを搬送するために使用され得、コンピュータによってアクセスされ得る、任意の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザディスク（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピーディスク（disk）およびＢｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ（Ｂｌｕ−ＲａｙＤｉｓｃＡｓｓｏｃｉａｔｉｏｎ、ユニヴァーサルシティー、ＣＡ）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。

本明細書で説明した音響信号処理装置（たとえば、装置Ａ１００またはＭＦ１００）は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることがある、通信デバイスなどの電子デバイスに組み込まれ得る。多くの適用例では、複数の方向から発生した背景音から明瞭な所望の音を強調または分離することから利益を得ることがある。そのような適用例は、ボイス認識および検出、音声強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにおける人間機械インターフェースを含み得る。限られた処理機能のみを与えるデバイスに適したそのような音響信号処理装置を実装することが望ましいことがある。

本明細書で説明したモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の２つ以上のチップ間に常駐する電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明した装置の様々な実装形態の１つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなど、論理要素の１つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数のセットとしても実装され得る。

本明細書で説明した装置の実装形態の１つまたは複数の要素は、その装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施するために、または装置の動作に直接関係しない命令の他のセットを実行するために使用されることが可能である。また、そのような装置の実装形態の１つまたは複数の要素は、共通の構造（たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび／または光デバイスの構成）を有することが可能である。
以下に、本願出願時に最初に添付した特許請求の範囲に記載された発明を付記する。
［１］オーディオ信号を分解する方法であって、前記方法は、前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算することと、前記複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算することと、を備え、前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、前記複数の基底関数の各々は、前記周波数範囲にわたる第１の対応する信号表現と、前記第１の対応する信号表現とは異なる、前記周波数範囲にわたる第２の対応する信号表現と、を備える、方法。
［２］前記複数のセグメントのうちの少なくとも１つについて、（Ａ）２００ヘルツを上回る周波数における総エネルギーと（Ｂ）前記周波数範囲にわたる総エネルギーとの比が、前記対応するセグメントにおけるよりも前記計算された対応する信号表現において高い、［１］に記載の方法。
［３］前記複数のセグメントのうちの少なくとも１つについて、前記計算された対応する信号表現における変調のレベルは、前記対応するセグメントにおける前記変調のレベルよりも低く、前記変調が、振幅変調とピッチ変調とのうちの少なくとも１つである、［１］および［２］のいずれか一に記載の方法。
［４］前記複数のセグメントのうちの前記少なくとも１つについて、前記対応する信号表現を前記計算することは、前記変調の前記レベルの測定を記録することを備える、［３］に記載の方法。
［５］前記ベクトルの前記アクティブ化係数の少なくとも５０パーセントが０値である、［１］から［４］のいずれか一に記載の方法。
［６］アクティブ化係数の前記ベクトルを前記計算することは、Ｂｆ＝ｙの形の連立一次方程式の解を計算することを備え、ｙは、前記複数の計算された信号表現を含むベクトルであり、Ｂは、前記複数の基底関数を含む行列であり、ｆはアクティブ化係数の前記ベクトルである、［１］から［５］のいずれか一に記載の方法。
［７］アクティブ化係数の前記ベクトルを前記計算することは、アクティブ化係数の前記ベクトルのＬ１ノルムを最小限に抑えることを備える、［１］から［６］のいずれか一に記載の方法。
［８］前記複数のセグメントのうちの少なくとも１つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも１つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、［１］から［７］のいずれか一に記載の方法。
［９］前記複数の基底関数の各基底関数について、前記第１の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第１の音色を記述し、前記第２の対応する信号表現は、前記第１の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第２の音色を記述する、［１］から［８］のいずれか一に記載の方法。
［１０］前記複数の基底関数の各基底関数について、前記第１の音色は、対応するノートの第１の時間間隔中の音色であり、前記第１の音色が、前記第１の時間間隔とは異なる、前記対応するノートの第２の時間間隔中の音色である、［９］に記載の方法。
［１１］前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、［１］から［１０］のいずれか一に記載の方法。
［１２］前記方法は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも１つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択することを備える、［１］から［１１］のいずれか一に記載の方法。
［１３］前記方法は、前記複数のセグメントのうちの少なくとも１つについて、非線形周波数領域における対応する信号表現を計算することと、アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第２の複数の基底関数とに基づいて、アクティブ化係数の第２のベクトルを計算することと、を備え、前記第２の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、［１］から［１２］のいずれか一に記載の方法。
［１４］前記方法は、アクティブ化係数の前記計算された第２のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択することを備える、［１３］に記載の方法。
［１５］オーディオ信号を分解するための装置であって、前記装置は、前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するための手段と、前記複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算するための手段と、を備え、前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、前記複数の基底関数の各々は、前記周波数範囲にわたる第１の対応する信号表現と、前記第１の対応する信号表現とは異なる、前記周波数範囲にわたる第２の対応する信号表現と、を備える、装置。
［１６］前記複数のセグメントのうちの少なくとも１つについて、（Ａ）２００ヘルツを上回る周波数における総エネルギーと（Ｂ）前記周波数範囲にわたる総エネルギーとの比が、前記対応するセグメントにおけるよりも前記計算された対応する信号表現において高い、［１５］に記載の装置。
［１７］前記複数のセグメントのうちの少なくとも１つについて、前記計算された対応する信号表現における変調のレベルは、前記対応するセグメントにおける前記変調のレベルよりも低く、前記変調は、振幅変調とピッチ変調とのうちの少なくとも１つである、［１５］に記載の装置。
［１８］前記対応する信号表現を計算するための前記手段は、前記複数のセグメントのうちの前記少なくとも１つについて、前記変調の前記レベルの測定を記録するための手段を備える、［１７］に記載の装置。
［１９］前記ベクトルの前記アクティブ化係数の少なくとも５０パーセントが０値である、［１５］に記載の装置。
［２０］アクティブ化係数の前記ベクトルを計算するための前記手段は、Ｂｆ＝ｙの形の連立一次方程式の解を計算するための手段を備え、ｙは、前記複数の計算された信号表現を含むベクトルであり、Ｂは、前記複数の基底関数を含む行列であり、ｆは、アクティブ化係数の前記ベクトルである、［１５］に記載の装置。
［２１］アクティブ化係数の前記ベクトルを計算するための前記手段は、アクティブ化係数の前記ベクトルのＬ１ノルムを最小限に抑えるための手段を備える、［１５］に記載の装置。
［２２］前記複数のセグメントのうちの少なくとも１つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも１つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、［１５］に記載の装置。
［２３］前記複数の基底関数の各基底関数について、前記第１の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第１の音色を記述し、前記第２の対応する信号表現は、前記第１の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第２の音色を記述する、［１５］に記載の装置。
［２４］前記複数の基底関数の各基底関数について、前記第１の音色は、対応するノートの第１の時間間隔中の音色であり、前記第１の音色は、前記第１の時間間隔とは異なる、前記対応するノートの第２の時間間隔中の音色である、［２３］に記載の装置。
［２５］前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、［１５］に記載の装置。
［２６］前記装置は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも１つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択するための手段を備える、［１５］に記載の装置。
［２７］基底関数のより大きいセットから前記複数の基底関数を選択するための前記手段は、前記複数のセグメントのうちの少なくとも１つについて、非線形周波数領域における対応する信号表現を計算するための手段と、アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第２の複数の基底関数とに基づいて、アクティブ化係数の第２のベクトルを計算するための手段と、を備え、前記第２の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、［１５］に記載の装置。
［２８］前記装置は、アクティブ化係数の前記計算された第２のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択するための手段を備える、［２７］に記載の装置。
［２９］オーディオ信号を分解するための装置であって、前記装置は、前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するように構成された変換モジュールと、前記複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算するように構成された係数ベクトル計算器と、を備え、前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、前記複数の基底関数の各々は、前記周波数範囲にわたる第１の対応する信号表現と、前記第１の対応する信号表現とは異なる、前記周波数範囲にわたる第２の対応する信号表現とを備える、装置。
［３０］前記複数のセグメントのうちの少なくとも１つについて、（Ａ）２００ヘルツを上回る周波数における総エネルギーと（Ｂ）前記周波数範囲にわたる総エネルギーとの比が、前記対応するセグメントにおけるよりも前記計算された対応する信号表現において高い、［２９］に記載の装置。
［３１］前記複数のセグメントのうちの少なくとも１つについて、前記計算された対応する信号表現における変調のレベルは、前記対応するセグメントにおける前記変調のレベルよりも低く、前記変調は、振幅変調とピッチ変調とのうちの少なくとも１つである、［２９］に記載の装置。
［３２］前記装置は、前記複数のセグメントのうちの前記少なくとも１つについて、前記変調の前記レベルの測定を計算するように構成された変調レベル計算器を含む、［３１］に記載の装置。
［３３］前記ベクトルの前記アクティブ化係数の少なくとも５０パーセントが０値である、［２９］に記載の装置。
［３４］前記係数ベクトル計算器は、Ｂｆ＝ｙの形の連立一次方程式の解を計算するように構成され、ｙは、前記複数の計算された信号表現を含むベクトルであり、Ｂは、前記複数の基底関数を含む行列であり、ｆは、アクティブ化係数の前記ベクトルである、［２９］に記載の装置。
［３５］前記係数ベクトル計算器は、アクティブ化係数の前記ベクトルのＬ１ノルムを最小限に抑えるように構成された、［２９］に記載の装置。
［３６］前記複数のセグメントのうちの少なくとも１つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも１つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、［２９］に記載の装置。
［３７］前記複数の基底関数の各基底関数について、前記第１の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第１の音色を記述し、前記第２の対応する信号表現は、前記第１の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第２の音色を記述する、［２９］に記載の装置。
［３８］前記複数の基底関数の各基底関数について、前記第１の音色は、対応するノートの第１の時間間隔中の音色であり、前記第１の音色は、前記第１の時間間隔とは異なる、前記対応するノートの第２の時間間隔中の音色である、［３７］に記載の装置。
［３９］前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、［２９］に記載の装置。
［４０］前記装置は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも１つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択するように構成されたインベントリ低減モジュールを備える、［２９］に記載の装置。
［４１］前記インベントリ低減モジュールは、前記複数のセグメントのうちの少なくとも１つについて、非線形周波数領域における対応する信号表現を計算するように構成された第２の変換モジュールと、アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第２の複数の基底関数とに基づいて、アクティブ化係数の第２のベクトルを計算するように構成された第２の係数ベクトル計算器と、を備え、前記第２の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、［２９］に記載の装置。
［４２］前記装置は、アクティブ化係数の前記計算された第２のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択するように構成された基底関数セレクタを備える、［４１］に記載の装置。
［４３］機械によって読み取られたとき、前記機械に［１］から［１４］のいずれか一に記載の方法を実行させる実体的な特徴を備える機械可読記憶媒体。

Claims

オーディオ信号を分解する方法であって、前記オーディオ信号は、一連のノートとしてモデル化され、前記ノートは、オンセット段階、定常段階、およびオフセット段階を含む、時間的に異なる時間領域に分割され、前記方法は、
前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算することと、
前記複数の計算された信号表現と、前記オーディオ信号を分解するための複数の基底関数とに基づいて、前記オーディオ信号の少なくとも選択された部分を再構成するためのアクティブ化係数のベクトルを計算することと、を備え、
前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、
前記複数の基底関数の各々は、各々が前記ノートの前記異なる領域に対応する音色を表す、前記周波数範囲にわたる第１の対応する信号表現と前記周波数範囲にわたる第２の対応する信号表現とを備え、前記ノートの前記異なる領域の前記音色に関係する情報は、基底関数が時間に対する前記音色の変化に基づいて選択されるように、前記複数の基底関数に符号化される、方法。
前記計算された対応する信号表現において、（Ａ）２００ヘルツを上回る周波数における総エネルギーと（Ｂ）前記周波数範囲にわたる総エネルギーとの比を増加させるために、前記複数のセグメントのうちの少なくとも１つの前記オーディオ信号の２００ヘルツを上回る高周波領域をプリエンファシスすることをさらに備える、請求項１に記載の方法。
カラーレーション効果を検出するために、周波数領域または時間領域における前記オーディオ信号でのエネルギーピークを検出することをさらに備える、請求項１および２のいずれか一項に記載の方法。
前記複数のセグメントのうちの前記少なくとも１つについて、前記エネルギーピークを検出することは、前記対応する信号表現を計算することと、変調のレベルの測度を記録することを備える、請求項３に記載の方法。
前記ベクトルの前記アクティブ化係数の少なくとも５０パーセントが０値である、請求項１から４のいずれか一項に記載の方法。
アクティブ化係数の前記ベクトルを前記計算することは、Ｂｆ＝ｙの形の連立一次方程式の解を計算することを備え、
ｙは、前記複数の計算された信号表現を含むベクトルであり、
Ｂは、前記複数の基底関数を含む行列であり、
ｆは、アクティブ化係数の前記ベクトルである、請求項１から５のいずれか一項に記載の方法。
アクティブ化係数の前記ベクトルを前記計算することは、アクティブ化係数の前記ベクトルのＬ１ノルムを最小限に抑えることを備える、請求項１から６のいずれか一項に記載の方法。
前記複数のセグメントのうちの少なくとも１つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも１つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、請求項１から７のいずれか一項に記載の方法。
前記複数の基底関数の各基底関数について、
前記第１の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第１の音色を記述し、
前記第２の対応する信号表現は、前記第１の音色とは異なる、前記周波数範囲にわたる同じ対応する楽器の第２の音色を記述する、請求項１から８のいずれか一項に記載の方法。
前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、請求項１から９のいずれか一項に記載の方法。
前記方法は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも１つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択することを備える、請求項１から１０のいずれか一項に記載の方法。
前記方法は、
前記複数のセグメントのうちの少なくとも１つについて、非線形周波数領域における対応する信号表現を計算することと、
アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第２の複数の基底関数とに基づいて、アクティブ化係数の第２のベクトルを計算することと、を備え、
前記第２の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、請求項１から１１のいずれか一項に記載の方法。
前記方法は、アクティブ化係数の前記計算された第２のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択することを備える、請求項１２に記載の方法。
オーディオ信号を分解するための装置であって、前記オーディオ信号は、一連のノートとしてモデル化され、前記ノートは、オンセット段階、定常段階、およびオフセット段階を含む、時間的に異なる時間領域に分割され、前記装置が、
前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するための手段と、
前記複数の計算された信号表現と、前記オーディオ信号を分解するための複数の基底関数とに基づいて、前記オーディオ信号の少なくとも選択された部分を再構成するためのアクティブ化係数のベクトルを計算するための手段と、を備え、
前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、
前記複数の基底関数の各々は、各々が前記ノートの前記異なる領域に対応する音色を表す、前記周波数範囲にわたる第１の対応する信号表現と前記周波数範囲にわたる第２の対応する信号表現とを備え、前記ノートの前記異なる領域の前記音色に関係する情報は、基底関数が時間に対する前記音色の変化に基づいて選択されるように、前記複数の基底関数に符号化される、装置。
前記計算された対応する信号表現において、（Ａ）２００ヘルツを上回る周波数における総エネルギーと（Ｂ）前記周波数範囲にわたる総エネルギーとの比を増加させるために、前記複数のセグメントのうちの少なくとも１つの前記オーディオ信号の２００ヘルツを上回る高周波領域をプリエンファシスすることをさらに備える、請求項１４に記載の装置。
カラーレーション効果を検出するために、周波数領域または時間領域における前記オーディオ信号でのエネルギーピークを検出するための手段をさらに備える、請求項１４に記載の装置。
前記複数のセグメントのうちの前記少なくとも１つについて、前記エネルギーピークを検出するための手段は、前記対応する信号表現を計算するための手段と、変調のレベルの測度を記録するための手段を備える、請求項１６に記載の装置。
前記ベクトルの前記アクティブ化係数の少なくとも５０パーセントが０値である、請求項１４に記載の装置。
アクティブ化係数の前記ベクトルを計算するための前記手段は、Ｂｆ＝ｙの形の連立一次方程式の解を計算するための手段を備え、
ｙは、前記複数の計算された信号表現を含むベクトルであり、
Ｂは、基底関数の前記複数を含む行列であり、
ｆは、アクティブ化係数の前記ベクトルである、請求項１４に記載の装置。
アクティブ化係数の前記ベクトルを計算するための前記手段は、アクティブ化係数の前記ベクトルのＬ１ノルムを最小限に抑えるための手段を備える、請求項１４に記載の装置。
前記複数のセグメントのうちの少なくとも１つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも１つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、請求項１４に記載の装置。
前記複数の基底関数の各基底関数について、
前記第１の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第１の音色を記述し、
前記第２の対応する信号表現は、前記第１の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第２の音色を記述する、請求項１４に記載の装置。
前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、請求項１４に記載の装置。
前記装置が、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも１つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択するための手段を備える、請求項１４に記載の装置。
基底関数のより大きいセットから前記複数の基底関数を選択するための前記手段は、
前記複数のセグメントのうちの少なくとも１つについて、非線形周波数領域における対応する信号表現を計算するための手段と、
アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第２の複数の基底関数とに基づいて、アクティブ化係数の第２のベクトルを計算するための手段と、を備え、
前記第２の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、請求項１４に記載の装置。
前記装置が、アクティブ化係数の前記計算された第２のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択するための手段を備える、請求項２５に記載の装置。
オーディオ信号を分解するための装置であって、前記オーディオ信号は、一連のノートとしてモデル化され、前記ノートは、オンセット段階、定常段階、およびオフセット段階を含む、時間的に異なる時間領域に分割され、前記装置は、
前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するように構成された変換モジュールと、
前記複数の計算された信号表現と、前記オーディオ信号を分解するための複数の基底関数とに基づいて、前記オーディオ信号の少なくとも選択された部分を再構成するためのアクティブ化係数のベクトルを計算するように構成された係数ベクトル計算器と、を備え、
前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、
前記複数の基底関数の各々は、各々が前記ノートの前記異なる領域に対応する音色を表す、前記周波数範囲にわたる第１の対応する信号表現と前記周波数範囲にわたる第２の対応する信号表現とを備え、前記ノートの前記異なる領域の前記音色に関係する情報は、基底関数が時間に対する前記音色の変化に基づいて選択されるように、前記複数の基底関数に符号化される、装置。
前記計算された対応する信号表現において、（Ａ）２００ヘルツを上回る周波数における総エネルギーと（Ｂ）前記周波数範囲にわたる総エネルギーとの比を増加させるために、前記複数のセグメントのうちの少なくとも１つの前記オーディオ信号の２００ヘルツを上回る高周波領域をプリエンファシスするためのプリエンファシスフィルタをさらに備える、請求項２７に記載の装置。
カラーレーション効果を検出するために、周波数領域または時間領域における前記オーディオ信号でのエネルギーピークを検出するための変調レベル計算器をさらに備える、請求項２７に記載の装置。
前記変調レベル計算器は、前記複数のセグメントのうちの前記少なくとも１つについて、変調のレベルの測度を計算するように構成される、請求項２９に記載の装置。
前記ベクトルの前記アクティブ化係数の少なくとも５０パーセントが０値である、請求項２７に記載の装置。
前記係数ベクトル計算器は、Ｂｆ＝ｙの形の連立一次方程式の解を計算するように構成され、
ｙは、前記複数の計算された信号表現を含むベクトルであり、
Ｂは、前記複数の基底関数を含む行列であり、
ｆは、アクティブ化係数の前記ベクトルである、請求項２７に記載の装置。
前記係数ベクトル計算器が、アクティブ化係数の前記ベクトルのＬ１ノルムを最小限に抑えるように構成された、請求項２７に記載の装置。
前記複数のセグメントのうちの少なくとも１つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも１つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、請求項２７に記載の装置。
前記複数の基底関数の各基底関数について、
前記第１の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第１の音色を記述し、
前記第２の対応する信号表現は、前記第１の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第２の音色を記述する、請求項２７に記載の装置。
前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、請求項２７に記載の装置。
前記装置は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも１つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択するように構成されたインベントリ低減モジュールを備える、請求項２７に記載の装置。
前記インベントリ低減モジュールは、
前記複数のセグメントのうちの少なくとも１つについて、非線形周波数領域における対応する信号表現を計算するように構成された第２の変換モジュールと、
アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第２の複数の基底関数とに基づいて、アクティブ化係数の第２のベクトルを計算するように構成された第２の係数ベクトル計算器と、を備え、
前記第２の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、請求項３７に記載の装置。
前記装置は、アクティブ化係数の前記計算された第２のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択するように構成された基底関数セレクタを備える、請求項３８に記載の装置。
機械によって読み取られたとき、前記機械に請求項１から１３のいずれか一項に記載の方法を実行させる実体的な特徴を備える機械可読記憶媒体。