JP2006106754A

JP2006106754A - メタデータマッピング音再生装置及びこれに使用可能なオーディオサンプリング／サンプル処理システム

Info

Publication number: JP2006106754A
Application number: JP2005292757A
Authority: JP
Inventors: Francois Pachet; パシェ、フランソワ; Jean-Julien Aucouturier; オクチュリエ、ジャン−ジュリアン
Original assignee: Sony France SA
Current assignee: Sony France SA
Priority date: 2004-10-05
Filing date: 2005-10-05
Publication date: 2006-04-20
Anticipated expiration: 2025-10-05
Also published as: JP5187798B2; EP1646035B1; US7709723B2; EP1646035A1; US20060074649A1

Abstract

【課題】オーディオをサンプリング及び処理する新たなシステム。
【解決手段】抽出されたオーディオ又は全体のオーディオのタイトルに対応するオーディオサンプルを、オーディオサンプルに関連したメタデータに基づいて、演奏可能な音生成機器１のトリガ１２に自動的にマッピングする。これにより、ユーザは、音生成機器を演奏し、お気に入りのオーディオのタイトルから得られた音を再生することができる。オーディオサンプルと音生成機器の演奏可能なドメインとの間で異なるマッピングを定義してもよい。オーディオサンプル選択器５０は、サンプルのオーディオプロパティ、演奏モード及び／又はユーザの演奏の特性を比較して、異なる可能なサンプルを再生するために選択することができる。オーディオサンプラ／サンプルプロセッサ７０は、オーディオのソースファイルのセグメントを自動的に抽出し、音生成機器１のトリガにこれらをマッピングすることができる。
【選択図】図１

Description

本発明は、例えば、サンプルベースの人工的な楽器、サウンドカードを含むコンピュータシステム等のサンプルベースの音生成装置又は音生成装置システムに関する。詳しくは、本発明は、オーディオサンプルを再生することによって音を生成する装置又はシステムに関する。また、本発明は、このようなシステムにおいて音を再生するためにオーディオをサンプリング及び処理する新たなシステムに関する。

人工的な楽器及び「シンセサイザ」は、長く使用されており、様々な形式（デジタルオルガン、キーボード型シンセサイザ、コンピュータシステム等）を有している。これらは、ソフトウェア又はハードウェアとして、若しくはソフトウェアとハードウェアを組み合わせて実現されている。

１９８０年代には、予め保存されているオーディオサンプルを再生することによって希望のピッチの音を生成するサンプルベースのシンセサイザ（「サンプラ」と呼ばれることも多い。）が開発された。より最近では、例えば、コンピュータゲームをプレーしている間に、プレロードされたオーディオサンプルを読み出すことによって音を生成できる「サンプルローディング」をサポートするコンピュータサウンドカードが開発されている。

従来のサンプルベースの人工的な楽器の具体例として、ＭＩＤＩキーボードを説明する。ＭＩＤＩキーボードの上の鍵が押下されると、押下された鍵に対応するピッチで、及び鍵の押下の速度（ベロシティ）に対応するボリュームで予め保存されているオーディオサンプルが再生される。また、オーディオサンプルを定義する保存されたデータの読み出しレートを適切に調整することによって、希望のピッチでオーディオサンプルを再生できる。初期のキーボードでは、楽器の音域全体に亘る音を生成するために、単一のオーディオサンプルを用いていた。なお、近年では、より忠実に音を生成するために、鍵盤上の隣接する鍵のグループ毎に１つのオーディオサンプルを割り当て、幾つかのオーディオサンプルの組を用いて、ＭＩＤＩキーボードの発音範囲全体をカバーすることが多い。

サンプルベースの音生成機器は、非常に忠実な音を生成するために、広く普及している。更に、単一のサンプルベースのシンセサイザによって、多くの異なる楽器の音を非常に忠実にエミュレートできる。通常、ユーザは、ファンクションボタン又は制御スイッチを操作し、所望の楽器を選択し、そして、シンセサイザを演奏することにより、選択された楽器を演奏しているかのような音を出すことができる。ユーザが演奏を行うと、シンセサイザは、選択されている楽器及び押下された鍵に対応する予め保存されているオーディオサンプルをメモリから選択する。通常、オーディオサンプルは、制御された条件（「純粋」な音を響かせる条件）の下で、選択された種類の実際の楽器を録音スタジオで発音させて、この音を録音することによって、又はコンピュータを用いた合成によって、生成される。

従来の演奏可能なサンプルベースの音生成機器を使用可能な状態にセットアップするためには、通常、単一の楽器の純粋な単音（モノフォニック）に対応するオーディオサンプルを生成及び記録し、各サンプルのループの開始点と終了点をマニュアルで決定し、音生成機器によって音を出力させることができる異なるトリガに（例えば、キーボードの異なる鍵に）オーディオサンプルをマニュアルで割り当てる。このため、音生成機器（シンセサイザ、コンピュータサウンドカード等）を準備するために必要な処理全体は非常に時間がかかっていた。

上述したように、記録されているオーディオサンプルを再生する機器は、シンセサイザだけではない。オーディオサンプルを再生する他の機器及びシステムとしては、コンソール型のゲーム機器及び携帯型ゲーム機器を含むコンピュータゲーム等がある。本明細書では、「音生成」機器又はシステムという用語は、音の生成が主な機能であるか、又は補助的又はオプションの機能であるかにかかわらず、音を生成することができるあらゆる機器又はシステムを指すものとする。

本発明は、「演奏可能な」音生成機器に関連する。これは、機器の音生成が幾つかの制御要素（例えば、キーボードの鍵）の操作によってトリガされることを意味する。但し、音生成のトリガは、制御要素を操作するユーザによる直接的なトリガである必要はなく、このトリガには、例えば、ユーザがコンピュータゲームをプレーし、あるゲームイベント（例えば、命を失う）の出現を引き起こすことによって、コンピュータサウンドカードによって指定された音の生成をトリガするといった、間接的なトリガも含まれる。

本発明は、添付の特許請求の範囲に定義されているように、（全体のトラックに対応するサンプルを含む）ソースオーディオデータトラックから、サンプルに対応するオーディオユニットを再生することによって音を生成する演奏可能なサンプルベースの音生成システムを提供する。音生成機器のオーディオユニットとトリガとの間のマッピングは、各オーディオユニットを記述するメタデータに基づいている。

本発明に基づくシステムにおいて用いられる各オーディオサンプル（又は、「オーディオユニット」）は、オーディオアイテムからの抽出（例えば、楽曲から抽出された歌われた特定の音節、特定のギターリフ等、又は例えば、環境音を録音した長いオーディオデータファイルにおけるパトカーのサイレンの音等のオーディオデータファイルから抽出された特定の音）に対応していてもよく、又はオーディオアイテム全体（例えば、音楽のピース全体、楽曲全体、サウンドトラック全体、録音全体等）に対応していてもよい。オーディオサンプル（又は、ユニット）は、同じ長さである必要はなく、実際には、音生成機器／システムの同じ（又は異なる）トリガに異なる長さのサンプルをマッピングすることができる。

メタデータとは、多くの場合、音楽（オーディオ）に関連付けられ、オーディオの属性を記述するデータである。通常、メタデータは、例えば、ピッチ、雑音性（noisiness）、テンポ等、オーディオ自体を解析して判定できる関連したオーディオデータの「内在的な（intrinsic）」特徴を記述するデータを含む。また、メタデータは、例えば、演奏者、演奏者の国籍、録音の年、知的所有権所有者等、オーディオの「外在的な（extrinsic）」特徴を記述するデータも含む。オーディオデータトラックに関する特定のメタデータは、トラックが取り扱われるコンテキストに依存し、例えば、異なる音楽データベースは、音楽ファイルに関連付けるメタデータを定義するために異なるスキーマを用いることが多い。

本発明に基づく演奏可能な音生成システムのトリガが操作されると（例えば、キーボード上の鍵が演奏されると）、これにより、ソースオーディオデータファイル（例えば、音楽タイトル）内に存在する実際の音又は選択されたオーディオデータファイルの全体の再生に対応する音が生成される。この結果、楽器（又は他の演奏可能な音生成機器／システム）は、元のオーディオデータファイルと同じ音を再生する。このような音生成機器／システムを演奏することにより、プレーヤは、自らが気に入っている曲（tunes）からの音を聴くことができるので、プレーヤの経験の「所有」の感覚が強まり、娯楽性が高まる。

本発明の好適な実施形態では、演奏可能な機器上のトリガにマッピングするオーディオユニットの選択は、オーディオユニットのメタデータのプロパティと、予め定義されたマッピング関数において特定されているプロパティとを照合することによって、自動的に行われる（一組の選択が自動的に行われ、ユーザが音生成機器を「演奏する」際のユーザの操作に応じて、特定の選択が特定のタイミングで用いられる）。例えば、マッピング関数は、「マイナーキーのサンプルをピアノ型キーボードの黒鍵にマッピングする」と定義することができ、システムは、どのオーディオサンプルがマイナーキーであるかを自動的に判定及び選択し、それらの選択されたサンプルを黒鍵にマッピングする。複数のマッピング関数を組み合わせてもよい。

本発明の他の好適な実施形態では、ユーザは、例えば、ＭＩＤＩプロトコルにおけるプログラムチェンジを用いて、メタデータベースのマッピングを明示的に設定することもできる。これにより、例えば、ＨｉＦｉシステム、音楽データベース等を介してオーディオのコレクションにアクセスする能力を有する洗練された、カスタマイズ可能なインタフェース（又はコントローラ）としての機能がキーボードに追加される。周知のシンセサイザでは、所定の音のバンクから、例えばピアノ音を選択することができるが、本発明の実施形態では、ユーザは、自らの音楽コレクション（例えば、ＣＤのコレクション）から音を選択することができ、これにより、ユーザは、単にキーボード上の関連した鍵を押下することによって、自らのコレクション内の多くの楽曲に素早くアクセスすることができる。

本発明は、例えば以下のような、全く新しい機器を作成する可能性を開示する。

−ユーザのお気に入りの録音データに由来するオーディオサンプルに再生音が対応しているシンセサイザ。

−ユーザが好む音楽トラック、映画のサウンドトラック等に由来する音に効果音が対応するコンピュータゲーム。

−各鍵を操作することにより、異なる楽曲を再生するキーボード。８８鍵のキーボードでは、８８曲の異なる楽曲を順次演奏でき、又は、ユーザが和音を演奏することによって、これらの楽曲をポリフォニック的に演奏することもできる。楽曲の組は、包括的なある基準又は条件を満たすものであってもよく、例えば、ビートルズの楽曲だけをキーボードの鍵にマッピングしてもよい。

−各鍵の操作により、例えば、異なるアーチスト、楽器、言語、国等の異なるカテゴリのオーディオデータトラックを再生するキーボード。鍵が押下されると、関連したカテゴリからの楽曲が再生される。各カテゴリについて、一組の楽曲を保存でき、関連した鍵が押下されると、その組から、楽曲を無作為に再生してもよく、順番に楽曲を選択してもよく、ユーザの嗜好等に基づく順序で楽曲を再生してもよい。鍵とカテゴリとの間の関連付けは、鍵の組毎に設定してもよく、例えば、ピアノをエミュレートするキーボードにおいて、黒鍵を演奏すると、マイナーキーの楽曲が再生され、白鍵を演奏すると、メジャーキーの楽曲が再生されるようにしてもよい。

−音生成機器のトリガへのオーディオユニットのマッピングをユーザ入力によって動的に変更できる対話型の機器。このユーザ入力には、間接的なユーザ入力が含まれ、例えば、特定のトリガが操作されたときに再生されるオーディオユニットは、ユーザが鍵を押下したベロシティ又はユーザが演奏しているメロディ等に基づいて決定してもよい。

この他にも様々な可能性がある。

本発明は、演奏可能なサンプルベースのシンセサイザ又は添付の特許請求の範囲に開示されている他の演奏可能なサンプルベースの音生成機器又はシステムによって再生されるオーディオサンプルを自動的に生成する新たな種類のシステムを提供する。

詳しくは、本発明の好適な実施形態は、オーディオデータのソースからオーディオデータのユニットを自動的に抽出し、音生成機器又はシステムにおいて音を再生させる異なるトリガに自動的に割り当てるオーディオサンプラ／サンプルプロセッサを提供する。自動的な判定では、オーディオユニットの内在的な特性を記述するメタデータを用いて、音生成機器の異なるトリガにオーディオユニットをマッピングする。

このようなオーディオサンプリング／サンプル処理システムは、スタンドアロンの機器として構成してもよく、又は演奏可能なサンプルベースの音生成機器に統合してもよい。

このようなオーディオサンプリング／サンプル処理システムでは、多音を含む、打楽器音を含む、効果（例えば、リバーブ）を含む等、任意の複雑性を含む音楽ファイルを用いて、演奏可能なサンプルベースの音生成機器で使用できるオーディオサンプルを生成することができる。

このようなオーディオサンプリング／サンプル処理システムは、従来のサンプルベースのシンセサイザで用いられるモノラルのサンプルを自動的に生成するために用いてもよく、鍵にサンプルを自動的に割り当て、（必要であれば）各サンプルを時間にどのように伸張するかを自動的に判定し、ユーザが鍵を押下した時間に相当するように継続時間を調整する。これにより、従来のシンセサイザのセットアップのために必要だった時間のかかるマニュアルの構成処理を素早く行うことができる。

図１は、本発明に基づく演奏可能なサンプルベースの音生成システムの好適な実施形態を示している。この具体例では、音生成システムは、ＭＩＤＩキーボード型シンセサイザ１として構成されている。

ＭＩＤＩキーボード型シンセサイザ１は、ユーザが操作可能なキーボード１０と、処理モジュール２０と、増幅器９０と、ラウドスピーカ１００とを備える。

キーボード１０は、異なる音符に対応し、ピアノの鍵と同様に配置された、演奏可能な鍵１２から構成される鍵盤部を備えている。また、キーボード１０は、多くの異なるダイヤル、スライダ及びボタンを備え、ユーザは、これらを操作して、様々な異なるパラメータ（自動伴奏、自動リズム、演奏モード等）を設定することができる。これらのダイヤル、スライダ等は、キーボード制御部１４を構成している。

ユーザがキーボード１０上の演奏可能な鍵１２を押下すると、従来の鍵操作検出器（図示せず）は、ＭＩＤＩ「キーオン（key-on）」イベントデータを生成し、これを処理モジュール２０に供給する。ＭＩＤＩキーオンイベントデータは、特に、（演奏された鍵の「ノートナンバー」を示すことによって）演奏された鍵のピッチを特定することによって演奏された鍵の特性を示し、及び鍵が押下された速度（ベロシティ）を示すデータである。処理モジュール２０は、適切なオーディオ信号を増幅器９０に出力し、増幅器９０は、オーディオ信号を増幅してラウドスピーカ１００に供給し、これにより、対応する音が再生される。

処理モジュール２０の構造及び動作について、更に詳細に説明する。なお、実際には、処理モジュール２０は、多くの場合、ソフトウェアで実現され、図１に示す様々な要素は、処理モジュール２０において実行される様々な機能を明瞭に説明するために示しているにすぎない。更に、図１に示す様々な要素間の機能の分担は、変更することができ、及び／又はこれらの機能は、図１に示す要素より多くの又は少ない要素で実現してもよい。

処理モジュール２０は、ユーザによって演奏されているキーボード１０のモードを特定することができる演奏モード検出器４０を備える。キーボードの演奏に関する様々な異なるモードについては、後に詳細に説明する。通常、演奏モード検出器４０は、キーボード制御部１４内のダイヤル、スライダ等の設定に基づいて現在の演奏モードを特定する。演奏モード検出器４０は、演奏モードデータをオーディオサンプル選択器５０に供給する。また、オーディオサンプル選択器５０は、キーボード１０からＭＩＤＩキーオン／キーオフイベントデータも受け取る。

オーディオサンプル選択器５０は、ピッチデータ（pitch data）に基づいて、及びオプションとして鍵押下速度（ベロシティ）及び／又は演奏モードデータに基づいて、再生するために適切なオーディオサンプルを選択する。オーディオサンプルは、オーディオサンプルデータベース６０内にデジタルフォーマットで記録されている。（オーディオサンプラ／サンプルプロセッサ７０は、音生成システム１に入力されたオーディオデータファイルから、オーディオサンプルデータベース６０のオーディオサンプルを生成する。）オーディオサンプル選択器５０は、ユーザがキーボード１０上の鍵１２を押下し続けた時間の長さに応じて、再生されるオーディオサンプルの継続時間を調整する時間調整器８０へ選択されたオーディオサンプルの供給を制御する。また、時間調整器８０は、時間調整の後に信号をアナログ形式に変換するデジタル−アナログ変換器（Ｄ／Ａ変換器）を備える。このように、時間を調整したオーディオサンプルデータは、アナログ形式で増幅器９０及びラウドスピーカ１００に供給され、これにより、出力音が再生される。

時間調整器８０が必要である理由は、以下の通りである。

記録されているオーディオサンプルは、特定の継続時間を有する音楽的な音に対応する。ここで、ユーザがシンセサイザを演奏する場合、ユーザは、この特定の継続時間とは異なる長さの音の再生を望むことが多い（多くの場合、この長さは、継続時間より長く、したがって、ユーザがその音を演奏し続ける限り、オーディオサンプルを「時間的に伸張する」必要がある）。したがって、オーディオサンプルをシンセサイザの異なる音符に割り当てる場合、オーディオサンプルの音の継続時間と、ユーザによって演奏されるノートの継続時間との間の潜在的な違いに対処するための規則又は手続きを指定する必要がある。

同様に、コンピュータゲームが、保存されているオーディオサンプルに基づいて音を再生する場合、保存されているオーディオサンプルの継続時間とは異なる時間に亘って音を出力することが望まれる場合もある。

音楽的な音は、図２に示すように、振幅対時間のエンベロープにおける４つの部分、すなわち、アタック（attack）、ディケイ（decay）、サステイン（sustain）、リリース（release）（ＡＤＳＲ）によって記述される。

図２に示すように、アタック及びディケイは、音楽的な音の始めにおける過渡効果に対応しており、サステインは、音の安定した部分に対応しており、リリースは、音の終わりに対応している。音の再生が開始されると、振幅は、ゼロから最大レベルまで上昇し（これが「アタック」フェーズであり、通常、最大レベルのあるパーセンテージに達するまでの時間をミリ秒単位で表現する。）そして、通常、僅かに下降し（これが「ディケイ」フェーズであり、これも通常、継続時間によって表現される。）、この低減されたレベルを暫く維持し（これが「サステイン」フェーズであり、多くの場合、この「低減されたレベル」の振幅をデシベルで表現することによって特徴付ける。）、この後、ゼロになるまで下降する（これが「リリース」フェーズであり、通常、継続時間で表現される）。楽器の種類によっては、「アタック」フェーズの継続時間は、ノートの継続時間にかかわらず、実質的に変化しないこともある。また、全ての音楽的な音が「ディケイ」フェーズを有しているわけではなく、例えば、パイプオルガンにより発音される単音では、ディケイは聞き取ることができない。

従来のサンプルベースの音生成機器は、一般的に、オーディオサンプルにおける音の継続時間と、出力すべき音の継続時間との間の差を以下のように処理している。

・出力すべき音が、記録されているオーディオサンプルより短い場合には、記録されているオーディオサンプルは、その始め（アタック及び関連している場合、ディケイ部分）から、これに続いてサステイン部分が再生されるが、ユーザが押下した鍵を解放すると（又は出力音を中止するべきであると判定されると）、再生は、オーディオサンプルのリリース部分にスキップされる。

・演奏されたノートが記録されているオーディオサンプルより長い場合には、記録されているオーディオサンプルは、その始め（アタック及び関連している場合、ディケイ部分）から、これに続いてサステイン部分が再生され、そして、ユーザがシンセサイザ上の鍵又はボタンの押下を止めるまで（或いは、出力音を中止するべきであると判定されるまで）サステイン部分がループされる。ユーザが演奏中の鍵の押下を止めると、再生は、直接リリース部分にスキップし、又は、サステイン部分のループを短時間継続した後に、振幅を徐々にゼロに下降する。

記録されているオーディオサンプルのサステイン部分をループすることができるように、音生成機器（例えば、シンセサイザ）は、オーディオサンプル内のループを開始させ及び終了させる点（繰り返される部分）を定義する必要がある。ループ開始点及びループ終了点を上手く選択しないと、望ましくない音が再生されることがあり、例えば、反復的なクリック又はポップが生じ、又は（ループが過密すぎる場合）音色が「薄い」と感じられる。通常、オーディオサンプル内のループ開始点及びループ終了点は、試行錯誤による時間がかかる作業によってマニュアルで決定される（波形によっては、適切な位置を見つけることが非常に困難な場合もある）。但し、このような定義に時間がかかる点を別とすれば、オーディオサンプルが（例えば、自然な環境で音を録音する場合に通常生じる「リバーブ」等の効果がない）単一の楽器の「純粋」な単音の場合、オーディオサンプルのサステイン部分をループさせる処理は、比較的簡単である。

本発明の好適な実施形態では、ループを必要とするオーディオサンプルは、多音（ポリフォニック）のサンプルであってもよく、これらは、自然な環境（例えばリバーブ効果を生じる環境）で記録されたものであってもよい。このように、本発明の好適な実施形態で用いられる時間調整器８０は、従来のシンセサイザで用いられていたものとは異なる。この点については、後に更に詳細に説明する。

なお、この段階では、まず、オーディオサンプルデータベース６０のためにオーディオサンプルデータを生成するオーディオサンプラ／サンプルプロセッサ７０の構造及び機能について説明する。オーディオサンプラ／サンプルプロセッサ７０については、図３のブロック図を用いて後に説明する。なお、実際には、オーディオサンプラ／サンプルプロセッサ７０は、多くの場合、ソフトウェアで実現され、図３に示す様々な要素は、オーディオサンプラ／サンプルプロセッサ７０において実行される様々な機能を明瞭に説明するために示しているにすぎず、図３に示す様々な要素間の機能の分担は、変更することができ、及び／又はこれらの機能は、図３に示す要素より多くの又は少ない要素で実現してもよい。

なお、オーディオサンプラ／サンプルプロセッサ７０は、必ずしも音生成システム１の一部として統合する必要はなく、独立した装置であってもよい。更に、オーディオサンプルが楽曲全体（又は、これに類するデータ）に対応している本発明の様々な好適な実施形態においては、オーディオサンプラ／サンプルプロセッサ７０を省略してもよい（オーディオサンプルは、それらのメタデータに関連付けて保存され、演奏可能な音生成機器のトリガにサンプルをマッピングする機能は、マニュアルで定義してもよい）。

図３に示すように、オーディオサンプラ／サンプルプロセッサ７０は、何らかのソースからオーディオデータファイルを受け取る。このソースは、記録媒体（例えば、オーディオＣＤ、コンピュータのハードディスク等）であってもよく、ネットワーク接続（ＬＡＮ、ＷＡＮ、ワールドワイドウェブ等）であってもよく、或いは音を捕捉する機器（マイクロホンやＡ／Ｄ変換器等）であってもよい。オーディオデータファイルのソースは、オーディオサンプラ／サンプルプロセッサ７０からリモートにあってもよく、オーディオサンプラ／サンプルプロセッサ７０にとってローカルにあってもよく、或いは、単一の統合された機器として、オーディオサンプラ／サンプルプロセッサ７０に統合されていてもよい。

オーディオサンプラ／サンプルプロセッサ７０に入力されたオーディオデータファイルは、セグメント化器（segmenter）７２に供給され、セグメント化器７２は、サウンドファイルを解析し、個々のサンプルであるとみなすことができる有意のイベントを検出し、分離する。抽出された各サンプルを定義するデータは、オーディオサンプルデータベース６０に供給される。自動セグメント化処理については、後に詳細に説明する。なお、サンプルは、オーバラップすることがある。

各サンプルは、波形のアタック−ディケイ−サステイン−リリース部分のそれぞれを自動的に識別するＡＤＳＲ識別器７３に供給され、これらの部分の位置を定義するデータは、オーディオサンプルデータベース６０に供給される。

また、各サンプルは、安定性ゾーン検出器７４にも供給され、安定性ゾーン検出器７４は、サンプル内のスペクトルが安定性しているゾーン（zones of spectral stability）を自動的に検出し、これらの安定したゾーンのスペクトル安定度を判定する。これにより得られる安定性データは、オーディオサンプルの再生中に、時間的な伸張を行う必要がある場合に用いられる（後述）。サンプル内の安定したゾーンを特定するデータ及びこれらの各安定したゾーンの安定度を示すデータは、オーディオサンプルデータベース６０に供給され、このオーディオサンプルデータベース６０において、この安定性データが関係するオーディオサンプルを特定するデータと関連付けて保存される。

また、各サンプルは、抽出器７６に供給され、抽出器７６は、オーディオサンプルによって表された音のプロパティの高レベルの記述子を自動的に抽出する。これらのオーディオ記述子は、（メタデータとして）オーディオサンプルに関連付けることができ、後に、所定のコンテキストで用いる最も適切なサンプルを自動的に選択するために用いることができる。オーディオ記述子は、例えば、ピッチ、エネルギ、「雑音性（noisiness）」、パーカッション性（percussivity）、音色、調和性（harmonicity）等の１つ以上の属性について記述するデータを含むことができる。各抽出されたオーディオサンプルの記述子データは、オーディオサンプルデータベース６０に保存される。更に、記述子データは、マッピングモジュール７８によっても用いられる。

マッピングモジュール７８は、所定のオーディオサンプルについて生成されたメタデータを調べることによって、このサンプルがつまらなく、削除するべきであると決定してもよい。このような状況とは、例えば、サンプルが楽曲の終わりにおける観客の雑音に対応している場合であり、サンプルの調和性を示すメタデータを調べることにより、サンプルがこの種の雑音に対応していると判定することができ、このために、サンプルを削除する（すなわち、キーボードの如何なる鍵にもマッピングしない）と決定することができる。

マッピングモジュール７８は、ＭＩＤＩキーボードの異なる演奏可能な鍵１２（「出力ドメイン」とも呼ぶ。）にオーディオサンプルを自動的に割り当てる。換言すれば、マッピングモジュール７８は、ユーザがキーボード１０の演奏可能な各鍵１２を押下した場合、どのオーディオサンプルを再生するかを決定する。

マッピングモジュール７８は、多くの場合、予め定義されたマッピング関数に基づいて、ＭＩＤＩキーボードの異なる演奏可能な鍵１２にどのオーディオサンプルをマッピングするかを選択する。このマッピング関数は、特定の演奏可能な鍵１２にオーディオサンプルをマッピングするための、メタデータ上で成立する条件を指定し、及び、マッピングモジュール７８は、オーディオサンプルのメタデータを調べることによって、どのオーディオサンプルがこの特定の条件を満たすかを自動的に判定する。

例えば、マッピングモジュール７８は、「（ピッチ＝ｉ）を有するオーディオサンプルを（ピッチ＝ｉ）に割り当てられている演奏可能な鍵に割り当てる。」又は「（調性＝短調）を有するオーディオサンプルをピアノ型キーボードの黒鍵に割り当てる。」又は「（ピッチ＝ｊ）及び（音色＝ピアノ）を有する全てのサンプルを（ピッチ＝ｊ）を有する演奏可能な鍵に割り当てる。」等、予め定義されたマッピング関数を有することができる。マッピングモジュール７８は、どのオーディオサンプルがこれらの条件を満たすかを自動的に判定し、条件を満たすオーディオサンプルを特定の鍵にマッピングする。

マッピングモジュール７８は、抽出されたオーディオサンプルをサンプルベースの音生成機器又はシステムの「演奏可能な」ドメインに割り当てる。この具体例では、再生装置は、ＭＩＤＩキーボード型シンセサイザ１であり、機器の「演奏可能なドメイン」は、キーボード１０の演奏可能な鍵１２の組からなる。従来のピアノ上の鍵と、音符のピッチとの間の対応関係はよく知られており、したがって、マッピングモジュール７８は、サンプルを割り当てるドメイン内の要素の性質に関する明示的な知識は必要としないが、マッピングモジュール７８にとって、音生成機器が再生するピッチの範囲（例えば、最も低い音が何であり、そこから何オクターブの範囲であるか）が既知であることが望ましい。

一方、再生装置がコンピュータゲームである場合、「演奏可能な」ドメインは、ゲーム中に再生される異なる音からなり、これらは、通常、所定のスケールのピッチには対応していない。

例えば、所謂「シューティングゲーム（"shoot 'em up" game）」においては、コンピュータゲームは、例えば、音Ａ、音Ｂ、音Ｃ、音Ｄのラベルが付された４つの別個の音を認識し、音Ａは、ゲーム中のある特定の状況で（例えば、「爆弾が爆発したとき」、「ロケットが発射されたとき」）鳴らされ、音Ｂは、他の特定の状況で（例えば、「戦車が操縦されたとき」）鳴らされ、音Ｃは、更に他の状況で（例えば、「プレーヤが命を失ったとき」又は「ゲームが終了したとき」）鳴らされ、音Ｄは、更に他の状況で（例えば、「プレーヤの命が追加されたとき」又は「プレーヤが新たな武器を獲得したとき」）鳴らされる。このような場合、マッピングモジュール７８は、音Ａ〜Ｄ（コンピュータゲームの「演奏可能な」ドメインを表す。）のそれぞれに抽出されたオーディオサンプルを割り当てる。

このような場合、マッピングモジュール７８には、少なくとも、音生成機器が選択可能である異なる音の数を特定する情報と、そして、可能であれば、これらの音の特徴を記述する幾つかの情報（例えば、「音Ａは、パーカッション音であり、音Ｂよりピッチが低い」等）とを供給する必要がある。この情報は、（オーディオサンプラ／サンプルプロセッサ７０がコンピュータゲームをプレーするために用いられるシステムに統合されている場合）マッピングモジュール７８を予めプログラミングすることによって、又は適当な入力又はインタフェースを介して（図３では、破線の矢印で示している。）提供することができる。

この実施形態では、マッピングモジュール７８は、キーボード１０の１又は複数の演奏可能な鍵１２に、特定の抽出されたオーディオサンプルを割り当てることができる。例えば、マッピングモジュール７８は、所定のオーディオサンプルＡＳ１がＣの音を有すると判定し（抽出器７６がサンプルＡＳ１について生成したメタデータに基づいてこのように判定してもよい。）、そして、この抽出されたサンプルＡＳ１をキーボード１０の上の特定のＣ鍵（例えば、Ｃ４鍵）及び隣接するノート（Ｂ４鍵及びＤ４鍵）に割り当ててもよい。ユーザがＤ４鍵を押下した場合、ユーザが押下した鍵に応じたピッチで音が再生されるように、割り当てられたオーディオサンプルのピッチを変更する必要がある。周知のように、このピッチの変更は、オーディオサンプルの再生レートを変えることによって実現できる。

場合によっては、オーディオデータファイルから抽出されたサンプルがキーボードの「演奏可能なドメイン」内の全てのノートを含まないことも少なくない。例えば、楽曲「イエスタデイ」から抽出されたサンプルは、この楽曲のキーがＦであるため、ノートＦ＃を含んでいる可能性は低い。したがって、キーボード１０がノートＦ＃（及びＦのキーに含まれないノート）を含む点を考慮すると、ユーザがキーボード１０を用いて、自由に如何なる音符を演奏する可能性もある場合、「イエスタデイ」から抽出されたオーディオサンプルのピッチを変更することが必要となることが多い。

また、マッピングモジュール７８は、所定の演奏可能な鍵に（又はより包括的に言えば「演奏可能なドメイン」の所定の要素に）２つ以上のオーディオサンプルを割り当てることもできる。このような処理は、抽出された１つ以上のサンプルが同じ音符又は１つの音符（例えば、Ｂ♭）を中心にグループ化された音符群に対応するが、これらのサンプルが異なるプロパティ（例えば、歌われた異なる音素に対応する異なるレベルのパーカッション性又はエネルギ等）を有する場合等に行われる。このような場合、再生時には、関連した演奏可能な鍵が押下されたとき、その鍵に割り当てられている複数のサンプルのうち、どのサンプルを再生するかを選択することができる。この選択をどのような基準に基づいて行うことができるかについては、後に詳細に説明する。これらの基準は、次のように、様々な手法で設定することができる。オーディオサンプラ／サンプルプロセッサ７０が、（例えば、オーディオサンプルデータベース６０に選択規則を保存することにより）音生成機器の同じ音に割り当てられている異なるオーディオサンプルの間での選択の基準を設定してもよく、又は例えば、この実施形態では、オーディオサンプル選択器５０にこれらの基準をプログラミングすることにより、音生成機器によってこれらの基準を設定してもよく、又は音生成機器上に（例えば、キーボード制御部１４内に）設けられた切換スイッチ／操作子の設定に基づいてこれらの基準を設定してもよい。

また、キーボード１０の演奏可能な鍵１２の異なる鍵へのオーディオサンプルの割当ては、オーディオサンプルデータベース６０にも記録される。

オーディオサンプラ／サンプルプロセッサ７０がオーディオデータファイルを処理した場合、オーディオサンプルデータベース６０には、そのファイルから抽出され、キーボード１０の演奏可能な鍵に割り当てられた各オーディオサンプルを定義及び記述するデータと、サンプルのキーボードの演奏可能な鍵１２へのマッピングを定義するデータとが保存される。１つのオーディオサンプルについて、オーディオサンプルデータベース６０に保存できるデータの構造の１つの具体例を図４に示す。図４に示す具体例では、演奏可能な鍵へのサンプルのマッピングを定義するデータは、情報のマッピングに専用の独立したデータブロックにグループ化されるのではなく、各サンプルに関連したデータの一部を構成する。

図４に示す具体例では、１つのオーディオサンプルについてオーディオサンプルデータベース６０に保存されるデータは、以下のフィールドを含む。

−サンプル番号（これにより、このオーディオサンプルを特定し、他のオーディオサンプルと区別することができる。）
−オーディオサンプルデータ自体（すなわち、ｎバイトのデータを用いて表現されたデジタル化された波形）
−以下を含むＡＤＳＲデータ
・ＤＳＢ、すなわち、オーディオサンプルデータのどのバイトが音のディケイ部分の始めに対応するかを特定するデータ
・ＳＳＢ、すなわち、どのバイトが音のサステイン部分の始めに対応するかを特定するデータ
・ＲＳＢすなわち、どのバイトがリリース部分の始めに対応するかを特定するデータ
−以下を含む安定性データ
・ＳＺ１＿ＳＢ、すなわち、オーディオデータのどのバイトがこのサンプルにおけるスペクトル安定性の第１のゾーン（ＳＺ１）の始めに対応するかを示すデータ
・ＳＺ１＿ＥＢ、すなわち、オーディオデータのどのバイトがＳＺ１の終わりに対応するかを示すデータ
・ＳＺ１＿ＳＴ、すなわち、ＳＺ１の安定性のレベル
・ＳＺ２＿ＳＢ、ＳＺ２＿ＥＢ、ＳＺ２＿ＳＴ等。このサンプル内のｍ個（ｍ＝１，２・・・）の全てのスペクトル安定性のゾーンに安定性データが提供される。特に安定しているゾーンを有さないサンプルの場合にも、最も安定している少なくとも１つのゾーンを特定し、これを用いて安定性データを生成する。

−オーディオ記述子：サンプルのピッチ（又はノート番号）、エネルギ、雑音性、パーカッション性及び音色を示すデータを含む。

−鍵割当て、すなわち、このオーディオサンプルが割り当てられるキーボード１０の演奏可能な鍵（又は複数の鍵）１２を示す。

例えば、ＭＩＤＩキーボード型シンセサイザ１のユーザが、シンセサイザを演奏して、ビートルズのアルバム「ヘルプ」のオリジナル録音に収録されているビートルズの楽曲「イエスタデイ」に含まれる音を再生することを望んだとする。ユーザは、このオーディオデータファイルがオーディオサンプラ／サンプルプロセッサ７０によって既に処理されており、したがって、ここから導出されたサンプルは、オーディオサンプルデータベース６０に保存されていることを知っていてもよく、又はユーザは、オーディオサンプラ／サンプルプロセッサ７０が、このオーディオデータファイルにアクセス可能であることを知っていてもよい。また、ＭＩＤＩキーボード型シンセサイザ１に適切なユーザインタフェース（図示せず）を設け、これにより、ユーザが既に処理済である又はアクセス可能なオーディオデータファイルのリストを見て、オーディオデータファイルを選択することができるようにしてもよい。このユーザインタフェースを操作することにより、選択されたオーディオデータファイルのオーディオサンプラ／サンプルプロセッサ７０への供給がトリガされる。

図５のフローチャートは、オーディオサンプラ／サンプルプロセッサ７０によるオーディオデータファイルの処理の手順を示しており、この処理は、図５のステップＳ１において、選択されたオーディオデータファイルを受け取ることから始まる。

オーディオサンプラ／サンプルプロセッサ７０にオーディオデータファイルが供給されると、セグメント化器７２は、図５のステップＳ２において、記録された音楽データから有意のイベントに対応する、複数のオーディオサンプルを自動的に抽出する。セグメント化アルゴリズムの目的は、サンプリングされた楽曲の包括的な音に基づいて、明確な音楽的イベントとして機能できるサンプル、すなわち、フォアグラウンド又はバックグラウンドで、何らかの楽器で演奏された顕著な楽音又はパーカッション音を抽出することである。通常、イベントは、楽音又はパーカッション音である。サンプルの具体例としては、例えば、楽曲「イエスタデイ」において、アコスティックギター、ベース及びバイオリンによるオリジナルの伴奏を伴うポールマッカートニーが歌う「・・・day・・・」の音がある。これらのサンプルの抽出は、ある時間領域で楽曲の断片を切り取る処理を伴う。各サンプルは、個々のトラックに分離されていない、同時に演奏された複数の楽器の音を含む。

上述した楽曲又は他の音のシーケンス（オーディオデータファイルによって表現される）の断片の自動セグメント化は、音の波形の短期的なスペクトルのエネルギ変化（ウィンドウ化及びフーリエ変換の演算により得られる）を解析することによって、特に、波形の最大値及び最小値を調べることによって実現される。多くの場合、サンプル開始点は、短期的なスペクトルにおいて、極小から極大への急激な変化がある位置として定義され、サンプル終了点は、短期的なスペクトルにおいて、極大から極小への急激な変化がある位置として定義される。

波形のエネルギ変化を解析する前に、人間の耳の周波数分解能及び周波数応答を模倣したフィルタバンクによって、楽曲（又はこの他の音のシーケンス）のスペクトルをフィルタリングするとよい。例えば、人間の耳は、１５ｋＨｚより高い周波数には敏感ではない。このフィルタリングによって、波形の周波数スペクトルは、知覚的に重み付けされる。

図６は、楽曲を１９個のサンプルにセグメント化した具体例示している。図６の上段は、楽曲のスペクトログラムを示しており、図６の下段は、知覚的に重み付けされたスペクトログラムのエネルギ及び１９個のサンプルをどのように定義できるかを示している。

セグメント化器７２は、オーディオデータファイルによって表現されている楽曲（又は音のシーケンス）内でサンプルを特定し、サンプルのプロパティを解析する。この解析には、通常、ＡＤＳＲ識別器７３を用いて、サンプルに関するエネルギプロファイルを解析することによって、サンプルのアタック−ディケイ−サステイン−リリース部分を特定する処理が含まれる。例えば、アタックタイムは、サンプルのエネルギがサンプルの最大値の８０％に達するまでの時間であると定義できる。解析の他の要素としては、サンプル内のスペクトル安定性ゾーンを検出する処理がある（図５のステップＳ４）。

セグメント化器７２によって用いられるセグメント化法によって得られる多くのサンプルは、（それらの周波数に関して）理想的な安定性を有していない。例えば、各サンプルが一貫性を有する音（例えば、「上述した音節「・・・day・・・」等の一定のピッチに保持された音）、であっても、バックグラウンドにおいて副次的なイベント（例えば、より柔らかいギター伴奏のノート）が生じている場合がある。任意の録音を抽出することによってサンプルを生成する場合、「現実世界」の音楽制作のために、複雑な多音（ポリフォニー）、バックグラウンドのパーカッション音及び効果（リバーブ等）が存在し、これらは、再生中にサンプルの「サステイン」部分をループすると、音色、エネルギ等の不連続性の原因となる。オーディオデータファイルから抽出されたオーディオサンプルの時間的な伸張におけるこの種の問題を避けるために、本発明の好適な実施形態では、オーディオサンプル内で安定したゾーンを特定し、これらの安定したゾーンに優先的に時間的な伸張を適用する。

図３に示すように、オーディオサンプラ／サンプルプロセッサ７０は、安定性ゾーン検出器７４を備える。この安定性ゾーン検出器７４では、様々な手法で、オーディオサンプル内のスペクトル安定性ゾーンを特定することができる。例えば、安定性ゾーン検出器７４は、スペクトルの面積の中心（スペクトルの重心）、スペクトルの平坦度（「信号の雑音性」）、スペクトルのロールオフ（信号の周波数範囲）等の要素の時間的な変化を評価することによって、サンプル内でスペクトルが比較的安定している領域を特定することができる。この評価は、単一の要素に基づいて行ってもよく、又は、好ましくは、（適切な重み付けとともに）複数の要素を検討して行ってもよい。安定性ゾーン検出器７４は、安定したゾーンを特定すると、このゾーンのスペクトル安定性のレベルを示す安定性スコアを生成する。多くの場合、安定性スコアは、安定したゾーンを検出する際に検討された上述したような要素の変化の値に基づいて算出される。検討中のオーディオサンプルの安定したゾーン及びこれらの安定度を特定するデータは、オーディオサンプルデータベース６０に保存される。図８を用いて後述するように、音生成機器の時間調整器８０は、この安定性データを用いて、オーディオサンプルを時間的に伸張することができる。

また、セグメント化器７２によって特定されたオーディオサンプルは、抽出器７６によって解析され、抽出器７６は、各サンプルのオーディオプロパティに関連した高レベルの属性を自動的に判定し、記述子データを生成する。この記述子データは、図５のステップＳ５において、メタデータとして、オーディオサンプルデータベース６０内のオーディオサンプルデータに関連付けられる。様々な高レベルのオーディオ記述子の値を決定するための好ましい手法を以下に示す。

サンプルのエネルギ：例えば、サンプル波形のエンベロープの「サステイン」部分の振幅を測定することによって判定される。

「雑音性」：例えば、スペクトルの平坦度（すなわち、スペクトルの振幅の幾何平均と算術平均との間の比率）を評価することによって判定される。スペクトルが平坦であるほど、音の雑音性が高い。

「パーカッション性」：サンプルのエンベロープの「アタック」部分のエネルギを測定することによって定量化される。

音色：そのメル周波数ケプストラム係数＊によりモデル化される。

ピッチ：サンプルのエンベロープの「サステイン」部分を解析することによって検出される。

＊メル周波数ケプストラム係数は、標準的な信号の特徴付けの手法であり、スペクトルの対数の逆フーリエ変換により得られる。

「メルケプストラム」という表現は、メル周波数尺度に対する非線型周波数ワーピングの後に算出されるケプストラムを指す。ｃ_ｎは、ＭＦＣ係数（ＭＦＣＣ）と呼ばれる。ＭＦＣＣは、音声認識の分野で広く用いられているが、２つの楽曲間に音色の類似の測定にも用いることができる。２つの楽曲のＭＦＣＣを比較することによって、これらの２つの楽曲が同じに聞こえるか否かを推定することができる。

本発明の好適な実施形態では、各サンプルが複雑な多音に関連していることが多いとの事実に対処するために適応化された、新たな方式を用いて各サンプルのピッチを判定する。

オーディオサンプルのピッチを判定するための従来のアルゴリズムは、音波形のスペクトルのピークを検出することに基づいている。これらのアルゴリズムは、ピークを選択する発見的手法及び例えば、信号の複雑性を高めるビブラート及び多音等の因子のために成功率が低い。

一方、本発明の好適な実施形態では、ピッチを以下のようにして判定する。

まず、周波数表現からピッチ表現への変換器として機能するＭＩＤＩピッチフィルタバンクに音波形を供給する。このフィルタバンクは、それぞれが半音の間隔を有するＭＩＤＩピッチ０〜１２７（すなわち、Ｃ０〜Ｇ１０）の１つのＭＩＤＩピッチにつき１つのバンドパスフィルタのバンクである。このフィルタバンクから出力される波形は、信号内の可能性のある各音の重みを表す、より明瞭なシンボリック信号である。

シンボリック信号は、サンプル内に存在するピッチの異なる重みから構成される。単音、例えばＣ４は、Ｃ４の倍音にあたるピッチ、すなわち、１オクターブ上（Ｃ５）、１オクターブ＋５度上（Ｇ５）等を有する無視できない成分を生成する。シンボリック信号を解析することにより、このような倍音パターン、例えば、オクターブ及び５度等が検出され、（サンプルが単音に対応する場合）個々のノートのピッチが特定され、又は（サンプルが和音に対応する場合）和音のピッチが特定される。

また、ノートのピッチの重みと、倍音の重みとを結合することによって、ピッチ推定における信頼度のレベルを示す信頼度尺度の値も生成される。際立ったピッチを有さないサンプルについては、この信頼度尺度を用いて（信頼度尺度の値を閾値と比較することによって）、サンプルの雑音性を評価することができる。雑音性は、スペクトルの平坦度を検討することによって推定してもよいが、「平坦な」スペクトルを有する信号は、スペクトルに僅かなピークしか有しておらず、ピッチ解析処理における重みが低くなり、したがって、信頼度尺度の値が小さくなる。

マッピングモジュール７８は、図５のステップＳ６において、好ましくは、抽出器７６によって抽出された記述子を用いて、キーボード１０の演奏可能な鍵１２にオーディオサンプルをどのようにマッピングするかを決定する。具体的には、マッピングモジュール７８は、各オーディオサンプルのピッチを考慮に入れて、サンプルに関連しているメタデータ（記述子）からピッチ情報を得る。例えば、キーボード１０のＥ♭４鍵及び近接する鍵にノートＥ♭４のオーディオサンプルを割り当てることができる（これらの近接する鍵については、Ｅ♭のサンプルを再生する際にピッチが変更される）。

上述したように、サンプルベースの音生成システム１は、オーディオサンプルを演奏可能な鍵にマッピングする際に、必ずしも、単一の固定されたマッピングを用いるわけではない。すなわち、演奏可能な鍵へのオーディオサンプルの割当ては、様々な多くの手法で行うことができる。

例えば、マッピングモジュール７８は、同じ鍵に一組のオーディオサンプルを割り当てることができる。この場合、マッピングモジュール７８は、各特定のサンプルを選択して再生する条件を指定できる。この指定も、多くの異なる手法で実現することができる。例えば、マッピングモジュール７８は、鍵へのオーディオサンプルの異なるマッピングを作成でき、例えば、ユーザが第１の再生モードでキーボードを演奏している場合、第１のマッピングを使用するように定義し、ユーザが第２の再生モードでキーボードを演奏している場合、第２のマッピングを使用するように定義してもよい。これに代えて、再生時に、演奏された鍵に割り当てられているサンプルのセットを特定し、そして、これらのサンプルに関連しているメタデータを調べ、ユーザの演奏の特性をオーディオサンプルの音のプロパティに一致させるようにしてもよい。例えば、ベロシティ等のユーザの演奏に関連したＭＩＤＩパラメータに、例えば、パーカッション性又はエネルギ等のサンプル記述子を対応させ、ＭＩＤＩベロシティが高い場合、エネルギ又はパーカッション性が高いオーディオサンプルを選択するようにしてもよい。

本発明のある実施形態では、演奏可能な音生成機器の単一のトリガに一組のサンプルを割り当てることができ、システムは、トリガが操作された場合、セット内のサンプルを無作為に選ぶことによって、又はセット内の各サンプルを順番に選ぶことによって、このセットからのどのサンプルを再生するかを選択してもよい。本発明に基づく機器の演奏によりユーザが楽しめる特徴の１つは、馴染み深いオーディオデータファイルからの音を自らトリガして再生させる感覚である。このように、所定のオーディオデータファイルから、同じピッチを有する、多くのサンプルのインスタンス（これらは、同じトリガにマッピングされることが多いが、例えば、ユーザが認識できる、歌われた異なる音素に対応してもよい）を保持し、そして、これらを様々なタイミングで再生することが望ましい。

音生成システム１の全体は、マッピングモジュール７８が演奏可能な鍵へのオーディオサンプルの異なるマッピングを定義し、ＭＩＤＩプログラムチェンジを用いて、１つのマッピングから他のマッピングへ変更するように構成してもよい。

マッピングモジュール７８は、必ずしも、キーボード１０の演奏可能な鍵１２の全てにオーディオサンプルを割り当てる必要はない。幾つかの状況では、幾つかの演奏可能な鍵には上述のようなマッピングを行わず、ファンクションキー又は従来のシンセサイザの鍵として機能させてもよい。この場合、キーボード１０の「演奏可能なドメイン」は、ファンクションキー又は従来のシンセサイザの鍵として機能する演奏可能な鍵を除く鍵とみなすことができる。

マッピングモジュール７８が行った１又は複数のマッピングは、（図４の具体例における「鍵割当て」フィールドのように）各サンプルに関連したデータの部分として、又はマッピングデータ専用の独立したデータブロックとして、オーディオサンプルデータベース６０に記録される。

なお、抽出されたオーディオサンプルデータ、安定性データ、記述子、マッピングデータ等は、オーディオサンプラ／サンプルプロセッサ７０から出力する代わりに（又はこれとともに）、オーディオサンプラ／サンプルプロセッサ７０の内部のメモリに保存してもよい（図５のステップＳ７）。更に、このオーディオデータ等は、（図１に示すように）音生成機器のメモリに直接供給してもよく、又はオーディオサンプラ／サンプルプロセッサ７０から、音生成機器がアクセスできる何らかの中間的な記録装置（ＣＤ−ＲＯＭ、ハードディスク、リモートネットワーク機器等）に供給してもよい。換言すれば、オーディオサンプルデータベース６０は、音生成機器１がオーディオサンプルデータベース６０内のサンプルデータにアクセスできる限り、必ずしもサンプルベースの音生成機器１の内部に設ける必要はない。

ユーザがキーボード１０を演奏する際に何が起きるかを検討することは有用である。図７は、ユーザが演奏可能な鍵１２の１つを押下した際に実行される主な処理のフローチャートである。

上述のように、キーボード１０上の演奏可能な鍵の押下は、周知の鍵押下検出回路によって検出される（図７のステップＳｔ１）。このとき、演奏されたノートのピッチ及びベロシティがオーディオサンプル選択器５０に通知される。また、演奏モード検出器４０は、キーボード制御部１４における操作子の設定を検出し、キーボードの現在の再生モードを検出する（ステップＳｔ２）。また、演奏モードデータは、オーディオサンプル選択器５０にも供給される。

オーディオサンプル選択器５０は、再生するオーディオサンプルをオーディオサンプル選択器５０のデータベースから選択する（ステップＳｔ３）。まず、オーディオサンプル選択器５０は、オーディオサンプルデータベース６０にアクセスし、キーボード１０において押下された演奏可能な鍵にどのオーディオサンプル（又は複数のオーディオサンプル）が割り当てられているかを判定する。具体的には、オーディオサンプル選択器５０は、オーディオサンプルデータベース６０において、押下された鍵に割り当てられている１又は複数のサンプルを検索する。「押下された鍵」は、そのピッチ（又は、ノート番号）によって特定される。

上述のように、オーディオサンプルデータベース６０内では、キーボード１０の所定の演奏可能な鍵に２つ以上のオーディオサンプルを割り当ててもよい。このような場合、オーディオサンプル選択器５０は、様々な因子の１つ以上に基づいて、割り当てられたオーディオサンプルの１つを再生するように選択する。本発明の好適な実施形態においては、各割り当てられたオーディオサンプルのプロパティ（それらの記述子によって記述されている。）と、ユーザが鍵を押下した演奏の特徴及び／又は再生モードとを比較することによって、この選択が行われる。例えば、演奏時に、ユーザがキーボード１０の演奏可能な鍵を非常に強く押下した場合（これは、鍵押下の速度（ベロシティ）によって判定される。）、より大きいエネルギレベルを有する又はパーカッション性が高いオーディオサンプルを再生することがより適切である。

上述したように、キーボード１は、異なる演奏モードで用いることができる。ある演奏モードでは、オリジナルのオーディオデータファイル内のオリジナルのコンテキスト、例えば、オーディオデータファイル内におけるそれらの位置（４番目のサンプル、２０番目のサンプル等）に基づいて、オーディオサンプルを選択して出力することによってユーザを楽しませる。このコンテキストは、オーディオサンプルに関連したメタデータによって示されている。例えば、ユーザによる演奏可能な鍵の押下によってトリガされたノートに続いて、ユーザが次の鍵を押下したとき、自動的に、元の音楽ストリーム内で近いイベントを表すサンプルを再生してもよい（この「次の鍵」が押下されたとき２つ以上のサンプルが再生用に選択されていると仮定する）。これにより、演奏者と記録／サンプリングされた音楽との間のインタラクションが始まる。例えば、以下のような、異なるモードのインタラクションを行ってもよい。

−イミテーション（サンプリングされた楽曲と同じ音／スタイル／タイムラインで演奏する）
−オポジション（サンプリングされた楽曲とは異なる音で演奏する）
−掛け合い（turn-taking）（元の楽曲及び演奏者のオリジナルの演奏を交互に行う）
幾つかの演奏モードでは、インタラクションの間に、サンプルの鍵へのマッピングを自動的に変更してもよい。インタラクティブに設定され、すなわち、ユーザ入力によって動的に変更されるマッピングには、以下のように、ユーザを楽しませる多くの可能性がある。

ユーザは、例えば、ロック等、特定のジャンルの楽曲、又はローリングストーンズ等、特定の演奏者による楽曲等を示す特定のメタデータを有する楽曲を再生させる鍵を押下することができ、システムは、キーボードの同じゾーンに、同じメタデータ（同じジャンル／演奏者）を有する楽曲を自動的にマッピングすることができる。

−（本発明の好適な実施形態における、オーディオソースファイルに由来する、抽出されたオーディオを再生することによって又は従来のシンセサイザとしてキーボードを用いて）ユーザが曲を演奏できるモードにおいて、システムは、ユーザの演奏の特性に基づいて、オーディオサンプルの鍵への新たなマッピングを作成できる。例えば、ユーザがＣマイナー（ハ短調）の曲を演奏している場合（調性は、自動的に判定してもよい）、システムは、ユーザが演奏しているメロディにオーディオサンプルの背景の和音が調和するように、同じＣマイナーの調性に属するオーディオサンプルをキーボードの鍵にマッピングすることができ、すなわち、ユーザの演奏の調性に基づいて、オーディオサンプルをトリガ（ここでは、キーボードの上の鍵）にマッピングしてもよく、又は（ユーザが演奏を止めてその楽曲を聴くことができるように）同じ調性の楽曲を再生するように選択してもよい。他の具体例として、ユーザが、ビートルズの楽曲「イエスタデイ」からの音にマッピングされた鍵を用いてビートルズの楽曲「ミッシェル」を演奏したとする。システムは、ユーザによって演奏された曲に基づいて、「ミッシェル」から得られたオーディオサンプルをキーボードの鍵に割り当てたマッピングに、すなわち、オーディオサンプルのトリガ（ここでは、キーボードの鍵）へのマッピングに、自動的に切り換えることができる。ユーザの演奏に基づくこれらの（オーディオサンプルのトリガへのマッピングの）依存性は、他のオーディオサンプルのメタデータに基づく依存性に追加してもよい。

−ユーザが、より高い又は低いベロシティでノートを演奏した場合、ユーザが鍵を押下したベロシティに応じて、抽出された異なるオーディオ（又は、楽曲全体）を再生してもよい。

このような完全にインタラクティブな楽器により、ユーザは、自らが好きな楽曲からの音を用いて、即座に音楽を演奏することができる。これは、受動的な聴取（例えば、ＨｉＦｉ）と、能動的な演奏（例えば、楽器の）との融合であると言える。

オーディオサンプル選択器５０は、適切なオーディオサンプルを選択すると、オーディオデータの第１バイトから（音のアタック部分、ディケイ部分（適切であれば）、及びサステイン部分の始めに対応する）選択したオーディオサンプルの再生を開始する（ステップＳｔ４）。オーディオデータは、時間調整器８０に供給されるとともに、増幅器９２及びラウドスピーカ１００に供給される。

時間調整器８０は、ユーザが演奏により鍵を押下した時間の長さに出力音の継続時間を一致させるようにオーディオデータの再生を制御し、及び（ラウドスピーカ１００を駆動するために）オーディオデータをデジタルフォーマットからアナログフォーマットに変換する。時間調整器８０は、演奏された鍵がまだ押下されているか否かを判定する（ステップＳｔ５）。時間調整器８０は、ユーザが演奏時に鍵の押下を止めたと判定すると、選択中のオーディオサンプルにおいて、オーディオデータの、音の「リリース」部分に対応するバイトまでスキップする（ステップＳｔ７）。一方、時間調整器８０は、演奏中の鍵が押下され続けていると判定した場合、選択中のオーディオサンプルを時間的に伸張する必要がある。例えば、選択中のオーディオサンプルが、上述の具体例におけるポールマッカートニーが歌う音節「・・・day・・・」に対応している場合、このサンプルは、１．４４秒しか持続しない。したがって、ユーザが演奏中の鍵を１．４４秒以上押下した場合、時間的な伸張が必要になる。

上述のように、複雑な多音に対応するオーディオサンプルに従来の時間的な伸張法を適用することは適切ではない。本発明の好適な実施形態では、望ましくない効果（例えば、ギターのアタック音が長く続く等、過渡的な音の連続）を避けるために新たな手法を用いる。具体的には、時間調整器８０は、オーディオサンプルにおいて、安定したゾーンとして特定された部分、すなわち、スペクトルが安定しているゾーンだけを伸張する。時間調整器８０は、オーディオサンプルデータベース６０に保存されている安定性データ（オーディオサンプラ／サンプルプロセッサ７０の安定性ゾーン検出器７４によって生成される。）に基づき、選択されたオーディオサンプルのどのゾーンが安定したゾーンであるか、及びそれらの安定度を判定する。そして、時間調整器８０は、ゾーンの安定度に比例する伸張係数を適用して、オーディオサンプルの安定したゾーンだけを伸張する。

図８は、この新規な時間的な伸張法の具体例を示している。図８の上部は、初期のオーディオデータファイルから抽出されたオーディオサンプル（上述した音節「・・・day・・・」）を表している。このサンプルは、Ａ及びＢのラベルが付された２つの安定したゾーンを有している。安定性ゾーンＡの安定性スコアは１であり、安定性ゾーンＢの安定性スコアは２である。このサンプルの総継続時間を５０％長くするようにサンプルを時間的に伸張することが望まれる場合、サンプルの安定性ゾーンＡ及びＢだけに適切な時間的な伸張を適用し、ゾーンＢをゾーンＡの２倍長く伸張する。図８の下部は、時間的に伸張した後のオーディオサンプルを表す。ここでは、サンプルの総継続時間を５０％だけ伸張することを目的としたが、安定性ゾーンＢは、元の長さの３倍に伸張されている。サンプルの幾つかのゾーンを全く伸張しないためである。

オーディオサンプルの安定したゾーンを時間的に伸張することは、様々な既知の技術を用いて実現することができる。なお、本発明の好適な実施形態では、フェーズボコーダ技術を用いて所望の時間的な伸張を行う。この手法では、波形の短期的なスペクトルを解析し、付加的なフレームを合成し、（約５０ミリ秒毎に付加的な５０ミリ秒を加えることによって）波形の元のフレームとの間でモーフィングを行う。ここで、同位相同期（identity phase locking）を用いることによって、位相の連続性が保証される。フェーズボコーダ技術及び同位相同期は、周知の技術であるので、ここには詳細には説明しない。

再生中のオーディオサンプルを時間的に伸張しても、いずれは、ユーザが演奏中の鍵の押下を止めるときがくる。この場合、時間調整器８０は、オーディオサンプルの音のリリース部分までスキップする。時間的な伸張が開始された際には、通常、ユーザは、演奏中の鍵を指で押下しており、この時点では、当然、システムは、そのノートの最大継続時間を知らない。時間的な伸張の後にノートの最大継続時間を設定する１つの具体例として、（例えば）これを５秒に設定してもよい。ノートは、（従来のキーボードの場合と同様に）その期間の経過後に音を止める。

以上、現在のところ最も好適な実施形態を用いて本発明を説明したが、本発明は、上述の実施形態の特殊事項及び詳細には限定されないことは当業者にとって明らかである。特に、上述の実施形態は、様々に変更でき、添付の特許請求の範囲で定義されている本発明の範囲から逸脱することなく、異なる実施形態を実施できることも明らかである。

例えば、以下のような変更が可能である。

−抽出されたオーディオサンプルは、必ずしも、デジタルフォーマットで保存する必要はない（例えば、時間的な伸張等のある処理では、デジタルフォーマットへの変換が必要になることもある）。

−抽出されたオーディオサンプルデータは、必ずしも関連したメタデータと同じストレージ装置に保存する必要はない（但し、特定のメタデータに関連したオーディオサンプルを特定できるようにする必要はある）。

−サンプルベースの音生成機器は、オーディオサンプラ／サンプルプロセッサを含んでいる必要はない。

−アナログ−デジタルの変換器は、時間調整器８０と同じモジュールに統合する必要はない。

−本発明は、必ずしも、キーボード型の人工的な楽器に適用する必要はなく、異なる種類の楽器にも適用できる（例えば、サックス型の楽器の場合、「演奏可能なドメイン」は、ユーザが指当てを操作して覆うことができる異なるホールの組み合わせに対応する）。

上では述べていないが、サンプルベースの音生成機器は、多くの場合、ポリフォニック音源を有する（すなわち、和音の生成を可能にする異なるチャンネル（ボイス）を有する）。上述した、オーディオデータファイルからオーディオサンプルを生成し、再生のためのサンプルを選択する技術は、各「ボイス」に適用できる。

−コンピュータゲーム等に本発明を適用する場合、ユーザは、明示的には、オーディオサンプルを選択及び再生するための「鍵を演奏」できず、これに代わって、サンプル選択−再生は、ゲームのプレー中に生じるイベント又は条件によってトリガされる。すなわち、イベント又は条件の出現は、適切な（割り当てられた）オーディオサンプルを再生させるトリガの選択とみなされる。

処理ステップは、フローチャートに基づいて上述した順序とは異なる順序で実行してもよく、例えば、図５のステップＳ３、Ｓ４及びＳ５は、任意の如何なる順序で実行してもよく、平行して実行してもよい。

更に、図１を参照して上述した好適な実施形態では、トリガ（例えば、キーボード上の鍵）の操作により、抽出されたオーディオサンプルのメタデータに基づいて、キーボードの１又は複数の鍵にマッピングされた、オーディオデータファイルから抽出されたオーディオサンプルを再生する演奏可能な音生成システムを開示した。但し、本発明は、オーディオサンプルが、オーディオデータトラックから抽出されたサンプルである具体例には限定されず、例えば、オーディオサンプルは、メタデータに基づいて、トリガ（又は音生成機器の幾つかのトリガ）にマッピングされた全体の音楽タイトル（例えば、楽曲全体）であってもよい。

更に、図１の好適な実施形態では、オーディオサンプルの内在的な特性を解析し、及びこれらの内在的な特性を記述するメタデータを判定することによって、各オーディオサンプルのためのメタデータを自動的に判定するシステムを開示した。但し、本発明に基づく機器及びシステムでは、各オーディオサンプルのためのメタデータが予め存在していてもよい（すなわち、システムが判定しなくてもよい）。予め存在するメタデータは、例えば、ソースオーディオデータファイルが、ユーザが商用音楽ブラウザーソフトウェアを用いて、パーソナルコンピュータによって構築した音楽データベース内のファイルである場合等に利用可能である。

本発明の好適な実施形態に基づくサンプルベースの音生成システム内の主なモジュールを示すブロック図である。音楽的な音の包括的構造を示す図である図１に示すサンプルベースの音生成システムにおいて用いられる音サンプリング及び処理システム内の主なモジュールを示すブロック図である。図１の音生成システムのオーディオサンプルデータベースに登録されている１つのオーディオサンプルに関連したデータ構造の一具体例を示す図である。図３の音サンプリング及び処理システムが実行する主な処理のフローチャートである。図３の音サンプリング及び処理システムによって、楽曲をサンプルに自動セグメント化する処理を説明する図である。ユーザが演奏可能な鍵を押下した際に、図１のサンプルベースの音生成システムによって実行される主な処理のフローチャートである。図１のサンプルベースの音生成システムによる時間的な伸張処理を説明する図である。

Claims

操作されると、それぞれオーディオサンプルを再生させる一組のトリガ（１２）と、
上記オーディオサンプルに関連したメタデータの値に基づき、オーディオソースファイルに由来する該オーディオサンプルの、上記一組のトリガへの少なくとも１つのマッピングを定義するマッピング手段（７０）と、
上記トリガ（１２）の１つの操作に応じて、該操作されたトリガにマッピングされているオーディオサンプルを再生するために選択するサンプル選択器（５０）とを備えるサンプルベースの音生成システム（１）。
上記各オーディオサンプルは、オーディオアイテムであることを特徴とする請求項１記載のサンプルベースの音生成システム。
上記各オーディオサンプルは、上記オーディオアイテムから抽出されたデータであることを特徴とする請求項１記載のサンプルベースの音生成システム。
上記オーディオソースファイルから上記オーディオサンプルを抽出する抽出手段（７０）を備える請求項３記載のサンプルベースの音生成システム。
上記マッピング手段（７０）は、上記オーディオサンプルに関連したメタデータ及びオーディオサンプルメタデータについて成立する条件を定義するマッピング関数に基づいて、該オーディオサンプルの上記トリガ（１２）への少なくとも１つのマッピングを自動的に決定することを特徴とする請求項１乃至４いずれか１項記載のサンプルベースの音生成システム。
ユーザが上記トリガ（１２）をどのように操作したかを示すパラメータを判定する演奏評価手段（４０）を備え、上記マッピング手段（７０）は、上記一組のトリガへの上記オーディオサンプルの複数のマッピングを定義し、上記サンプル選択器（５０）は、上記演奏評価手段（４０）からの出力に基づいて、再生するオーディオサンプルを選択することを特徴とする請求項１乃至５いずれか１項記載のサンプルベースの音生成システム。
上記オーディオサンプルを解析してメタデータを生成する解析手段（７０）を備え、上記マッピング手段は、上記解析手段が生成したメタデータ及びオーディオサンプルメタデータについて成立する条件を定義するマッピング関数に基づいて、上記トリガへの少なくとも１つのマッピングを定義することを特徴とする請求項１乃至６いずれか１項記載のサンプルベースの音生成システム。
音楽コレクション内の音楽へのアクセスを提供するユーザインタフェースにおいて、
それぞれ操作されて、上記音楽コレクション内の音楽アイテムを再生させる一組のトリガ（１２）と、
上記音楽アイテムに関連したメタデータの値に基づき、上記音楽コレクション内の該音楽アイテムの、上記一組のトリガへの少なくとも１つのマッピングを定義するマッピング手段と、
上記トリガ（１２）の１つの操作に応じて、該操作されたトリガにマッピングされている音楽アイテムを再生するために選択するサンプル選択器（５０）とを備えるユーザインタフェース。
上記マッピング手段は、上記音楽アイテムに関連したメタデータ及び音楽サンプルメタデータについて成立する条件を定義するマッピング関数に基づいて、上記音楽アイテムの上記トリガ（１２）への少なくとも１つのマッピングを自動的に決定することを特徴とする請求項８記載のユーザインタフェース。
操作されると、それぞれオーディオサンプルに基づいて音を再生させる複数の選択可能なトリガ（１２）を有するサンプルベースの音生成機器（１）において、再生するために該オーディオサンプルを準備するオーディオサンプリング／サンプル処理システム（７０）において、
オーディオデータファイルを受け取る入力手段と、
オーディオデータファイルを自動的に処理し、一組のオーディオサンプルを定義するサンプル抽出手段（７２）と、
上記各抽出されたオーディオサンプルのオーディオプロパティを記述するデータを自動的に作成する解析手段（７６）と、
上記抽出されたオーディオサンプルのオーディオプロパティを記述する上記データの少なくとも一部及びオーディオサンプルメタデータについて成立する条件を定義するマッピング関数に基づいて、上記自動的に抽出されたオーディオサンプルの上記サンプルベースの音生成機器（１）の選択可能なトリガ（１２）へのマッピングを定義するマッピング手段（７８）とを備えるオーディオサンプリング／サンプル処理システム（７０）。
上記解析手段（７６）は、上記抽出されたオーディオサンプルのピッチを判定するピッチ判定手段を備え、上記マッピング手段（７８）は、上記抽出されたオーディオサンプルのピッチに基づいて、上記抽出されたオーディオサンプルを上記選択可能なトリガ（１２）の１つ以上にマッピングすることを特徴とする請求項１０記載のオーディオサンプリング／サンプル処理システム（７０）。
上記ピッチ判定手段は、バンドパスフィルタバンクと、該バンドパスフィルタバンクから出力された信号における倍音のパターンを解析する倍音解析器とを備えることを特徴とする請求項１１記載のオーディオサンプリング／サンプル処理システム（７０）。
上記サンプル抽出手段（７２）は、人間の耳の周波数分解能及び周波数応答を模倣したフィルタバンクと、上記フィルタバンクを通過後のオーディオサンプルの短期的なスペクトルを生成するスペクトル生成手段と、音の波形のエネルギ変化を解析する変化解析手段と、上記短期的なスペクトルの最大値及び最小値を解析する最大値／最小値解析手段とを備えることを特徴とする請求項１０乃至１２いずれか１項記載のオーディオサンプリング／サンプル処理システム（７０）。
上記抽出されたオーディオサンプルのスペクトルが安定しているゾーンを検出し、該スペクトルが安定しているゾーンを特定するデータを生成するスペクトル安定ゾーン検出手段（７４）を備える請求項１０乃至１３いずれか１項記載のオーディオサンプリング／サンプル処理システム（７０）。
上記抽出されたオーディオサンプルを表すデータ、上記音生成機器（１）の選択可能なトリガへの上記抽出されたオーディオサンプルのマッピングを示すデータ、及び上記抽出されたオーディオサンプルのオーディオプロパティを記述するデータをメモリ（６０）、ネットワーク、ストレージ媒体又は他の機器に出力する出力手段を備える請求項１０乃至１４いずれか１項記載のオーディオサンプリング／サンプル処理システム（７０）。
請求項１０乃至１５いずれか１項記載のオーディオサンプリング／サンプル処理システム（７０）と、
選択されると、それぞれオーディオサンプルに基づく音を再生させる複数の選択可能なトリガ（１２）と、
上記選択可能なトリガ（１２）の１つの選択に応じて、上記オーディオサンプラ／サンプルプロセッサ（７０）によってオーディオデータファイルから抽出されたオーディオサンプルの１つを再生するために選択するオーディオサンプル選択器（５０）とを備えるサンプルベースの音生成システム（１）。
上記オーディオサンプル選択器（５０）は、上記選択可能なトリガ（１２）のうちの同じ１つのトリガにマッピングされた複数の抽出された異なるオーディオサンプルの間で選択を行い、該選択は、上記複数の抽出された異なるオーディオサンプルのオーディオプロパティと、上記選択可能なトリガがどのように選択されたかを示すデータとを照合して行われることを特徴とする請求項１６記載のサンプルベースの音生成システム。
上記抽出されたオーディオサンプルの再生の継続時間を、該抽出されたオーディオサンプルの実際の継続時間とは異なるように調整する時間調整器（８０）を備え、該時間調整器（８０）は、該時間調整器（８０）が上記抽出されたオーディオサンプルの再生の継続時間を上記サンプルの継続時間より長くなるように伸張する際に、付加的なフレームを合成し、上記抽出されたオーディオサンプルのフレーム間の上記抽出されたオーディオサンプルのスペクトルが安定したゾーンのみに該付加的なフレームを補間するフェーズボコーダを備えることを特徴とする請求項１６又は１７記載のサンプルベースの音生成システム。