JP5552794B2 - 音響信号の符号化方法および装置 - Google Patents

音響信号の符号化方法および装置 Download PDF

Info

Publication number
JP5552794B2
JP5552794B2 JP2009244307A JP2009244307A JP5552794B2 JP 5552794 B2 JP5552794 B2 JP 5552794B2 JP 2009244307 A JP2009244307 A JP 2009244307A JP 2009244307 A JP2009244307 A JP 2009244307A JP 5552794 B2 JP5552794 B2 JP 5552794B2
Authority
JP
Japan
Prior art keywords
code
time
frequency
spectrum
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009244307A
Other languages
English (en)
Other versions
JP2011090189A (ja
Inventor
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2009244307A priority Critical patent/JP5552794B2/ja
Publication of JP2011090189A publication Critical patent/JP2011090189A/ja
Application granted granted Critical
Publication of JP5552794B2 publication Critical patent/JP5552794B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、音響信号の符号化技術に関し、特に、MIDI形式等の符号データに符号化するのに好適な符号化技術に関する。
音響信号をMIDI符号等の符号データに変換する方法として、出願人は、音響信号に対してフーリエ変換などの周波数解析を施す技術を提案している(特許文献1参照)。しかし、与えられる音響信号はデジタルサンプリングされたものであるため、周波数が高い領域では調和関数との相関計算において周期あたりのサンプル数が少なくなり解析精度が顕著に悪化するという問題があった。これに対し、出願人は、MIDI符号で使用される平均律音階と同様な対数尺度の周波数で周波数解析を行うことにより、周波数が高い領域では参照する調和関数の周波数間隔を増大させ、隣接する周波数(MIDIノートナンバー)を誤判定する技術を提案している(特許文献2参照)。これに伴い、解析対象の主周波数間(半音間)を微細な周波数に分割して解析する方法を提案し、主として隣接する周波数間隔が広い周波数が高い領域における解析精度を改善している(特許文献3参照)。更に、出願人は、一般化調和解析を用いる技術を提案し、フーリエ変換では擬似的な周波数成分を過剰に抽出してしまう問題を改善している(特許文献4参照)。
上記提案手法により定常的な信号における周波数解析を高精度に行うことは可能になったが、音響信号は時系列に周波数が変動するため、理想的には、ある時刻における瞬間周波数を計測することが望まれるが、それは実現不可能である。そのため上記いずれの提案においても、ある時刻の近傍にフレームという微小区間を設定して、その区間で短時間の周波数解析を行う方法をとっている。この時、周波数解析精度(特に低音周波数)を向上させるためには微小区間(サンプル数)は長いほど良いが、一方時間分解能を向上させるためには微小区間は短いほど良い。即ち、周波数分解能と時間分解能はトレードオフの関係になる(不確定性の原理)。そこで、出願人は、フレーム長はMIDI符号の最低音を解析可能な程度に固定値(44.1kHzサンプリングで4096サンプル)に設定し、フレームを可変のステップで送りながら、時間分解能を改善する方法を提案した(特許文献5参照)。
特許第3795201号公報 特許第4037542号公報 特許第4156268号公報 特許第4132362号公報 特許第4061070号公報
しかし、上記従来の技術では限界があり、音声信号などでは周波数の変動が急峻な場合、解析が周波数変動に追従できなかった。特に外国語音声、比較的早口な日本語音声では周波数変動を適切に抽出できず、明瞭なMIDI再生音が得られないという問題が発生している。音声信号の場合、一般に楽器音に比べ録音時のサンプリング周波数が低いということも起因しているが、楽器演奏音に比べ周波数変化の速度が著しいというのが主要因である。といって、フレーム長をこれ以上短く設定すると、周波数解析精度が低下してしまうというジレンマに陥っていた。
そこで、本発明は、従来と同等な周波数解析精度を維持しながら、解析における時間分解能を向上させ、主として音声信号における周波数変動を高精度に抽出することが可能な音響信号の符号化方法および装置を提供することを課題とする。
上記課題を解決するため、本発明第1の態様では、所定のサンプリング周期でデジタル化されたJ個の時系列の強度配列として与えられる音響信号を符号化するにあたり、強度配列に対して時間軸方向に所定の倍率Q(Qは整数)だけ拡大し、J×Q個の時系列の拡大強度配列に変換し、前記拡大強度配列に対して所定の個数のサンプルT(T<J)で構成される符号化対象となる複数の単位区間を隣接する単位区間を時間軸方向に重複させながら設定し、個々の単位区間ごとに、P種類の周波数に対応したスペクトル強度を算出し、個々の単位区間ごとに、求められたP種類の周波数に対応して、各周波数を特定可能な周波数情報と、各々に対応するスペクトル強度、および当該単位区間の開始と終了を特定可能な時間情報で構成されるP個の符号コードを作成し、前記P個の符号コードの周波数がQ倍になるように前記周波数情報を補正し、補正後の周波数情報が補正前の最大の周波数情報を越える周波数に対応した符号コードを削除し、残りのPh個の符号コードに対して、時間軸が1/Q倍になるように、前記時間情報を補正するようにしたことを特徴とする。
本発明第1の態様によれば、デジタル化された音響信号の各強度配列を時間軸方向に所定の倍率だけ拡大した後、所定数T個の強度配列で構成される単位区間ごとに、所定数P種類の周波数に対応したスペクトル強度を算出し、周波数、時刻を含むP個の符号コードを得て、P個の符号コードの周波数をQ倍、時刻を1/Q倍に補正するようにしたので、従来と同等な周波数解析精度を維持しながら、解析における時間分解能を向上させ、主として音声信号における周波数変動を高精度に抽出することが可能となる。
また、本発明第2の態様では、所定のサンプリング周期でデジタル化されたJ個の時系列の強度配列として与えられる音響信号を符号化するための符号化するにあたり、前記強度配列に対して時間軸方向に所定の倍率Q(Qは整数)だけ拡大し、J×Q個の時系列の拡大強度配列に変換し、前記拡大強度配列に対して所定の個数のサンプルT(T<J)で構成される符号化対象となる複数の単位区間を隣接する単位区間を時間軸方向に重複させながら設定し、個々の単位区間ごとに、P種類の周波数に対応したスペクトル強度を算出し、前記スペクトル算出段階において求めたP種類の各周波数に対してQ倍になるように補正し、補正後の周波数が補正前の最大の周波数を越える周波数に対応したスペクトル強度を削除し、残りのPh種類の周波数に対応したスペクトル強度に補正し、各単位区間の開始と終了の時刻を1/Q倍になるように補正し、個々の単位区間ごとに、前記スペクトル補正段階において補正されたPh種類の周波数に対応して、各周波数を特定可能な周波数情報と、各々に対応するスペクトル強度、および当該単位区間の開始と終了を特定可能な時間情報で構成されるPh個の符号コードを作成するようにしたことを特徴とする。
本発明第2の態様によれば、デジタル化された音響信号の各強度配列を時間軸方向に所定の倍率だけ拡大した後、所定数T個の強度配列で構成される単位区間ごとに、所定数P種類の周波数に対応したスペクトル強度を算出し、P個の符号コードの周波数をQ倍し、補正前の最大の周波数を越える周波数に対応したスペクトル強度を削除し、残りのPh種類の周波数に対応したスペクトル強度に補正し、時刻を1/Q倍に補正した後、周波数、時刻を含むPh個の符号コードを得るようにしたので、従来と同等な周波数解析精度を維持しながら、解析における時間分解能を向上させ、主として音声信号における周波数変動を高精度に抽出することが可能となる。
また、本発明第3の態様では、本発明第1または第2の態様において、強度配列の時系列への拡大を、前記サンプリング周期を変化させずに、前記強度配列に対して線形補間を用いて時間軸方向にQ倍だけ拡大するようにし、前記音響信号の周波数を全体的に1/Qに下げ、時間軸をQ倍に延長させるようにしていることを特徴とする。
また、本発明第4の態様では、本発明第1から第3いずれかの態様において、前記符号化は、前記符号コードとしてMIDI形式を用いて符号化を行い、前記符号コードの前記周波数情報としてノートナンバーを用い、前記スペクトル強度としてベロシティを用い、前記時間情報として直前のMIDIイベントからの相対時刻であるデルタタイム1とデルタタイム2を用い、これらの変換されたノートナンバー、ベロシティ、デルタタイム1を基にMIDIのノートオンイベントを作成するとともに、ノートナンバー、デルタタイム2を基にMIDIのノートオフイベントを作成するようにしていることを特徴とする。
また、本発明第5の態様では、本発明第の態様において、前記符号化は、前記符号コードとしてMIDI形式を用いて符号化を行い、前記符号コードの前記周波数情報としてノートナンバーを用い、前記スペクトル強度としてベロシティを用い、前記時間情報として直前のMIDIイベントからの相対時刻であるデルタタイム1とデルタタイム2を用い、これらの変換されたノートナンバー、ベロシティ、デルタタイム1を基にMIDIのノートオンイベントを作成するとともに、ノートナンバー、デルタタイム2を基にMIDIのノートオフイベントを作成するようにし、さらに、前記ノートナンバーに12・log2Q(前記Qに対して2を底とする対数値に12倍を乗算した値)を加算し、128−12・log2Q以上のノートナンバーをもつ符号コードを削除するとともに、残りのPh個の符号コードの前記デルタタイム1およびデルタタイム2に対して1/Qを乗算するような補正を行っていることを特徴とする。
また、本発明第6の態様では、本発明第1から第5のいずれかの態様において、前記スペクトルの算出は、前記単位区間の区間信号の構成要素となるべき複数個の要素信号を準備し、前記複数個の要素信号の中から、前記区間信号に対する相関値が最も高い要素信号を調和信号として選出し、前記調和信号とこの調和信号について得られた相関値との積で与えられる含有信号を、前記区間信号から減じることにより差分信号を求め、前記差分信号を新たな区間信号として、前記調和信号の選出および前記差分信号の演算を実行して新たな含有信号および新たな差分信号を得る処理を、繰り返し行うことによりP個の含有信号を求め、求めた含有信号の振幅値に基づいて、前記P種類の周波数に対応したスペクトル強度を算出するようにしていることを特徴とする。
また、本発明第7の態様では、本発明第1の態様において、前記J個の時系列の強度配列に対して所定の個数のサンプルT(T<J)で構成される符号化対象となる複数の第2単位区間を隣接する第2単位区間を時間軸方向に重複させながら設定し、個々の第2単位区間ごとに、P種類の周波数に対応した第2スペクトル強度を算出し、前記第2スペクトルの算出において求めたP個の周波数と各々に対応する第2スペクトル強度、および当該第2単位区間の開始時刻と終了時刻で構成されるP個の第2符号コードを作成し、作成されたP個の第2符号コードより、前記補正されたPh個の符号コードの周波数範囲より低い周波数をもつPl個の第2符号コードを抽出し、当該第2単位区間に対応する単位区間に含まれる前記補正されたPh個の符号コードを加えて、Ph個の補正された符号コードとPl個の第2符号コードで構成されるPh+Pl個の合成符号コードを作成するようにしたことを特徴とする。
本発明第7の態様によれば、本発明第1の態様において、時系列に拡大した音響信号とは別に、元の音響信号に対して周波数解析を行って第2符号コードを作成し、作成した第2符号コードを、時系列に拡大した音響信号から得られた符号コードと合成するようにしたので、時系列に拡大した音響信号から得られた符号コードにおいて欠落する低音部の符号コードを補うことができ、低音部に重要な成分のある音響信号に対しても忠実に再現可能な符号化を行うことができる。
また、本発明第8の態様では、本発明第2の態様において、前記J個の時系列の強度配列に対して所定の個数のサンプルT(T<J)で構成される符号化対象となる複数の第2単位区間を隣接する第2単位区間を時間軸方向に重複させながら設定し、個々の第2単位区間ごとに、P種類の周波数に対応した第2スペクトル強度を算出し、前記作成されたP種類の周波数に対応した第2スペクトル強度より、前記補正されたPh種類の周波数範囲より低いPl種類の周波数に対応した第2スペクトル強度を抽出し、当該第2単位区間に対応する単位区間に含まれる前記補正されたPh種類個の周波数に対応したスペクトル強度を加えて、Ph種類の補正された周波数に対応するスペクトル強度とPl種類の周波数に対応する第2スペクトル強度で構成されるPh+Pl種類の合成された周波数に対応する合成スペクトル強度を作成し、前記符号化は、前記合成されたPh+Pl種類の周波数に対応して、各周波数を特定可能な周波数情報と、各々に対応する合成スペクトル強度、および当該単位区間の開始と終了を特定可能な時間情報で構成されるPh+Pl個の符号コードを作成するようにしていることを特徴とする。
本発明第8の態様によれば、本発明第2の態様において、時系列に拡大した音響信号とは別に、元の音響信号に対して周波数解析を行ってスペクトル強度を得て、時系列に拡大した音響信号から得られたスペクトル強度と合成して符号コードを得るようにしたので、時系列に拡大した音響信号から得られた符号コードにおいて欠落する低音部の符号コードを補うことができ、低音部に重要な成分のある音響信号に対しても忠実に再現可能な符号化を行うことができる。
本発明によれば、従来と同等な周波数解析精度を維持しながら、解析における時間分解能を向上させ、主として音声信号における周波数変動を高精度に抽出することが可能となるという効果を奏する。
本発明に係る音響信号の符号化方法の概要を示すフローチャートである。 時間軸方向の拡大、周波数の増加・時間情報の縮小の概念を示す図である。 本発明に係る音響信号の符号化方法の変形例を示すフローチャートである。
以下、本発明の好適な実施形態について、図面を参照して詳細に説明する。図1は、本実施形態に係る音響信号の符号化方法の概要を示すフローチャートである。本実施形態に係る音響信号の符号化方法は、図1に示した各ステップ(各段階)の詳細な手順を記録したプログラムを、コンピュータが実行することにより、行われる。コンピュータとしては、演算処理を行うためのCPUやメモリ、プログラムやデータを記憶するハードディスク等の記憶装置、音響信号等のデータ入力を行うためのデータ入力機器、指示入力を行うキーボード、マウス等の入力機器、必要な情報を画面に表示する液晶ディスプレイ等の表示機器を備えた汎用のコンピュータを用いることができる。また、図1に示した各ステップ(各段階)の詳細な手順を記録したプログラムが組み込まれた汎用のコンピュータにより本実施形態に係る音響信号の符号化装置が実現される。
まず、コンピュータ(符号化装置)は、処理対象であるデジタル音響信号を、データ入力機器から読み込む。デジタル音響信号は、アナログ音響信号を所定のサンプリング周波数、量子化ビット数でサンプリングしたものであり、本実施形態では、サンプリング周波数44.1kHz、量子化ビット数16ビットでサンプリングした場合を例にとって以下説明していく。サンプリング周波数44.1kHzでサンプリングした場合、デジタル音響信号は、1秒間に44100個のサンプル(強度値)を有するサンプル列(サンプルの配列:強度配列)として構成されることになる。
デジタル音響信号を読み込んだら、コンピュータは、デジタル音響信号を構成するサンプルを時間軸方向に所定の倍率Q(Qは整数)だけ拡大する(S1)。具体的には、デジタル音響信号を構成するサンプルの数をQ倍にする。そして、Q個ごとに、元のサンプルと同じ値のものを配置し、その間の(Q−1)個のサンプルの値としては、両側に位置する元のサンプルの値を用いて線形補間したものを与える。原音響信号の各サンプルj(j=0・・・J−1)についてのサンプル値をx(j)とすると、コンピュータは、以下の〔数式1〕に従った処理を実行することにより、拡大後の音響信号の各サンプルj・Q+k(0≦k≦Q−1)についてのサンプル値x´(j・Q+k)を算出する。以下の〔数式1〕において、wはk/(Q−1)で与えられる0≦w≦1の値をとる実数値とする。
〔数式1〕
x´(j・Q+k)=(1−w)・x(j)+w・x(j+1)
S1における処理の結果、デジタル音響信号を構成するJ個のサンプルは、J×Q個に拡大される。図2(a)にS1における拡大処理による波形の変化を示す。図2(a)における波形は、サンプルの値をプロットしたものを線分で結んだものであるが、サンプル数が多いため、曲線状に表現されるものである。上記〔数式1〕に従った処理を実行することにより、左側に示したような波形が右側に示したような波形に変化することになる。なお、図2の例では、説明の便宜上Q=2の場合を示している。
次に、コンピュータは、時間軸方向に拡大されたサンプル上に単位区間を設定する(S2)。単位区間の長さ(サンプル数T)は、サンプリング周波数との関係で設定されるが、サンプリング周波数が44.1kHzの場合、低域部まで忠実に解析するためには、4096サンプル以上必要である。そこで、本実施形態では、1単位区間のサンプル数T=4096として単位区間を設定している。
単位区間の設定は、特許文献1〜5に開示されているように、デジタル音響信号の先頭から順次サンプルを抽出することにより行われる。単位区間は、全てのサンプルを漏らさず設定し、好ましくは、連続する単位区間においてサンプルが重複するように設定する。この場合、各単位区間の先頭の間隔(シフト幅という)は、様々な規則で設定することができる。最も単純なのは、シフト幅を固定、すなわち重複させるサンプル数を一定として設定する手法である。例えば、T=4096の場合、先頭の単位区間をj=0〜4095、2番目の単位区間をj=2048〜6143、2番目の単位区間をj=4096〜8191というように、2048(=T/2)個のサンプルを重複させながら、設定することになる。しかし、時間分解能を向上させるためには、シフト幅を小さくしたいという要望があり、一方、シフト幅を小さくするほど、計算時間が増大するという問題がある。また、シフト幅を必要以上に小さくすると、後述する図1・S4の単音成分の連結処理において連結条件が満足されなくなり連結処理が適切に機能しなくなる。そこで、音響信号の状態に合わせて最適なシフト幅を設定するため、本実施形態では、特許文献5に開示したような、ゼロ交差点間隔の粗密または自己相関解析により周波数変化が顕著なゼロ交差点を選別し、このゼロ交差点に位置するサンプルを先頭とする。
ゼロ交差点とは、正負両極性の音響信号と、信号の0レベルとの交差点のことであり、ここでは、音響信号の信号の強度値(振幅)が0となる時刻を示す。ただし、デジタル化した音響信号は、アナログ信号におけるゼロ交差点をサンプルするとは限らない。そのため、実際には、強度値が丁度0になる場合に加え、サンプリング点の強度値が正から負、または負から正に変化した場合に、その前後のサンプリング点のどちらかをゼロ交差点とみなす処理を行う。なお、ゼロ交差点検出のためには、解析対象となる音響信号が正負両極性となっている必要がある。そのため、直流成分を含む音響信号については、直流成分を除去しておく必要がある。直流成分の除去については、周知の種々の手法を適用することができるので、ここでは詳細な説明は省略する。基本的には、ゼロ交差点に位置するサンプルを先頭として単位区間を設定するが、連続する単位区間のシフト幅が一定の範囲に収まるように、ゼロ交差点以外の位置を先頭として単位区間を設定する場合もある。具体的には、最大シフト幅(例えばT/2)を上回る場合は、ゼロ交差点以外の位置でも最大シフト幅となる位置を先頭にして単位区間を設定する。逆に、最小シフト幅(例えばT/8)を下回る場合は、最小シフト幅を上回るように幾つかのゼロ交差点を飛ばした位置を先頭にして単位区間を設定し、最小シフト幅を上回りかつ最大シフト幅の範囲で該当するゼロ交差点が存在しない場合は、上記と同様に最大シフト幅となる位置を先頭にして単位区間を設定するような補正を行う。
次に、設定された各単位区間を対象として周波数解析を実行し、各単位区間のスペクトルを算出する(S3)。各単位区間のスペクトルの算出は、特許文献1〜5に開示されているように、MIDIのノートナンバーn(0≦n≦127)に対応する128種の解析周波数f(n)=440・2(n-69)/12の要素信号(要素関数)を基本にした一般化調和解析により、128個の成分を抽出することにより行う。“128種”“128個”というのは一例であり、一般にP種類の解析周波数を用いてP個の成分を抽出することになる。ノートナンバーnに対応して解析周波数を設定した場合、周波数が高くなるにつれ、ノートナンバー間の周波数間隔が広くなるため、特に、nが60を超えると解析精度が低下してしまう。そこで、本実施形態では、特許文献3に開示したように、ノートナンバー間をM個の微分音に分割した128M個の要素信号f(n,m)=440・2(n-69+m/M)/12を用いて解析を行い、128M個の成分を抽出する。後述する図1・S4においてピッチベンド符号の付加など特殊な符号化を行わない限り、各ノートナンバーにおけるM個の微分音の情報は不要であるため、M個の微分音の成分の合算値を当該ノートナンバーにおける成分として代表させ、結果的に128個の成分を抽出する。
コンピュータによる具体的な処理手順としては、まず、ノートナンバー分の強度値の配列E(n)(0≦n≦127)と副周波数配列S(n)を設定し、初期値を全て0とする。続いて、0≦n≦127および0≦m≦M−1に対して以下の〔数式2〕に従った処理を実行し、E(n,m)を最大にする(nmax,mmax)を求める。
〔数式2〕
A(n,m)=(1/T(n))・Σi=0,T(n)-1x(i) sin(2πf(n,m)i/fs)
B(n,m)=(1/T(n))・Σi=0,T(n)-1x(i) cos (2πf(n,m)i/fs)
{E(n,m)}2={A(n,m)}2+{B(n,m)}2
上記〔数式2〕においてT(n)は解析フレーム長であり、単位区間Tを超えない範囲で要素信号の周期の最大の整数倍になるように設定し、kを適当な整数値として、T(n)=k/f(n,m)で与える。E(n,m)を最大にする(nmax,mmax)を用いたf(nmax,mmax)が調和信号として選出されることになる。(nmax,mmax)が求められたら、コンピュータは、A(nmax,mmax)およびB(nmax,mmax)を用いて、以下の〔数式3〕に従った処理を実行し、サンプル配列x(i)の全ての要素(0≦i≦T−1)を更新する。
〔数式3〕
x(i)←x(i)−A(nmax,mmax)・sin(2πf(nmax,mmax)i/fs)−B(nmax,mmax)・cos (2πf(nmax,mmax)i/fs)
上記〔数式3〕においては、x(i)から含有信号を減じる処理を行っている。さらに、以下の〔数式4〕に従った処理を実行し、強度値の配列E(n)、副周波数配列S(n)を更新する。
〔数式4〕
E(nmax)←E(nmax)+E(nmax,mmax)
S(nmax)←mmax
コンピュータは、上記〔数式2〕〜〔数式4〕の処理を全てのn(0≦n≦127)に対して実行し、全てのE(n)およびS(n)の値を決定する。
本実施形態では、処理負荷を軽減するため、Mの値については、ノートナンバーに基づいて可変に設定し、例えば解析する周波数間隔が100Hz程度になるようにしている。そして、ノートナンバー60以下は分割せずM=1にする。また、精度は若干落ちるが、初回の〔数式2〕の処理でS(n)を決定し、2回目以降の〔数式2〕の処理は、m=S(n)に固定して行い、微分音解析を省略するようにしても良い。また、〔数式2〕の処理で、既に同一ノートナンバーに対して副周波数が異なる信号成分が複数回に渡って解析される可能性があるが、E(n)とS(n)に既に値がセットされている場合は、E(n,m)の最大値の選定候補から除外するようにしても良い。
各単位区間について、スペクトル(128個の周波数成分)が算出されたら、周波数情報と、各周波数に対応するスペクトル強度、および単位区間の開始と終了を特定可能な時間情報で構成される符号コードを作成する(S4)。符号コードの作成にあたり、まず、算出したスペクトルに、各ノートナンバーnの時刻、時間長の情報を追加し、[開始時刻,時間長,主周波数n,副周波数S(n),強度E(n)]で構成される単音成分を作成する。「開始時刻」としては単位区間の先頭の時刻を、デジタル音響信号全体において特定できる情報であれば良く、本実施形態では、単位区間の先頭サンプル(i=0)に付されたデジタル音響信号全体におけるサンプル番号(絶対サンプルアドレス:jに対応)を記録している。この絶対サンプルアドレスをサンプリング周波数(44100)で除算することにより、音響信号先頭からの時刻が得られる。時間長は、本実施形態では単位区間ごとに可変で与えられることを特徴とし、直後に後続する単位区間の開始時刻までの差分(後続する単位区間の開始時刻−当該単位区間の開始時刻)で与えられる。
S2で設定された単位区間ごとに、128個の単音成分が作成されるが、さらに、S4においては、連続する単位区間において単音成分を連結する処理を行う。具体的には、連続する単位区間における同一ノートナンバーの単音成分が、所定の連結条件を満たす場合、2つの単音成分を連結する。連結条件としては、同一の音として連続性を有する状態を適宜設定することができるが、本実施形態では、副周波数を考慮した周波数(主周波数+副周波数)の差が所定の閾値Ndif未満で、双方の強度が所定の閾値Lmin以上で、かつ双方の強度の差が所定の閾値Ldif未満である場合に、連続性を有するとして、後続の単音成分を前方の単音成分に連結する。ただし、連結後の主周波数、副周波数、強度は大きい方の単音成分の各値を採用し、時間長は双方の和で与える。連結条件としての具体的な閾値は、本実施形態では、Ndif=8/25[単位:ノートナンバー換算]、Lmin=1[単位:128段階ベロシティ換算]、Ldif=10[単位:128段階ベロシティ換算]としている。連結処理は、符号コードへの変換前に行うものであるため、各閾値は、ノートナンバー、ベロシティに換算したものである。
同一ノートナンバーの単音成分の連結は、連結条件を満たす限り、後続する単位区間の単音成分に対して繰り返し行い、最終的に得られた[開始時刻,時間長,主周波数n,副周波数S(n),強度E(n)]の単音成分を、符号コードに変換する。符号コードの形式としては、周波数情報と、各周波数に対応するスペクトル強度、および単位区間の開始と終了を特定可能な時間情報を有するものであれば、どのような形式のものであっても良いが、本実施形態では、MIDI形式に変換する。MIDIでは、発音開始と、発音終了を別のイベントとして発生するため、したがって、本実施形態では、1つの単音成分を2つのMIDIノートイベントに変換する。具体的には、「開始時刻」で、ノートナンバーnのノートオンイベントを発行し、ベロシティ値は強度E(n)の最大値をEmaxとして、128・{E(n)/Emax}1/4で与える。時刻については、Standard MIDI Fileでは、直前イベントとの相対時刻(デルタタイム)で与える必要があり、その時刻単位は任意の整数値で定義でき、例えば、1/1536[秒]の単位に変換して与える。そして、「開始時刻」+「時間長」で特定される終了時刻で、ノートナンバーnのノートオフイベントを発行する。この際、時間長には、0以上1以下の実数を乗じる。これは、使用するMIDI音源の音色にも依存するが、MIDI音源の余韻を考慮して早めにノートオフ指示をするためである。時間長をそのまま用いてもMIDI音源の処理上問題はないが、発音の際、後続音と部分的に重なる場合がある。
MIDI符号に変換する際、MIDI音源で処理可能な同時発音数についても考慮するため、同時発音数の調整を行う必要がある。MIDI音源で処理可能な同時発音数が32である場合、時間軸方向に発音期間中(ノートオン状態)のノートイベントの個数を連続的にカウントし、同時に32個のノートイベントが存在する箇所が見つかった場合は、各々対になるノートオフイベントを近傍区間内で探索し、各ノートイベント対のベロシティ値とデュレーション値(ノートオフ時刻−ノートオン時刻)の積(エネルギー値)で優先度を評価し、指定和音数(この場合“32”)以下になるように優先度の低い(エネルギー値の小さい)ノートイベント対を局所的に削除する処理を行う。“局所的に”とは、32を超えるノートイベントが存在する部分に限りという意味である。この際、ベロシティ値またはデュレーション値のいずれかが所定の下限値より低い場合、優先度に関係なく削除する処理も行う。
さらに、MIDI符号に変換する際、MIDI音源で処理可能なビットレートについても考慮するため、ビットレートの調整を行う必要がある。時間軸方向に、1秒間隔にノートオンまたはノートオフイベントの個数をカウントし、各々の符号長を平均5バイト(40ビット)とし、MIDI音源で処理可能な最大ビットレートを9000[bps(ビット/秒)]とすると、1秒間あたりイベント数が9000/40=225個を超えている区間が見つかった場合は、その区間に存在するノートオンまたはノートオフイベントと各々対になるノートオフまたはノートオンイベントを近傍区間内で探索し、各ノートイベント対のベロシティ値とデュレーション値(ノートオフ時刻−ノートオン時刻)の積(エネルギー値)で優先度を評価し、指定イベント個数(この場合“225”)以下になるように優先度の低い(エネルギー値の小さい)ノートイベント対を局所的に削除する処理を行う。この際、ベロシティ値またはデュレーション値のいずれかが所定の下限値より低い場合、優先度に関係なく削除する処理も行う。
符号コードの作成が行われたら、時間軸方向に拡大して処理されたことによる変動を是正するため、各符号コードを補正する処理を行う(S5)。具体的には、まず、全てのノートイベント(ノートオンイベントまたはノートオフイベント)のノートナンバー値に12・log2Qだけ加算する処理を行う。例えば、Q=4の場合、24半音(2オクターブ)だけ全体的に音高を上げる。この処理は、S1においてサンプル数をQ倍したことにより周波数が1/Qになっているため、周波数をQ倍にして元の状態に戻すために行う。この補正によりノートナンバーが規格値上限の127を超えるノートナンバーをもつ符号コードは削除する。具体的には補正前のノートナンバーが128−12・log2Q以上の符号コードが削除される。
続いて、全てのノートイベントの時刻(ノートオン時刻またはノートオフ時刻)に1/Qを乗算する。これにより、MIDI符号全体の演奏時間、および各ノートイベントの発音時間が1/Qに縮小される。この処理は、S1においてサンプル数をQ倍したことにより全体の演奏時間がQ倍になっているため、時刻を1/Qにして元の状態に戻すために行う。この処理を行うと、時間あたりのノートイベント数がQ倍に増大するため、上記S4で実行したビットレートの調整を再度実行する。
S5における処理の結果、周波数(音高)はQ倍になるとともに、時間情報は1/Qになる。S5の補正処理によるMIDIイベント(MIDI符号のノートイベント)の変化の様子を図2(b)に示す。図2(b)においては、Q=2の場合のMIDIイベントの変化を、音符により示している。S5の補正処理により左側の“ミ”の音符は、右側では1オクターブ高い(周波数が2倍)“ミ”の音符に変化している。一方、左側の四分音符が、右側では時間的に1/2の八分音符に変化している。
S5により得られたMIDIコードを、そのまま最終的な符号として出力しても、本発明の効果は得られる。しかし、S5の符号コードの補正において、ノートナンバー値に12・log2Qだけ加算する処理を行っているため、符号コード全体が高音部に移動したため、高音部の一部がMIDI規格外により削除されるとともに、低音部の符号コードが存在しなくなる。そこで、以下のS6〜S9による処理を実行することにより低音部を補填する処理を行う。以下、S6〜S9の処理について説明する。
S6〜S8の処理は、S2〜S4の処理と基本的には同じ処理であるが、対象とするデジタル音響信号が、S2〜S4は、サンプル数を拡大したデジタル音響信号であるのに対し、S6〜S8の処理は、元のデジタル音響信号である点で異なっている。したがって、S6〜S8における処理は、特許文献1〜特許文献5に開示されている公知の技術により実現される。本実施形態における処理では、S6〜S8に示した処理を、元のデジタル音響信号に対して実行する。
そして、S8の処理により符号コードが得られたら、S5により得られた符号コード(サンプル数を拡大したデジタル音響信号から得られた符号コード:以下第1符号コードという)と、S8により得られた符号コード(元のデジタル音響信号から得られた符号コード:以下第2符号コードという)を合成する処理を行う(S9)。第1符号コードではS5の処理に基づいてノートナンバーに12・log2Qなる正の値が加算されることにより、ノートナンバーが0から12・log2Qまでのノートイベントは存在しない。(逆に、S5処理前に128−12・log2Q以上のノートナンバーをもつノートイベントはMIDI規格外の高音領域に入るため削除される)。そこで、ノートナンバーについて所定の閾値として12・log2Qを設定しておき、第1符号コードからは、所定の閾値以上のものを採用し、第2符号コードからは、所定の閾値未満のものを採用し、合成符号コード群を得る。この際、第2符号コードのノートイベントについては、そのベロシティ値をそのまま採用しても良いが、単位区間の音響信号に対応する長さが第1符号コードに比べてQ倍長いため、ベロシティ値においてアンバランスが生じる可能性がある。そのため、以下のような補正処理を必要に応じて実施しても良い。
具体的には、まず、第1符号コード群において、ノートナンバーが閾値以上の全てのノートイベントのベロシティ値の平均値V1を算出する。続いて、第2符号コード群においても、同様にノートナンバーが同閾値以上の全てのノートイベントのベロシティ値の平均値V2を算出する。そして、第2符号コード群のノートナンバーが閾値未満の全てのノートイベントについて、そのベロシティ値にV1/V2を乗じる。この結果、第1符号コード群の低音部に第2符号コード群の低音部の強度を補正したものが追加されることになる。追加する際は、Standard MIDI Fileの仕様に基づいて第1符号コード群と第2符号コード群を時刻情報に基づいてソートして混在させる方法もとれるし、第1符号コード群と第2符号コード群を独立したトラックとして収納する方法もとれる。S6〜S9の処理を実行することにより、MIDI規格上の全ての周波数帯域に対して符号コードを生成することができ、特に低音部にも伸びている音楽(楽器音)に対して有益である。符号コードの合成を行うと、第1符号コード群が第2符号コード群に比べ平均してQ倍のノートイベント数をもち、トータルで時間あたりのノートイベント数が増大するため、上記S4で実行した同時発音数の調整およびビットレートの調整を再度実行する。
(合成についての変形例)
以上は符号コードまで処理したMIDIイベントデータの段階で合成する手法について説明したが、変形例として、第1符号コードおよび第2符号コードを作成する前段階のスペクトル算出段階で合成する手法について図3を用いて説明する。S1〜S3までの処理は図1と同様であり、S4の代わりにS10としてスペクトルの補正を行う。これは図1のS5に対応するもので、算出されたスペクトルの周波数(主周波数および副周波数とも)をQ倍にし(ノートナンバーの単位では、12・log2Qなる値を加算)、MIDI規格外にはみ出した高い周波数に対応するスペクトル強度を削除するとともに、各単位区間の開始時刻を1/Q倍に補正する処理を行う。一方、図3のS6〜S7までは図1と同様であり、図1のS8を行わずに、上記S10で補正したスペクトルと第2スペクトルとを合成する処理を行う(S11)。S5と同様に、S10の処理に基づいて補正されたスペクトルにはノートナンバーに12・log2Qなる正の値が加算されることにより、ノートナンバーが0から12・log2Q−1に対応するスペクトル強度は存在しない。(逆に、S10処理前に128−12・log2Q以上のノートナンバーをもつスペクトル強度はMIDI規格外の高音領域に入るため削除される)。そこで、第2スペクトルより所定の閾値12・log2Q未満のスペクトル強度だけを採用し、合成スペクトルを得る。この際、第2スペクトルのスペクトル強度については、その強度値をそのまま採用し、前節で述べたような強度値の補正処理は通常行わない。(単位区間の音響信号に対応する長さがS10で補正されたスペクトルは第2スペクトルに比べて1/Qと短いため、強度値においてバラツキが生じる可能性がある。しかし、前述したような補正処理を実施すると、後続S12の単音成分の連結処理が強度値の不連続性により適切に働かなくなる。)そして、S12の符号コードの作成において、第2スペクトルのスペクトル強度を含めて単音成分の連結処理を行い、MIDIイベントデータを作成する。本合成方法をとると、S10とS7で生成される2種類のスペクトル強度のなかで所定の閾値に近いデータが単一の符号コードに連結される場合があり、図1の方法に比べ符号効率の高い符号コードが生成できるという特徴がある。また、図1の実施形態では、同時発音数の調整をS4とS9の2回、ビットレートの調整をS4、S5、S9の3回行っているが、これらについては、本方法では最終段階のS12で1回ずつ行えば良い。
以上、本発明の好適な実施形態について説明したが、本発明は上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、S6〜S9の処理を追加して、低音部について補填する処理を行ったが、上述のように、低音部を補填せず、S5までの処理により得られる符号コードでも、十分に元の音響信号を再現することが可能である。特に、音響信号として人間の音声や、低音部に影響の無い音楽を用いた場合、S5までの処理により得られる符号コードでも対応可能である。S6〜S9の処理を追加することにより、楽器音等の低音部に意味のある音響信号をより忠実に再現可能となる。
また、上記図1の実施形態では、同時発音数の調整をS4とS9の2回、ビットレートの調整をS4、S5、S9の3回行っているが、これらについては、最終的に少なくとも1回ずつ行われていれば良い。そのため、低音部を補填する場合については、S9においてそれぞれ1回、低音部を補填しない場合については、S5においてそれぞれ1回行えばよい。もっとも、途中で実行しておくことにより、全体としての処理負荷が軽減される場合もあるため、状況に応じて適宜変更するようにしておけば良い。
また、上記実施形態では、S2〜S4、S6〜S8の処理について好ましい処理例について具体的に説明したが、これらの処理については、本発明の趣旨を逸脱しない範囲で、公知の特許文献1〜5に開示した技術を用いることができる。
本発明は、PCM等により得られた音響信号を、MIDI符号等の符号コードに変換する技術を用い、放送メディア(地上・BSなどによるデジタルラジオ・テレビ放送など)、通信メディア(CS放送、インターネット・ストリーミング放送、携帯電話サービス、携帯音楽配信サービスなど)、パッケージメディア(CD、DVD、BlueRay、メモリICカードなど)向けのオーディオコンテンツ制作産業に利用することができる。

Claims (17)

  1. 所定のサンプリング周期でデジタル化されたJ個の時系列の強度配列として与えられる音響信号を符号化するための符号化方法であって、
    前記強度配列に対して時間軸方向に所定の倍率Q(Qは整数)だけ拡大し、J×Q個の時系列の拡大強度配列に変換する時系列拡大段階と、
    前記拡大強度配列に対して所定の個数のサンプルT(T<J)で構成される符号化対象となる複数の単位区間を隣接する単位区間を時間軸方向に重複させながら設定する区間設定段階と、
    個々の単位区間ごとに、P種類の周波数に対応したスペクトル強度を算出するスペクトル算出段階と、
    個々の単位区間ごとに、前記スペクトル算出段階において求めたP種類の周波数に対応して、各周波数を特定可能な周波数情報と、各々に対応するスペクトル強度、および当該単位区間の開始と終了を特定可能な時間情報で構成されるP個の符号コードを作成する符号化段階と、
    前記P個の符号コードの周波数がQ倍になるように前記周波数情報を補正し、補正後の周波数情報が補正前の最大の周波数情報を越える周波数に対応した符号コードを削除し、残りのPh個の符号コードに対して、
    時間軸が1/Q倍になるように、前記時間情報を補正するようにしている符号コード補正段階と、
    を有することを特徴とする音響信号の符号化方法。
  2. 所定のサンプリング周期でデジタル化されたJ個の時系列の強度配列として与えられる音響信号を符号化するための符号化方法であって、
    前記強度配列に対して時間軸方向に所定の倍率Q(Qは整数)だけ拡大し、J×Q個の時系列の拡大強度配列に変換する時系列拡大段階と、
    前記拡大強度配列に対して所定の個数のサンプルT(T<J)で構成される符号化対象となる複数の単位区間を隣接する単位区間を時間軸方向に重複させながら設定する区間設定段階と、
    個々の単位区間ごとに、P種類の周波数に対応したスペクトル強度を算出するスペクトル算出段階と、
    前記スペクトル算出段階において求めたP種類の各周波数に対してQ倍になるように補正し、補正後の周波数が補正前の最大の周波数を越える周波数に対応したスペクトル強度を削除し、残りのPh種類の周波数に対応したスペクトル強度に補正し、各単位区間の開始と終了の時刻を1/Q倍になるように補正するスペクトル補正段階と、
    個々の単位区間ごとに、前記スペクトル補正段階において補正されたPh種類の周波数に対応して、各周波数を特定可能な周波数情報と、各々に対応するスペクトル強度、および当該単位区間の開始と終了を特定可能な時間情報で構成されるPh個の符号コードを作成する符号化段階と、
    を有することを特徴とする音響信号の符号化方法。
  3. 請求項1または請求項2において、
    前記時系列拡大段階は、前記サンプリング周期を変化させずに、前記強度配列に対して線形補間を用いて時間軸方向にQ倍だけ拡大するようにし、前記音響信号の周波数を全体的に1/Qに下げ、時間軸をQ倍に延長させるようにしていることを特徴とする音響信号の符号化方法。
  4. 請求項1から請求項3のいずれかにおいて、
    前記符号化段階は、前記符号コードとしてMIDI形式を用いて符号化を行い、前記符号コードの前記周波数情報としてノートナンバーを用い、前記スペクトル強度としてベロシティを用い、前記時間情報として直前のMIDIイベントからの相対時刻であるデルタタイム1とデルタタイム2を用い、これらの変換されたノートナンバー、ベロシティ、デルタタイム1を基にMIDIのノートオンイベントを作成するとともに、ノートナンバー、デルタタイム2を基にMIDIのノートオフイベントを作成するようにしていることを特徴とする音響信号の符号化方法。
  5. 請求項において、
    前記符号化段階は、前記符号コードとしてMIDI形式を用いて符号化を行い、前記符号コードの前記周波数情報としてノートナンバーを用い、前記スペクトル強度としてベロシティを用い、前記時間情報として直前のMIDIイベントからの相対時刻であるデルタタイム1とデルタタイム2を用い、これらの変換されたノートナンバー、ベロシティ、デルタタイム1を基にMIDIのノートオンイベントを作成するとともに、ノートナンバー、デルタタイム2を基にMIDIのノートオフイベントを作成するようにし、
    前記符号コード補正段階は、前記ノートナンバーに12・log2Q(前記Qに対して2を底とする対数値に12倍を乗算した値)を加算し、
    128−12・log2Q以上のノートナンバーをもつ符号コードを削除するとともに、残りのPh個の符号コードの前記デルタタイム1およびデルタタイム2に対して1/Qを乗算するような補正を行っていることを特徴とする音響信号の符号化方法。
  6. 請求項1から請求項5のいずれかにおいて、
    前記スペクトル算出段階は、
    前記単位区間の区間信号の構成要素となるべき複数個の要素信号を準備する要素信号準備段階と、
    前記複数個の要素信号の中から、前記区間信号に対する相関値が最も高い要素信号を調和信号として選出する調和信号選出段階と、
    前記調和信号とこの調和信号について得られた相関値との積で与えられる含有信号を、前記区間信号から減じることにより差分信号を求める差分信号演算段階と、
    前記差分信号を新たな区間信号として、前記調和信号選出段階および前記差分信号演算段階を実行して新たな含有信号および新たな差分信号を得る処理を、繰り返し行うことによりP個の含有信号を求め、求めた含有信号の振幅値に基づいて、前記P種類の周波数に対応したスペクトル強度を算出するようにしていることを特徴とする音響信号の符号化方法。
  7. 請求項1において、
    前記J個の時系列の強度配列に対して所定の個数のサンプルT(T<J)で構成される符号化対象となる複数の第2単位区間を隣接する第2単位区間を時間軸方向に重複させながら設定する第2区間設定段階と、
    個々の第2単位区間ごとに、P種類の周波数に対応した第2スペクトル強度を算出する第2スペクトル算出段階と、
    前記第2スペクトル算出段階において求めたP個の周波数と各々に対応する第2スペクトル強度、および当該第2単位区間の開始時刻と終了時刻で構成されるP個の第2符号コードを作成する第2符号化段階と、
    前記第2符号化段階により作成されたP個の第2符号コードより、前記符号コード補正段階により補正されたPh個の符号コードの周波数範囲より低い周波数をもつPl個の第2符号コードを抽出し、当該第2単位区間に対応する単位区間に含まれる前記符号コード補正段階により補正されたPh個の符号コードを加えて、Ph個の補正された符号コードとPl個の第2符号コードで構成されるPh+Pl個の合成符号コードを作成する符号合成段階と、
    を有することを特徴とする音響信号の符号化方法。
  8. 請求項2において、
    前記J個の時系列の強度配列に対して所定の個数のサンプルT(T<J)で構成される符号化対象となる複数の第2単位区間を隣接する第2単位区間を時間軸方向に重複させながら設定する第2区間設定段階と、
    個々の第2単位区間ごとに、P種類の周波数に対応した第2スペクトル強度を算出する第2スペクトル算出段階と、
    前記第2スペクトル算出段階により作成されたP種類の周波数に対応した第2スペクトル強度より、前記スペクトル補正段階により補正されたPh種類の周波数範囲より低いPl種類の周波数に対応した第2スペクトル強度を抽出し、当該第2単位区間に対応する単位区間に含まれる前記スペクトル補正段階により補正されたPh種類個の周波数に対応したスペクトル強度を加えて、Ph種類の補正された周波数に対応するスペクトル強度とPl種類の周波数に対応する第2スペクトル強度で構成されるPh+Pl種類の合成された周波数に対応する合成スペクトル強度を作成するスペクトル合成段階と、
    を有し、
    前記符号化段階は、前記スペクトル合成段階において合成されたPh+Pl種類の周波数に対応して、各周波数を特定可能な周波数情報と、各々に対応する合成スペクトル強度、および当該単位区間の開始と終了を特定可能な時間情報で構成されるPh+Pl個の符号コードを作成するようにしていることを特徴とする音響信号の符号化方法。
  9. 所定のサンプリング周期でデジタル化されたJ個の時系列の強度配列として与えられる音響信号を符号化するための符号化装置であって、
    前記強度配列に対して時間軸方向に所定の倍率Q(Qは整数)だけ拡大し、J×Q個の時系列の拡大強度配列に変換する時系列拡大手段と、
    前記拡大強度配列に対して所定の個数のサンプルT(T<J)で構成される符号化対象となる複数の単位区間を隣接する単位区間を時間軸方向に重複させながら設定する区間設定手段と、
    個々の単位区間ごとに、P種類の周波数に対応したスペクトル強度を算出するスペクトル算出手段と、
    個々の単位区間ごとに、前記スペクトル算出手段において求めたP種類の周波数に対応して、各周波数を特定可能な周波数情報と、各々に対応するスペクトル強度、および当該単位区間の開始と終了を特定可能な時間情報で構成されるP個の符号コードを作成する符号化手段と、
    前記P個の符号コードの周波数がQ倍になるように前記周波数情報を補正し、補正後の周波数情報が補正前の最大の周波数情報を越える周波数に対応した符号コードを削除し、残りのPh個の符号コードに対して、時間軸が1/Q倍になるように、前記時間情報を補正するようにしている符号コード補正手段と、
    を有することを特徴とする音響信号の符号化装置。
  10. 所定のサンプリング周期でデジタル化されたJ個の時系列の強度配列として与えられる音響信号を符号化するための符号化装置であって、
    前記強度配列に対して時間軸方向に所定の倍率Q(Qは整数)だけ拡大し、J×Q個の時系列の拡大強度配列に変換する時系列拡大手段と、
    前記拡大強度配列に対して所定の個数のサンプルT(T<J)で構成される符号化対象となる複数の単位区間を隣接する単位区間を時間軸方向に重複させながら設定する区間設定手段と、
    個々の単位区間ごとに、P種類の周波数に対応したスペクトル強度を算出するスペクトル算出手段と、
    前記スペクトル算出手段において求められたP種類の各周波数に対してQ倍になるように補正し、補正後の周波数が補正前の最大の周波数を越える周波数に対応したスペクトル強度を削除し、残りのPh種類の周波数に対応したスペクトル強度に補正し、各単位区間の開始と終了の時刻を1/Q倍になるように補正するスペクトル補正手段と、
    個々の単位区間ごとに、前記スペクトル補正手段により補正されたPh種類の周波数に対応して、各周波数を特定可能な周波数情報と、各々に対応するスペクトル強度、および当該単位区間の開始と終了を特定可能な時間情報で構成されるPh個の符号コードを作成する符号化手段と、
    を有することを特徴とする音響信号の符号化装置。
  11. 請求項9または請求項10において、
    前記時系列拡大手段は、前記サンプリング周期を変化させずに、前記強度配列に対して線形補間を用いて時間軸方向にQ倍だけ拡大するようにし、前記音響信号の周波数を全体的に1/Qに下げ、時間軸をQ倍に延長させるようにしていることを特徴とする音響信号の符号化装置。
  12. 請求項9から請求項11のいずれかにおいて、
    前記符号化手段は、前記符号コードとしてMIDI形式を用いて符号化を行い、前記符号コードの前記周波数情報としてノートナンバーを用い、前記スペクトル強度としてベロシティを用い、前記時間情報として直前のMIDIイベントからの相対時刻であるデルタタイム1とデルタタイム2を用い、これらの変換されたノートナンバー、ベロシティ、デルタタイム1を基にMIDIのノートオンイベントを作成するとともに、ノートナンバー、デルタタイム2を基にMIDIのノートオフイベントを作成するようにしていることを特徴とする音響信号の符号化装置。
  13. 請求項において、
    前記符号化手段は、前記符号コードとしてMIDI形式を用いて符号化を行い、前記符号コードの前記周波数情報としてノートナンバーを用い、前記スペクトル強度としてベロシティを用い、前記時間情報として直前のMIDIイベントからの相対時刻であるデルタタイム1とデルタタイム2を用い、これらの変換されたノートナンバー、ベロシティ、デルタタイム1を基にMIDIのノートオンイベントを作成するとともに、ノートナンバー、デルタタイム2を基にMIDIのノートオフイベントを作成するようにし、
    前記符号コード補正手段は、前記ノートナンバーに12・log2Q(前記Qに対して2を底とする対数値に12倍を乗算した値)を加算し、128−12・log2Q以上のノートナンバーをもつ符号コードを削除するとともに、残りのPh個の符号コードの前記デルタタイム1およびデルタタイム2に対して1/Qを乗算するような補正を行っていることを特徴とする音響信号の符号化装置。
  14. 請求項9から請求項13のいずれかにおいて、
    前記スペクトル算出手段は、
    前記単位区間の区間信号の構成要素となるべき複数個の要素信号を準備する要素信号準備手段と、
    前記複数個の要素信号の中から、前記区間信号に対する相関値が最も高い要素信号を調和信号として選出する調和信号選出手段と、
    前記調和信号とこの調和信号について得られた相関値との積で与えられる含有信号を、前記区間信号から減じることにより差分信号を求める差分信号演算手段と、を有し、
    前記差分信号を新たな区間信号として、前記調和信号選出手段および前記差分信号演算手段が新たな含有信号および新たな差分信号を得る処理を、繰り返し行うことによりP個の含有信号を求め、求めた含有信号の振幅値に基づいて、前記P種類の周波数に対応したスペクトル強度を算出するようにしていることを特徴とする音響信号の符号化装置。
  15. 請求項9において、
    前記J個の時系列の強度配列に対して所定の個数のサンプルT(T<J)で構成される符号化対象となる複数の第2単位区間を隣接する第2単位区間を時間軸方向に重複させながら設定する第2区間設定手段と、
    個々の第2単位区間ごとに、P種類の周波数に対応した第2スペクトル強度を算出する第2スペクトル算出手段と、
    前記第2スペクトル算出手段において求めたP個の周波数と各々に対応する第2スペクトル強度、および当該第2単位区間の開始時刻と終了時刻で構成されるP個の第2符号コードを作成する第2符号化手段と、
    前記第2符号化手段により作成されたP個の第2符号コードより、前記符号コード補正手段により補正されたPh個の符号コードの周波数範囲より低い周波数をもつPl個の第2符号コードを抽出し、当該第2単位区間に対応する単位区間に含まれる前記符号コード補正手段により補正されたPh個の符号コードを加えて、Ph個の補正された符号コードとPl個の第2符号コードで構成されるPh+Pl個の合成符号コードを作成する符号合成手段と、
    を有することを特徴とする音響信号の符号化装置。
  16. 請求項10において、
    前記J個の時系列の強度配列に対して所定の個数のサンプルT(T<J)で構成される符号化対象となる複数の第2単位区間を隣接する第2単位区間を時間軸方向に重複させながら設定する第2区間設定手段と、
    個々の第2単位区間ごとに、P種類の周波数に対応した第2スペクトル強度を算出する第2スペクトル算出手段と、
    前記第2スペクトル算出手段により作成されたP種類の周波数に対応した第2スペクトル強度より、前記スペクトル補正手段により補正されたPh種類の周波数範囲より低いPl種類の周波数に対応した第2スペクトル強度を抽出し、当該第2単位区間に対応する単位区間に含まれる前記スペクトル補正手段により補正されたPh種類個の周波数に対応したスペクトル強度を加えて、Ph種類の補正された周波数に対応するスペクトル強度とPl種類の周波数に対応する第2スペクトル強度で構成されるPh+Pl種類の合成された周波数に対応する合成スペクトル強度を作成するスペクトル合成手段と、
    を有し、
    前記符号化手段は、前記スペクトル合成手段において合成されたPh+Pl種類の周波数に対応して、各周波数を特定可能な周波数情報と、各々に対応する合成スペクトル強度、および当該単位区間の開始と終了を特定可能な時間情報で構成されるPh+Pl個の符号コードを作成するようにしていることを特徴とする音響信号の符号化装置。
  17. 請求項9から請求項16のいずれかに記載の音響信号の符号化装置としてコンピュータを機能させるためのプログラム。
JP2009244307A 2009-10-23 2009-10-23 音響信号の符号化方法および装置 Expired - Fee Related JP5552794B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009244307A JP5552794B2 (ja) 2009-10-23 2009-10-23 音響信号の符号化方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009244307A JP5552794B2 (ja) 2009-10-23 2009-10-23 音響信号の符号化方法および装置

Publications (2)

Publication Number Publication Date
JP2011090189A JP2011090189A (ja) 2011-05-06
JP5552794B2 true JP5552794B2 (ja) 2014-07-16

Family

ID=44108488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009244307A Expired - Fee Related JP5552794B2 (ja) 2009-10-23 2009-10-23 音響信号の符号化方法および装置

Country Status (1)

Country Link
JP (1) JP5552794B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5533021B2 (ja) * 2010-02-26 2014-06-25 大日本印刷株式会社 音響信号の符号化方法および装置
JP5732910B2 (ja) * 2011-03-01 2015-06-10 大日本印刷株式会社 音響信号の符号化方法および装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3684274B2 (ja) * 1996-06-18 2005-08-17 株式会社コルグ 和音抽出装置
JP4132362B2 (ja) * 1999-03-05 2008-08-13 大日本印刷株式会社 音響信号の符号化方法およびプログラム記録媒体
JP2002023748A (ja) * 2000-07-11 2002-01-25 Dainippon Printing Co Ltd 音響信号変換装置
JP4375471B2 (ja) * 2007-10-05 2009-12-02 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2011090189A (ja) 2011-05-06

Similar Documents

Publication Publication Date Title
JP3815347B2 (ja) 歌唱合成方法と装置及び記録媒体
JP4207902B2 (ja) 音声合成装置およびプログラム
JP4645241B2 (ja) 音声処理装置およびプログラム
EP1840871B1 (en) Audio waveform processing device, method, and program
US6584442B1 (en) Method and apparatus for compressing and generating waveform
JP2004184510A (ja) 楽曲データ作成装置及び方法
JP5552794B2 (ja) 音響信号の符号化方法および装置
JP5533021B2 (ja) 音響信号の符号化方法および装置
JP2000099009A (ja) 音響信号の符号化方法
JP6047863B2 (ja) 音響信号の符号化方法および装置
JP5609280B2 (ja) 音響信号の符号化方法および装置
JP4428435B2 (ja) ピッチ変換装置とプログラム
JP4152502B2 (ja) 音響信号の符号化装置および符号データの編集装置
JP5732910B2 (ja) 音響信号の符号化方法および装置
JP3733964B2 (ja) 分析結果を用いた音源波形合成装置
JP4156268B2 (ja) 時系列信号の周波数解析方法および音響信号の符号化方法
JP4695781B2 (ja) 音響信号の符号化方法
JP4089665B2 (ja) ピッチ変換装置とプログラム
JP2008096844A (ja) 自動採譜装置及び方法
JP4156269B2 (ja) 時系列信号の周波数解析方法および音響信号の符号化方法
Zhao et al. Time-scaling non-vibrato musical tones while preserving timbral texture
JP3304709B2 (ja) 楽音信号分析方法
JP3788096B2 (ja) 波形圧縮方法及び波形生成方法
JP4580548B2 (ja) 周波数解析方法
JP2016028269A (ja) 音響信号の符号化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120808

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20130823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140513

R150 Certificate of patent or registration of utility model

Ref document number: 5552794

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees