JP4268328B2 - 音響信号の符号化方法 - Google Patents

音響信号の符号化方法 Download PDF

Info

Publication number
JP4268328B2
JP4268328B2 JP2000281529A JP2000281529A JP4268328B2 JP 4268328 B2 JP4268328 B2 JP 4268328B2 JP 2000281529 A JP2000281529 A JP 2000281529A JP 2000281529 A JP2000281529 A JP 2000281529A JP 4268328 B2 JP4268328 B2 JP 4268328B2
Authority
JP
Japan
Prior art keywords
data
symbol
phoneme
signal
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000281529A
Other languages
English (en)
Other versions
JP2002091435A (ja
Inventor
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2000281529A priority Critical patent/JP4268328B2/ja
Publication of JP2002091435A publication Critical patent/JP2002091435A/ja
Application granted granted Critical
Publication of JP4268328B2 publication Critical patent/JP4268328B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、以下の6分野への利用を想定した音響信号の符号化技術に関する。
(1)高品質電話回線ISDNやPHS(または次世代携帯電話)レベルの伝送容量で、96kHzサンプリング・ステレオ高品質オーディオ(ハイパーソニック・オーディオ)の伝送が可能な次世代オーディオ向け高能率圧縮伝送。
(2)具体的な作曲家名・曲名を知らなくても、イントロやサビの部分を鼻歌で口ずさめば楽曲を検索でき、節回しが類似した楽曲も検索可能な音響ライブラリのコンテンツ検索。
(3)音響信号を用いて生体情報を解析する際に、波形解析、スペクトル解析では検出できない音響信号中の欠陥・病変特徴を顕在化する音響信号の可視化・分析。
(4)再生装置の設定を変えるだけで異なるアーチストの演奏に変えたり、演奏されている楽器を別のものに変えることが可能なフレキシブル音楽コンテンツの制作、または人の心を癒す音楽(音楽療法)、酒をおいしく醸造させる音楽など、特定の目的をもった音楽を制作することを可能にする環境(フレーズ集、編集ツール)を提供する機能音楽コンテンツの制作。
(5)音響文化遺産の保護のため、録音媒体を文字・音符などより記号性の高い情報に変換して保存するための音響信号の音素認識。
(6)在宅で長期療養されている患者の病状を常時モニタリングする装置として、生体情報を着メロのような好みのBGMにのせて、寝室の音環境を穏やかにし、回復を早めるようにする音響モニタリング。
【0002】
【従来の技術】
音響信号に代表される時系列信号には、その構成要素として複数の周期信号が含まれている。このため、与えられた時系列信号にどのような周期信号が含まれているかを解析する手法は、古くから知られている。例えば、フーリエ解析は、与えられた時系列信号に含まれる周波数成分を解析するための方法として広く利用されている。
【0003】
このような時系列信号の解析方法を利用すれば、音響信号を符号化することも可能である。コンピュータの普及により、原音となるアナログ音響信号を所定のサンプリング周波数でサンプリングし、各サンプリング時の信号強度を量子化してデジタルデータとして取り込むことが容易にできるようになってきており、こうして取り込んだデジタルデータに対してフーリエ解析などの手法を適用し、原音信号に含まれていた周波数成分を抽出すれば、各周波数成分を示す符号によって原音信号の符号化が可能になる。
【0004】
一方、電子楽器による楽器音を符号化しようという発想から生まれたMIDI(Musical Instrument Digital Interface)規格も、パーソナルコンピュータの普及とともに盛んに利用されるようになってきている。このMIDI規格による符号データ(以下、MIDIデータという)は、基本的には、楽器のどの鍵盤キーを、どの程度の強さで弾いたか、という楽器演奏の操作を記述したデータであり、このMIDIデータ自身には、実際の音の波形は含まれていない。そのため、実際の音を再生する場合には、楽器音の波形を記憶したMIDI音源が別途必要になるが、その符号化効率の高さが注目を集めており、MIDI規格による符号化および復号化の技術は、現在、パーソナルコンピュータを用いて楽器演奏、楽器練習、作曲などを行うソフトウェアに広く採り入れられている。
【0005】
そこで、音響信号に代表される時系列信号に対して、所定の手法で解析を行うことにより、その構成要素となる周期信号を抽出し、抽出した周期信号をMIDIデータを用いて符号化しようとする提案がなされている。例えば、特開平10−247099号公報、特開平11−73199号公報、特開平11−73200号公報、特開平11−95753号公報、特開2000−99009号公報、特開2000−99092号公報、特開平2000−99093号公報、特願平11−58431号明細書、特願平11−177875号明細書、特願平11−329297号明細書には、任意の時系列信号について、構成要素となる周波数を解析し、その解析結果からMIDIデータを作成することができる種々の方法が提案されている。
【0006】
【発明が解決しようとする課題】
上記各公報または明細書において提案してきたMIDI符号化方式により、音楽の演奏録音等から得られる音響信号の効率的な符号化が可能になった。すなわち、音楽においてはMIDI符号に相当する記号データで音響信号を符号化することにより、効率的な符号化が可能である。しかしながら、MIDI符号は元来音楽の記述を目的として規格化されたものであるため、音声、心音など音楽以外の音響信号の場合においては、MIDI符号が符号化する記号データとしては適切ではない。そして、上記各公報または明細書において提案してきたMIDI符号化方式により一般の音響信号に対して無理に符号化を行おうとすると符号データが冗長になり、再生される音響信号としては充分な品質を得ることが困難であった。
【0007】
上記のような点に鑑み、本発明は、音響信号ジャンル別にMIDIデータを拡張した記号データを定義し、音響信号をこのような記号データに自動的に変換することにより、音楽の場合におけるMIDI符号化と同様に効率的な符号化が可能な音響信号の符号化方法を提供することを課題とする。
【0008】
【課題を解決するための手段】
上記課題を解決するため、本発明では、与えられた音響信号に対して、時間軸上に複数の単位区間を設定し、設定された単位区間における音響信号と複数の周期関数との相関を求めることにより、各周期関数に対応した信号強度を算出し、各周期関数が有する周波数と、算出された信号強度と、単位区間の始点に対応する区間開始時刻と、単位区間の終点に対応する区間終了時刻で構成される音素データを算出し、得られた音素データ群の中から基準となる基準音素データを選出し、音素データ群に含まれる音素データのうち選出された基準音素データと所定の関係を有する音素データを選出し、得られる音素データグループの特徴に基づいて、あらかじめ定義された記号データに変換し、時系列に定義された複数の記号データからなる記号データ列を用いて音響信号の符号データとして符号化するようにしたことを特徴とする。
本発明によれば、上記のような手順により音響信号を符号化するようにしたので、どのようなジャンルの音響信号が与えられても、定義する記号データの内容を変更するだけで効率的な符号データを自動的に作成することが可能となる。
【0009】
【発明の実施の形態】
以下、本発明の実施形態について図面を参照して詳細に説明する。
【0010】
(音響信号符号化方法の基本原理)
はじめに、本発明に係る音響信号の符号化方法の基本原理を述べておく。この基本原理は、前掲の各公報あるいは明細書に開示されているので、ここではその概要のみを簡単に述べることにする。
【0011】
図1(a)に示すように、時系列信号としてアナログ音響信号が与えられたものとする。図1の例では、横軸に時間t、縦軸に振幅(強度)をとって、この音響信号を示している。ここでは、まずこのアナログ音響信号を、デジタルの音響データとして取り込む処理を行う。これは、従来の一般的なPCMの手法を用い、所定のサンプリング周波数でこのアナログ音響信号をサンプリングし、振幅を所定の量子化ビット数を用いてデジタルデータに変換する処理を行えば良い。ここでは、説明の便宜上、PCMの手法でデジタル化した音響データの波形も図1(a)のアナログ音響信号と同一の波形で示すことにする。
【0012】
続いて、この解析対象となる音響信号の時間軸上に、複数の単位区間を設定する。図1(a)に示す例では、時間軸t上に等間隔に6つの時刻t1〜t6が定義され、これら各時刻を始点および終点とする5つの単位区間d1〜d5が設定されている。図1の例では、全て同一の区間長をもった単位区間が設定されているが、個々の単位区間ごとに区間長を変えるようにしてもかまわない。あるいは、隣接する単位区間が時間軸上で部分的に重なり合うような区間設定を行ってもかまわない。
【0013】
こうして単位区間が設定されたら、各単位区間ごとの音響信号(以下、区間信号と呼ぶことにする)について、それぞれ代表周波数を選出する。各区間信号には、通常、様々な周波数成分が含まれているが、例えば、その中で成分の強度割合の大きな周波数成分を代表周波数として選出すれば良い。ここで、代表周波数とはいわゆる基本周波数が一般的であるが、音声のフォルマント周波数などの倍音周波数や、ノイズ音源のピーク周波数も代表周波数として扱うことがある。代表周波数は1つだけ選出しても良いが、音響信号によっては複数の代表周波数を選出した方が、より精度の高い符号化が可能になる。図1(b)には、個々の単位区間ごとにそれぞれ3つの代表周波数を選出し、1つの代表周波数を1つの代表符号(図では便宜上、音符として示してある)として符号化した例が示されている。ここでは、代表符号(音符)を収容するために3つのトラックT1,T2,T3が設けられているが、これは個々の単位区間ごとに選出された3つずつの代表符号を、それぞれ異なるトラックに収容するためである。
【0014】
例えば、単位区間d1について選出された代表符号n(d1,1),n(d1,2),n(d1,3)は、それぞれトラックT1,T2,T3に収容されている。ここで、各符号n(d1,1),n(d1,2),n(d1,3)は、MIDI符号におけるノートナンバーを示す符号である。MIDI符号におけるノートナンバーは、0〜127までの128通りの値をとり、それぞれピアノの鍵盤の1つのキーを示すことになる。具体的には、例えば、代表周波数として440Hzが選出された場合、この周波数はノートナンバーn=69(ピアノの鍵盤中央の「ラ音(A3音)」に対応)に相当するので、代表符号としては、n=69が選出されることになる。もっとも、図1(b)は、上述の方法によって得られる代表符号を音符の形式で示した概念図であり、実際には、各音符にはそれぞれ強度に関するデータも付加されている。例えば、トラックT1には、ノートナンバーn(d1,1),n(d2,1)・・・なる音高を示すデータとともに、e(d1,1),e(d2,1)・・・なる強度を示すデータが収容されることになる。この強度を示すデータは、各代表周波数の成分が、元の区間信号にどの程度の度合いで含まれていたかによって決定される。具体的には、各代表周波数をもった周期関数の区間信号に対する相関値に基づいて強度を示すデータが決定されることになる。また、図1(b)に示す概念図では、音符の横方向の位置によって、個々の単位区間の時間軸上での位置が示されているが、実際には、この時間軸上での位置を正確に数値として示すデータが各音符に付加されていることになる。
【0015】
音響信号を符号化する形式としては、必ずしもMIDI形式を採用する必要はないが、この種の符号化形式としてはMIDI形式が最も普及しているため、実用上はMIDI形式の符号データを用いるのが好ましい。MIDI形式では、「ノートオン」データもしくは「ノートオフ」データが、「デルタタイム」データを介在させながら存在する。「ノートオン」データは、特定のノートナンバーNとベロシティーVを指定して特定の音の演奏開始を指示するデータであり、「ノートオフ」データは、特定のノートナンバーNとベロシティーVを指定して特定の音の演奏終了を指示するデータである。また、「デルタタイム」データは、所定の時間間隔を示すデータである。ベロシティーVは、例えば、ピアノの鍵盤などを押し下げる速度(ノートオン時のベロシティー)および鍵盤から指を離す速度(ノートオフ時のベロシティー)を示すパラメータであり、特定の音の演奏開始操作もしくは演奏終了操作の強さを示すことになる。
【0016】
前述の方法では、第i番目の単位区間diについて、代表符号としてJ個のノートナンバーn(di,1),n(di,2),・・・,n(di,J)が得られ、このそれぞれについて強度e(di,1),e(di,2),・・・,e(di,J)が得られる。そこで、次のような手法により、MIDI形式の符号データを作成することができる。まず、「ノートオン」データもしくは「ノートオフ」データの中で記述するノートナンバーNとしては、得られたノートナンバーn(di,1),n(di,2),・・・,n(di,J)をそのまま用いれば良い。一方、「ノートオン」データもしくは「ノートオフ」データの中で記述するベロシティーVとしては、得られた強度e(di,1),e(di,2),・・・,e(di,J)を所定の方法で規格化した値を用いれば良い。また、「デルタタイム」データは、各単位区間の長さに応じて設定すれば良い。
【0017】
(周期関数との相関を求める具体的な方法)
上述した基本原理の基づく方法では、区間信号に対して、1つまたは複数の代表周波数が選出され、この代表周波数をもった周期信号によって、当該区間信号が表現されることになる。ここで、選出される代表周波数は、文字どおり、当該単位区間内の信号成分を代表する周波数である。この代表周波数を選出する具体的な方法には、後述するように、短時間フーリエ変換を利用する方法と、一般化調和解析の手法を利用する方法とがある。いずれの方法も、基本的な考え方は同じであり、あらかじめ周波数の異なる複数の周期関数を用意しておき、これら複数の周期関数の中から、当該単位区間内の区間信号に対する相関が高い周期関数を見つけ出し、この相関の高い周期関数の周波数を代表周波数として選出する、という手法を採ることになる。すなわち、代表周波数を選出する際には、あらかじめ用意された複数の周期関数と、単位区間内の区間信号との相関を求める演算を行うことになる。そこで、ここでは、周期関数との相関を求める具体的な方法を述べておく。
【0018】
複数の周期関数として、図2に示すような三角関数が用意されているものとする。これらの三角関数は、同一周波数をもった正弦関数と余弦関数との対から構成されており、128通りの標準周波数f(0)〜f(127)のそれぞれについて、正弦関数および余弦関数の対が定義されていることになる。ここでは、同一の周波数をもった正弦関数および余弦関数からなる一対の関数を、当該周波数についての周期関数として定義することにする。すなわち、ある特定の周波数についての周期関数は、一対の正弦関数および余弦関数によって構成されることになる。このように、一対の正弦関数と余弦関数とにより周期関数を定義するのは、信号に対する周期関数の相関値を求める際に、相関値が位相の影響を受ける事を考慮するためである。なお、図2に示す各三角関数内の変数Fおよびkは、区間信号Xについてのサンプリング周波数Fおよびサンプル番号kに相当する変数である。例えば、周波数f(0)についての正弦波は、sin(2πf(0)k/F)で示され、任意のサンプル番号kを与えると、区間信号を構成する第k番目のサンプルと同一時間位置における周期関数の振幅値が得られる。
【0019】
ここでは、128通りの標準周波数f(0)〜f(127)を図3に示すような式で定義した例を示すことにする。すなわち、第n番目(0≦n≦127)の標準周波数f(n)は、
f(n)=440×2γ (n)
γ(n)=(n−69)/12
なる式で定義されることになる。このような式によって標準周波数を定義しておくと、最終的にMIDIデータを用いた符号化を行う際に便利である。なぜなら、このような定義によって設定される128通りの標準周波数f(0)〜f(127)は、等比級数をなす周波数値をとることになり、MIDIデータで利用されるノートナンバーに対応した周波数になるからである。したがって、図2に示す128通りの標準周波数f(0)〜f(127)は、対数尺度で示した周波数軸上に等間隔(MIDIにおける半音単位)に設定した周波数ということになる。このため、本願では、図に掲載するグラフにおけるノートナンバー軸を、いずれも対数尺度で示すことにする。
【0020】
続いて、任意の区間の区間信号に対する各周期関数の相関の求め方について、具体的な説明を行う。例えば、図4に示すように、ある単位区間dについて区間信号Xが与えられていたとする。ここでは、区間長Lをもった単位区間dについて、サンプリング周波数Fでサンプリングが行なわれており、全部でw個のサンプル値が得られているものとし、サンプル番号を図示のように、0,1,2,3,・・・,k,・・・,w−2,w−1とする(白丸で示す第w番目のサンプルは、右に隣接する次の単位区間の先頭に含まれるサンプルとする)。この場合、任意のサンプル番号kについては、X(k)なる振幅値がデジタルデータとして与えられていることになる。短時間フーリエ変換においては、X(k)に対して各サンプルごとに中央の重みが1に近く、両端の重みが0に近くなるような窓関数W(k)を乗ずることが通常である。すなわち、X(k)×W(k)をX(k)と扱って以下のような相関計算を行うもので、窓関数の形状としては余弦波形状のハミング窓が一般に用いられている。ここで、wは以下の記述においても定数のような記載をしているが、一般にはnの値に応じて変化させ、区間長Lを超えない範囲で最大となるF/f(n)の整数倍の値に設定することが望ましい。
【0021】
このような区間信号Xに対して、第n番目の標準周波数f(n)をもった正弦関数Rnとの相関値を求める原理を示す。両者の相関値A(n)は、図5の第1の演算式によって定義することができる。ここで、X(k)は、図4に示すように、区間信号Xにおけるサンプル番号kの振幅値であり、sin(2πf(n)k/F)は、時間軸上での同位置における正弦関数Rnの振幅値である。この第1の演算式は、単位区間d内の全サンプル番号k=0〜w−1の次元について、それぞれ区間信号Xの振幅値と正弦関数Rnの振幅ベクトルの内積を求める式ということができる。
【0022】
同様に、図5の第2の演算式は、区間信号Xと、第n番目の標準周波数f(n)をもった余弦関数との相関値を求める式であり、両者の相関値はB(n)で与えられる。なお、相関値A(n)を求めるための第1の演算式も、相関値B(n)を求めるための第2の演算式も、最終的に2/wが乗ぜられているが、これは相関値を規格化するためのものでり、前述のとおりwはnに依存して変化させるのが一般的であるため、この係数もnに依存する変数である。
【0023】
区間信号Xと標準周波数f(n)をもった標準周期関数との相関実効値は、図5の第3の演算式に示すように、正弦関数との相関値A(n)と余弦関数との相関値B(n)との二乗和平方根値E(n)によって示すことができる。この相関実効値の大きな標準周期関数の周波数を代表周波数として選出すれば、この代表周波数を用いて区間信号Xを符号化することができる。
【0024】
すなわち、この相関値E(n)が所定の基準以上の大きさとなる1つまたは複数の標準周波数を代表周波数として選出すれば良い。なお、ここで「相関値E(n)が所定の基準以上の大きさとなる」という選出条件は、例えば、何らかの閾値を設定しておき、相関値E(n)がこの閾値を超えるような標準周波数f(n)をすべて代表周波数として選出する、という絶対的な選出条件を設定しても良いが、例えば、相関値E(n)の大きさの順にQ番目までを選出する、というような相対的な選出条件を設定しても良い。
【0025】
(一般化調和解析の手法)
ここでは、本発明に係る音響信号の符号化を行う際に有用な一般化調和解析の手法について説明する。既に説明したように、音響信号を符号化する場合、個々の単位区間内の区間信号について、相関値の高いいくつかの代表周波数を選出することになる。一般化調和解析は、より高い精度で代表周波数の選出を可能にする手法であり、その基本原理は次の通りである。
【0026】
図6(a)に示すような単位区間dについて、信号S(j)なるものが存在するとする。ここで、jは後述するように、繰り返し処理のためのパラメータである(j=1〜J)。まず、この信号S(j)に対して、図2に示すような128通りの周期関数すべてについての相関値を求める。そして、最大の相関値が得られた1つの周期関数の周波数を代表周波数として選出し、当該代表周波数をもった周期関数を要素関数として抽出する。続いて、図6(b)に示すような含有信号G(j)を定義する。この含有信号G(j)は、抽出された要素関数に、その振幅として、当該要素関数の信号S(j)に対する相関値を乗じることにより得られる信号である。例えば、周期関数として図2に示すように、一対の正弦関数と余弦関数とを用い、周波数f(n)が代表周波数として選出された場合、振幅A(n)をもった正弦関数A(n)sin(2πf(n)k/F)と、振幅B(n)をもった余弦関数B(n)cos(2πf(n)k/F)との和からなる信号が含有信号G(j)ということになる(図6(b)では、図示の便宜上、一方の関数しか示していない)。ここで、A(n),B(n)は、図5の式で得られる規格化された相関値であるから、結局、含有信号G(j)は、信号S(j)内に含まれている周波数f(n)をもった信号成分ということができる。
【0027】
こうして、含有信号G(j)が求まったら、信号S(j)から含有信号G(j)を減じることにより、差分信号S(j+1)を求める。図6(c)は、このようにして求まった差分信号S(j+1)を示している。この差分信号S(j+1)は、もとの信号S(j)の中から、周波数f(n)をもった信号成分を取り去った残りの信号成分からなる信号ということができる。そこで、パラメータjを1だけ増加させることにより、この差分信号S(j+1)を新たな信号S(j)として取り扱い、同様の処理を、パラメータjをj=1〜Jまで1ずつ増やしながらJ回繰り返し実行すれば、J個の代表周波数を選出することができる。
【0028】
このような相関計算の結果として出力されるJ個の含有信号G(1)〜G(J)は、もとの区間信号Xの構成要素となる信号であり、もとの区間信号Xを符号化する場合には、これらJ個の含有信号の周波数を示す情報および振幅(強度)を示す情報を符号データとして用いるようにすれば良い。尚、Jは代表周波数の個数であると説明してきたが、標準周波数f(n)の個数と同一すなわちJ=128であってもよく、周波数スペクトルを求める目的においてはそのように行うのが通例である。
【0029】
こうして、各単位区間について、所定数の周波数群が選出されたら、この周波数群の各周波数に対応する「音の高さを示す情報」、選出された各周波数の信号強度に対応する「音の強さを示す情報」、当該単位区間の始点に対応する「音の発音開始時刻を示す情報」、当該単位区間に後続する単位区間の始点に対応する「音の発音終了時刻を示す情報」、の4つの情報を含む所定数の符号データを作成すれば、当該単位区間内の区間信号Xを所定数の符号データにより符号化することができる。符号データとして、MIDIデータを作成するのであれば、「音の高さを示す情報」としてノートナンバーを用い、「音の強さを示す情報」としてベロシティーを用い、「音の発音開始時刻を示す情報」としてノートオン時刻を用い、「音の発音終了時刻を示す情報」としてノートオフ時刻を用いるようにすれば良い。
【0030】
(本発明に係る音響信号の符号化方法)
ここまでに説明した従来技術とも共通する本発明の基本原理を要約すると、原音響信号に単位区間を設定し、単位区間ごとに複数の周波数に対応する信号強度を算出し、得られた信号強度を基に用意された周期関数を利用して1つまたは複数の代表周波数を選出し、選出された代表周波数に対応する音の高さ情報と、選出された代表周波数の強度に対応する音の強さ情報と、単位区間の始点に対応する発音開始時刻と、単位区間の終点に対応する発音終了時刻で構成される符号データを作成することにより、音響信号の符号化が行われていることになる。
【0031】
本発明の音響信号符号化方法は、上記基本原理において、得られた信号強度を基に、用意された周期関数に対応する周波数を全て利用し、これら各周波数と、各周波数の強度と、単位区間の始点に対応する区間開始時刻と、単位区間の終点に対応する区間終了時刻で構成されるデータを「音素データ」と定義し、この音素データをさらに加工することにより最終的な符号化データを得るようにしたものである。
【0032】
具体的には、図2に示したような128種の周期関数に対して区間信号の相関強度を求め、その周期関数の周波数、求めた相関強度、単位区間の始点、終点の4つの情報を音素データと定義する。この処理を全単位区間に対して行うことにより、音素データ[m,n](1≦m≦M,1≦n≦N)群が得られる。ここで、Mは周期関数の総数(上述の例ではM=128)、Nは音響信号において設定された単位区間の総数である。つまり、M×N個の音素データからなる音素データ群が得られることになる。ただし、本実施形態では実際には、上記128種の各標準周波数間に12種の周波数を有する周期関数を用意するようにする。すなわち、全体では128×13種の周期関数が用意されることになる。このようにすると、元の標準周波数の上下6個ずつの周波数が±1/2半音に含まれ、同一の音高であるとみなすことができる。そのため、ここでは同一音高であるとみなすことのできる13個の周波数のうち、最大の強度を有するものをその音素データ[m,n]の周波数、強度とする。
【0033】
音素データ群が得られたら、各単位区間ごとに基準となる基準音素データを選出する。各単位区間における基準音素データの選出は、その単位区間に属する音素データの周波数に着目して行われるが、この手法としては、上記基本原理において説明した代表周波数の選出方法が適用できる。また、各単位区間において選出される基準音素データの数の上限はあらかじめ設定しておくことができる。したがって、基準音素データは最大M(設定数)×N(単位区間総数)個選出されることになる。
【0034】
基準音素データが選出されたら、次に、各基準音素データを基準にして相対音素データに変換する対象となる音素データの選出を行う。具体的には、まず基準音素データと±1/2半音の範囲で、単位区間を移動した音素データについて、その強度があらかじめ設定した範囲内に納まるかどうかを判断し、納まる場合に、その音素データを変換対象とする。この条件に合致する音素データが複数存在する場合には、基準音素データと強度の差が最も小さい音素データを採用する。この処理を単位区間を1つづつ移動して順次行い、その強度があらかじめ設定した範囲内に納まらない音素データが出現した時点で、その直前までの音素データを変換対象とする。ここで変換対象とされたものは、後に基準音素データとの相対量で表現した相対音素データに変換され、相対音素データ集合を形成することになる。この相対音素データに含まれるということは1つの音が持続する範囲を示す。すなわち、強度の範囲を設定し、その範囲に納まらないものを変換対象としないのは、この1つの持続する音から除外するということになる。これは、強度が小さくなるということはその周波数の音が消えていくことを意味し、また強度が必要以上に大きくなるということは演奏音ではなく、新たな音が加わったことを意味し、いずれにしても所定の範囲から外れた場合は、その音が終了したと判断されるためである。
【0035】
この時点で基準音素データとほぼ同一周波数となる時系列方向への音素データの行集合ができることになる。次に基準音素データと同一時刻で周波数が異なる方向について、相対音素データに変換する対象となる音素データの選出を行う。周波数が異なる方向についての選出方法としては、基準音素データの周波数の倍音に相当するものを選出する方法と、基準音素データの周波数の近傍の周波数のものを選出する方法との2通りがある。近傍について選出する場合は、例えば±1半音分程度とする。これにより、1つの基準音素データに対して、複数列の行集合からなる音素データの集合が得られることになる。
【0036】
続いて、選出された音素データを相対音素データに変換する。これは、音素データが有する4つの情報である区間開始時刻、区間終了時刻、周波数、強度を、基準音素データとの区間開始時刻同士の時間、区間終了時刻同士の時間、周波数変移割合、強度変移割合に変更することにより行われる。
【0037】
次に、1つの基準音素データに対して得られた相対音素データ集合を用いて、記号定義データベースを参照し、相対音素データ集合を1つの音素パターン記号に変換する。この記号定義データベースには、相対音素データ集合の特徴と音素パターン記号が1対1で対応付けられて登録されている。ここで、相対音素データ集合の特徴とは、時刻の変化により周波数変移割合、強度変移割合がどのように変化するかというものである。このような記号定義データベースは、典型的な相対音素データ集合のパターンをあらかじめ人が抽出し、そのパターンを特定するための音素パターン記号を対応付けて登録することにより作成される。記号定義データベースに登録されている相対音素データ集合と、音素データ群より選出された相対音素データ集合のパターンは必ずしも一致しない。正確にいえば、選出される音素データ集合のパターンは無数に存在し得るので、一致することは有り得ない。そのため、パターン認識などの手法により、選出された音素データ集合に最も類似する音素データ集合を記号定義データベース内から探し出し、対応する音素パターン記号を抽出する。
【0038】
抽出された音素パターン記号は、基準音素データの周波数と強度、相対音素データ集合の開始時刻、終了時刻と組になって記号データを形成する。さらに、このうち相対音素データ集合の発音開始時刻と発音終了時刻は、それぞれ元の音素データ集合の最初の単位区間の区間開始時刻、最終の単位区間の区間終了時刻となる。音素パターン記号は、さらに音色情報とも対応付けられている。そのため、記号データをMIDIデータに変換する場合は、音色ごとに別チャンネルに記録されることになる。以上のような処理を、全音素データ群に対して行うことにより、原音響信号を時系列に沿った複数の記号データの列に符号化することができる。
【0039】
(記号データのグループ化)
音響信号が記号データ列に符号化されたら、続いて、これらの記号データをグループ化することができるが、この処理を必須ではない。グループ化は、前述の相対音素データ集合のパターンと類似したグループ記号定義データベースを人手で作成しておき、あらかじめ定義されている記号データ列のパターンに合致する記号のグループを前記パターンに対応して定義されているグループ記号データに置換するものである。
【0040】
(他の音響信号への適用)
ここまでの説明は、音響信号として音楽を用いたものであったが、本発明は、例えば音声、心音等の他の音響信号についても適用可能である。音声の場合は、上述の記号定義データベースに、「あ」「い」「う」のように各単音ごとの音素集合のパターンを登録しておき、各単音に対応する音素パターン記号を抽出するようにする。この音素パターン記号も音楽の場合と同様に、記号データが作成された後、グループ記号定義データベースに登録されている記号データ列のパターンに基づいてグループ化することができる。また、心音の場合は、上述の記号データベースに、「I(いち)音」「II(に)音」「III(さん)音」のように各診断所見記号ごとの音素データ集合のパターンを登録しておき、各診断所見記号に対応する音素パターン記号を抽出するようにする。この音素パターン記号も音楽、音声の場合と同様に、記号データが作成された後、グループ化することができる。特に心音の場合は、グループ記号定義データベースにグループ化された記号すなわち診断所見記号のパターンに対応した診断結果記号を付加することにより、グループ化処理を一種の自動診断として機能させることができる。
【0041】
このような音声や心音の場合は、音素集合のパターンが音楽に比べ複雑になるため、音素集合のパターンをいったん第1の音素パターン記号に対応させ、第1の音素パターン記号のグループを第2の音素パターン記号として前述の各単音に対応させるように、音素パターン記号を2階層にもたせることがある。そして、第1の音素パターン記号としてMIDIデータを採用すると、音楽の場合との互換性を確保でき、第1の音素パターン記号だけでMIDI音源により簡易的な再生が可能になる。
【0042】
上記のように記号データ、さらには記号グループにデータを置き換えることにより、音響情報を構造化して記述することが可能となる。ここで音響情報構造化の概念を図7に示す。図7(a)は、音楽・音声・心音などを符号化したコンテンツであり、上記符号データに対応する。図7(b)は、コンテンツが有するフレーズの内容であり、このフレーズは上記記号グループに対応する。図7(c)は、相対音素データの集合(グループ)であり、記号データが有する音素パターン記号に変換されるものである。図7(d)は、原音響信号を単位区間ごとに解析して得られる音素データ群、図7(e)は、各単位区間が設定された音響信号である。
【0043】
原音響信号は、デジタル化された後、図7(e)に示すように単位区間ごとに切り出され信号解析の対象となる。単位区間ごとの区間信号は、上述したように周期関数との相関を求めることにより、音素データに変換される。この音素データへの変換処理は原音響信号の全区間に対して行われ、その結果、図7(d)に示すように最大として周波数種別M×総単位区間数N個の音素データ群が得られる。この中から複数の基準音素データを選出し、さらには選出した各基準音素データに対して所定の条件を満たす音素データを、その基準音素データに対する相対量で表現した相対音素データに変換する。そして1つの基準音素データとの相対量で表現された相対音素データ集合を基に、記号定義データベースを参照することにより、音素パターン記号に変換する。この相対音素データ集合から音素パターン記号に変換する中間段階として、前述したようにMIDIデータを介在させることがある。さらに音素パターン記号に対応する記号データが配置するパターンを基にグループ記号定義データベースを参照することにより、図7(b)に示すように複数の記号データを1つのフレーズ(記号グループ)にまとめる。図7(a)に示すように、コンテンツ(符号データ)は、複数のフレーズにより構成される。このコンテンツには、フレーズ識別子および属性データのみが記録される。
【0044】
結局、最終的に得られる情報は、フレーズ識別子(識別子は必ずしも番号ではない)と属性データだけを有するコンテンツと、コンテンツに記録されているフレーズ識別子に対応した各フレーズの内容を記録したものと、記号識別子と付随属性データだけを有するフレーズと、フレーズに記録されている記号識別子に対応した各記号データの内容を記録したものとなる。すなわち図7(a)から図7(c)に示すものが一体となって流通されることになる。各記号データの内容としては図7(c)のように相対音素を単純にグループ化させるだけでなく、MIDIデータに対応したサブグループに分断し2階層で表現することがある。
【0045】
コンテンツをこのように記録することにより、データの大幅な削減が可能となる。例えば、図7(a)に示すコンテンツにおいては、フレーズAが3回出現しているが、コンテンツ内にはフレーズ識別子だけが主に記録されているため、フレーズAの内容は、図7(b)に示すように1つだけ用意しておけば良い。更に、フレーズ識別子に対応する記号データのセットが標準化されており、再生する受け手にとって自明な場合は、この図7(b)に相当するデータの記録を全て省略することができる。同様にして、フレーズには記号識別子だけが主に記録されており、記号aは図7(b)に示すようにフレーズAにもフレーズBにも含まれているが、記号aの内容は図7(c)に示すように1つだけ用意しておけば良い。更に、記号識別子に対応する相対音素データのセットが標準化されており、再生する受け手にとって自明な場合は、この図7(c)に相当するデータの記録を全て省略することができる。例えば、記号識別子として規格化されたMIDI符号を用いる場合には、図7(c)に相当するデータはMIDI音源側に装備されているため、改めて記録する必要がなく、前述したように記号識別子と相対音素データ群との対応関係にMIDIデータを介在させている場合は各MIDIデータを定義するための相対音素データ群に関する記録は必要ない。
【0046】
このコンテンツの再生時(復号時)には、まず、コンテンツが有するフレーズ識別子を取得し、取得したフレーズ識別子を参照してそのフレーズが有する記号データを取得する。記号データとして前述したようなMIDIデータを用いている場合、あるいは記号データとしてMIDIデータを介在させた2階層でもたせている場合には、この段階で取得した記号データをMIDI音源装置に転送するだけで音響信号に変換することができる。
【0047】
続いて、取得した記号データをもとにその記号データが有する相対音素データを取得し、記号データに付随する周波数・強度などの属性データにより前記相対音素データを(絶対的な)音素データに変換し、各音素データに定義されている区間開始時刻、区間終了時刻、周波数、強度の情報をもとに正弦波区間信号データを発生させ、取得された全音素データに対応する正弦波区間信号データを順次合成してゆけば、再生可能な音響信号に変換することができる。
【0048】
【発明の効果】
以上、説明したように本発明によれば、与えられた音響信号に対して、時間軸上に複数の単位区間を設定し、設定された単位区間における音響信号と複数の周期関数との相関を求めることにより、各周期関数に対応した信号強度を算出し、各周期関数が有する周波数と、算出された信号強度と、単位区間の始点に対応する区間開始時刻と、単位区間の終点に対応する区間終了時刻で構成される音素データを算出し、得られた音素データ群の中から基準となる基準音素データを選出し、音素データ群に含まれる音素データのうち選出された基準音素データと所定の関係を有する音素データを選出し、得られる音素データグループの特徴に基づいて、あらかじめ定義された記号データに変換し、時系列に定義された複数の記号データからなる記号データ列を用いて音響信号の符号データとして構造化して符号化するようにしたので、符号データ中で繰り返し現れるパターンについては、時系列の符号データ中から参照できるように共通化されるため、データ量の削減が図られた符号データを自動的に作成することが可能となるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の音響信号の符号化方法の基本原理を示す図である。
【図2】本発明で利用される周期関数の一例を示す図である。
【図3】図2に示す各周期関数の周波数とMIDIノートナンバーnとの関係式を示す図である。
【図4】解析対象となる信号と周期信号との相関計算の手法を示す図である。
【図5】図4に示す相関計算を行うための計算式を示す図である。
【図6】一般化調和解析の基本的な手法を示す図である。
【図7】音響情報の構造化の概念を示す図である。
【符号の説明】
A(n),B(n)・・・相関値
d,d1〜d5・・・単位区間
E(n)・・・相関値
G(j)・・・含有信号
n,n1〜n6・・・ノートナンバー
S(j),S(j+1)・・・差分信号
X,X(k)・・・区間信号

Claims (7)

  1. 与えられた音響信号に対して、時間軸上に複数の単位区間を設定する区間設定段階と、
    前記単位区間における音響信号と複数の周期関数との相関を求めることにより、各周期関数に対応した信号強度を算出する信号解析段階と、
    前記各周期関数が有する周波数と、前記信号解析段階により算出された信号強度と、前記単位区間の始点に対応する区間開始時刻と、前記単位区間の終点に対応する区間終了時刻で構成される音素データを算出する音素データ算出段階と、
    前記音素データ算出段階で得られた音素データ群の中から基準となる基準音素データを選出する基準音素データ選出段階と、
    前記音素データ群に含まれる音素データのうち選出された前記基準音素データと所定の関係を有する音素データを選出する音素データ選出段階と、
    前記音素データ選出段階により得られる前記音素データグループの特徴に基づいて、あらかじめ定義された記号データに変換する記号変換段階と、
    前記記号変換段階で時系列に定義された複数の記号データからなる記号データ列を用いて前記音響信号の符号データとして符号化する符号化段階と、
    を有することを特徴とする音響信号の符号化方法。
  2. 前記音素データ選出段階により得られる前記各音素データを、その基準となった前記基準音素データとの相対量で表現した相対音素データに変換する相対音素データ変換段階をさらに有し、
    前記記号変換段階は、前記相対音素データグループの特徴に基づいて、あらかじめ定義された記号データに変換するものであることを特徴とする請求項1に記載の音響信号の符号化方法。
  3. 前記記号データは音色情報と対応付けられており、前記記号データMIDIデータに変換する場合に、前記符号化段階において前記記号データ列を前記音色情報に基づいて音色ごとに別チャンネルのMIDIデータに振り分け、複数のチャンネルで構成される符号データとして符号化するようにしていることを特徴とする請求項1に記載の音響信号の符号化方法。
  4. 前記符号化段階は、前記記号データ列に加えて、前記記号データ列中で現れる記号データに対応する音素データグループの全ての音素データを、前記記号データの定義情報として前記符号データに含めるものであることを特徴とする請求項1に記載の音響信号の符号化方法。
  5. 前記記号変換段階は、前記記号データ列内の複数の記号データ群に対して、記号データの組み合わせにより、あらかじめ定義されている1つのグループ記号データに変換し、前記符号化段階は、前記グループ記号データを用いて前記音響信号の符号データとして符号化するようにしていることを特徴とする請求項1に記載の音響信号の符号化方法。
  6. 前記符号化段階は、前記グループ記号データに加えて、前記グループ記号データ列中で現れるグループ記号データに対応する記号データグループの全ての記号データを、前記グループ記号データの定義情報として前記符号データに含めるものであることを特徴とする請求項5に記載の音響信号の符号化方法。
  7. 前記記号データがMIDIデータおよび記号データの2段階で構成され、前記記号変換段階は、前記音素データ選出段階により得られる前記音素データグループの特徴に基づいて、あらかじめ定義されたMIDIデータに変換するとともに、前記変換されたMIDIデータ列内の複数のMIDIデータ群に対して、MIDIデータの組み合わせにより、あらかじめ定義されている1つの記号データに変換するようにし、前記符号化段階は、前記記号データ列に加えて、前記記号データ列中で現れる記号データに対応するMIDIデータ群の全てのMIDIデータを、前記記号データの定義情報として前記符号データに含めるものであることを特徴とする請求項1に記載の音響信号の符号化方法。
JP2000281529A 2000-09-18 2000-09-18 音響信号の符号化方法 Expired - Fee Related JP4268328B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000281529A JP4268328B2 (ja) 2000-09-18 2000-09-18 音響信号の符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000281529A JP4268328B2 (ja) 2000-09-18 2000-09-18 音響信号の符号化方法

Publications (2)

Publication Number Publication Date
JP2002091435A JP2002091435A (ja) 2002-03-27
JP4268328B2 true JP4268328B2 (ja) 2009-05-27

Family

ID=18766170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000281529A Expired - Fee Related JP4268328B2 (ja) 2000-09-18 2000-09-18 音響信号の符号化方法

Country Status (1)

Country Link
JP (1) JP4268328B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005304839A (ja) * 2004-04-22 2005-11-04 Samii Kk 弾球遊技機
JP2012194653A (ja) * 2011-03-15 2012-10-11 Nec Corp データ処理装置、データ処理システム、データ処理方法およびプログラム
JP7422905B1 (ja) 2022-08-02 2024-01-26 三菱電機株式会社 信号処理装置および信号処理方法

Also Published As

Publication number Publication date
JP2002091435A (ja) 2002-03-27

Similar Documents

Publication Publication Date Title
Lerch Software-based extraction of objective parameters from music performances
JP4132362B2 (ja) 音響信号の符号化方法およびプログラム記録媒体
JP3716725B2 (ja) 音声処理装置、音声処理方法および情報記録媒体
JP4268328B2 (ja) 音響信号の符号化方法
JP4037542B2 (ja) 音響信号の符号化方法
JP4695781B2 (ja) 音響信号の符号化方法
Pardo Finding structure in audio for music information retrieval
JP4331289B2 (ja) 音響信号の符号化方法
JP4156252B2 (ja) 音響信号の符号化方法
JP2002244691A (ja) 音響信号の符号化方法
JP3776782B2 (ja) 音響信号の符号化方法
JP2008257020A (ja) メロディーの類似度算出方法及び類似度算出装置
JP2001005450A (ja) 音響信号の符号化方法
JP4220108B2 (ja) 音響信号符号化システム
JP3935745B2 (ja) 音響信号の符号化方法
JP2003216147A (ja) 音響信号の符号化方法
JP4697919B2 (ja) 音響信号の符号化方法
JPH1173199A (ja) 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体
JP2002215142A (ja) 音響信号の符号化方法
JP4156269B2 (ja) 時系列信号の周波数解析方法および音響信号の符号化方法
JP4156268B2 (ja) 時系列信号の周波数解析方法および音響信号の符号化方法
JP4662406B2 (ja) 周波数解析方法および音響信号の符号化方法
JP4473979B2 (ja) 音響信号の符号化方法および復号化方法ならびに当該方法を実行するプログラムを記録した記録媒体
JP2002123296A (ja) 音響信号の符号化方法および分離方法
JP4061070B2 (ja) 周波数解析方法および音響信号の符号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070511

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090121

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090220

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees