JP2013073230A

JP2013073230A - オーディオ符号化装置

Info

Publication number: JP2013073230A
Application number: JP2011214802A
Authority: JP
Inventors: Ryuji Mano; 竜二眞野
Original assignee: Renesas Electronics Corp
Current assignee: Renesas Electronics Corp
Priority date: 2011-09-29
Filing date: 2011-09-29
Publication date: 2013-04-22
Also published as: US20130085762A1; CN103035250A

Abstract

【課題】効率的な符号化処理を行なうオーディオ符号化装置を提供する。
【解決手段】音声データを格納する記憶部と、記憶部から音声データを取得するデータ取得制御部と、データ取得制御部から出力される音声データ信号を周波数変換する変換部と、変換部の出力波のうち第１の出力波に基づいて高調波を生成し、高調波と、変換部の出力波のうち第１の出力波より高周波成分である第２の出力波とを合成する倍音生成合成部と、倍音生成合成部からの出力に対して符号化処理を行なう符号化部を備える。
【選択図】図１

Description

本発明は、オーディオ符号化装置であって、特に低周波成分を倍音処理し、周波数シフトすることで低周波成分を除去することにより効率的な符号化処理を行なうオーディオ符号化装置に関する。

従来、デジタルオーディオＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）データの符号化処理装置を用いた録音装置が存在する。オーディオ符号化処理としては、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）において国際標準化が行われているＭＰＥＧオーディオ圧縮処理やＡＣ−３圧縮処理などが用いられている。

たとえば、ＭＰＥＧ１ＡｕｄｉｏＬａｙｅｒＩＩＩの圧縮処理装置では、入力信号をサブバンド信号に分割し、それに引続きＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ［修正離散コサイン変換］）を行ない、周波数領域のスペクトルに変換する。ＭＤＣＴスペクトルは、折り返し歪削減バタフライで周波数領域の折返しが除去された後、量子化・ハフマン符号化部に渡される。

量子化・ハフマン符号化部では、心理聴覚分析部で計算された周波数帯域毎の許容量子化雑音電力に関する要求と、ビットレートと、ビットリザーバ（これにより擬似的な可変ビットレートを実現する）の蓄積ビット数とを元にして決定される使用可能ビット数の制限のもとで、ビット割当て部において反復ループ処理により、量子化ステップサイズ、周波数帯域毎の量子化ビット数を変化させ、スケールファクタを決定してＭＤＣＴスペクトルを量子化し、量子化インデックスのハフマン符号化を行なう。

なお、サイド情報としては、ＭＤＣＴの変換ブロック長に関する情報、量子化ステップサイズ、スケールファクタ関連情報、ハフマン符号化の領域・テーブルに関する情報などが伝送される。

上記の符号化処理には、広帯域にわたりデータの多い場合に、全体的にビットが不足し、音質の劣化および効率的なオーディオ符号化処理の妨げとなる問題およびアルゴリズム的に既に高帯域がない場合に音質の劣化となる問題があり、この符号化（量子化）を効率的に行なう技術として、以下の発明が開示されている。

特開２００９−２３７０４８号公報（特許文献１）は、圧縮処理により高周波成分が失われたオーディオ信号に対して、基音部との相関性がよい高周波数成分を補間することができ、低音を強調してオーディオ信号を再生するとき、周辺への低周波騒音を低減することができるオーディオ信号補間装置を提供することを目的としている。この特開２００９−２３７０４８号公報（特許文献１）に開示された発明は、オーディオ信号に高周波帯域を補間する高域補間手段と、基本周波数の複数の倍音を付加しオーディオ信号の低周波帯域を強調する低域強調手段と、高域補間手段により高周波成分が補間され低域強調手段により低周波成分が強調されたオーディオ信号から予め定められた低周波成分を除去するフィルタ手段とを備える。

特開２００９−２４４６５０号公報（特許文献２）は、入力音声信号に基づく高調波成分を入力音声信号に付加する場合でも、歪みの少ない音を得ることを目的としている。この特開２００９−２４４６５０号公報（特許文献２）に開示された発明は、入力音声信号からスピーカの再生周波数帯域以下の周波数帯域である基本波帯域成分を抽出する基本波抽出回路と、基本波帯域成分の高調波を発生する高調波発生回路と、基本波帯域成分のレベルを低域レベルとして検出する低域レベル検出回路と、入力音声信号から前記基本波帯域成分より上の高調波帯域成分を抽出する高域成分抽出回路と、高調波帯域成分のレベルを高域レベルとして検出する高域レベル検出回路と、高域レベルに対する低域レベルの比率と高調波が歪みとなるか否かの閾値とに基づいて高調波が歪みとならないように高調波発生回路における高調波の発生量を制御する制御量演算回路とを有する。

特開２０００−００４１６３号公報（特許文献３）は、ディジタル音声圧縮システムに対して広く使用可能であり、容易にかつ低コストで実施可能なオーディオ符号化のための動的ビット割当て方法及び装置を提供することを目的としている。この特開２０００−００４１６３号公報（特許文献３）に開示された発明は、ビット割当て方法及び装置は、簡単化された同期マスキングモデルを用いて人間の聴感特性の音響心理的な振る舞いに注目して、非常に効率的なビット割当て処理を行なう。ここで、周波数分割バンドの各ユニットのピークエネルギーを計算し、簡単化された同時マスキング効果モデルを用いたときの最小可聴限界であるマスキング効果値を計算して各ユニットの絶対閾値として設定する。次いで、各ユニットの信号対マスキング比を計算し、これに基づいて、効率的な動的ビット割当てを行なう。

また、音圧レベルと周波数との関係として等ラウドネス曲線（図示せず）が国際標準規格化されている。この等ラウドネス曲線は、ＩＳＯ２２６：２００３「Ａｃｏｕｓｔｉｃｓ−−Ｎｏｒｍａｌｅｑｕａｌ−ｌｏｕｄｎｅｓｓ−ｌｅｖｅｌｃｏｎｔｏｕｒｓ」として国際標準規格化され、その内容は、音の周波数を変化させたときに等しいラウドネス（人間の聴覚による音の大きさ、騒音のうるささ）になる音圧レベルを測定し、等高線として結んだものである。従って、この等ラウドネス曲線の等高線のうちヒアリングスレッショルド（最小可聴限界値、音圧が最も低い等高線）以下は人間の耳では聴こえないとされている。

また等ラウドネス曲線から、周波数１ｋＨｚ付近あるいは周波数帯３〜５ｋＨｚにかけて、非常に感度（音が聞こえやすく）がよく、それ以外の感度は比較的悪化する（音が聞こえにくくなる）ことがわかっている。

一方、バーチャルピッチ効果（所謂、ミッシングファンダメンタル）は、ある音から基本周波数を含む周波数域を取り除いた場合でも、もとの音と同じ音の高さとして認識してしまう現象である。この現象は人の脳が音高を基本周波数だけでなく倍音の比率も援用して知覚しているために起こり、例えば、低域の音を補正する技術は，１００Ｈｚ未満といった低域の音を再生できない小型スピーカを使っても，再生できないはずの低域の音が「鳴っている」と感じさせ、つまり、原音がなくても，原音の周波数帯域の倍数に当たる音（倍音）が鳴っていれば，原音が聞こえるように人間が錯覚する。例えば、周波数５０Ｈｚの音を錯覚させるには、周波数１００Ｈｚ，１５０Ｈｚ，２００Ｈｚといった５０Ｈｚの音の倍音成分を発生させればよく、このときには周波数５０Ｈｚの音は実際には存在しなくてもよいということがわかっている。

特開２００９−２３７０４８号公報特開２００９−２４４６５０号公報特開２０００−００４１６３号公報

しかしながら、特開２００９−２３７０４８号公報（特許文献１）および特開２００９−２４４６５０号公報（特許文献２）に開示された発明は、ミッシングファンダメンタルを利用した高周波数帯の生成手法であって、低周波数帯の生成方法については具体的に検討されていない。

また、特開２０００−００４１６３号公報（特許文献３）に開示された発明は、（同時）マスキング閾値計算（通常超重量）の軽量化のためのビット割当て手順の改善についてであって、低周波数帯の生成方法については具体的に検討されていない。

また、広帯域にわたりデータの多い場合に、全体的にビットが不足し、音質の劣化する問題もある。オーディオデータ以外のデータが増加することによる割当てビットの各周波数帯域間またはスケールファクタ帯域（レベル情報同一群）間の分散割当てによる量子化ロス（量子化ノイズ）の発生、符号化情報などの冗長性の問題が生じる。

本発明の目的は、効率的な符号化処理を行なうオーディオ符号化装置を提供することである。

本発明の一実施例においては、符号化部による符号化処理前に低周波数帯（上位帯域における倍音に対する基本周波数）の情報を上位周波数帯（基本周波数波を自然数倍した周波数、所謂、倍音）へ合成し、低周波数帯へのビット割当て用のビット量を削減し、そのビット量分を上位周波数帯に割当て符号化処理をする。

本発明の一実施例においては、割当てビットの各周波数帯域間、またはスケールファクタ帯域（レベル情報同一群）間の分散割当てによる量子化ロス（量子化ノイズ）の発生、符号化情報などの冗長性を低減し、高音質化および高効率化を実現できる。

本発明の実施の形態１におけるオーディオ符号化装置１００の構成例を示すブロック図である。圧縮データ（ストリーム）のデータ形式の構成の一例を示す図である。倍音生成合成部１０４の主要部を示すブロック図である。倍音生成合成部１０４の変形例１の倍音生成合成部１０４Ａの主要部を示すブロック図である。倍音生成合成部１０４の変形例２の倍音生成合成部１０４Ｂの主要部を示すブロック図である。倍音生成合成部１０４の変形例３の倍音生成合成部１０４Ｃの主要部を示すブロック図である。倍音生成合成部１０４の変形例４の倍音生成合成部１０４Ｄの主要部を示すブロック図である。倍音生成合成部１０４の変形例５の倍音生成合成部１０４Ｅの主要部を示すブロック図である。本発明の実施の形態１における符号化装置の処理手順を説明するためのフローチャートである。高調波生成について説明するための図である。本発明の実施の形態２における音楽プレイヤーシステムの構成例を示すブロック図である。

以下、本発明について図面を参照して詳しく説明する。なお、図中同一又は相当部分には同一の符号を付してその説明は繰返さない。

［実施の形態１］
図１は、本発明の実施の形態１におけるオーディオ符号化装置１００の構成例を示すブロック図である。図１を参照して、このオーディオ符号化装置１００は、入力用のバッファとして用いられるメモリ、例えばＳＤＲＡＭ（ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０１と、データ取得制御部１０２と、サブバンド分析フィルタ部１０８とＭＤＣＴフィルタ部１０３と、倍音生成合成部１０４と、符号化部１０５と、出力用のバッファとして用いられるメモリ、例えばＳＤＲＡＭ１０６と、最小可聴限界値、マスキング効果値をＭＤＣＴフィルタ部１０３、倍音生成合成部１０４および符号化部１０５に与える音響心理分析部１０７とを含む。

ＳＤＲＡＭ１０１は、符号化するデータ、たとえば音楽データを一時的に保持するバッファである。また、ＳＤＲＡＭ１０６は、符号化した後のデータを一時的に保持するバッファである。ＳＤＲＡＭ１０１とＳＤＲＡＭ１０６とは、異なる半導体メモリで構成されてもよいし、同じ半導体メモリで構成され、その領域を入力用バッファと出力用バッファとに分割して使用するようにしてもよい。

データ取得制御部１０２は、ＳＤＲＡＭ１０１に保持されるデータを所定のフレーム、たとえば、１フレーム分だけ取得して、サブバンド分析フィルタ部１０８に出力する。
サブバンド分析フィルタ部１０８は、データ取得制御部１０２から受けた１フレーム分のデータをサブバンドに分割して、ＭＤＣＴフィルタ部１０３に出力する。

ＭＤＣＴフィルタ部１０３は、サブバンド分析フィルタ部１０８から受けたデータのＭＤＣＴ係数を算出する。

音響心理分析部１０７は、音声データをＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）し、周波数スペクトルを元に、最小可聴限界値、マスキング効果値を算出する。この算出した情報から、倍音生成合成部１０４、を制御し、また、符号化部１０５を制御する。これによって、符号化部１０５は、各スケールファクタバンドの割り当てビットを決定する。

図２は、圧縮データ（ストリーム）のデータ形式の構成の一例を示す図である。図２を参照して、たとえば、本発明の一実施例から生成されたＭＰ３（ＭＰＥＧ１ＡｕｄｉｏＬａｙｅｒ３）圧縮データの構成を示す。

ＭＰ３圧縮データ（ファイル）は、通常、複数のフレームで構成し、１フレームは、１１５２サンプル（ＭＰＥＧ１ＡｕｄｉｏＬａｙｅｒ３の場合）からなる。１フレームは、ヘッダと、任意選択のエラー防止用ＣＲＣと、スケールファクタと呼ばれる整数値と音楽そのものを特徴づけるデータであるハフマン列とを格納するオーディオデータと、被圧縮音楽データの特徴を表すデータや圧縮する際使用される補助情報等が格納されるサイド情報と、各フレームの終わりに、何らかの補助データが格納される付加データとから構成される。また１フレームは、５７６サンプルを１グラニュールという単位を用いると、２グラニュールの構成となる。

さらに、オーディオデータのグラニュールＧＲ０は、当該フレームに含まれる二つのグラニュールのうち時刻の早い方のグラニュールを指す。従って、グラニュールＧＲ１は、残りのグラニュールである。

グラニュールＧＲ０は、ステレオ・オーディオに対応するチャンネル０、１の構成をとり、さらに各チャンネルは、スケールファクタおよびハフマン列の構成をとる。具体的には、チャンネル０は、スケールファクタＡ０とハフマン列Ｐ０の構成をとり、チャンネル１はスケールファクタＡ１とハフマン列Ｐ１の構成をとる。

グラニュールＧＲ１も、グラニュールＧＲ０と同様に、ステレオ・オーディオに対応するチャンネル０、１の構成をとり、さらに各チャンネルは、スケールファクタおよびハフマン列の構成をとる。具体的には、チャンネル０は、スケールファクタＢ０とハフマン列Ｑ０の構成をとり、チャンネル１はスケールファクタＢ１とハフマン列Ｑ１の構成をとる。

再度図１を参照して、符号化部１０５は、倍音生成合成部１０４によって倍音合成された、もしくは、元のＭＤＣＴ処理された出力に対して、決定されたマスキング値に応じて、スケールファクタバンド毎に、その成分を量子化する。ここで、量子化の前に、図示しないが、バタフライ演算、ステレオ演算処理などの音響処理を施す機能を有するものとする。さらに、符号化部１０５によって実際に符号化されたときの符号量を受け、ビットレート（符号量）の余剰分を繰越量として管理し、それ以降のフレームに割当てる機能も有している。

符号化部１０５は、倍音生成合成部１０４によって、合成された後のスケールファクタバンドの信号成分に対して、所定のビットレートの目標値（符号量）となるようにフレームのデータを符号化し、符号化データをＳＤＲＡＭ１０６に書き込む。

図３は、倍音生成合成部１０４の主要部を示すブロック図である。
図３を参照して、倍音生成合成部１０４は、波形合成部１２０と、高調波生成部１３０とを含む。波形合成部１２０および高調波生成部１３０の入力端子にはＭＤＣＴフィルタ部１０３の出力信号が与えられ、高調波生成部１３０の出力信号は、波形合成部１２０へ供給される。

高調波生成部１３０は、ＭＤＣＴフィルタ部１０３の出力を受け、この出力信号から倍音を生成するための基本波となる信号を抽出するＬＰＦ（ＬｏｗＰａｓｓＦｉｌｔｅｒ）２０４と、ＬＰＦ２０４によって抽出される低周波成分のうち、音響心理分析部１０７によって、最小可聴限界値以上、マスキング効果値を超えると判別されたパワースペクトルを有する周波数を自然数倍した高調波を生成（倍音処理）する倍音生成部３０４とを含む。また、その周波数成分が存在しなければ、倍音生成合成部１０４は、フィルタリングおよび倍音の生成、元の信号への合成も一切する必要はない。ここで、その存在の有無は、所定の基本周波数に関して音響心理分析部１０７にて検出されるものとする。

一方、波形合成部１２０は、ＭＤＣＴフィルタ部１０３の出力を受け、この出力の高周波成分の周波数のみを抽出するＢＰＦ（ＢａｎｄＰａｓｓＦｉｌｔｅｒ）２０２と、高調波生成部１３０からの出力信号とＢＰＦ２０２からの出力信号とを加重合成する合成部としてたとえば加算器４０２とを含む。なお、ＢＰＦ２０２によって抽出される周波数成分はＬＰＦ２０４によって抽出される周波数成分より高い周波数を有する。

なお、例えば、倍音生成部３０４について、図示はしないが上述した基本波から少なくとも奇数次倍音の成分を含む信号を生成する奇数倍音生成部と、基本波の少なくとも偶数次倍音の成分を含む信号を生成する偶数倍音生成部とを含んでいてもよい。この場合には、奇数倍音生成部からの出力信号と偶数倍音生成部からの出力信号とは所定の比率で合成してもよい。このように、グルーピングすることにより、処理量を低減することができる。
基本１００Ｈｚの場合、２００Ｈｚ、４００Ｈｚ、６００Ｈｚ、８００Ｈｚのみの８次までとして、処理量を低減してもよい。

また、生成する倍音のレベルは、高域になるにつれて下げていき、前記等ラウドネス曲線に則って、２ｋＨｚで音圧レベルが０デシベルになるように調整する。

また、倍音生成部３０４は、倍音処理された信号が出力されるとして説明したが、この倍音処理された信号と基本波の信号とを加重合成して出力してもよい。ただし、この場合には、出力信号に低周波成分が再度含まれるため、これらの周波数成分を除去するフィルタ部（たとえばＨｉｇｈＰａｓｓＦｉｌｔｅｒやＢａｎｄＰａｓｓＦｉｌｔｅｒ）を設ける必要がある。スピーカの特性にあわせて、基本波より低いＨＰＦ（ＨｉｇｈＰａｓｓＦｉｌｔｅｒ）のカット周波数を設定する。

この構成を取ることにより、ＬＰＦ２０４はＭＤＣＴフィルタ部１０３の出力の低周波成分を抽出し、倍音生成部３０４はこの抽出された信号に基づいて高調波を生成し、加算器４０２は、この高調波とＭＤＣＴフィルタ部１０３の出力波のうちＬＰＦ２０４によって抽出された周波数帯よりも高い周波数帯の成分を有する出力波とを加重合成することによって、低周波成分を有しない出力波を生成できる。

ミッシングファンダメンタルにより、人間はこの出力波に除去した低周波成分が含まれると認識する一方、この出力波の低周波成分が除去されているために次段の符号化部１０５による処理の際にビット割当てを行なわないあるいは劇的に削減することができ、代わりに高域成分の符号化（量子化）に割当てることができ、本実施の形態によるエンコードされた音声データは、量子化ノイズを低減できる。

［変形例］
以下に倍音生成合成部１０４の変形例１について説明する。

図４は、倍音生成合成部１０４の変形例１の倍音生成合成部１０４Ａの主要部を示すブロック図である。図４を参照して、倍音生成合成部１０４Ａは、倍音生成合成部１０４と比較して、高調波生成部１３０の代わりに、高調波生成部１３０Ａを含む。倍音生成合成部１０４Ａの他の構成については、倍音生成合成部１０４と同様であるため、ここでは説明を繰返さない。

波形合成部１２０および高調波生成部１３０Ａの入力端子にはＭＤＣＴフィルタ部１０３の出力信号が与えられ、高調波生成部１３０Ａの出力信号は、波形合成部１２０へ供給される。

高調波生成部１３０Ａは、第１次〜第ｎ次高調波生成部６０８，６１０，…，６１２と、第１次〜第ｎ次高調波生成部の各々の出力を加重合成する合成部としてたとえば加算器４０４とを含む。

第１次高調波生成部６０８は、ＢＰＦ２０８と、倍音生成部３０８とを含み、ＢＰＦ２０８および倍音生成部３０８は、ＭＤＣＴフィルタ部の出力信号が与えられるノードと加算器４０４の入力ノードとの間に、直列に接続されている。また、第２次〜第ｎ次高調波生成部６１０，…，６１２の構成についても同様であるため、ここでは説明を繰返さない。

ＭＤＣＴフィルタ部１０３の出力信号の低周波成分を複数に分割し、複数に分割した低周波成分の各々に基づいて、第１次〜第ｎ次高調波生成部６０８，６１０，…，６１２は、それぞれ対応する倍音の信号を生成する。たとえば、０〜１００Ｈｚまでの低周波数帯を１０Ｈｚごとに分割し、この分割した周波数帯ごとに各高調波生成器によって倍音の信号が生成される。

なお、波形合成部１２０に含まれるＢＰＦ２０２によって抽出される周波数成分はＢＰＦ２０８，ＢＰＦ２１０，…，ＢＰＦ２１２によって抽出される周波数成分より高い周波数成分を有する。

第１次〜第ｎ次高調波生成部６０８，６１０，…，６１２の各々の出力信号は加算器４０４によって加重合成される。加算器４０２は、加算器４０４からの出力信号と、ＢＰＦ２０２の出力信号とを加重合成し、合成した高調波を符号化部１０５へ出力する。

また、ここでは第１次〜第ｎ次高調波生成部６０８，６１０，…，６１２の出力については、倍音処理された信号が出力されるとして説明したが、この倍音処理された信号と基本波の信号とを加重合成して出力してもよい。ただし、この場合には、出力信号に低周波成分が再度含まれるため、これらの周波数成分を除去するフィルタ部（たとえばＨｉｇｈＰａｓｓＦｉｌｔｅｒやＢａｎｄＰａｓｓＦｉｌｔｅｒ）を設ける必要がある。スピーカの特性にあわせて、基本波より低いＨＰＦのカット周波数を設定する。

この構成を取ることにより、ＢＰＦ２０８，２１０，…，２１２はＭＤＣＴフィルタ部１０３の出力の低周波成分を複数に分割して抽出し、倍音生成部３０８，３１０，…，３１２はこの抽出された各信号に基づいてそれぞれ対応して高調波を生成し、加算器４０２は、この高調波とＭＤＣＴフィルタ部１０３の出力のうちＢＰＦ２０２がＢＰＦ２０８，２１０，…，２１２によって抽出される周波数帯よりも高い周波数帯を有する出力波とを加重合成することによって、低周波成分を有しない出力波を生成できる。

ミッシングファンダメンタルにより、人間はこの生成信号に除去した低周波成分が含まれると認識する一方、この生成信号の低周波成分が除去されているために次段の符号化部１０５による処理の際にビット割当てを削減あるいは減少することができ、代わりに高域成分の符号化（量子化）に割当てることができる。

図５は、倍音生成合成部１０４の変形例２の倍音生成合成部１０４Ｂの主要部を示すブロック図である。図５を参照して、倍音生成合成部１０４Ｂは、倍音生成合成部１０４と比較して、高調波生成部１３０に代えて、高調波生成部１３０Ｂを含む。倍音生成合成部１０４Ｂの他の構成については、倍音生成合成部１０４と同様であるため、ここでは説明を繰返さない。

高調波生成部１３０Ｂは、ＭＤＣＴフィルタ部１０３の出力を受け、この出力信号から高調波を生成するための基本波となる信号を抽出するＬＰＦ（ＬｏｗＰａｓｓＦｉｌｔｅｒ）２０４と、ＬＰＦ２０４によって抽出される基本波から構成される信号が与えられ自然数倍した高調波を生成し、基本波の周波数成分を加重合成して出力する倍音生成部３０４Ｂと、倍音生成部３０４Ｂからの出力から基本波の周波数成分以外の成分を通過させるＢＰＦ５０４とを含む。

これにより、倍音生成合成部１０４、１０４Ａにおいて説明してきたとおり、倍音生成部３０４Ｂのように基本波をも含んで出力するような場合には、フィルタ部であるＢＰＦ５０４を設ける必要がある。なお、ＢＰＦ５０４に限定されることなく、所定の周波数より高い周波数成分を通過させるＨＰＦを利用してもよい。スピーカの特性にあわせて、基本波より低いＨＰＦのカット周波数を設定する。

図６は、倍音生成合成部１０４の変形例３の倍音生成合成部１０４Ｃの主要部を示すブロック図である。図５を参照して、倍音生成合成部１０４Ｃは、倍音生成合成部１０４と比較して、高調波生成部１３０に代えて、高調波生成部１３０Ｃを含む。倍音生成合成部１０４Ｃの他の構成については、倍音生成合成部１０４と同様であるため、ここでは説明を繰返さない。

高調波生成部１３０Ｃは、第１次〜第ｎ次高調波生成部７０８，７１０，…，７１２と、第１次〜第ｎ次高調波生成部の各々の出力を加重合成する加算器４０４とを含む。

加算器４０４は、第１次〜第ｎ次高調波生成部７０８，７１０，…，７１２の各々の出力信号を加重合成する。加算器４０２は、加算器４０４からの出力信号と、ＢＰＦ２０２の出力信号とを加重合成し、合成した高調波を符号化部１０５へ出力する。

第１次高調波生成部７０８は、ＢＰＦ２０８と、倍音生成部３０８Ｃと、ＢＰＦ５０８を含み、ＢＰＦ２０８、倍音生成部３０８ＣおよびＢＰＦ５０８は、ＭＤＣＴフィルタ部の出力信号が与えられるノードと加算器４０４の入力ノードとの間に、直列に接続されている。また、第２次〜第ｎ次高調波生成部７１０，…，７１２の構成についても同様であるため、ここでは説明を繰返さない。

ここで、ＭＤＣＴフィルタ部１０３の出力信号の低周波成分を複数に分割し、複数に分割した低周波成分の各々に基づいて、第１次〜第ｎ次高調波生成部７０８，７１０，…，７１２は、それぞれ対応する高調波を生成する。たとえば、０〜１００Ｈｚまでの周波数帯を１０Ｈｚごとに分割し、この分割した周波数帯ごとに倍音の信号が生成される。

なお、波形合成部１２０に含まれるＢＰＦ２０２によって抽出される周波数成分はＢＰＦ２０８，ＢＰＦ２１０，…，ＢＰＦ２１２によって抽出される周波数成分より高い周波数を有する。

高調波生成部１３０Ｃに含まれる倍音生成部３０８Ｃ，３１０Ｃ，…，３１２Ｃは、ＢＰＦ２０８，２１０，…，２１２によって抽出される基本波の周波数を自然数倍して生成した高調波と基本波とを加重合成して出力する。

これにより、倍音生成合成部１０４、１０４Ａにおいて説明してきたとおり、倍音生成部３０４Ｃのように基本波をも含んで出力するような場合には、フィルタ部であるＢＰＦ５０８，５１０，…，５１２を設ける必要がある。なお、ＢＰＦ５０８，５１０，…，５１２に限定されることなく、所定の周波数より高い周波数成分を通過させるＨＰＦを利用してもよい。スピーカの特性にあわせて、基本波より低いＨＰＦのカット周波数を設定する。

図７は、倍音生成合成部１０４の変形例４の倍音生成合成部１０４Ｄの主要部を示すブロック図である。図７を参照して、倍音生成合成部１０４Ｄは、倍音生成合成部１０４と比較して、波形合成部１２０に代えて、波形合成部１２０Ｄを含む。倍音生成合成部１０４Ｄの他の構成については、倍音生成合成部１０４と同様であるため、ここでは説明を繰返さない。

ここで、図３の倍音生成合成部１０４の波形合成部１２０と比較して、波形合成部１２０Ｄを説明する。波形合成部１２０Ｄの構成は、加算器４０２とＢＰＦ２０２とを含む。しかしながら、加算器４０２は、ＭＤＣＴフィルタ部１０３の出力波と高調波生成部１３０の出力波とを加算し、その出力波について、ＢＰＦ２０２を用いて低周波成分を除去することにより、１０４ＢのＢＰＦ２０２とＢＰＦ５０４を一つにまとめられる。同様の効果が期待できる。なお、ＢＰＦ２０２に限定されることなく、ＨＰＦを使用してもよい。スピーカの特性にあわせて、基本波より低いＨＰＦのカット周波数を設定する。

図８は、倍音生成合成部１０４の変形例５の倍音生成合成部１０４Ｅの主要部を示すブロック図である。図８を参照して、倍音生成合成部１０４Ｅは、図７の倍音生成合成部１０４Ｄの波形合成部１２０Ｄと図４の倍音生成合成部１０４Ａの高調波生成部１３０Ａとを組み合わせた構成をとるため、同様な効果が期待できる。なお、各構成の説明は同様な説明となるためここでは繰返さない。図７と同様にＢＰＦ２０８，２１０，…，２１２が一つにまとめられる。

次に、図１等を用いて符号化装置の構成について説明したが、処理手順を総括的に説明する。

図９は、本発明の実施の形態１における符号化装置の処理手順を説明するためのフローチャートである。図９を参照して、まず、符号化処理が開始されると、ステップＳ１において外部から入力されたオーディオ音声（ＰＣＭ）データがＳＤＲＡＭ１０１にバッファリングされ、データ取得制御部１０２は、ＳＤＲＡＭ１０１に格納されたデータの中から１フレーム分、または複数フレーム分のデータを取得し、次のステップＳ７の処理へ進む。

ステップ７では、音響心理分析部１０７が、最小可聴限界値、およびマスキング値を計算する。

ステップ８では、１フレーム分のデータをサブバンドに分割する。また、データ取得制御部１０２は、取得フレーム数を“１”だけインクリメントすることによって取得フレーム数をカウントすることができる。

そして、ステップＳ２において、ＭＤＣＴフィルタ部１０３は、サブバンド分析フィルタ部１０８によって計算されたサブバンドデータをＭＤＣＴ変換する。

ステップＳ３において、音響心理分析部１０７は、ステップＳ７で算出された最小可聴限界値およびマスキング値に応じて、低周波成分のうちパワースペクトルが各閾値以上の周波数成分が存在するか判定し、倍音化の対象となる基本周波数を決定する。

たとえば、音響心理分析部１０７は、ＦＦＴの出力波の周波数５０Ｈｚのパワースペクトルが１５ｄＢしかなく、このパワースペクトルが５０Ｈｚの聴覚閾値（０ｄＢ＝１ｋＨｚ）である３０ｄＢを超えていないときには、可聴パワーが不足しているため、基本波として周波数５０Ｈｚの波形を抽出しない。一方、ＦＦＴの出力波の周波数１００Ｈｚのパワースペクトルが３８ｄＢほどあり、このパワースペクトルが１００Ｈｚの聴覚閾値（０ｄＢ＝１ｋＨｚ）である２５ｄＢを超えているときには、パワースペクトルが十分ある（聞き取れる）ため、さらにマスキング値と比較し、マスキング効果により、そのパワースペクトルが可聴できると判定されたなら、基本周波数として周波数１００Ｈｚを決定する。ただし、基本周波数として、倍音化の対象となる周波数が複数あってもよい。

パワースペクトルが閾値以上の周波数成分が存在する場合は、ステップＳ４に進む。また、パワースペクトルが閾値以上の周波数成分が存在しなければ、後述するステップＳ４およびステップＳ５の付加処理は実施しないで、ステップＳ６へ進む。ステップＳ６では、ステップＳ７の最小可聴限界値およびマスキング値に基づいて、ビット割り当てされ、量子化がおこなわれる。

ステップＳ４において、ステップＳ３において決定した基本波に基づいて、図１の倍音生成部が、この基本波の周波数に自然数倍かけた周波数を有する高調波を生成する。

ステップＳ４の処理について説明する。
ステップＳ３で決定した基本波を利用して高調波を生成する。基本波の周波数（ここでは１００Ｈｚ）に自然数ｎ（ｎは２以上）倍した周波数を有する高調波のことを第ｎ次高調波とすると、このような高調波の生成は、所望の周波数まで生成できるが、倍音として用いる場合には高調波の周波数が２ｋＨｚ付近になるように自然数ｎを決定し生成することが好ましい。ここでは、第２次〜第２０次高調波となる。２ｋＨｚ付近としたのは、聴覚閾値が低く、逆にいうと、感度がよい（聞こえやすい）ため、この付近に設定することにより、人間の耳にとって、低周波数域の音声も再現されていると錯覚しやすくなる。

また、前述したとおり、等ラウドネスモデルから最小可聴限界値が０デシベルになる周波数が２ｋＨｚである。また、基本周波数を１５０Ｈｚとした場合には、倍音生成・合成部の合成する元の音声の低域カット周波数は、１５０Ｈｚ程度にしてもよい。たとえば、３００Ｈｚの基本波の場合には、５次高調波程度までとする。この場合、元の音声から圧縮によって低域情報を失う前に元の音声から忠実に再現できる聴感を失われない帯域に付加しておくことが目的である。

ＭＰ３の場合、ＭＤＣＴの５７６ラインの周波数解像度に対して、スケールファクタのバンド数が２１であり、サンプリング周波数４４．１ｋＨｚの最も低い周波数帯（バンド）境界の周波数は、１５０Ｈｚである。つまり、基本周波数は、１５０Ｈｚを想定しており、これは１バンド分のビットを他のビットの必要なバンドへ割当てることができることを意味する。

たとえば、基本波の周波数１５０Ｈｚを基数（基本周波数）とすると、３００Ｈｚ，４５０Ｈｚ，６００Ｈｚ，７５０Ｈｚ，９００Ｈｚ，１０５０Ｈｚ，…，１９５０Ｈｚの高調波を生成することができる。また別の例として、周波数３００Ｈｚを基数とすると、６００Ｈｚ，９００Ｈｚ，１２００Ｈｚ，１５００Ｈｚ，１８００Ｈｚ（もしくは、６次まで）の高調波を生成できる。

あるいは、基本周波数を１５０Ｈｚより大きい値とした場合には、倍音生成・合成部の合成する元の音声の低域カット周波数は、スピーカ特性を考慮し、５０Ｈｚ程度、それ以下としてもよい。

図１０は、高調波生成について説明するための図である。図１０を参照して、横軸に周波数が示され、縦軸に音圧レベルが示される。なお、説明を容易にするため、聴覚閾値（最小可聴界値）が点線で合わせて示されている。

基本波として周波数１００Ｈｚの音圧レベルＬ０が示されている。この音圧レベルＬ０は倍音生成合成部１０４によって抽出される。この音圧レベルＬ０は聴覚閾値を超えた強度を有する。

さらにこの基本波を元に周波数を自然数倍して生成された高調波のパワースペクトルＬ１，Ｌ２，…，Ｌ１８，Ｌ１９が示される。このパワースペクトルＬ１，Ｌ２，…，Ｌ１８，Ｌ１９の強度は、たとえば２０００Ｈｚの聴覚閾値を上回るように徐々に減衰させるようにレベル調整する。

２０００Ｈｚで０ｄＢになるように高調波を生成することが好ましい。処理の効率上、生成する高調波は、偶数次数のみとか、奇数次数のみとか、２〜５次程度としてもよい。

再び図９を参照して、ステップＳ４で、基本波に基づいて高調波を生成が終わると、ステップＳ５において、倍音生成合成部１０４は、この高調波とＭＤＣＴフィルタ部１０３の出力波のうち基本波より高い周波成分の出力波とを合成し、符号化部１０５へ出力し、ステップＳ６の処理へ進む。

そして、ステップＳ６において、倍音生成合成部１０４の出力波に基づいて、符号化部１０５は、周波数シフトによってオーディオ情報量の少なくなった低周波成分の使用するビット量を減少させ、高周波成分の使用するビット量をより増加させて符号化処理を行ない、処理が終了する。

この処理手順により、符号化処理前に、周波数シフトによってオーディオ情報量の少なくなった低周波成分については、倍音処理され高周波成分にオーディオ情報量を集約でき、効率的に符号化処理が行なえる。

また、倍音処理され高周波成分にオーディオ情報量を集約したことによって、周波数およびスケールファクタの低周波数帯あるいはパワースペクトルの小さいスケールファクタバンドに割当てるための符号化ビットを削減あるいは減少でき、その分、情報量の多いスケールファクタバンドを符号化する際に使用できる。

さらに、倍音加算後スケールファクタバンドの情報量が帯域間に分散しないように制御し、ビット割当ての多いバンドに低音成分から生成した倍音を加算した後に、符号化することによって、スケールファクタの伝送長を削減できるとともに、スケールファクタバンドの情報が含まれている付加データについてもグラニュール間でシェアすることにより、スケールファクタについても削減できる。

本実施の形態１の構成をとることにより、必要ビット量の節約が可能であり、このような冗長性を低減し、ビット量を効率よく管理することによって、高音質化、高効率化の効果を実現できる。

［実施の形態２］
実施の形態２は、実施の形態において説明した符号化装置を用いた音楽プレイヤーシステムに関するものである。

図１１は、本発明の実施の形態２における音楽プレイヤーシステムの構成例を示すブロック図である。この音楽プレイヤーシステムは、システム全体の制御を行なうＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ１３（例えばＳＤＲＡＭ）と、ハードディスク（ＨＤＤ）１４と、入力処理部１５と、外部ＩＦ１６と、データ処理部１７とを含む。

ＣＰＵ１１は、内部バスを介してＲＯＭ１２に記憶される各種プログラムを読み出してＲＡＭ１３に転送し、そのプログラムを実行することによって音楽プレイヤーシステム全体の制御を行なう。また、ＣＰＵ１１は、所定の演算処理を行なうことによって入力処理部１５から受けたコマンドに応じた処理を実行する。

外部ＩＦ１６は、ユーザにより操作ボタンの操作を検知して、その操作に応じた操作入力信号を入力処理部１５に出力する。入力処理部１５は、外部ＩＦ１６から受けた操作入力信号に応じて所定の処理を行なって操作入力信号をコマンドに変換し、内部バスを介してＣＰＵ１１にコマンドを転送する。

データ処理部１７は、外部ＩＦ１６に接続されたたとえばＣＤＲＯＭのようなメディアドライブから与えられた音楽データを圧縮符号化してハードディスク１４に記憶させる。また、データ処理部１７は、ユーザによる操作に応じて音楽データの再生処理を行なう。

ユーザによる操作に応じて音楽データの再生を行なう場合、ＣＰＵ１１は、音楽データ再生のコマンドをデータ処理部１７に出力すると共に、ハードディスク１４内の指定された音楽データを読み出してデータ処理部１７に転送する。データ処理部１７は、ハードディスク１４から転送された音楽データを復号して音楽データを再生し、たとえばスピーカ（図示せず）に出力させる。実施の形態において説明したオーディオ符号化装置１００は、データ処理部１７内に配置される。

また、ＣＰＵ１１は、ＲＡＭ１３に記憶される各種プログラムを実行することによって表示データを生成して表示処理部（図示せず）に転送したり、ハードディスク１４に記憶される音楽関連情報（音楽タイトル）を読み出して表示処理部（図示せず）に転送したりする。表示処理部（図示せず）は、ＣＰＵ１１から受けた表示データに応じてディスプレイ（図示せず）に音楽関連情報などの表示を行なわせる。

以上説明したように、本実施の形態２における音楽プレイヤーシステムによれば、データ処理部１７に実施の形態１において説明したオーディオ符号化装置１００を配置するようにしたので、実施の形態１において説明した効果を奏するシステムを構築することが可能となった。

なお、本実施の形態では音楽プレイヤーシステム（音楽データの符号化）について説明したが、映像再生システム（映像データの符号化）においても実施の形態において説明したオーディオ符号化装置１００を同様に適用することが可能である。

最後に図等を用いて本実施の形態１，２を総括する。
図１に示すように、実施の形態１のオーディオ符号化装置１００は、音声データを格納する記憶部（たとえばＳＤＲＡＭ１０１）と、記憶部から音声データを取得するデータ取得制御部１０２と、データ取得制御部１０２から出力される音声データ信号を周波数変換する一連のサブバンド分析フィルタ部１０８とＭＤＣＴフィルタ部１０３と、変換部の出力波のうち第１の出力波に基づいて高調波を生成し、高調波と、変換部の出力波のうち第１の出力波より高周波成分である第２の出力波とを合成する倍音生成合成部１０４と、倍音生成合成部１０４からの出力に対して符号化処理を行なう符号化部１０５とを備える。また、実施の形態１のオーディオ符号化装置１００は、マスキング値を計算し、その値を元に、ＭＤＣＴフィルタ部１０３と倍音生成合成部１０４とを制御する音響心理分析部１０７とをさらに備える。

好ましくは図１に示すように、オーディオ符号化装置１００において、記憶部（たとえばＳＤＲＡＭ１０１）は、周波数に対する音圧レベルの閾値をさらに格納し、倍音生成合成部１０４は、第１の出力波に対応する音圧レベルの値が閾値よりも大きい場合に、第１の出力波に基づいて高調波を生成する。

好ましくは、図３〜図８に示すように、オーディオ符号化装置１００において、倍音生成合成部１０４は、第１の出力波の周波数に基づいて周波数の自然数倍の周波数を有する高調波を生成する高調波生成部１３０と、高調波と第２の出力波とを合成する波形合成部１２０とを含む。

さらに好ましくは、オーディオ符号化装置１００において、第１の出力波に対応する音圧レベルの値が閾値よりも大きい場合には、高調波生成部１３０は第１の出力波に基づいて高調波を生成する。

さらに好ましくは、図３、図４に示すように、オーディオ符号化装置１００において、高調波生成部（１３０）は、変換部の出力波に基づいて、第１の出力波を抽出する第１のフィルタ回路（たとえば、ＬＰＦ２０４やＢＰＦ２０８〜２１２）と、第１のフィルタ回路の出力波の周波数を自然数倍した周波数を有する高調波を生成する倍音生成器３０４，３０８〜３１２と、変換部の出力波に基づいて、第２の出力波を抽出する第２のフィルタ回路ＢＰＦ２０２と、高調波と第２のフィルタ回路の出力波とを合成して出力する加算器４０２とを含む。

さらに好ましくは、図３〜図６に示すように、オーディオ符号化装置１００において、波形合成部１２０は、変換部の出力波に基づき、高調波生成部１３０に入力される周波数よりも高い周波数を有する出力波を抽出する第３のフィルタ回路ＢＰＦ２０２と、生成された高調波と第３のフィルタ回路の出力波とを合成して出力する加算器４０２とを含む。

さらに好ましくは、図７、図８に示すようにオーディオ符号化装置１００において、波形合成部１２０Ｄは、高調波と変換部の出力波とを合成して出力する加算器４０２と、変換部の出力波に、高調波生成部１３０に入力される周波数よりも高い周波数を有する出力波を抽出する第３のフィルタ回路ＢＰＦ２０２とを含む。

さらに、好ましくは図１１に示すように実施の形態２の半導体装置は、上述した実施の形態１のいずれかに記載のオーディオ符号化装置１００を含む。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１００オーディオ符号化装置、１０２データ取得制御部、１０３ＭＤＣＴフィルタ部、１０４倍音生成合成部、１０５符号化部、１２０波形合成部、１３０高調波生成部、３０４，３０８，３１０，３１２倍音生成部、４０２，４０４加算器、１１ＣＰＵ、１２ＲＯＭ、１３ＲＡＭ、１０１，１０６ＳＤＲＡＭ、１４ハードディスク、１５入力処理部、１７データ処理部、１０７音響心理分析部、１０８サブバンド分析フィルタ部。

Claims

音声データを格納する記憶部と
前記記憶部から前記音声データを取得するデータ取得制御部と、
前記データ取得制御部から出力される音声データ信号を周波数変換する変換部と、
前記変換部の出力波のうち第１の出力波に基づいて高調波を生成し、前記高調波と、前記変換部の出力波のうち前記第１の出力波より高周波成分である第２の出力波とを合成する倍音生成合成部と、
前記倍音生成合成部からの出力に対して符号化処理を行う符号化部を備える、オーディオ符号化装置。
前記記憶部は、周波数に対する音圧レベルの閾値をさらに格納し、
前記倍音生成合成部は、前記第１の出力波に対応する前記音圧レベルの値が前記閾値よりも大きい場合に、前記第１の出力波に基づいて前記高調波を生成する、請求項１に記載のオーディオ符号化装置。
前記倍音生成合成部は、
前記第１の出力波の周波数に基づいて前記周波数の自然数倍の周波数を有する高調波を生成する高調波生成部と、
前記高調波と前記第２の出力波とを合成する波形合成部とを含む、請求項２に記載のオーディオ符号化装置。
前記音圧レベルの値が前記閾値よりも大きい場合には、前記高調波生成部は前記第１の出力波に基づいて前記高調波を生成する、請求項３に記載のオーディオ符号化装置。
前記高調波生成部は、
前記変換部の出力波に基づいて、前記第１の出力波を抽出する第１のフィルタ回路と、
前記第１のフィルタ回路の出力波の周波数を自然数倍した周波数を有する前記高調波を生成する倍音生成器と、
前記変換部の出力波に基づいて、前記第２の出力波を抽出する第２のフィルタ回路と、
前記高調波と前記第２のフィルタ回路の出力波とを合成して出力する合成部とを含む、請求項４に記載のオーディオ符号化装置。
前記波形合成部は、
前記変換部の出力波に基づき、前記高調波生成部に入力される周波数よりも高い周波数を有する出力波を抽出する第３のフィルタ回路と、
前記高調波と前記第３のフィルタ回路の出力波とを合成して出力する合成部とを含む、請求項４に記載のオーディオ符号化装置。
前記波形合成部は、
前記高調波と前記変換部の出力波とを合成して出力する合成部と、
前記高調波生成部に入力される周波数よりも高い周波数を有する出力波を抽出する第３のフィルタ回路とを含む、請求項４に記載のオーディオ符号化装置。
請求項１〜７のいずれか１項に記載のオーディオ符号化装置を含む、半導体装置。