JP2008225232A

JP2008225232A - 信号処理方法および音声コンテンツ配信方法

Info

Publication number: JP2008225232A
Application number: JP2007065599A
Authority: JP
Inventors: Kazuo Hikawa; 和生飛河
Original assignee: Crimson Tech Inc
Current assignee: Crimson Tech Inc
Priority date: 2007-03-14
Filing date: 2007-03-14
Publication date: 2008-09-25

Abstract

【課題】既存の音声コンテンツ配信の市場インフラをそのまま利用しつつ、音声コンテンツそのものに付加価値を与え、新しい形態の音楽市場を創ることを可能とする。
【解決手段】元の音声信号に関する演奏情報が付加情報として埋め込まれた音声コンテンツを送信側２１から受信側２３へ配信する方法において、付加情報は、元の音声信号に時間軸上で同期するように、かつ、音声コンテンツをファイルに記録する処理、ファイルに対する圧縮のいずれかの処理を行った場合に存続するように埋め込まれている。送信側では、複数の音声コンテンツの各コンテンツ毎に、演奏パートが異なる演奏情報、あるいは、全ての演奏パートの演奏情報が付加された複数のファイルを含むデータファイルの中から選択指定されたファイルを送信する。受信側では、所望の音声コンテンツに対応するファイルを選択指定することによってダウンロードし、ダウンロードされたファイルから元の音声信号および演奏情報を抽出する。
【選択図】図４

Description

本発明は、信号処理方法および音声コンテンツ配信方法に係り、特に音声信号または映像信号に付加信号を埋め込むようにエンコードする方法およびエンコードされた音声コンテンツを配信する方法に関する。

近年、CDなどに代表されるパッケージ音楽市場は年々縮小傾向にあり、しかも、音楽データをそのままデジタルコピーする暗号解除などの非合法ツールの横行が市場の縮小を加速させる要因の一つとなっている。この問題に対する一つの解決策として、「電子透かし」により音楽ストリーム自体にその著作権管理（Digital Rights Management;DRM ）情報を示すことが提案されている。しかし、単に著作権情報を埋め込むだけではコピーそのものを防止することはできず、その十分な費用対効果を得ることにも限界があるため、電子透かし技術は普及には至っていない。

一方、携帯電話やパソコン、iPod（米国Apple 社商品名）などの携帯デジタル音楽プレーヤなどを対象とした音楽ファイル配信ビジネスの市場が急激に拡がっており、さらに、玩具市場では音楽に関連した新しい提案型商品が非常に人気を博している。

このような市場を背景として、今後の更なる音楽の楽しみ方の提案、あるいは、音楽配信コンテンツに新しい付加情報を持たせ、新たな付加価値を持つサービスを投入することが新たなニーズとして浮上しつつある。しかも、現状のコンテンツには互換性を持った情報を持たせることができないので、携帯デジタル音楽プレーヤなどと連携させた音楽連動型のエンターテインメント商品への技術ニーズ、商品化ニーズが急速に高まっている。

また、現在の音楽配信コンテンツは、MPEG(Motion Pictures Coding Experts Group)などにより音声圧縮フォーマットの標準化が行われたことで、パソコン、オーディオ機器、携帯電話、家電機器など多くの機器上でファイル再生の互換性を持つ。その他の圧縮方式には、ADPCM や準瞬時圧伸、AAC(Advanced Audio Codec) やHE-AAC(High Efficiency Audio Codec) などがあり、AAC-plusという言い方をする場合もある。

しかし、これらの音楽コンテンツに対する付加情報は、それぞれの配信フォーマットが異なるので互換性がなく、既存の方法でこれらのコンテンツに新たな付加情報を加える際は、それぞれのフオーマットに新たに特別な領域を設けるなど、独自のフォーマットを用いて記録しなければならない。これに伴い、各フォーマットについてそれぞれ専用の装置で記録・再生を行う必要があった。また、コンテンツ制作側も、サービス毎にコンテンツを制作しなければならず、音楽に対する新たな付加サービスを提供し難い。

なお、音楽の演奏情報を伝達するために記述表記するプロトコル規格として、MIDI (Musical Instrument Digital Interface )規格がある。MIDI規格は楽器市場を中心に世界的に普及しており、着信メロディや通信カラオケ、ゲーム、ミキサーや照明機器制御など、これまで独自の市場を築いてきた。MIDI規格の記述ファイル形式は、標準MIDIファイル（Standard MIDI File;SMF）と呼ばれ、インターネットのホームページや音楽制作における世界的な標準となっている。また、MIDI規格は、イベント記述型の独自フォーマットを持ち、実際の演奏情報のみを伝送するので、１曲の音楽を表現する際、MP-3方式やAAC 方式などの圧縮音声ファイルに比べて、非常に少ない情報量で伝送することができる。この点に着目し、特許文献１〜３では、MIDI規格に基づいてコード化された演奏情報を利用し、ロボットや玩具などの動作情報に変えることで視覚的な表現を行う玩具やデモンストレーション装置が提案されている。
特許第２６１６２３３号明細書特許第２７２５５２８号明細書特許第３０８２５５２号明細書

前記したような事情に鑑み、携帯電話の着うたサービス、あるいは、パソコンや携帯デジタル音楽プレーヤなどの携帯オーディオ機器、CD、DVD などのパッケージメディアなどの音声コンテンツファイルに対して、テキスト情報や著作権情報、あるいは楽譜やリズムなどの演奏情報などを新たに補助情報として付加することにより、新たな価値を持たせ、音楽連動型エンターテインメント商品を実現し、新しい需要を生み出すことが望まれる。この場合、新しい技術を普及させる起爆剤としては既存のインフラを考慮し、既に普及している様々なデジタルオーディオ機器を利用することが望ましい。

すなわち、本発明は前記した要望に鑑みてなされたもので、既に普及している音楽再生端末機器または映像再生端末機器に対して、ファイルの再生互換性を持たせつつ、新たな機能を加えることが可能になる信号処理方法を提供することを目的とする。

また、本発明の他の目的は、既存の音楽配信ファイルとの再生互換性を維持しつつ、MP-3方式やAAC 方式等の既存の音声圧縮技術に対して十分な耐性を持つようにしつつ、聴感上の影響を抑えつつ、音楽コンテンツ配信による更なる音楽の楽しみ方を提案し得る音声コンテンツ配信方法を提供することにある。

本発明の信号処理方法は、元の音声信号または映像信号に関連する付加情報が当該信号中に埋め込まれた付加情報埋め込み形式の信号を取り扱う信号処理方法であって、
前記元の音声信号または映像信号に付加情報を埋め込む際、前記付加情報が元の信号に時間軸上で同期し、かつ、前記付加情報が埋め込まれた信号に対して圧縮伸張処理を施しても付加情報が失われない形式で、元の信号に対して付加情報をエンコード処理することを特徴とする。

前記エンコード処理の一例は、前記付加情報にデータ誤り検出符号あるいはデータ誤り検出訂正符号を付加して埋め込んだ後、圧縮エンコード処理を施した後に伸張デコード処理を行い、さらに前記付加情報を取り出してデータ誤り検出あるいはデータ誤り検出訂正を行い、誤りがない場合あるいは誤り訂正が可能な場合には前記圧縮エンコード処理の結果を出力し、誤りである場合あるいは誤り訂正が不可能な場合には前記埋め込みあるいは圧縮のエンコード処理の内容を変更して再びエンコード処理を行う。

前記付加情報は、歌詞情報、解説情報、アーティストのメッセージ情報、楽譜情報、楽音演奏情報、著作権管理情報、ロボットや玩具の動作制御情報、音声合成情報、機器の点滅表示制御情報、振動制御情報、読み上げ音声の元の文章のテキスト情報、抽選番号情報、広告情報の少なくとも１つの情報を含む。これらの付加情報は、音声コンテンツに限らず、ビデオの圧縮ストリーム信号に埋め込んでもよい。

本発明の音声コンテンツ配信方法は、元の音声信号に関連する付加情報が当該音声信号中に付加情報として埋め込まれた音声コンテンツを、送信側から受信側へ配信する音声コンテンツ配信方法において、前記付加情報は、演奏音声信号に関連する演奏パートの演奏情報であり、前記演奏音声信号に時間軸上で同期し、かつ、前記付加情報が埋め込まれた信号に対して音声圧縮伸張処理を施しても内容が失われない形式で埋め込まれており、前記送信側では、前記受信側で必要とする演奏パートの数に応じて、演奏情報と演奏音声信号との組み合わせが異なる複数のファイルを用意し、当該複数のファイルの中から選択指定されたファイルを送信することを特徴とする。受信側では、前記複数のファイルの中から所望の組合せのファイルを選択指定してダウンロードし、このダウンロードしたファイルから元の演奏音声信号および演奏情報を抽出するように処理すればよい。

本発明の信号処理方法によれば、既に普及している音楽再生端末機器または映像再生端末機器に対して、ファイルの再生互換性を持たせつつ、新たな機能を加えることができる。しかも、エンコード処理に際して、エンコードによって付加情報が失われていないことを事前に確認することが可能になるので、この信号処理方法を適用するシステムによる付加情報を失うことのないサービスの実用化が可能になる。

本発明の音声コンテンツ配信方法によれば、着うたや音楽配信など既存の音声コンテンツ配信の市場インフラをそのまま利用しつつ、音声コンテンツそのものに付加価値を与えることができ、新しい形態の音楽市場を創ることができる。

以下、図面を参照して本発明の実施形態を説明する。この説明に際して、全図にわたり共通する部分には共通する参照符号を付す。

＜第１の実施形態＞
第１の実施形態に係る信号処理方法は、元の音声信号に関連する付加情報がデータハイディング技術を用いて当該音声信号中に埋め込まれた付加情報埋め込み形式の音声信号を取り扱う。そして、元の音声信号に付加情報を埋め込む際、付加情報が元の音声信号に時間軸上で同期し、かつ、前記付加情報が埋め込まれた信号に対して圧縮伸張処理を施しても付加情報が失われない形式で、元の音声信号に対して付加情報をエンコード処理する。

なお、上記した付加情報は、何らかのルールにしたがって元の音声信号に同期していればよい。また、上記した付加情報は、メッセージの伝達、動作制御などに使用されることによって元の音声信号による音声出力との相乗効果が期待できる情報であり、以下に例示する各種の情報のうちの少なくとも１つを含む情報である。

（ａ）歌詞、解説、アーティストメッセージ、楽譜などのテキスト情報、楽音演奏制御情報。

（ｂ）著作権管理情報。

（ｃ）ロボットや玩具の動作を制御する動作制御情報。

（ｄ）ロボットから音声を出力させるための音声合成情報。

（ｅ）元の音声信号が着うた信号の場合などにおいて、例えば携帯電話機に搭載されている発光ダイオードなどの機器を点滅表示させる点滅表示制御情報、バイブレータなどを駆動制御する振動制御情報。

（ｆ）元の音声信号がオーディオブック信号の場合などにおいて、読み上げ音声の元の文章のテキスト情報。

（ｇ）元の音声信号が音声ニュース信号の場合などにおいて、ニュース記事のテキスト情報。

（ｈ）「くじ付き音楽配信」サービスを行う場合などにおいて、例えば宝くじの抽選番号のテキスト情報。

（ｉ）広告を見ると音声コンテンツの続きがダウンロードできる「広告付き音楽配信」サービスを行う場合などにおいて、広告のURL を示すテキスト情報。

図１は、第１の実施形態に係る信号処理方法における圧縮伸張処理のためのエンコードの一例について処理フローに沿う処理手段の一例を示すブロック図である。図１の処理フローにおいては、元の音声信号に対して付加情報をエンコード処理する際、まず、付加情報にデータ誤り検出符号を付加して埋め込む。そして、付加情報が埋め込まれた信号に対して圧縮エンコード処理を施した後に伸張デコード処理を行い、さらに付加情報を取り出してデータ誤り検出を行い、誤りがない場合には圧縮エンコード処理の結果を出力し、誤りである場合には埋め込みあるいは圧縮のエンコード処理の内容を変更して再びエンコード処理を行う。

以下、処理フローに沿って各ステップを説明する。付加情報埋め込みエンコーダ１１は、音声信号（元の音声信号）および付加情報が入力し、付加情報を音声信号に埋め込む処理（データハイディング）のために第１のエンコードを行う。音声圧縮エンコーダ１２は、前記付加情報埋め込みエンコーダ１１のエンコード出力信号に対してMP-3やAAC 等の圧縮方式を用いてデータ圧縮処理（第２のエンコード）を行う。音声伸張デコーダ１３は、前記音声圧縮エンコーダ１２のエンコード出力信号に対して伸張処理（第１のデコード）を行う。付加情報取り出しデコーダ１４は、前記音声伸張デコーダ１３のデコード出力信号から前記付加情報を取り出す処理（第２のデコード）を行う。

付加情報内容判定手段１５は、付加情報取り出しデコーダ１４の出力信号に付加情報が失われていないか否かを判定する。この判定の結果、付加情報が失われていない（ＯＫ）と判定した場合には、音声圧縮エンコーダ１２の出力信号を出力するように出力制御手段１６を制御する。

これに対して、前記判定の結果、付加情報が失われている（ＮＧ）と判定した場合には、音声圧縮エンコーダ１２の出力信号を出力させないように制御し、前記埋め込みあるいは圧縮のエンコード処理のパラメータを変更させるようにエンコードパラメータ変更手段１７を制御し、再び前記付加情報埋め込みあるいは圧縮のエンコード以後の処理ルーチンに戻り、判定の結果がＯＫとなるまで処理を繰り返す。

図２は、第１の実施形態に係る信号処理方法における圧縮伸張処理のためのエンコードの他の例について処理フローに沿う処理手段の一例を示すブロック図である。図２の処理フローにおいては、元の音声信号に対して付加情報をエンコード処理する際、まず、付加情報にデータ誤り検出訂正符号を付加して埋め込む。そして、付加情報が埋め込まれた信号に対して圧縮エンコード処理を施した後に伸張デコード処理を行い、さらに付加情報を取り出してデータ誤り検出訂正を行い、誤り検出訂正が可能な場合には圧縮エンコード処理の結果を出力し、誤り検出訂正が不可能な場合には前記埋め込みあるいは圧縮のエンコード処理の内容を変更して再びエンコード処理を行う。

図２の処理フローは、前述した図１の処理フローと比べて、付加情報埋め込みおよび／または圧縮を行うエンコーダ１０の処理に際してデータ誤り検出訂正符号を付加して埋め込む誤り検出訂正付加手段１８を設け、付加情報内容判定手段１５に代えて誤り検出訂正復号手段１９を設けている点が異なる。そして、誤り検出訂正復号手段１９は、付加情報取り出しデコーダ１４の出力信号に対してデータ誤り検出訂正を行う。この際、誤り検出訂正が可能な場合（ＯＫ）にはエンコーダ１０の圧縮出力信号を出力するように出力制御手段１６を制御する。これに対して、誤り検出訂正が不可能な場合（ＮＧ）には、エンコーダ１０の圧縮出力信号を出力させないように制御し、前記埋め込みあるいは圧縮のエンコード処理のパラメータを変更して再びエンコーダ１０によるエンコード以後の処理ルーチンに戻り、誤り検出訂正がＯＫとなるまで処理を繰り返す。

図３は、第１の実施形態に係る信号処理方法における圧縮伸張処理のためのエンコードのさらに他の例について処理フローに沿う処理手段の一例を示すブロック図である。ここでは、付加情報だけでなく、音声信号の品質も同時に確認するように拡張した例を示している。以下、処理フローに沿って各ステップを説明する。エンコーダ３１は、音声信号（元の音声信号）および付加情報が入力し、付加情報を音声信号に埋め込むようにエンコード処理し、エンコード結果を一時記憶手段３０に格納する。ここで、エンコード処理は、例えば図２を参照して前述したように、（ａ）音声信号（元の音声信号）に付加情報を埋め込むためのエンコード処理、（ｂ）エラー検出訂正符号を付加するためのエンコード処理、（ｃ）MP-3やAAC 等の圧縮方式を用いたデータ圧縮のためのエンコード処理を含み、付加情報埋め込み形式の信号に対して圧縮エンコード処理を施した信号を出力する。

ローカルデコーダ３２は、一時記憶手段３０に格納されたエンコーダ１１のエンコード結果をデコード処理する。ここで、デコード処理は、（ａ）データ伸張のためのデコード処理、（ｂ）音声信号および付加情報に分離するためのデコード処理、（ｃ）エラー検出訂正符号を抽出するためのデコード処理を含み、音声信号と付加情報を出力する。

第１の比較手段３３は、ローカルデコーダ３２のデコード出力のうち付加情報に対応する信号が入力し、この付加信号を元の付加情報と比較する。第１の判定手段３４は、第１の比較手段３３の比較結果に基づいて元の付加信号に対するエンコードの結果が正常であるか否かを判定する。この際、エンコードの結果が正常（ＹＥＳ）と判定した場合には、付加情報に対応する信号を出力するように出力制御手段３５を制御する。これに対して、エンコードの結果が正常でない（ＮＯ）と判定した場合には、埋め込みあるいは圧縮のエンコード処理のパラメータを変更して再びエンコーダ３１によるエンコード処理およびローカルデコーダ３２によるデコード処理を、エンコードの結果が正常（ＹＥＳ）になるまで繰り返す。

一方、第２の比較手段３６は、ローカルデコーダ３２のデコード出力のうち音声信号が入力し、この音声信号を元の音声信号と比較する。第２の判定手段３７は、第２の比較手段３６の比較結果に基づいて元の音声信号に対するエンコード結果が正常であるか否かを判定する。この際、エンコードの結果が正常である（ＹＥＳ）と判定した場合には、元の音声信号に対応する信号を音声出力装置（図示せず）へ出力するように出力制御手段３５を制御する。これに対して、エンコードの結果が正常でない（ＮＯ）と判定した場合には、埋め込みあるいは圧縮のエンコード処理のパラメータを変更して再びエンコーダ３１によるエンコード処理およびローカルデコーダ３２によるデコード処理を繰り返す。

なお、上記したように再びエンコード処理する際、パラメータを変更する場合には、パラメータを適宜変更して音質が一定レベル以下に低下しないようにチェックするようにしてもよい。

なお、ローカルデコーダ３２のデコード出力のうち音声信号に対応するチェック処理は、必ずしも必要ではなく、前記した比較・判定のステップを省略してもよい、つまり、第２の比較手段３６および第２の判定手段３７を省略してもよい。

上記した信号処理方法における処理機能は、ＣＰＵとプログラムを用いてソフトウェア的に構成したり、ハードウェアにより構成することが可能である。

ここで、音声信号として、デジタル化された音楽コンテンツの一例である無圧縮のデジタル音声データ、例えばCD品質の音声データを例にとると、各チャンネル毎に1 秒あたり44100 個の16ビット長のサンプルから構成されている。この音声データに対して、付加情報を埋め込むために、ステレオ音声信号のＬ成分とＲ成分の相関性や音声信号に含まれる位相情報、音声信号の時間軸成分の変化あるいは周波数成分などを利用する。

上記したような音声データに付加情報を埋め込む方法の一例は、音声データ入力をある一定長の区間、例えば2048サンプル毎のフレームに区切り、フレーム毎に当該フレームの時間位置を示す同期情報を付加する。そして、このように同期情報が付加された音声データのフレーム内に、当該音声データに関連する関連情報の埋め込みを行う。

上記した関連情報を埋め込む方法の一例は、音声データ入力の所定の第１の区間の信号および第２の区間の信号のパワー値をそれぞれ求め、両パワー値の差分値が第１の区間の信号のパワー値をＬ分割した値の奇数倍または偶数倍のいずれかになるように、第２の区間の信号のパワー値を設定制御することによって、入力信号に二値の付加情報を埋め込んで出力する。

上記したように付加情報が埋め込まれた音声データから付加情報を抽出する方法の一例は、音声データの第１の区間の信号および第２の区間の信号のパワー値をそれぞれ求め、両パワー値の差分値が一方の区間の信号のパワー値をＬ分割した値の奇数倍または偶数倍のいずれであるかを判定することにより、音声データに埋め込まれている二値の付加情報を取り出す。

上記した第１の実施形態に係る信号処理方法によれば、既に普及している音楽再生端末機器に対して、音声信号の圧縮伸張プロセスを経た後にも付加情報が失われないように埋め込むので、圧縮された音声ファイルの再生互換性を持たせつつ、新たな機能を加えることができる。しかも、エンコード処理に際して、ファイル圧縮エンコードによって付加情報が失われていないことを事前に確認することが可能になるので、信号処理方法やそれを適用するシステムの信頼性が高くなり、実用性が向上する。

したがって、DVD やムービーファイルなどの映像信号の音声部分を利用し、その音声部分に制御信号などの補助信号を埋め込む分野にも適用可能である。さらには、MP-3方式やAAC 方式等の音声圧縮伸張技術を用いたパッケージやファイル形式、ストリーミング形式の音声信号を取り扱う分野などに適用して有効である。着うたや着うたフル、着ムービーなどの再生が可能な携帯電話端末あるいはiPod、等の再生機器の応用にも期待できる。

具体的には、既存の携帯電話端末や携帯オーディオ機器向けのコンテンツ形式をそのまま利用した家庭用DJプレーヤ、文字表示型カラオケ、歌詞や解説などのテキスト表示装置、著作権管理システムなどの商品化の展開が可能となる。この場合、着信メロディや通信カラオケなどで制作されたMIDI規格の膨大なコンテンツ資産や、その制作ツールやノウハウを利用することが可能である。

なお、MIDI規格は、楽器演奏内容を、イベント駆動型の独自フォーマットにより伝送する方式であり、時間軸での波形の記録再生を行うオーディオの技術とは全く異なる。すなわち、MIDI規格によるタイミングの記述は、時間ではなく、テンポ（１分間の拍数）を用いており、様々な仕様を持つ再生音源（シンセサイザ）やテキスト色変わり表示等にて互換性を保つので、独特のインターフェス上の制約が存在する。

このようにMIDI技術は、オーディオ技術とはノウハウや特徴に大きな違いがあるが、本実施形態のような高度な付加価値を有する音楽配信のサービスに利用して展開することで大きな市場を創出することができる。具体的には、付加情報を利用したメッセージ付き音楽配信や、MIDI情報と音楽コンテンツの融合による楽器市場や、楽器演奏ロボットや演奏ロボット玩具などの新しい市場を創出することが可能である。

また、本実施形態のように、実際の音声信号そのものに音楽の内容に同期した補助情報を埋め込んだ場合は、埋め込まれた補助情報を消去するなどの悪意の攻撃は付加価値を消すことになるので、上記したような攻撃を受け難い。すなわち、本実施形態に係る音楽ファイルに対する攻撃は、音声の品質を劣化させたり、埋め込まれた補助情報による様々なメリットを消すだけであり、攻撃は不利を招く。これに対して、従来の「電子透かし」は、コピーを防ぐための情報が入っているので、これを消すための攻撃を受け易い。また、何処の部分を切り取ってコピーされても著作権情報を特定できるよう、著作権情報などの固定長情報を音声ストリーム全体にわたって繰り返し埋め込む技術であり、本実施形態の技術とは全く異なる。

なお、本実施形態において、音声信号の時間軸に沿って同期する形で埋め込む付加情報とMIDIデータとの関係は、埋め込みデータはMIDIデータ自体あるいはMIDIファイル自体ではなく、MIDIデータを別の形で表現したストリームとして埋め込む。

＜第２の実施形態＞
図４は、第２の実施形態に係る音声コンテンツ配信方法を適用したシステムの一例を示すブロック図である。このシステムは、元の音声信号（演奏音声信号）に関連するMIDI形式の演奏情報がデータハイディング技術を用いて当該音声信号中に付加情報として埋め込まれた音声コンテンツを、送信側２１から伝送経路（例えばインターネットなどのネットワーク２２、携帯電話通信網など）を通じて受信側２３へ配信するものである。

このシステムにおいて、付加情報は、元の音声信号に時間軸上で同期するように、かつ、少なくとも、音声コンテンツ（本例では、音声デジタルコンテンツ）をファイルに記録する処理、当該ファイルに対する圧縮／伸長、フォーマット変換等の配信に関する一連の処理を行った場合でも付加情報が失われないように元の音声信号に埋め込まれている。

送信側２１では、複数の音声コンテンツの各コンテンツ毎に、元の音声信号に関連する付加情報を埋め込んだファイルを含むデータファイル２１１と、当該データファイルの中から選択指定されたファイルをネットワーク２２を通じて受信側２３へ供給するファイル送信手段（サーバーコンピュータ）２１２とを具備している。

また、受信側２３では、送信側２１のデータファイル２１１に含まれる所望の音声コンテンツに対応するファイルを、ネットワーク２２を通じて選択指定することによってダウンロードするファイル受信手段２３１と、このファイル受信手段によりダウンロードされたファイルから元の音声信号および付加情報を抽出する情報抽出手段２３２と、この情報抽出手段２３２により抽出された元の音声信号を再生する音声再生手段２３３と、情報抽出手段２３２により抽出された付加情報に基づいて表示あるいは楽器演奏ロボットの動作制御などを行う付加情報利用手段、本例では演奏手段２３４と、を具備する。ここで、ファイル受信手段２３１は、パーソナルコンピュータ（パソコン）や携帯電話器などの受信端末機器のダウンロード機能を用いることができる。同様に、情報抽出手段２３２、音声再生手段２３３、演奏手段２３４の各機能は、受信端末機器のＣＰＵとプログラムを用いてソフトウェア的に実現したり、ハードウェア的に実現することが可能である。

次に、本実施形態の適用例として、ドラム、ベース、ギター、ボーカルからなる４人編成の音楽バンドを、演奏用のロボットあるいは演奏用の玩具などの演奏手段２３４を利用して演奏させるロボットバンドを考える。

この場合、一例として、送信側２１のデータファイル２１１は、各コンテンツ毎に、受信側で必要とする演奏パートの数に応じて様々なファイルＡ，Ｂ，Ｃ１，Ｃ２…が用意される。そして、受信側では、必要とする演奏パートの演奏情報（付加情報）と演奏音声（音声情報）との組み合わせが異なる複数のファイルＡ，Ｂ，Ｃ１，Ｃ２…の中から、所望の組合せのファイルを選ぶことができる。

なお、音楽配信の音声は、通常はステレオ２チャンネルＬ／Ｒの信号であるので、１６チャンネルや３２チャンネルといったマルチトラックの音声ではない。したがって、選択された演奏パートの音声のみがミックスされたステレオ音声を用意する必要がある。

受信側２３のファイル受信手段２３１は、所望の音声コンテンツに対応するファイルの中から、受信側２３の演奏環境に対応した演奏パートの演奏情報が付加された所望のファイルを、ユーザ操作または自動判定に基づいて生成されるアップロード信号により選択指定してダウンロードする機能を有するものとする。

上記ロボットバンドの利用に際して、ユーザ側のシステム環境として、最初は、ユーザの好きな演奏パートに対応する楽器として例えばユーザがドラム用のロボットのみを購入している場合を想定する。この場合には、まず、ドラムの演奏パートの演奏情報が付加情報として含まれているファイルＢを選択指定してダウンロードする。このファイルＢを音声再生手段２３３で再生した場合、ドラム用ロボットが実際に出す音をドラムの演奏音として利用する。そして、ベース、ギター、ボーカルがミックスされた再生音声（ドラム音は含まれない）がドラム用ロボットの例えば背後に設置されたスピーカから出力される。

次に、ユーザがギター用のロボットを追加購入した場合を想定する。この場合には、ドラムとギターの演奏パートの演奏情報が付加情報として含まれているファイルＣ１を選択指定してダウンロードする。このファイルＣ１を音声再生手段２３３で再生した場合、ドラム用ロボットとギター用のロボットが実際に出す音を、ドラムとギターの演奏音として利用する。そして、ベース、ボーカルがミックスされた再生音声（ドラム音、ギター音は含まれない）がスピーカから出力される。

このように、ユーザがどのロボットを揃えているかによって、スピーカから流す音声の中身が変わってくる。したがって、実際にユーザが購入済みのロボットの内容、あるいは購入しているが接続されていないロボット、あるいは故障しているロボットの情報などをサーバ側に送ることにより、その都度、ユーザ側の環境に最適の音楽ファイルをダウンロードすることができる。

上記したように本実施形態によれば、実際の音声ストリームそのものに音楽の内容に同期した補助情報をMIDI規格を利用して埋め込んだり、演奏やテキスト情報などの音楽に関わる補助情報を、音楽の進行内容に合わせてオンライン（リアルタイム）で、あるいはオフラインで取り出すことが可能になるという独自性を有している。

また、ユーザにとっては、本実施形態に係る音楽ファイルを複写したり、CDから携帯電話端末など他のメディアに移しても、補助情報が残るメリットがある。また、ユーザにとっては、従来の音楽コンテンツとの互換性を持ち、かつ、既存の携帯電話の着うたや携帯オーディオ機器などの音楽配信のインフラを利用できるので、コンテンツ購入先の変更やハードウエアを新たに買い換える必要がない。

なお、送信側２１において元の音声信号に付加情報を埋め込む処理は、例えば前述した第１の実施形態に係る音声信号処理方法を用いて行うことができるものであり、この場合には音声コンテンツシステムの信頼性が高くなり、実用性が向上する。

また、上記例に限らず、受信側２３で、演奏用ロボットに代えて、所望の演奏パートに対応する演奏情報に合わせて表示装置に表示される画像を動かせるように変更してもよい。また、各コンテンツ毎に、元の音声信号に関連する付加情報として例えば歌詞や楽譜の情報を埋め込んでおけば、受信側２３で所望の音楽配信コンテンツに対して音楽に合わせてリアルタイムで歌詞や楽譜を表示させ、自分が演奏したい楽器の楽譜を表示しつつ、自分の楽器の演奏音のみ取り去った、ミュージックマイナスワンシステムやカラオケシステムを提供することも可能になる。

＜第２の実施形態の変形例＞
前述した第２の実施形態において、音声コンテンツの受信側を次のように変形実施してもよい。すなわち、受信側のファイル受信手段２３１は、所望の音声コンテンツに対応する全てのファイルをユーザ操作に基づいて生成されるアップロード信号により選択指定してダウンロードする。

受信側の情報抽出手段２３２は、ダウンロードされたファイルの中から、受信側の演奏環境に対応した演奏パートの演奏情報が付加された所望のファイルを、ユーザ操作または自動判定に基づいて選択指定して元の音声信号と演奏情報を抽出する。

このような第２の実施形態の変形例においても、前述した第２の実施形態と基本的に同様の効果が得られる。また、所望の音声コンテンツに対応する全てのファイルを一括してダウンロードしておくので、ユーザのシステム環境の変化毎に、変化に対応して所望のファイルをダウンロードする作業が不要になる。

なお、本発明において、いずれの実施例にもかかわらず、音声信号としては、音楽配信に限らず、デジタルラジオやインターネットラジオ、テレビ放送の音声部分、あるいはロボットの発音する音声、街に流れている音声や電話の音声通話でも音が伝送できるものであれば良い。さらに、本発明は、デジタル信号のストリームへの埋め込み抽出だけでなく、デジタル／アナログ変換後のアナログ音声から付加情報を取り出すように拡張することも可能である。このようにすれば、通常のヘッドホン端子から出力するアナログ音声ストリームから付加情報を取り出すことが可能になり、既存の携帯電話やラジカセやミニコンポなど、ポータブルオーディオなど既存の全てのオーディオ機器をそのまま利用することができる。なお、音声の配信方法はストリーミング形式でもファイル形式でも構わない。

本発明は、DVD やムービーファイルなどの映像信号の音声部分を利用し、その音声部分に制御信号などの補助的信号を埋め込む分野に適用可能である。さらには、CDに記録されたオーディオデータ、あるいはパソコンで扱うwave形式などの非圧縮オーディオや、DVDや音楽配信、携帯デジタル音楽プレーヤ、着うたなどのようにMP-3やAAC 等のオーディオ圧縮伸張技術を用いたパッケージやファイル形式、あるいはファイル配信やストリーミングなどの音声信号を伝達・配信する分野に適用可能である。例えば、着うたなどの歌詞（解説やアーティストメッセージ）表示付きの音楽コンテンツ販売、MP-3/AAC等のオーディオ圧縮伸張技術を用いたカラオケサービス、歌詞表示音楽配信サービス、楽器演奏ロボット玩具の商品化、演奏情報付き音楽コンテンツの販売、ビートタイミング付き音楽コンテンツの販売、などの分野に適用可能である。

本発明の第１の実施形態に係る信号処理方法の一例における処理フローに沿う処理手段の一例を示すブロック図。本発明の第１の実施形態に係る信号処理方法の他の例における処理フローに沿う処理手段の一例を示すブロック図。本発明の第１の実施形態に係る信号処理方法のさらに他の例における処理フローに沿う処理手段の一例を示すブロック図。本発明の第２の実施形態に係る音声コンテンツ配信方法を適用したシステムの一例を示す図。

符号の説明

２１…送信側、２１１…データファイル、２１２…ファイル送信手段、２２…ネットワーク、２３…受信側、２３１…ダウンロード手段、２３２…情報抽出手段、２３３…音声再生手段、２３４…付加情報利用手段。

Claims

元の音声信号または映像信号に関連する付加情報が当該信号中に埋め込まれた付加情報埋め込み形式の信号を取り扱う信号処理方法であって、
前記元の音声信号または映像信号に付加情報を埋め込む際、前記付加情報が元の信号に時間軸上で同期し、かつ、前記付加情報が埋め込まれた信号に対して圧縮伸張処理を施しても付加情報が失われない形式で、元の信号に対して付加情報をエンコード処理することを特徴とする信号処理方法。
前記エンコード処理に際して、前記付加情報にデータ誤り検出符号あるいはデータ誤り検出訂正符号を付加して埋め込んだ後、圧縮エンコード処理を施した後に伸張デコード処理を行い、さらに前記付加情報を取り出してデータ誤り検出あるいはデータ誤り検出訂正を行い、誤りがない場合あるいは誤り訂正が可能な場合には前記圧縮エンコード処理の結果を出力し、誤りである場合あるいは誤り訂正が不可能な場合には前記埋め込みあるいは圧縮のエンコード処理の内容を変更して再びエンコード処理を行うことを特徴とする請求項１記載の信号処理方法。
前記付加情報は、歌詞情報、解説情報、アーティストのメッセージ情報、楽譜情報、楽音演奏情報、著作権管理情報、ロボットや玩具の動作制御情報、音声合成情報、機器の点滅表示制御情報、振動制御情報、読み上げ音声の元の文章のテキスト情報、抽選番号情報、広告情報の少なくとも１つの情報を含むことを特徴とする請求項１または２に記載の信号処理方法。
元の音声信号に関連する付加情報が当該音声信号中に付加情報として埋め込まれた音声コンテンツを、送信側から受信側へ配信する音声コンテンツ配信方法において、
前記付加情報は、演奏音声信号に関連する演奏パートの演奏情報であり、前記演奏音声信号に時間軸上で同期し、かつ、前記付加情報が埋め込まれた信号に対して音声圧縮伸張処理を施しても内容が失われない形式で埋め込まれており、
前記送信側では、前記受信側で必要とする演奏パートの数に応じて、演奏情報と演奏音声信号との組み合わせが異なる複数のファイルを用意し、当該複数のファイルの中から選択指定されたファイルを送信することを特徴とする音声コンテンツ配信方法。