WO2005098854A1

WO2005098854A1 - 音声再生装置、音声再生方法及びプログラム

Info

Publication number: WO2005098854A1
Application number: PCT/JP2005/006685
Authority: WO
Inventors: Kazuo Fujimoto; Tomoyuki Okada; Taro Katayama
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-04-06
Filing date: 2005-04-05
Publication date: 2005-10-20
Also published as: JP3892478B2; US7877156B2; CN1942962A; KR20070003958A; KR100762608B1; EP1734527A1; EP1734527A4; US20080037151A1; JPWO2005098854A1; CN100505064C

Abstract

　本発明は、複数のデジタルの音声信号を同期させて再生する音声再生装置を提供する。　音声再生装置は、一つの時間軸の上に、複数の音声信号それぞれの複数のオーディオ再生時刻情報を、音声信号毎に隣接するオーディオ再生時刻情報それぞれが示す再生時刻の差を保持した状態で割り当てることにより、複数の音声信号を同期させる同期設定部１１と、上記時間軸の上に割り当てられた複数のオーディオ再生時刻情報を利用して、複数の音声信号を合成する音声合成部６とを備える。

Description

明細書

音声再生装置、音声再生方法及びプログラム技術分野

[0001] 本発明は、圧縮符号化されたデジタルの音声信号を再生する音声再生装置に関する。

背景技術

[0002] 近年、 CD— ROMや、 DVD-ROM,ハードディスク等の各種記録媒体に圧縮されて記録されたデジタルのオーディオ信号及びビデオ信号を読み取って伸張し、伸張した信号を、自らに接続されているディスプレイ及びスピーカ等を通じて再生する再生装置が広く普及してきて!/、る。

[0003] また、 BSデジタル放送、 CSデジタル放送、地上デジタル放送等の圧縮されたデジタルのオーディオ信号及びビデオ信号を、記録して再生する装置も普及してきた。

[0004] オーディオ信号及びビデオ信号をデジタル信号に符号ィ匕して圧縮し、その後にその信号を復号するための既知の規格として、 MPEGが知られている。 MPEGでは、多重化されて圧縮符号化されたオーディオ信号とビデオ信号とをデコードした後にォ一ディォ信号とビデオ信号とを同期させて再生するために、オーディオ信号及びビデォ信号それぞれは、符号時に、信号の再生及び表示を実行する時刻の情報 (以下、「時刻情報」という。）が付加されて圧縮される。これにより、圧縮符号化されたデジタルのオーディオ信号及びビデオ信号を伸張する場合、再生装置は、自身が有するシステム時刻基準参照値を基準にし、時刻情報を参照してオーディオ信号とビデォ信号とを同期させながら再生する。

[0005] 以下に、従来の再生方法について説明する。なお、出願人は、特許文献 1に開示されている画像及び音声の再生方法を認識しており、本発明の課題を明確にするために、特許文献 1に開示されている再生方法を従来例として簡単に説明する。その方法では、撮影時のアングルが異なる第 1及び第 2の画像を再生するために、各々のアングルに対応するビデオ信号を別々の動画像復号手段に入力して復号し、別々に復号された画像を結合して一つの画面に表示する。オーディオ信号についても、同様にして、複数のオーディオ信号を別々の音声復号手段で同時に復号して再生する。

[0006] 以下に、従来の音声の再生方法について図 1を用いて説明する。図 1は、その再生方法を行なうデュアルオーディオデコーダ 183の構成を示すブロック図である。図 1を参照して、デュアルオーディオデコーダ 183の具体的な構成を説明する。デュアルォ一ディォデコーダ 183には、第 1のオーディオデコーダ 183a及び第 2のオーディオデコーダ 183bと、第 1の音声選択回路 183c及び第 2の音声選択回路 183dとが設けられている。例えば、日本語と英語の 2つのオーディオ信号を同時に再生する場合、日本語音声の信号である第 1のオーディオ信号は第 1のオーディオデコーダ 183a に入力され、そこでデコードされる。それと同時に、英語音声の信号である第 2のォーディォ信号は第 2のオーディオデコーダ 183bに入力され、そこでデコードされる。

[0007] これらデコードされた第 1及び第 2のオーディオ信号は、第 1の音声選択回路 183c 及び第 2の音声選択回路 183dによって処理される。例えば、音声の出力チャンネルが左右 1チャンネルずつである場合、第 1及び第 2のオーディオ信号は、それぞれがモノラルで 1チャンネルずつ出力するように処理される。又は、第 1及び第 2の何れか一方のみのオーディオ信号が 2チャンネルステレオで出力するように処理される。また、音声の出力チャンネルが左右 1チャンネルずつよりも多い場合、第 1及び第 2のオーディオ信号は、ステレオとモノラルの組み合わせ等で出力するように処理される。

[0008] 更に、ドルビーデジタル方式の 5 + 1チャンネル構成のオーディオデータについては、第 1の音声選択回路 183c及び第 2の音声選択回路 183dは、出力可能な 5 + 1 チャンネルに対して、ステレオ 2チャンネルずつを出力したり、一方のオーディオデータの 5 + 1チャンネルのみを選択して出力したりすることができる。

特許文献 1 :特開平 10— 145735号公報 (第 10— 11頁、第 4図、第 8図、第 9図）発明の開示

発明が解決しょうとする課題

[0009] 特許文献 1は、複数のアングル力ものデータを、複数の動画像復号手段で復号し、それらを映像データ結合手段によって結合して表示する方法にっ、て説明して、る。また、特許文献 1は、動画データに言語の異なる複数の音声データが付加されている場合、各々の音声データを複数の音声復号手段で復号し、各々を混合して再生する方法、及び何れかを選択して再生する方法にっヽて説明して！/、る。

[0010] し力しながら、特許文献 1では、 2種類のデータを混合するための詳細な実現手段や、再生の同期を確立する手段については、具体的に述べられていない。音声だけに限定しても、再生する 2種類の音声データのサンプリングレートが異なっていた場合の混合方法や、各音声データの混合比、サラウンド音声とステレオ音声とのようにチャンネル数の異なる音声データの混合方法、混合区間、各々の音声データの同期の合わせ方について、何ら説明が無い。

[0011] 例えば、再生しょうとする音声が DVDのマルチ音声であったとしても、第 1音声がドルビーデジタル方式で圧縮符号化され、第 2音声がリニア PCMで符号化されて、る場合、第 1音声をサンプリングレート 48KHzで 5. lchのサラウンド音声で、第 2音声を 96KHzで 2chのステレオ音声で混合するためには、どちらかのサンプリングレートに一致させる処理や、混合する先を設定するための処理が必要である。

[0012] 何れにしても、複数のデジタルの音声信号を合成して再生する場合、複数の音声信号を同期させて再生する必要があるが、これまでは、それを実現する手段が存在しない。

[0013] 本発明は、上記課題を考慮し、複数のデジタルの音声信号を同期させて再生する音声再生装置を提供することを目的とする。

課題を解決するための手段

[0014] 第 1の本発明の音声再生装置は、音声信号を再生して出力する装置であって、一つの時間軸の上に、複数の音声信号それぞれの複数のオーディオ再生時刻情報を、音声信号毎に隣接する前記オーディオ再生時刻情報それぞれが示す再生時刻の差を保持した状態で割り当てることにより、前記複数の音声信号を同期させる同期手段と、前記時間軸の上に割り当てられた複数の前記オーディオ再生時刻情報を利用して、前記複数の音声信号を合成する合成手段とを備える。このように、本発明の音声再生装置は、一つの時間軸の上に、複数の音声信号それぞれの複数のオーディォ再生時刻情報を割り当てるので、複数のデジタルの音声信号を同期させて再生することがでさる。 [0015] 第 2の本発明の音声再生装置は、前記時間軸が、前記複数の音声信号のうちの何れか一つの音声信号の複数の前記オーディオ再生時刻情報によって特定される時間軸であって、前記同期手段が、前記何れか一つの音声信号の前記オーディオ再生時刻情報によって特定される時間軸の上に、他の音声信号の前記複数のオーディォ再生時刻情報を割り当てる、装置である。このように、他の音声信号のオーディオ再生時刻情報を、主なる音声信号のオーディオ再生時刻情報に合わせることにより、複数の音声を同期させることができる。

[0016] 第 3の本発明の音声再生装置は、前記時間軸が、可変速再生されている前記何れか一つの音声信号の複数の前記オーディオ再生時刻情報によって特定される時間軸である、装置である。これは、可変速再生の場合においても、可変速再生されている音声信号のオーディオ再生時刻情報を利用してデコードすることにより、複数の音声信号を同期させることができるという作用を有する。

[0017] 第 4の本発明の音声再生装置は、前記複数の音声信号はビデオ信号と多重化されており、前記時間軸が、前記ビデオ信号の複数のビデオ再生時刻情報によって特定される時間軸であって、前記同期手段が、前記ビデオ再生時刻情報によって特定される時間軸の上に、前記複数の音声信号それぞれの前記複数のオーディオ再生時刻情報を割り当てる、装置である。これは、再生映像の出力に合わせて、音声同期をはかるという作用を有する。

[0018] 第 5の本発明の音声再生装置は、前記時間軸が、可変速再生されている前記ビデォ信号のビデオ再生時刻情報によって特定される時間軸である、装置である。これは、スキップ再生した映像出力に合わせて、スキップ時点での再生映像に対して音声同期をはかるという作用を有する。

[0019] 第 6の本発明の音声再生装置は、前記時間軸が、可変速しているシステム時刻基準参照信号によって特定される時間軸である、装置である。これは、システム全体の基準となるシステム時刻基準参照信号を可変とすることで、映像と音声の同期をはかるという作用を有する。

[0020] 第 7の本発明の音声再生装置は、更に、前記複数の音声信号のうちの何れか一つの音声信号のサンプリングレートに合わせて、他の音声信号のサンプリングレートを変換するサンプリングレート変換手段を備え、前記合成手段は、前記何れか一つの音声信号と、前記サンプリングレート変換手段によって変換された前記他の音声信号とを合成する、装置である。これにより、複数の音声を一つの音声のサンプリングレートに合わせた再生が可能となる。コンテンツそのものに主音声か、コメンタリ等の副音声かの種別が記録されている場合、例えば主音声のサンプリングレートに合わせて複数の音声を再生すれば、コメンタリ等の副音声の有り無しにかかわらず、ユーザは、一定のサンプリングレートで複数の音声を聞き取ることができる。

[0021] 第 8の本発明の音声再生装置は、前記何れか一つの音声信号は、前記複数の音声信号のうちの、連続した音声再生区間が最も長い音声信号である、装置である。コメンタリ等の副音声は特定のシーンの解説等、主音声を補助する目的で挿入される場合があり、主音声に対して音声再生区間が短いことが想定される。そのため、再生区間が長い方を選択すれば、途中でのサンプリングレートを変更する回数を減少させることができる。

[0022] 第 9の本発明の音声再生装置は、前記何れか一つの音声信号は、前記複数の音声信号のうちの、音声再生区間の間欠が最も少ない音声信号である、装置である。例えば、音声再生区間の間欠が最も少ない音声信号を主として、シーンごとに間欠したコメンタリ再生区間をもつ音声を再生する場合、間欠した音声信号のサンプリングレートを、間欠が最も少ない音声信号 (間欠がない音声信号を含む）に合わせるようにレート変換すれば、途中でのサンプリングレートを変更する回数を減少させることができる。

[0023] 第 10の本発明の音声再生装置は、前記何れか一つの音声信号は、前記複数の音声信号のうちの、最も高いサンプリングレートを有する音声信号である、装置である。これは、高音質の音声はそのままとして、他の音声のアップサンプリングを行ない、音質をできるだけ保つという作用を有する。

[0024] 第 11の本発明の音声再生装置は、前記何れか一つの音声信号は、前記複数の音声信号のうちの、最も低いサンプリングレートを有する音声信号である、装置である。これは、音声出力のための伝送帯域が限られている場合等、低いサンプリングレートにあわせて変換することで、音声を伝送するデータ量を減らす作用を有する。 [0025] 第 12の本発明の音声再生装置は、前記何れか一つの音声信号は、前記複数の音声信号のうちの、サンプリングレートが変わらない音声信号である、装置である。途中でサンプリングレートが変更されると、レート再生の変化点において、音声ミュートが必要な場合がある。これは、レート変更されないほうを主として選択し、音声の連続再生を保つという作用を有する。

[0026] 第 13の本発明の音声再生装置は、更に、前記複数の音声信号のうちの何れか一つの音声信号に他の音声信号を加算することにより前記複数の音声信号を合成する場合、前記何れか一つの音声信号の再生出力レベルを、前記他の音声信号を加算する部分のみ減ずる出力レベル調整手段を備える。これにより、加算される側の音声を強調して聞くことができる。例えば、合成した解説音声を注意深く聞きたいとき等、解説音声の再生音声レベルを高くし、主音声の再生音声レベルを減じるという作用を有する。

[0027] 第 14の本発明の音声再生装置は、前記出力レベル調整手段は、前記何れか一つの音声信号に対して前記他の音声信号を合成する場合であって、利用者によって前記他の音声信号の再生出力レベルをより大きく設定されたとき、前記何れか一つの音声信号の再生出力レベルを、前記他の音声信号の再生出力レベルの増加分減じる、装置である。これは、一方を増カロさせながら、他方をそのままの音量で加算すると、加算音声の一部にて、音声クリッピング等の音声ひずみが発生し、非常に聞きにく V、音声となることを防ぐと!、う作用がある。

[0028] 第 15の本発明の音声再生装置は、更に、前記複数の音声信号のうちの何れか一つの音声信号の再生信号チャンネル数に合わせて、他の音声信号の再生信号チヤンネル数を統合又は分配する統合分配手段を備える。これは、互いの再生信号の再生チャンネル数が異なっても、音声ひずみを起こすことなぐ特定の音声信号のチヤンネルへの加算を実現するという作用を有する。

[0029] 第 16の本発明の音声再生装置は、更に、前記音声再生装置に接続される音声出力装置のチャンネル数に合わせて、各前記音声信号の再生信号チャンネル数を統合又は分配する統合分配手段を備える。これは、利用者の音声出力装置のチャンネル数 (例えば、スピーカ接続数）に合わせて、再生信号チャンネル数を統合又は分配を行ない、音声合成をはかる。

[0030] 第 17の本発明の音声再生装置は、前記統合分配手段は、利用者による前記音声出力装置の音声出力指定チャンネルに合わせて、各前記音声信号の再生信号チヤンネル数を統合又は分配する、装置である。これは、利用者の音声出力装置のうち、再生をしたいチャンネル数 (例えば、スピーカ接続数）に合わせて、再生信号チャンネル数を統合又は分配し、合成をはかる。

[0031] また、本発明は、本発明の音声再生装置の特徴的な構成手段をステップとする音声再生方法として実現したり、それらのステップをコンピュータに実行させるプロダラムとして実現することもできる。プログラムは、 CD— ROM等の記録媒体や通信ネットワーク等の伝送媒体を介して流通させることもできる。発明の効果

[0032] 本発明は、複数のデジタルの音声信号を同期させて再生する音声再生装置を提供することができる。つまり、本発明の音声再生装置は、サンプリングレートや、符号化方式が異なる複数の音声信号の混合、及び可変速度再生における複数の音声信号の同期再生を実行することができる。

図面の簡単な説明

[0033] [図 1]図 1は、従来の音声再生方法を行なうデュアルオーディオデコーダの構成図である。

[図 2]図 2は、実施の形態 1における画像音声再生装置の構成を表すブロック図である。

[図 3]図 3は、実施の形態 1における映像と音声の同期再生方法を示す流れ図である

[図 4]図 4は、実施の形態における音声再生データの格納方法を説明するための図である。

[図 5]図 5は、実施の形態における複数の画像を重ねた例を示す図である。

[図 6]図 6は、実施の形態における本編の映像及びコメンタリ映像が映し出される時間的な関係の一例を示す図である。

[図 7]図 7は、実施の形態 1及び 4における、本編の映像に対してコメンタリ映像を重ねる画像再生装置の構成を示すブロック図である。

[図 8]図 8は、各実施の形態における主音声と副音声とを重ねる音声再生装置の構成図である。

[図 9]図 9は、主音声のオーディオ再生時刻情報と副音声のオーディオ再生時刻情報との関係を示す図である。

[図 10]図 10は、主音声及び副音声の音声ストリームに、オーディオ再生時刻情報が付加されて、る様子を示す図である。

[図 11]図 11は、実施の形態 1における音声加算方法を説明するための加算出力部の構成例を示す図である。

圆 12]図 12は、実施の形態 1の音声再生装置と外部接続機器との接続を説明するための図である。

[図 13]図 13は、音声の統合を説明するための図である。

[図 14]図 14は、音声の分配を説明するための図である。

圆 15]図 15は、実施の形態 1の音声再生装置と外部接続機器との接続を説明するための図である。

[図 16]図 16は、主音声が終了した後でも副音声がまだ終了していない様子を示す図である。

[図 17]図 17は、効果音が主音声に合成される様子を示す図である。

[図 18]図 18は、音声信号の合成及び統合を説明するための図である。

[図 19]図 19は、複数の音声信号が記録されて、る DVDを示す図である。

[図 20]図 20は、実施の形態 2における、可変速度処理の前又は後で主音声に副音声を加算して音声合成する処理を示す流れ図である。

[図 21]図 21は、実施の形態 2及び 3におけるオーディオ出力処理部により可変速制御を行なう方法を説明するためのブロック図である。

[図 22]図 22は、実施の形態 2のオーディオ可変速処理の原理を説明するための図である。

[図 23]図 23は、実施の形態 4における複数映像の同期再生方法を示す流れ図である。符号の説明

[0034] 1 入力部

2 オーディオバッファ部 A

3 オーディオバッファ部 B

4 オーディオデコーダ部 A

5 オーディオデコーダ部 B

6 音声合成部

7 レート変換部

8 加算比処理部 A

9 加算比処理部 B

10 加算出力部

発明を実施するための最良の形態

[0035] 以下に、本発明を実施するための最良の形態について、図面を用いて説明する。

(実施の形態 1)

はじめに、実施の形態 1における画像音声再生装置の構成を示すブロック図である図 2を主として参照しながら、実施の形態 1の画像音声再生装置の構成、並びに、画像再生方法及び音声再生方法について説明する。なお、本発明は複数のデジタルの音声信号を同期させて再生する技術に関する発明であるが、その技術を詳細に説明する前に、ビデオ信号とオーディオ信号とが多重化された信号を再生する技術について説明する。

[0036] 図 2は実施の形態 1における画像音声再生装置の構成を示すブロック図である。実施の形態 1における画像音声再生装置は、ビデオ信号とオーディオ信号とが多重化された信号を再生する装置であって、図 2に示すように、入力部 1と、ビデオバッファ部 A102と、ビデオバッファ部 B103と、ビデオデコード部 A104と、ビデオデコード部 B105と、画像合成部 106と、オーディオバッファ部 A2と、オーディオバッファ部 B3と、オーディオデコード部 A4と、オーディオデコード部 B5と、音声合成部 6とで構成されている。

[0037] ビデオバッファ部 A102、ビデオバッファ部 B103、ビデオデコード部 A104、ビデオデコード部 B105、及び画像合成部 106は、ビデオ信号を処理する構成部である。ォ一ディォバッファ部 A2、オーディオバッファ部 B3、オーディオデコード部 A4、オーディォデコード部 B5、及び音声合成部 6は、オーディオ信号を処理する構成部である。

[0038] 入力部 1は、各種符号化方式で符号化されたコンテンツや、デジタル放送等の圧縮符号ィ匕されたデジタルのオーディオ信号及びビデオ信号を格納する光ディスク等のデータ記録装置等（図示せず)からの、多重化されて!/ヽるオーディオ信号及びビデォ信号の供給を受ける構成部である。また、入力部 1は、多重化されているオーディォ信号及びビデオ信号を、ビデオ信号とオーディオ信号とに分離し、ビデオ信号からビデオ再生時刻情報を抽出し、オーディオ信号からオーディオ再生時刻情報を抽出する。実施の形態 1では、入力部 1へ入力されるビデオ信号及びオーディオ信号は、それぞれ 2チャンネルの信号であると仮定する。したがって、入力部 1は、多重化されて、るオーディオ信号及びビデオ信号を、チャンネル毎にビデオ信号とオーディオ信号とに分離する。

[0039] 次に、ビデオ信号を処理する、ビデオバッファ部 A102、ビデオバッファ部 B103、ビデオデコード部 A104、ビデオデコード部 B105、及び画像合成部 106それぞれについて説明する。

[0040] ビデオバッファ部 A102は、入力部 1によって分離された第 1のチャンネルのビデオ信号を格納する構成部である。ビデオバッファ部 A102は、第 1のチャンネルのビデォ信号のうちのビデオ再生時刻情報を格納するビデオ再生時刻情報管理部 A121と、第 1のチャンネルのビデオ信号のうちの圧縮されたビデオデータを格納する圧縮ビデォバッファ部 A122とで構成されている。ビデオ再生時刻情報管理部 A121は、第 1のチャンネルの圧縮ビデオデータとビデオ再生時刻情報とを関連付けるテーブルを有している。

[0041] ビデオバッファ部 B103は、入力部 1によって分離された第 2のチャンネルのビデオ信号を格納する構成部である。ビデオバッファ部 B103は、第 2のチャンネルのビデォ信号のうちのビデオ再生時刻情報を格納するビデオ再生時刻情報管理部 B131と、第 2のチャンネルのビデオ信号のうちの圧縮されたビデオデータを格納する圧縮ビデォバッファ部 B132とで構成されている。ビデオ再生時刻情報管理部 B131は、第 2のチャンネルの圧縮ビデオデータとビデオ再生時刻情報とを関連付けるテーブルを有している。

[0042] ビデオデコード部 A104は、圧縮ビデオバッファ部 A122に格納されている第 1のチヤンネルの圧縮ビデオデータの属性情報 (ビデオヘッダ情報)を解析し、圧縮ビデオデータを、ビデオ再生時刻情報管理部 A121に格納されているビデオ再生時刻情報に従って伸張する構成部である。ビデオデコード部 A104は、伸張したビデオデータを格納するフレームバッファ部 A141を有して!/、る。

[0043] ビデオデコード部 B105は、圧縮ビデオバッファ部 B132に格納されている第 2のチヤンネルの圧縮ビデオデータの属性情報 (ビデオヘッダ情報)を解析し、圧縮ビデオデータを、ビデオ再生時刻情報管理部 B 131に格納されて、るビデオ再生時刻情報に従って伸張する構成部である。ビデオデコード部 B105は、伸張したビデオデータを格納するフレームバッファ部 B151を有している。

[0044] 画像合成部 106は、ビデオデコード部 A104及びビデオデコード部 B105によって伸張された各ビデオデータを合成して外部の表示部に出力する構成部である。

[0045] 次に、オーディオ信号を処理する、オーディオバッファ部 A2、オーディオバッファ部 B3、オーディオデコード部 A4、オーディオデコード部 B5、及び音声合成部 6それぞれについて説明する。

[0046] オーディオバッファ部 A2は、入力部 1によって分離された第 1のチャンネルのォーディォ信号を格納する構成部である。オーディオバッファ部 A2は、第 1のチャンネルのオーディオ信号のうちの圧縮されたオーディオデータを格納する圧縮オーディオバッファ部 A21と、第 1のチャンネルのオーディオ信号のうちのオーディオ再生時刻情報を格納するオーディオ再生時刻情報管理部 A22とで構成されてヽる。オーディォ再生時刻情報管理部 A22は、第 1のチャンネルの圧縮オーディオデータとオーディォ再生時刻情報とを関連付けるテーブルを有している。

[0047] オーディオバッファ部 B3は、入力部 1によって分離された第 2のチャンネルのォーディォ信号を格納する構成部である。オーディオバッファ部 B3は、第 2のチャンネルのオーディオ信号のうちの圧縮されたオーディオデータを格納する圧縮オーディオノッファ部 B31と、第 2のチャンネルのオーディオ信号のうちのオーディオ再生時刻情報を格納するオーディオ再生時刻情報管理部 B32とで構成されてヽる。オーディォ再生時刻情報管理部 B32は、第 2のチャンネルの圧縮オーディオデータとオーディォ再生時刻情報とを関連付けるテーブルを有している。

[0048] オーディオデコード部 A4は、圧縮オーディオバッファ部 A21に格納されて、る第 1 のチャンネルの圧縮オーディオデータの属性情報 (ビデオヘッダ情報）を解析し、圧縮オーディオデータを、オーディオ再生時刻情報管理部 A22に格納されて、るォ一ディォ再生時刻情報に従って伸張する構成部である。オーディオデコード部 A4は、伸張したオーディオデータを格納する PCMバッファ部 A41を有している。

[0049] オーディオデコード部 B5は、圧縮オーディオバッファ部 B31に格納されている第 2 のチャンネルの圧縮オーディオデータの属性情報 (ビデオヘッダ情報）を解析し、圧縮オーディオデータを、オーディオ再生時刻情報管理部 B32に格納されて、るォ一ディォ再生時刻情報に従って伸張する構成部である。オーディオデコード部 B5は、伸張したオーディオデータを格納する PCMバッファ部 B51を有している。

[0050] 音声合成部 6は、オーディオデコード部 A4及びオーディオデコード部 B5によって伸張された各オーディオデータを合成して外部のスピーカに出力する構成部である

[0051] MPEGでは、ビデオデータとオーディオデータとを同期させて出力するために、ビデォ信号及びオーディオ信号には、アクセスユニットと呼ばれる復号及び再生の単位毎（ビデオデータの場合は 1フレーム毎、オーディオデータの場合は 1オーディオフレーム毎）に、その単位をいっ復号及び再生すべきかを示すタイムスタンプ情報が付カロされている。このタイムスタンプ情報は、 Presentation Time Stamp (PTS)と呼ばれ、ビデオ用は、 Video PTS (以下、「VPTS」 t\、う。）と呼ばれ、オーディオ用は、 Audio PTS (以下、「APTS」という。 )と呼ばれている。それらは、各ビデオフレーム及び各オーディオフレームの出力の時刻管理情報を表している。

[0052] 画像音声再生装置には、図 2には図示していないがシステム基準参照部が設けられている。システム基準参照部は、 MPEGシステムの基準復号器内部のシステム時刻基準 System Time Clock (STC)を発生する構成部である。システム基準参照部は、システム時刻基準 STCを作成するために、 DVD等で使用されるプログラムストリーム（PS)で用いられる System Clock Reference (SCR:システム時刻基準参照値）、又は、 BSデジタル放送で使用されるトランスポートストリーム (TS)で用いられる Program Clock Reference (PCR:プログラム時刻基準参照値）を用いる。システム基準参照部は、各ストリームの最終バイトの到着時 (読み込み時）に、 SCR又は P CRが示す値と同一の値をシステム時刻基準 STCに設定することによって、基準時刻を設定する。

[0053] なお、画像音声再生装置に位相ロックループ (PLL)回路を設けるとともに、上記のシステム時刻基準 STCの値の設定と、 PLL回路とを組み合わせることとにより、画像音声再生装置は、基準時刻用システムクロックとクロックの周波数が完全に一致したシステム時刻基準 STCを持つことができる。システム時刻基準 STCのシステムクロックは 27MHzで構成される。システム時刻基準 STCをカウンタ等により分周することにより、各 PTS (90KHz周期）が参照される。ビデオデコード部 A104、ビデオデコード部 B105、オーディオデコード部 A4、及びオーディオデコード部 B5の各デコーダは、システム時刻基準 STC力ビデオデータの場合はビデオ再生時刻情報 VPTSと一致したときに、オーディオデータの場合はオーディオ再生時刻情報 APTSと一致したときに、それぞれのアクセスユニットを出力する。システム時刻基準 STCの精度は 90 KHzである。従って、この 90KHzの精度の範囲内で、システム時刻基準 STCとビデォ再生時刻情報 VPTS及びオーディオ再生時刻情報 APTSとの同期をとるように、各デコーダが各再生単位を再生すれば、 AV同期のとれた出力が行なわれる。

[0054] 図 3は、 AV同期処理の流れ図である。ここでは説明の簡単ィ匕のために、 1つのチヤンネルのビデオのストリームとオーディオのストリームとが多重化された場合を想定する（2つのチャンネルのビデオのストリームとオーディオのストリームとが多重化された場合は後で説明する)。

[0055] ステップ 301及びステップ 302において、入力部 1は、データ記録装置等から入力された符号化データを、圧縮ビデオデータと、ビデオ再生時刻情報 VPTSと、圧縮ォ一ディォデータと、オーディオ再生時刻情報 APTSとに分離する。

[0056] 圧縮ビデオバッファ部 A122は圧縮ビデオデータを格納し、ビデオ再生時刻情報管理部 A121はビデオ再生時刻情報 VPTSを格納する (ステップ 301)。その際、ビデォ再生時刻情報管理部 A121は、圧縮ビデオバッファ部 A122における各圧縮ビデォデータのアドレスとともに、ビデオ再生時刻情報 VPTSを格納する。

[0057] 圧縮オーディオバッファ部 A21は圧縮オーディオデータを格納し、オーディオ再生時刻情報管理部 A22はオーディオ再生時刻情報 APTSを格納する (ステップ 302) 。その際、オーディオ再生時刻情報管理部 A22は、図 4に示すように、オーディオ再生時刻情報 APTSを、スロットという単位で分割し、圧縮オーディオバッファ部 A21における各オーディオデータのアドレスとともに格納する。従って、オーディオ再生時刻情報管理部 A22には、オーディオ再生時刻情報 APTSの値と、それに関連する圧縮オーディオデータが格納されているアドレスのポインタとが格納される。

[0058] なお、ステップ 301及びステップ 302は、ビデオ信号及びオーディオ信号の入力部 1への入力の先後に応じて順序が適宜変更される。

[0059] 圧縮オーディオバッファ部 A21は、データを書き込んだ最終点まで最新の書き込み位置が移動するライトポインタを有している。また、圧縮オーディオバッファ部 A21 は、圧縮オーディオデータの読み出し位置を特定するリードポインタをも有しており、オーディオデコード部 A4によって圧縮オーディオデータが読み出されることにより、リードポインタの位置を更新する。また、圧縮オーディオバッファ部 A21は、最終アドレスまでデータを書き込んで、けば、最初のアドレスまで書き込み位置がもどるリング状の記憶部である。従って、データが読み出された位置まで、次のデータを書き込むことが可能となり、入力部 1によって、ライトポインタがリードポインタを追い越さないようにしながら、圧縮オーディオデータの書き込みが管理される。

[0060] 次に、ビデオデコード部 A104は、圧縮ビデオバッファ部 A122から圧縮ビデオデータを取得し、ビデオ再生時刻情報管理部 A121からビデオ再生時刻情報 VPTSを取得する（ステップ 303)。オーディオデコード部 A4は、圧縮オーディオバッファ部 A 21から圧縮オーディオデータを取得し、オーディオ再生時刻情報管理部 A22からォ一ディォ再生時刻情報 APTSを取得する (ステップ 304)。

[0061] そして、ビデオデコード部 A104は、ビデオ再生時刻情報 VPTSがシステム時刻基準 STCに達する前に、ビデオデコードを実施し、デコードデータをフレームバッファ部 A141に格納する（ステップ 305)。同様に、オーディオデコード部 A4は、オーディォ再生時刻情報 APTSがシステム時刻基準 STCに達する前に、オーディオデコードを実施し、デコードデータを PCMバッファ部 A41に格納する（ステップ 306)。なお、ビデオデコード部 A104及びオーディオデコード部 A4は、各データをデコードするが、デコード後直ちにデコードデータを出力するわけではない。

[0062] 次に、オーディオデコード部 A4は、システム時刻基準 STCを参照し、オーディオ再生時刻情報 APTSがシステム時刻基準 STCと一致した時点で、又はオーディオ再生時刻情報 APTSがシステム時刻基準 STCを超過した時点で、そのオーディオ再生時刻情報 APTSに関連するオーディオデコードデータを、 PCMバッファ部 A41から出力させる (ステップ 307)。

[0063] 更に、ビデオデコード部 A104は、システム時刻基準 STCを参照し、ビデオ再生時刻情報 VPTSがシステム時刻基準 STCと一致した時点で、又はビデオ再生時刻情報 VPTSがシステム時刻基準 STCを超過した時点で、そのビデオ再生時刻情報 VP TSに関連するビデオデコードデータを、フレームバッファ部 A141から出力させる (ステツプ 308)。

[0064] なお、画像音声再生装置は、光出力端子力ドルビーデジタル等のストリームをそのまま出力してもよい。この場合、ストリームはストリームバッファ（図示せず）にー且蓄えられ、オーディオ再生時刻情報 APTSがシステム時刻基準 STCと一致又は超過した時点で、そのオーディオ再生時刻情報 APTSに関連するオーディオデコードデータは出力される。

[0065] さて、入力されるデータの終了又は、ユーザによる再生の停止が指示されれば (ステツプ 309で Yes)、画像音声再生装置はデコードを終了する。他方、入力されるデータがあって、ユーザによる再生の停止が指示されなければ (ステップ 309で No)、圧縮ビデオバッファ部 A122が圧縮ビデオデータを格納し、ビデオ再生時刻情報管理部 A121がビデオ再生時刻情報 VPTSを格納するビデオ信号格納ステップ (ステップ 301)に戻る。

[0066] 上述したように、画像音声再生装置は、システム時刻基準 STCに対して、ビデオ再生時刻情報 VPTS及びオーディオ再生時刻情報 APTSを同期させて、ビデオデコードデータ及びオーディオデコードデータを出力する。特に、ビデオ再生時刻情報 V PTS力オーディオ再生時刻情報 APTSに対して、 50ミリ秒先行する時から、 30ミリ秒遅延する時までの間に、対応するビデオデコードデータとオーディオデコードデータとが出力されれば、リップシンクのずれは気にならない程度となる。

[0067] ここまでは、オーディオとビデオとが各々 1つのチャンネルのストリームである場合の同期再生の方法を説明してきた。次に、オーディオ及びビデオが各々 2つのチャンネルである場合のストリームの同期再生の方法について説明する。

[0068] ここでは、図 5に示すように、同一画面上において、通常の再生映像である本編の映像の上に、コンテンツ作成者のコメンタリ映像を子画面で重ねるとともに、本編の映像に対応する音声 (以下、「主音声」という。）に、コメンタリ映像に対応する音声 (以下、「副音声」という。）を重ねる場面を想定する。なお、コメンタリ映像は本編の映像を解説するための映像であって、例えば本編の映像として風景が映し出されているとき、解説者がその風景の地名等を解説する映像力 Sコメンタリ映像である。また、副音声は、コメンタリ映像が映し出されてヽるときに出力される本編の映像を解説する音声であって、コメンタリ映像に付随して出力される。

[0069] 次に、図 6を用いて、本編の映像及びコメンタリ映像が映し出される時間的な関係を説明する。図 6は、本編の映像及びコメンタリ映像が映し出される時間的な関係の一例を示す図である。図 6に示すように、例えば、本編の映像は番組の最初力最後まで通して映し出され、コメンタリ映像は、番組の途中で、番組の長さよりも短い所定の期間、複数回映し出される。また、副音声は、上述したようにコメンタリ映像が映し出されているときに出力される。なお、コメンタリ映像が映し出される時間は、本編の映像が映し出される時間より長い場合もある。また、副音声が出力される時間は、主音声が出力される時間より長い場合もある。

[0070] 以下に、本編の映像及び主音声に対してコメンタリ映像及び副音声を重ねる方法について説明する。

[0071] まず、本編の映像に対してコメンタリ映像を重ねる方法について、図 7を用いて説明する。図 7は、本編の映像に対してコメンタリ映像を重ねる画像再生装置の構成を示すブロック図である。

[0072] ビデオデコード部 A 104は本編の映像のビデオデータをデコードし、ビデオデコ一ド部 B 105はコメンタリ映像のビデオデータをデコードする。ビデオデコード部 A104 及びビデオデコード部 B105によってデコードされた各デコードデータの同期は、それぞれのビデオストリーム内にあるビデオ再生時刻情報 VPTS等によって管理される。各々のビデオ再生時刻情報 VPTSがシステム時刻基準 STCと一致したときに、ビデォデコード部 A104によって得られたデコードデータと、ビデオデコード部 B105によって得られたデコードデータとを出力させれば、それら各デコードデータを同期させて出力させることができる。

[0073] し力しながら、コメンタリ映像の種類によっては、本編の映像とコメンタリ映像との同期を工夫してとらなければならない場合がある。例えば、本編の映像とコメンタリ映像との一方が映画素材力得られた、 1秒間に 24コマ存在する映像であって、他方が 1 秒間に 30コマ存在する映像である場合である。これを NTSC方式の受像機に映し出す場合、画像処理部 160は、映画素材から得られた映像を 1秒間に 30コマ存在するようにフォーマット変換した後に、 2つの画像の一方又は双方を拡大したり縮小したりする。その後、フレーム同期部 162は、 2つの画像のフレーム同期を行なう。合成出力部 161は、一方の画像に他方の画像を重ねて 2つの画像を出力する。これにより、本編の映像及びコメンタリ映像は、同期がとられた上で重ね合わされて表示される。

[0074] 上述したように、本編の映像に対しては主音声が存在し、コメンタリ映像に対しては副音声が存在するので、本編の映像に対してコメンタリ映像を重ねる際、主音声に対して副音声を重ねる必要がある。次に、主音声と副音声とを重ねる音声再生装置にっ、て図 8を用いて説明する。

[0075] 図 8は、主音声と副音声とを重ねる音声再生装置の構成を示すブロック図である。

図 8に示す音声再生装置では、入力部 1が、主音声の圧縮オーディオデータ及びオーディオ再生時刻情報 APTSをオーディオバッファ部 A2に格納し、副音声の圧縮オーディオデータ及びオーディオ再生時刻情報 APTSをオーディオバッファ部 B3に格納する。

[0076] 同期設定部 11は、図 9に示すように、主音声の各オーディオ再生時刻情報 APTS によって特定される時間軸 Tの上に、副音声の各オーディオ再生時刻情報 APTSを割り当てる。主音声の各オーディオ再生時刻情報 APTSは、 "MOO", "Mi l", "M2 0", "M29", "M40",及び" M52", · · ·が付されている各ブロックである。すなわち、同期設定咅 l liま、時軸 Tの上に、 "SOO", "S09", "S20", "S31",又 ίま" S40 ", · · ·が付されて、るブロックで示されて、る副音声の各オーディオ再生時刻情報 A PTSを割り当てる。その際、同期設定部 11は、副音声の隣接するオーディオ再生時刻情報 APTSそれぞれの値の差を保持して、時間軸 Tの上に副音声の各オーディオ再生時刻情報 APTSを割り当てる。

[0077] 図 9の例では、主音声の先頭のオーディオ再生時刻情報 APTS "MOO"と、副音声の先頭のオーディオ再生時刻情報 APTS"SOO"との差が値" 11"である。そのため、同期設定部 11は、副音声の各オーディオ再生時刻情報 APTSの値に値" 11"をカロえた値に、副音声の各オーディオ再生時刻情報 APTSを割り当てる。例えば、副音声のオーディオ再生時刻情報" S09"を時間軸 Tの上に割り当てる場合、同期設定部 11は、その値" 09"に差の値" 11"をカ卩えた値、すなわち値" M20"に、オーディオ再生時刻情報" S09"を割り当てる。これにより、副音声の各オーディオ再生時刻情報 A PTSは、副音声の隣接するオーディオ再生時刻情報 APTSそれぞれの値の差が保持された状態で、時間軸 Tの上に割り当てられる。その結果、後述するように、オーディォ再生時刻情報 APTSを利用して主音声及び副音声が再生されると、主音声及び副音声は同期して再生される。

[0078] 同期設定部 11の動作が終了すると、オーディオデコード部 A4は、オーディオバッファ部 A2に格納された主音声の圧縮オーディオデータをデコードし、オーディオ再生時刻情報 APTSを参照することにより、システム時刻基準 STCに同期した時間に音声を再生する。他方、オーディオデコード部 B5は、オーディオバッファ部 B3に格納された副音声の圧縮オーディオデータをデコードし、オーディオ再生時刻情報 AP TSを参照することにより、システム時刻基準 STCに同期した時間に音声を再生する。これにより、主音声と副音声とは同期して再生される。

[0079] なお、図 9の例では、主音声の先頭のオーディオ再生時刻情報" MOO"と、副音声の先頭のオーディオ再生時刻情報" SOO"との差は値" 11"である力その差は、例えばストリームのヘッダに記録されており、コメンタリ映像 (副音声）の開始時刻が予め指定されることによって生じる。上記差は" 0"でもよい。すなわち、主音声と副音声とが同時にスタートしてもよい。また、ユーザのリモコン操作等により副音声の起動開始時刻が設定された場合、上記差は、起動開始時刻時点での主音声の再生時刻情報と主音声の再生時刻情報との差となる。

[0080] 次に、以下の場合を考える。一つの記録媒体 (ディスク等）に、主音声及び副音声の圧縮オーディオ符号ィ匕データ力なる音声ストリームが格納されており、主音声及び副音声を識別するフラグ情報力 S、各オーディオストリームのビットストリームのヘッダ情報内に格納されている。また、主音声フラグを有する音声ストリームが 3種類存在し、副音声フラグを有する音声ストリームが 1種類存在する。主音声は、ドルビーデジタル 5. lchの日本語音声、ドルビーデジタル 5. lchの英語音声、リニア PCM2ch音声の中から選択されて再生される。副音声については、作者の解説用ドルビーデジタル 2chの英語音声が再生される。各々の音声ストリームには、オーディオ再生時刻情報 APTSが格納されている。利用者は、主音声を選択するとともに、副音声の混合再生というメニューを選択することによって、主音声及び副音声の同時再生時の音声を選択する。

[0081] なお、主音声が英語、副音声が日本語、フランス語、及びドイツ語の何れかであり、副音声が複数存在する場合を想定することができるし、主音声及び副音声の両者が複数存在する場合も想定することができる。

[0082] 何れにしても、利用者が再生させる音声を選択する。映画等のコンテンツを再生させる場合、映画のシーンを再生する主音声を識別する識別子と、映画作成者の作成上の工夫点を解説したような副音声を識別する識別子とを、コンテンツに予め付与しておき、主音声と副音声とを区別し、かつ両者を同期させて再生することができるようにしておく。これにより、利用者は、主音声と副音声とを同期させて再生することができる。

[0083] 図 10に、主音声が lchであり、副音声が 3chである場合の、各々の音声ストリームに、オーディオ再生時刻情報 APTSが付加されている様子を示す。副音声は、例えば、英語音声、日本語音声、及び韓国語音声の音声ストリームである。図 10に示すように、各音声ストリームにオーディオ再生時刻情報 APTSが格納されているので、上述した同期設定部 11の動作によって、何れの副音声も主音声と同期させて再生することができる。

[0084] ところで、複数のオーディオデータをデコードする際、主音声と副音声とのオーディォ符号ィ匕方式の違いにより、各データのオーディオフレームサイズが異なる場合がある。しカゝしながら、各々のオーディオストリームにオーディオ再生時刻情報 APTSが付 Vヽて、れば、システム時刻基準 STCと各オーディオ再生時刻情報 APTSとを利用することにより、主音声と副音声とを同期させて再生することができる。複数のオーディォデコード部が処理の独立性を持つような構成であれば、符号ィ匕方式の違いによるオーディオフレーム処理単位が異なっても、各々のオーディオストリームを、各々のォ一ディォ再生時刻情報 APTSに従って同期させて再生することができる。

[0085] また、主音声のサンプリングレートと副音声のサンプリングレートとが異なる場合がある。このような場合、レート変換部 7は、一方の再生音声信号のサンプリングレートを、他方の再生音声信号のサンプリングレートに合わせて変換する。これにより、主音声及び副音声を、サンプリングレートを合わせて再生することが可能となる。コンテンツそのものに主音声力、コメンタリ等の副音声かの種別が記録されている場合、レート変換部 7は、副音声のサンプリングレートを、主音声のサンプリングレートに合わせる。これにより、コメンタリ音声の有り無しにかかわらず、一定のサンプリングレートで主音声及び副音声は再生されるので、ユーザは違和感なく主音声及び副音声を聞くことがでさる。

[0086] サンプリングレート変換の方法としては、デジタル音声をアナログ音声に変換する D Aコンバータと、その逆の動作を行なう ADコンバータとを利用し、デジタル音声を一且アナログ音声に戻して変換する方法がある。また、サンプリングレートコンバータなる半導体回路を用いることにより所望したサンプリングレートに変換する方法や、互いのサンプリングレートが倍数関係の時に適用しやすい、間引きや、補間によってレート変換音声を生成する方法等がある。

[0087] 次に、主音声及び副音声の識別子が記録されていない場合等における主となるサンプリングレートを有する音声信号の選択方法にっ、て説明する。この主となるサンプリングレートを有する音声信号の選択方法として、連続した音声再生区間がより長い音声信号を選択し、連続した音声再生区間が短い方の音声信号のサンプリングレートを、長い方のサンプリングレートに合わせる方法がある。図 6に示すように、コメンタリとして、特定のシーンの解説等、主音声を補助するような目的で副音声が挿入される場合、副音声は主音声に比べて音声再生区間が短い。そこで、再生区間が長い方を、主となるサンプリングレートを有する音声信号として選択し、再生区間が短い方のサンプリングレートを、選択した音声信号のサンプリングレートに合わせて変換する。また、副音声は、図 6に示すように、特定のシーンのみが再生される等、再生がストーリの途中から始まり、途中で終了する場合もある。音声再生区間が長い方を主となるサンプリングレートを有する音声信号として選択すれば、同じサンプリングレートの音声が再生される時間が長くなり、ユーザが違和感を持つ時間が短くなるので都合がよい。

[0088] 別の選択方法として、一つの音声信号を選択するときに、間欠した音声再生区間が無い方の音声信号を選択し、間欠した音声再生区間を持つ方の音声信号のサンプリングレートを、間欠した音声再生区間が無い方の音声信号のサンプリングレートに合わせる。シーン毎に間欠したコメンタリ再生区間を持つ音声信号を再生する場合等、間欠した音声再生区間を有する音声信号のサンプリングレートを、間欠していな、方に合わせるように変換する。

[0089] また別の選択方法として、一つの音声信号を選択するときに、より高いサンプリングレートを有する音声信号を選択し、低、サンプリングレートを有する音声信号のサンプリングレートを、高いサンプリングレートに合わせて変換する。つまり、高音質の音声信号はそのままとして、他の音声信号のアップサンプリング等を行なうことでレート変換を行ない、合成する。この場合、 2つの音声信号のサンプリングレート比は、一方が他方の倍数の関係であれば、レート変換した後で音声合成する回路を簡略ィ匕することができる。例えば、一方の音声信号のサンプリングレートが 96KHzであって、他方の音声信号のサンプリングレートが 48KHzである場合や、一方が 48KHzであつて、他方が 24KHzである場合等であれば、周波数補間した音声信号データをそのまま加算することができるため合成しやす、。

[0090] 逆に、一つの音声信号を選択するときに、より低いサンプリングレートを有する音声信号を選択し、高いサンプリングレートを有する音声信号のサンプリングレートを、低いサンプリングレートに合わせて変換してもよい。音声出力のための伝送帯域が限られている場合や、高音質の再生音声が必要とされない場合等にこの方法を用いる。例えば、特定伝送路を使って音声データを伝送する場合等を想定すると、低いサンプリングレートに合わせて変換することで、音声データの伝送量を減らす効果が見込まれる。この場合も、 2つの音声信号のサンプリングレート比は、一方が他方の倍数の関係であれば、レート変換した後で音声合成する回路を簡略ィ匕することができる。例えば、一方の音声信号のサンプリングレートが 96KHzであって、他方の音声信号のサンプリングレートが 48KHzである場合や、一方が 48KHzであって、他方が 24KH zである場合等であれば、周波数間引きした音声信号データをそのまま加算することができるため合成しやす!/、。

[0091] また、一つの音声信号を選択するときに、途中でサンプリングレートが変更されない連続した音声再生区間からなる音声信号を選択し、途中でサンプリングレートが変更される方の音声信号のサンプリングレートを、変更されない方のサンプリングレートに合わせて変換する。複数のコメンタリがあったり、また、主音声においてもときどきサンプリングレートが変更されたりする場合に、この方法を用いる。圧縮オーディオデータのデコード時においては、サンプリングレートの変化点において、音声ミュートが必要な場合がある。従って、レート変更されない方の音声信号を主として選択しておく方力音声をミュートする区間が少なくなり、音声の連続再生を実現しやすい。

[0092] 途中で再生コンテンツの符号ィ匕方式が変更されることや、サンプリングレートが変更された場合のオーディオデコード部の構成によっては、デコードする符号ィ匕方式プログラムゃノ、一ドウエアの演算回路の設定を変更しなければならない場合がある。このような場合、オーディオデコード部の初期化処理とともに、それと対の圧縮オーディオノッファ部に格納されている圧縮オーディオデータや、リードポインタ、ライトポインタ等の情報もクリアする必要がある。圧縮オーディオバッファ部だけでなぐオーディオ再生時刻情報管理部のオーディオ再生時刻情報 APTS及び格納アドレスポインタの情報も消去する必要がある。このオーディオバッファ情報のクリアは、符号化方式やサンプリングレートが変更される方のみでよい。変更されない方は、連続して圧縮ォ一ディォデータのデコードと再生とを続けることによって、利用者は切換を意識することなぐ音声の再生を楽しむことができる。

[0093] これらレート変換部 7によりサンプリングレート変換されたオーディオデータを加算するために、加算比処理部 A8及び加算比処理部 B9は再生出力レベルを変更する。例えば、記録媒体等に、主音声に対するコメンタリ等の副音声の加算比を示す加算比情報が、各オーディオストリーム又は、コメンタリ等の副音声のストリームのヘッダ情報内に格納されている。加算比処理部 A8及び加算比処理部 B9は、コメンタリ等の副音声を主音声に合成する場合、その加算比情報に従った値で、主音声及び副音声の一方又は双方に加算比を掛け合わせた上で主音声と副音声とを合成する。例えば、加算比処理部 A8及び加算比処理部 B9は、主音声及び副音声の双方を、元音声の 0. 7倍等に出力レベルを下げて加算する。

[0094] 通常、加算比情報に従い、各音声に加算比を掛け合わせた音声での再生が行なわれるが、コメンタリ等の副音声を強調したい場合がある。

[0095] 第 1の手法として、別々にデコードされた音声から、任意の一つの音声に対し他方の音声を合成する場合、前記任意の一つの音声の再生出力レベルを、他方の音声を合成する部分のみ減じて両音声を合成し、他方の音声を合成しない部分では、前記任意の一つの音声の再生出力レベルを減じない。例えば、再生出力レベルを一定値" 1"とし、 2つの音声を合成する場合、加算される側の音声の再生出力レベルを一定値" 1"から" 0. 6"に減じ、加算する側の音声の再生出力レベルを" 0. 4"にし、全体の再生出力レベルを一定値" 1"に保つ。この場合、加算される側の音声を強調して聞くことができる。例えば、合成しょうとする音声がコメンタリ音声である場合、解説を注意深く聞きたいとき等、解説音声の再生音声レベルを高くし、主音声の再生音声レベルを減じる。

[0096] 第 2の手法として、利用者が、再生音声レベルを、規定値より高くしたり低くしたりと、任意に設定した、場合に対応し、任意の一つの元の音声に対し他方の音声を合成する部分で、利用者の意図で前記他方の音声レベルがより高く設定された場合、前記任意の一つの元の音声出力レベルを他方の増加分に応じて減じる。なぜならば、他方を増加させながら、一方をそのままの音量で加算すると、加算後の音声の一部において、再生ダイナミックレンジを超える信号成分が生じ、クリッピング等の音声ひずみが発生し、非常に聞きとりにくい音声となってしまう恐れがあるためである。逆に、副音声の出力レベルを低くした場合、相対的に主音声の加算比を上げればよい。

[0097] レート変換部 7がサンプリングレート変換し、加算比処理部 A8及び加算比処理部 B 9が加算比の処理を行なうと、加算出力部 10は音声を合成する。その場合、各々の音声の再生チャンネル数が異なる場合がある。図 11に、加算出力部 10の構成例を示す（図の簡単ィ匕のためレート変換部 7を省略している。 )₀前記任意の一つの音声の再生信号チャンネル数に合わせて、加算比処理が行なわれた後、加算出力部 10 は、他方の音声の再生信号のチャンネル数を統合又は分配して合成する。

[0098] 例えば、主音声に対するコメンタリ等の副音声の加算チャンネル情報を、各オーディォストリーム又は、コメンタリ側のストリームのヘッダ情報内に格納して、それを記録媒体等に記録しておく。加算出力部 10は、コメンタリ等の副音声を、主音声に合成する場合、その加算チャンネル情報に従った値で、音声を合成する。例えば、加算出力部 10は、副音声を主音声のセンターチャンネルに合成する。

[0099] 加算チャンネル情報としては、各加算チャンネルのミキシングレベルやチャンネルマッピング、特定チャンネルへ加算制限情報等の加算チャンネル情報や、サンプリングレート、各チャンネルのサンプリングビット数、圧縮ストリームのデータレート等を想定することができる。更に、加算チャンネル情報とともに加算音量係数テーブル等の詳細な加算比情報があれば、副音声は、主音声のフロントライトチャンネルに、 0. 7 倍等に出力レベルを下げて加算、フロントレフトチャンネルに、 0. 7倍等に出カレべルを下げて加算される。

[0100] 更に、加算チャンネル情報力複数のパターン力選択することができるような情報を有する場合では例えば、オーディオデコード部 A4によって再生された音声が 5. 1 chであって、オーディオデコード部 B5によって再生された音声がモノラル lchであつた場合、オーディオデコード部 B5によって再生された音声の加算先として、（第 1)セ

(第 3)センターチャンネルとサブウーハチヤンネル、（第 4)フロントのライトとレフト及ぶサブウーハチヤンネル等の選択枝を利用者に示すインタフェースを設けておき、加算先を利用者に選択してもらう。これにより、利用者の希望に応じたチャンネルへの加算比で、各チャンネルの出力ゲインを変更した後で、指定チャンネルの合成を実現することができる。もちろん主音声と副音声とが同じチャンネル数で、利用者から加算チャンネル先の指定が無い場合、各々のチャンネルを加算すればよい。また、利用者の要望により、加算するチャンネルのある副音声の音量を増やす等の変更をした、ときは、主音声がクリッピングしな、ようにミキシングレベルを調節しなければならない。この場合、加算チャンネルの主音声のゲインを減らす等の変更だけでなぐ他の主音声チャンネルとのバランスも考慮し、必要に応じて他チャンネルの加算比を変更する。副音声の音量を上げれば、主音声の音量を下げ、副音声の音量を下げれば、主音声の音量を上げるために、利用者の要望で加算比を柔軟に設定できることが望ましい。

[0101] 従来例の特許文献 1においても、再生チャンネルが異なる場合の同時再生について若干説明がある。第 1の音声をモノラルとしてフロントライトへ、第 2の音声をモノラルとしてフロントレフトへと 1チャンネルずつ出すこと、又は第 1と第 2とのいずれか一方の音声をステレオ 2chで出力することについて説明がある。また 5. lchの場合は、第 1の音声をステレオ 2ch、第 2の音声をステレオ 2chで出す設定、又は第 1と第 2とのいずれか一方の音声を 5. lchで出力することについて説明がある力これらは、第 1の音声と第 2の音声とを合成して出すのではなぐ同時に別々のスピーカから出す場合につ、ての説明である。複数の音声を同一のスピーカからの音声に合成して出す方法については詳しく説明が無い。また、複数の音声の同期方法についても詳しく説明されていない。

[0102] また本発明では、コメンタリ等の副音声のチャンネル数力主音声のチャンネル数より多い場合、複数のチャンネルを主音声のどのチャンネルに統合するか等を設定する選択枝を利用者に示し、利用者力選択を受け付け、その選択に基づいて加算部においてクリッピングすることなく音声の加算を実行する加算比を設定する。加算比の設定は、まず、クリッピングするチャンネルを、クリッピングすることのない値に設定した後で、他のチャンネルの加算比を、加算比を設定したチャンネルとの出力相対レベルに応じて再度設定すること等で実現する。もちろん、利用者がチャンネル毎の加算比を設定するような構成を設けておいてもよい。従って、各々の加算比処理部は、再生チャンネル数に応じて加算する。

[0103] 加算値の変更に当たっては、利用者の指示により行なう場合、再生を一時停止し、音声をミュートして、加算係数を変更する等の処理を行なえば、変更途中に異音等が発生することなぐ加算値の変更を実現することができる。デコード音声に対して、加算比を掛け合わせ、合成して出力するまでにクリッピングを検出する検出部を設けておけば、加算比処理部 A8及び加算比処理部 B9が加算値を自動的に変更することにより、加算比を再度変更し、クリッピングが起こらないように合成しなおし、異音の発生を防ぐことができる。また、上記検出部がクリッピングする時点をみつけた場合に対応して、音声出力レベルが徐々に小さくなりクリッピングすることがないレベルとなるように、加算係数を変更させる処理部を設けておく。これにより、異音の出力が連続してなされな、ような装置とすることができる。

[0104] 更に、音声の合成は音声再生装置に接続される外部の接続機器の構成に左右される場合がある。例えば図 12に示す外部音響装置 92が音声再生装置に接続される場合を想定する。外部音響装置 92の構成によっては、元の再生コンテンツが、 5. lc hを有する場合でも、接続スピーカが 3チャンネルしかない場合がある。このような場合、外部音響装置 92のチャンネル数に合わせて、前記任意の一つの音声信号のチヤンネル数を統合又は分配し、かつ他方の音声信号のチャンネル数を統合又は分配して合成する。

[0105] また、再生出力するチャンネル数を、利用者が変更する場合がある。このような場合、外部音響装置 92や、音声再生装置内の出力部の設定から利用者による音声出力指定チャンネルに合わせて、前記任意の一つの音声の再生信号チャンネル数を統合又は分配し、かつ他方の音声の再生信号のチャンネル数を統合又は分配し合成する構成をとれば、利用者が音声出力の全部又は一部を設定することで、自動的に加算比処理に必要な加算値を、音声再生装置は設定することができる。

[0106] ここで、主音声の再生コンテンツが 5. lchであって、副音声の再生コンテンツが 2c hであり、接続スピーカが 3チャンネルしかな!/、場合の音声の統合の一例につ、て、図 13を用いて説明する。上記統合の一例では、図 13に示すように、主音声の Lチヤンネルに、主音声の SLチャンネルと、副音声の FLチャンネルとを加算した上で、第 1 スピーカから出力させる。また、主音声の Rチャンネルに、主音声の SRチャンネルと、副音声の FRチャンネルとを加算した上で、第 2スピーカから出力させる。更に、主音声の Cチャンネルに、主音声の SLチャンネルと、主音声の SRチャンネルとを加算した上で、第 3スピーカから出力させる。又は、主音声の Lチャンネルは、第 1スピーカ力も出力させる。また、主音声の Rチャンネルは、第 2スピーカから出力させる。更に、主音声の Cチャンネルに、副音声の FLチャンネルと、副音声の FRチャンネルとをカロ算した上で、第 3スピーカから出力させる。

[0107] また、副音声を加算するチャンネルを時間的に変化させても良い。例えば副音声の V、ずれかのチャンネル若しくは双方のチャンネルを、最初は主音声の Lチャンネルのみに加算し、次に主音声の Lチャンネルと主音声の Cチャンネルに加算し、次に主音声の Cチャンネルのみに加算し、次に主音声の Cチャンネルと主音声の Rチャンネルに加算し、最後に主音声の Rチャンネルのみに加算するというように、時間の経過とともに加算するチャンネルを変化させることもできる。このようにすると、加算音声が視聴者の左方向から右方向へ空間的に移動するように聞こえることとなる。

[0108] 次に、主音声及び副音声の再生コンテンツがそれぞれ 2chであって、接続スピーカ力チャンネルある場合の音声の分配の一例について、図 14を用いて説明する。上記分配の一例では、図 14に示すように、主音声の Lチャンネル及び Rチャンネルを変換器で 6チャンネルに変換した後で、（1)変換後の主音声の FLチャンネルに副音声の Lチャンネルを加算した上で第 1スピーカから出力させ、（2)変換後の主音声の FRチャンネルに副音声の Rチャンネルを加算した上で第 2スピーカから出力させ、（3 )変換後の主音声の SLチャンネルに副音声の Lチャンネルを加算した上で第 3スピ一力から出力させ、（4)変換後の主音声の SRチャンネルに副音声の Rチャンネルを加算した上で第 4スピーカから出力させ、（5)変換後の主音声の Cチャンネルを第 5 スピーカから出力させ、（6)変換後の主音声の SUBチャンネルを加算した上で第 6スピー力から出力させる。

[0109] 更に、図 12に示すように、音声再生装置に外部映像機器 91や、外部音響機器 92 を接続し、音声再生装置が、外部接続機器の機器 ID等、相手側機器を特定する情報を認識することによって、出力可能なスピーカの数の情報を獲得し、主音声と副音声とを合成するチャンネルの設定情報の獲得や、可変速度再生の際の各出力処理の前後加算の選択を設定するような構成であれば、更に利便性が高まる。

[0110] 例えば、音声再生装置が、相手側出力機器の機器種別を知る ID番号等を受け取り、各種設定条件を、本体内又は条件設定用のメモリカード内のテーブルを参照し、設定を行なうような構成をとれば、音声再生装置に対する利用者の操作をともなわずとも、出力可能なチャンネルの数に応じて主音声と副音声とを合成させることが可能である。

[0111] 相手機器の情報を得るために、 High— Definition Multimedia Interface (H DMI)とよばれる仕様等で機器を接続する。図 15に、 HDMIで接続される 2つの機器の構成を示す。図 15では、ソース側の機器 81と、シンク側の機器 82と、 AVデータ 86を送る送信機 83と、 AVデータを受ける受信機 84と、電源オンやチャンネル制御といったコマンドを送るコマンドライン 88と、機器固有情報をやりとりするライン 87と、機器固有情報を格納する ROM85とが表示されている。 HDMIでは、ソース側の機器 81とシンク側の機器 82とが互いに接続可能であると認証手続きを行なうことにより、ソース側の機器 81は、シンク側の機器 82へ、適切な AVデータフォーマットで AV データを送る。そのときに機器固有の情報データを送る。ソース側の機器 81である音声再生装置は、この方法により外部映像機器 91や外部音響機器 92の機器固有情報を獲得すれば、合成チャンネル数の制限や、合成画像フォーマットの制限情報等を獲得し、設定を変更することができる。これら獲得した情報は、音声再生装置がデフォルト設定値として保存しておく構成にしておけば、機器接続が変わらない限りいつも同じ状態での AV鑑賞を行なうことができる。接続機器 ID等の変更があれば、その都度相手機器側の情報を受け、設定を変更すればょ、。

[0112] 主音声と副音声等との合成出力は、各 PCMバッファに入った PCMデータを合成し出力することにより行なわれる。この PCMデータを音声再生装置に内蔵されるォーディォ DACから、又は、 IEC60958等のデジタルオーディオインタフェース規格に対応した光デジタルケーブルから出力することで、 PCMデータを外部音響機器 92に伝送して再生することができる。更に、主音声と副音声とを合成して作成した PCMデータを、オーディオ符号ィ匕を施すことにより、ドルビーデジタル方式等のデジタル符号ィ匕データに変換し、光デジタルケーブルや、 HDMIケーブル等で圧縮符号化ストリームの IEC61937規格等のオーディオデジタルインタフェース規格により、外部接続機器へ出力してもよい。

[0113] これらの外部接続機器としては、 TV等のモニタ出力機器や、オーディオ出力アンプ、 AVセレクタ機能を有する AVアンプ等のインタフェース機器、携帯型出力機器、車載用 AV再生機器等が想定される。

[0114] 加算出力部 10は、各々の加算比処理部で加算比処理されたオーディオデータを同一のサンプリングレートで、音声クリッピングを起こすことなく音声出力を行なう。更に、サンプリングレートを変換するときや、加算比を変更するとき等に、音声の連続性が保てな!/、ときは、音声のミュート処理を施す等の処理も分担する。

[0115] 音声合成部 6は、図 8に示すように、レート変換部 7と、加算比処理部 A8と、加算比処理部 B9と、加算出力部 10とにより構成される。レート変換部 7はオーディオデコード部 B5側のみにある場合を説明した力レート変換部 7は、オーディオデコード部 A4 側に、又は、オーディオデコード部 A4側及びオーディオデコード部 B5側にあってもよい。また、 2つの音声を合成する場合を説明したが、 3つ以上の圧縮オーディオデータをデコードする各々のデコード部を有し、合成する構成も可能である。

[0116] また、システム全体の基準となるシステム時刻基準自体を可変とし、システム時刻基準参照信号の基準値の更新を可変とするように構成すれば、基準値情報を元として同期再生する複数の音声信号のオーディオ再生時刻情報を合わせてデコードすることにより、互いの同期をとることもできる。

[0117] 副音声用の圧縮オーディオデータの符号化データストリームは、一つの記録媒体力も提供されるものに限らず、ネットワークで接続された機器力も入力される場合もある。また、主音声が記録されている記録媒体とは別の記録媒体力提供される場合もある。両方がネットワークを介して接続された外部機器力ダウンロードされて再生される場合もある。また、機器固有の半導体やハードディスク装置等の記録装置に予め記録しておぐ又は初期設定として記録されている場合もある。何れにしても、主音声と副音声の同期再生を確保するために、互いの音声再生時刻情報が関連づけられていれば、同期再生が可能である。関連していなければ、同時に再生することはあつても、再生時刻情報をあわせて再生する必要はな、。

[0118] また、入力されるストリームは、 DVDのような記録媒体に記録されているストリームや、デジタル放送信号を受信して記録したストリームだけとは限らない。外部からのアナログ信号をデジタル符号ィ匕しエンコードしたストリームでもよ、。エンコード時にお!ヽて、オーディオ再生時刻情報 APTSやビデオ再生時刻情報 VPTSをつけることにより、再生時に AV同期がはかれるようになる。また、もともとの再生音声に同期した別のオーディオストリームをエンコードしオーディオ再生時刻情報を、もとあったオーディォストリームのオーディオ再生時刻情報を参照して付加することによって、アフレコ再生を実現するシステムを構成することができる。

[0119] また、図 6では、コメンタリ映像は、本編の映像の長さよりも短い所定の期間、複数回映し出される。し力しながら、コメンタリ映像は、図 16に示すように、本編の映像の途中から開始し、本編の映像が終了した後でもまだ終了していない場合もある。それに伴って、副音声は主音声が終了しても終了しない（図 16の" SB"部分参照)。その場合、本編の映像が終了するまでは、副音声は、主音声のオーディオ再生時刻情報 APTSに従って、主音声と同期して再生される。主音声が終了すると、副音声は、（1 )システム時刻基準 STCに従って再生されてもよいし、（2)主音声が終了した後の、主音声のオーディオ再生時刻情報 APTSを予測し、予測された主音声のオーディオ再生時刻情報 APTSに従って再生されてもよいし、又は（3)副音声のオーディオ再生時刻情報 APTSに従って再生されてもよい。また、本編の映像が終了すると、コメンタリ映像は拡大して表示されてもょ、。

[0120] また、図 17に示すように、効果音 (例えば、ブザー音）が主音声に合成されてもよい。効果音の信号にオーディオ再生時刻情報 APTSが含まれている場合、効果音は、副音声として処理され、そのオーディオ再生時刻情報 APTSが利用されることにより、効果音は主音声及び副音声と同期して再生されてもよい。効果音の信号にオーディォ再生時刻情報 APTSが含まれていない場合、効果音の再生開始時刻に該当する主音声側の再生時刻情報 APTSを、効果音のオーディオ再生時刻情報と定義すれば、同様に同期再生が可能となる。

[0121] また、図 18に示すように、 6chの主音声に、 2chの副音声を合成する場合、（1)副音声のフロントレフト（FL) chの信号を、主音声のレフト (L) chの信号とセンター（C) c hの信号とに加算し、（2)副音声のフロントライト (FR) chの信号を、主音声のライト (R ) chの信号とセンター（C) chの信号とに加算する。これにより、主音声と副音声のチヤンネル数が異なっても、主音声と副音声とは合成される。この合成時点での音声信号は 5. lchの信号である。この 5. lchの音声信号を、出力スピーカの制限等により 3 chに統合しなければならない場合、つまり" TL", "TR",及び" TC"の 3chで出力する場合、主音声の信号は、例えば、合成音声の" L"ど' SL"が統合音声の" TL"に、合成音声の "R"ど' SR"が統合音声の" TR"に、合成音声の" C"と "SUB"が統合音声の" TC"の 3chに統合される。

[0122] 更に、合成することができる複数の音声信号が DVDに記録されている場合、図 19 に示すように、 DVD500には、複数の音声データ 501と、付属データ 501とが記録されてもよい。付属データは、各音声信号の、チャンネル数、符号化方式、サンプリングレート、音声再生区間等を特定する情報である。また、付属データは、加算比情報や、加算チャンネル情報を含んでもよい。また、副音声の開始時間を特定する情報を含んでもよい。これにより、音声再生装置は複数の音声を合成したり、統合することを容易に行なうことができる。

[0123] 音声データ 501と付属データ 502とは、ネットワークからダウンロードされて、装置内のハードディスク等の記憶部に格納された場合も、上記と同様に、複数の音声信号を合成し再生することができる。

[0124] (実施の形態 2)

実施の形態 2における音声再生装置の構成を示すブロック図である図 8を主として参照しながら、実施の形態 2の音声再生装置の構成及び音声再生方法について説明する。

[0125] 実施の形態 1では、システム時刻基準 STCを基準として複数の音声と複数の映像の AV同期を実現する方法について説明してきた。実施の形態 2では、 AV同期の方法として、音声再生装置は、入力された圧縮オーディオデータカゝら複数の音声信号を分離し、各々のオーディオ再生時刻情報を読み出し、一方の音声信号のオーディォ再生時刻情報を元に主なる音声信号のデコードを実施し、他方の音声信号のォ一ディォ再生時刻情報を前記主なる音声信号のオーディオ再生時刻情報に合わせてデコードすることにより、互いの同期をとる。

[0126] これまでは、通常再生速度での音声合成と、同期方法について説明してきたが、高速再生 (例えば 2倍速再生)等の可変速度再生のときの音声合成と、同期方法について、以下に説明する。

[0127] オーディオデコーダが通常再生速度処理以上の処理能力を有するときで、かつ可変速度による音声出力再生処理を行なう能力を有するときには、一方の音声信号のオーディオデコードを可変速度処理した再生時のオーディオ再生時刻情報を元として、他方の音声信号のオーディオ再生時刻情報を元のオーディオ再生時刻情報に合わせてデコードすることにより、互いの同期をとることができる。

[0128] 図 20は、オーディオデコード処理後、可変速度処理の前と後のどちらで主音声に副音声を加算するのかを選択して音声合成して再生する処理の流れを示す図である。ステップ 306で、オーディオデコードした結果を PCMバッファ部へ格納する。ステツプ 331で、オーディオ合成処理の前後どちらかを選択する。判断基準は後で説明する。

[0129] オーディオ合成処理の前を選択した場合 (ステップ 331で Yes)、ステップ 332で、主音声のオーディオ再生時刻情報とコメンタリ副音声のオーディオ再生時刻情報とがー致 (許容出力時刻差以内で例えば数十 ms以内で一致)すれば、コメンタリ等の副音声を主音声に加算し、ステップ 333で、オーディオ可変速処理を行なう。他方、オーディオ合成処理の後を選択した場合 (ステップ 331で No)、ステップ 334で、主音声をオーディオ可変速処理した後に、ステップ 335で副音声を主音声に加算する。ステップ 307で、主音声に副音声を加算した音声を、ビデオの出力と同期を合わせて出力する。

[0130] 図 21は、実施の形態 2のオーディオ出力処理部 61の可変速制御を行なう方法を説明するためのブロック図であり、図 22に示す再生速度変換機能を行なう時の可変速制御の例を以下に詳しく説明する。

[0131] 図 21で、 PCMバッファ部 A41からの音声信号は可変速処理部 62へ入力され、以下に説明する可変速処理が実施される。その後、音声信号は一旦出力バッファ部 63 へ格納され、音声合成部 6へ出力される。

[0132] 可変速度再生の実現方法には、幾種類かの方法がある。第 1に、通常速度再生と、スキップ再生とを繰り返す方法、第 2に実際に高速にデコード処理する方法である。

[0133] まず、第 1の通常再生とスキップ再生とを繰り返す方法について説明する。基本的には、読み出 Lf立置をスキップした部分をカットし、スキップされな力つた部分の再生のみを行なうスキップ再生処理である。例えば 2倍速度再生を実施する場合、オーディォフレームを全て再生するのではなぐオーディオ出力部内の可変速処理部 62において、オーディオ出力処理変換後に再生時間が半分になるように特定のオーディオフレームをスキップして再生したオーディオデータを作成し、出力バッファ部 63へ格納する。そして、再生するオーディオフレームの部分に該当するオーディオ再生時刻情報 APTS値を取得する。

[0134] 他方、ビデオ出力部では、同期情報を獲得し、該当するオーディオ再生時刻情報 APTSに対応するビデオを出力するために、特定のフレームの表示をスキップして A V同期を行なう。つまり、オーディオフレーム処理単位でスキップ再生したときのォーディォ再生時刻情報 APTSに同期したビデオ表示を実施することによって、可変速再生時の AV同期をはかる。

[0135] また別の方法として、入力部 1で予めスキップして読み出す方法もある。入力部 1へは、スキップした後のストリームしか入力されないので、入力されたストリームから、システム時刻基準 STC等のシステム基準時刻情報や、オーディオ再生時刻情報 APT S、ビデオ再生時刻情報 VPTSを読みとることで同期を実現する。これは通常再生の AV同期方法と同じである。ただし、 0. 5秒から数秒程度再生した後で、またスキップを行なうことで、全体として高速な再生を実現する。

[0136] 次に、可変速処理を行なうために、オーディオデコード処理を通常再生速度処理以上の処理能力により行なう場合について説明する。他方のデコード音声を、前記オーディオデコード処理後に加算した上で、前記可変速処理を施すことができる。例えば、コメンタリ等の副音声を主音声に加算した後で、オーディオ出力処理部 61で可変速処理を施すため、加算された音声もデコード音声の可変速処理と同期させた音声出力が可能である。 [0137] 他方、副音声を、前記可変速処理後に主音声に加算することもできる。オーディオ出力処理部 61で可変速処理を施した後に、副音声を主音声に加算するため、デコード音声が可変速処理されても、加算された副音声は通常速度音声で加算を行なうことができる。

[0138] まず、高速デコード処理時における同期再生方法について説明する。入力部 1が、通常再生に必要な入力速度以上のデータを取り込んで、ビデオストリームとオーディォストリームとに分割した後、各々のバッファ部へストリームを格納する。これにより、複数のビデオデコード部及び複数のオーディオデコード部が起動する。各々のデコーダは、通常の再生速度以上の高速で (再生速度によらず、与えられている資源を有効に活用し）、デコードを実施し、各フレームバッファ部、各 PCMバッファ部にデコード結果を格納する。

[0139] 可変速処理を行なうために、オーディオデコード処理能力は通常再生速度処理以上の処理能力が必要となる。例えば 1. 3倍ぐらいの再生速度を保っためには、再生速度より若干高い 1. 5倍程度のデコード処理能力があることが望ましい。これは単にデコード処理性能だけでなぐ再生メディア力の読み出し処理性能や、転送処理性能についても同様の能力が必要である。

[0140] デコードを高速にすすめ、 PCMバッファ等に保管されたオーディオデータは、次のように処理される。図 22において、上側は可変速処理前の通常速度による再生のデータを示しており、下側は可変速処理後の高速再生のデータを示している。上側は、 6オーディオフレーム（1オーディオフレームは、 10数 ms程度）を T1の時間で通常再生する場合を示している。他方、下側は 1つ目と 2つ目のオーディオフレームの再生を重ねて行ない、結果として T1の 6分の 5の時間である T2の時間で 6オーディオフレームを再生した場合を示している。圧縮比を、処理後の時間長を処理前の時間長で割算した値と定義すると、速度比は、圧縮比の逆数となる。従ってここでは、 5分の 6 倍（1. 2倍)での高速再生となる。

[0141] このとき重なっているオーディオフレーム再生の一方をフェードアウトさせながら、一方をフェードインすることで重ね合わせを実現する。両者は通常再生速度での重ね合わせとする。そのほかの重ならないオーディオフレームにおいては、通常速度再生となる。高速再生といっても、全てが通常再生速度での再生であるので、原音のピッチが変わることはない。そのため、自然な音声を聞き取ることができように可変速再生を実現することができる。

[0142] 主音声と副音声との間でオーディオ符号ィヒ方式やサンプリングレートが異なる等によりオーディオフレームサイズが異なる場合がある。可変速再生時においては、ォーディオフレームサイズが異なる場合、両者の同期をきつちりととる必要はない。双方が同一の速度比を持ち、ある区切りのよい一定再生時間の間で同期をとれるように再生すれば、結果として両者の同期をは力ることができる。

[0143] このようなオーディオ出力処理部 61での可変速制御を実施するとともに、別のデコード音声を、前記オーディオデコード処理後に加算した上で、前記可変速処理を施す力別のデコード音声を、前記可変速処理後に加算処理を施すかを選択する手段を設けておけば、加算したデータ音声も、元の原音と相違ない音程で再生することが可能である。

[0144] なお、主再生音声と副音声との同期については先に説明したとおりである。加算前に同期をとる場合、もともと全オーディオフレームに対して算出される PTSをもとに、別音声の PTSを参照して加算すればよい。他方可変速後、付加音加算する場合、オーディオフレームの重なり部分の PTSは、重なっているどちらのオーディオフレームの PTSを有効にするのかという規則を予め定めておけばよい。

[0145] また、副音声側にオーディオ再生時刻情報が全くないストリームが提供された場合、又は再生時刻情報を無視して同時に再生する場合、基本的に、主音声との同期関係がないので、音声再生装置は、現行再生されている主音声に対して、再生の連続性が保たれるように再生すればよい。このときのサンプリングレート変換、加算値変換、出力チャンネル変更等は、先の実施の形態と同様な方法で実施すればよい。

[0146] 本実施の形態 2のように、特にオーディオの可変速再生においては、オーディオの再生基準時刻であるオーディオ再生時刻情報 APTSを用いれば、 AV同期再生が容易である。

[0147] 更に、複数映像や音声の同期に関しては、再生合成のための加算の選択手段として、再生ストリームのコンテンツ内容を判断する判断部を設けておく。前記判断部により得られる結果により、再生時に、データから抜き出した音声情報を加算するタイミングとして、オーディオ出力処理の前と後のどちらかを選択し、又はデータ力も抜き出したテキストもしくは文字情報を加算するタイミングとして、ビデオ出力処理の前と後のどちらかを選択して再生することができる。

[0148] 例えば、カラオケの字幕のようにオーディオ及びビデオに同期した各出力処理を施す方が!/、、か、それとも緊急臨時放送のように（同期性なしで)各出力処理を施した後で文字情報を出す方力 ^、いか、再生コンテンツの内容に従って選択することができる。

[0149] 加算の選択部として、利用者による指示内容力コンテンツの再生処理内容を選択する選択部を設けておく。前記選択部により得られる結果により、データから抜き出した音声情報を加算するタイミングとして、オーディオ出力処理の前と後のどちらかを選択し、又はデータ力も抜き出したテキストもしくは文字情報を加算するタイミングとして、ビデオ出力処理の前と後のどちらかを選択して再生することができる。

[0150] 例えば、可変速処理の前に音声情報と文字情報とを加算させるのか、可変速処理の後に音声情報と文字情報とを加算させるのかといった、利用者の指示に従ったカロ算が選択できる。

[0151] 加算を行なうタイミングを決定するために、再生するストリームのコンテンツ内容及び利用者による使用用途を判断する判断部を設けておく。前記判断部により得られる結果により、再生時に、データ力抜き出した音声情報を加算するタイミングとして、オーディオ出力処理の前と後のどちらかを選択し、又はデータ力も抜き出したテキストもしくは文字情報を加算するタイミングとして、ビデオ出力処理の前と後のどちらかを選択して再生することができる。

[0152] 例えば、カラオケコンテンツであっても利用者の指示で、可変速処理では、可変速処理の前に音声情報と文字情報とを加算させるが、音程のみを変化させる音程変化処理では、音程変化処理の後に音声情報と文字情報とを加算させるといった、コンテンッ内容に加えて利用者の指示内容を加味して各出力処理の前後への加算を選択できる。

[0153] (実施の形態 3) 実施の形態 3における音声再生装置の構成を示すブロック図である図 8と、可変速制御を行なうオーディオ出力処理部の構成を示す図 21を主として参照しながら、実施の形態 3の音声再生装置の構成、及び音声再生方法につ!、て説明する。

[0154] オーディオ出力処理部 61は、可変速再生処理を行なうと限定するものではない。

例えばデコードした音声の音の高さを変える処理を行なってもよ、。デジタル放送信号を受信して記録し、少なくともオーディオが符号化されたストリームを、時刻同期を確保しながら再生する際に、オーディオデコード処理後、データ力抜き出した音声情報を同期情報によりオーディオ合成処理の前と後のどちらかを選択して加算し再生する。そうすると、例えば、副音声を主音声に加算した後で、オーディオ出力処理で元音声の音程の高低を変化させるか、オーディオ合成処理で元の主音声の音程の高低を変化させた後で副音声を加算するかで、加算された音声情報の出力のさせ方を変えることができる。

[0155] また、オーディオ出力処理部 61は、そのほかに各種サラウンド効果を加えた音響効果処理を実施することもできる。副音声を加えた後で、サラウンド効果を実施するか、サラウンド効果を加えた後で副音声を加えるかを変えることができる。結果として、副音声の広がり感ゃ、出力スピーカ先を変更することができる。そのほかに、映像処理と音響処理との間の同期処理遅延を考慮した遅延設定効果等がオーディオ出力処理部 61によって行なわれてもよい。接続した映像機器と音響機器の出力遅延を、音声再生装置で設定することができるように構成した場合、遅延を施す前に副音声を加える力、遅延後に副音声を加えるかを設定することができる。

[0156] (実施の形態 4)

実施の形態 4における画像再生装置及び音声再生装置の構成を示すブロック図である図 7及び図 8と、実施の形態 4における複数映像の同期再生方法を示した流れ図である図 23とを主として参照しながら、実施の形態 4の画像再生装置及び音声再生装置の構成、並びに画像再生方法及び音声再生方法につ!、て説明する。

[0157] これまでは、オーディオ再生時刻情報 APTSをもとに、複数の音声信号の同期を合わせる方法について説明してきた。以下に、ビデオ再生時刻情報 VPTSをもとに、複数の音声信号の同期を合わせる方法について説明する。 [0158] これは、各々の音声信号のオーディオ再生時刻情報を、主ビデオ信号のビデオ再生時刻情報に合わせてデコードすることにより、互いの同期をとるものである。図 23 は、ビデオデコード部 A104がデコード処理を行なった後、ビデオデコード部 B105 がデコード後の画像情報を同期情報によりビデオ出力処理の前と後のどちらかを選択して画像合成して再生する処理を示す流れ図である。ステップ 305で、ビデオデコードした結果をフレームバッファ部 A141へ格納する。ステップ 351で、ビデオ合成後にスキップ力合成前にスキップ力どちらかを選択する。

[0159] 合成後にスキップする場合 (ステップ 351で Yes)、ビデオデコード部 B105がデコードした結果をフレームバッファ部 B151へ格納する（ステップ 405)。そして、ステツプ 352で、ビデオデコード部 A104の再生時刻情報と、ビデオデコード部 B105の再生時刻情報とがー致 (許容出力時刻差以内で例えば 33ms以内で一致)すれば、デコード画像を重ね合わせた後、ステップ 353で、画像スキップ出力処理を行なう。

[0160] 他方、合成前にスキップする場合 (ステップ 351で No)、ステップ 354で、画像スキップ処理でスキップした後に、ステップ 355でビデオデコード部 A104の再生時刻情報に合わせたビデオデコード部 B105の再生時刻情報のデコード画像を重ね合わせる。そして、ステップ 308で、オーディオの出力と同期を合わせて画像を出力する。

[0161] 従って、一方のビデオデコード処理後、他方のビデオデコード時の同期情報によりビデオ出力処理の前と後のどちらかを選択して画像合成して再生する。例えば、他方の画像をデコード画像に加算した後で、画像スキップ出力処理で一方の画像と他方の画像とを同期させて出力する力画像スキップ処理でスキップした後に他方のデコード画像を加算するかで、加算された画像の出力のさせ方を変えることができる。

[0162] また、図 23に示す処理とは異なり、ビデオ合成処理の前か後かを判定した後で、一且ビデオスキップ処理を施し、表示するビデオ再生時刻情報 VPTSに合致する映像に他方のデコード画像を加算してよい。つまり、ビデオ合成処理前の時刻情報が一致する加算は、ビデオスキップ処理を施し、表示するビデオのビデオ再生時刻情報 VPTSと、再生時刻情報が一致するデコード画像のみを選別して加算し、表示する。他方、ビデオ合成処理後の時刻情報に一致する加算は、ビデオスキップ処理を実施した後で、表示されているビデオのビデオ再生時刻情報 VPTSには依存せず、デコード画像を加算して表示する。この場合、ビデオスキップ処理を施した後、表示される一方のビデオデコード再生時刻情報とは関係なしに、他方のビデオデコードの再生映像を重ね合わせるといった、処理を施すこともできる。

[0163] このスキップ処理は、 Iピクチャのみを再生し、 Pピクチャや Bピクチヤをスキップ処理する高速 I再生や、 Bピクチャのみをスキップする IP再生等が相当する。これらは、入力部 1で Bピクチヤのデータを捨ててしまうか、又はデコードした後で捨ててしまうか等により、 Bピクチャを再生させない。そのため、 Bピクチャの画像再生用の再生時刻情報は不要となる。従って、スキップ等を伴う高速再生時においては、最終的に出力する画像の再生時刻情報が有効となる。

[0164] 各フレームバッファ部力もの出力を、画像合成部 106で加算した後、加算結果をビデォ出力する。スキップ処理において、出力するビデオフレームのビデオ再生時刻情報 VPTSに対応するコメンタリ等の副画像データがないときには、加算処理を行なうことなく、次のデータの同期にあったフレーム出力時刻まで待つ。 NTSC方式の場合、 1秒間に約 30枚の画像を出力するので、各々の PTSの時刻差は 33ms程度である。ビデオ再生時刻情報 VPTSを基準とする場合、プラスマイナス 16. 5ms以内であれば、同期していると判断して画像等を重ねる処理をすればよい。なお、主オーディォデータとコメンタリ等の副音声の PCMバッファ部の音声合成も同じ原理で同期をはかればよい。こちらは 1オーディオフレーム単位 10数 ms (オーディオ圧縮方式の差により数 msから数十 ms)精度以内の差であれば同期していると判断し、合成音を生成すればよい。

[0165] なお、同期に必要な映像又は音声の時刻情報が無い場合、現在出画又は出音している PTS値を参照し、その PTS値を再生時刻情報に換算し、ビデオデータとォーディォデータとを同期させる時間として設定すれば、通常の同期再生と同じ方法により、データ合成を行なうことができる。

[0166] ここで、録画番組を編集したとき等、映像を主体としてシームレスに編集した場合を想定する。この場合、編集後の映像は途切れなくつながる力音声は途切れている場合が多い。これは MPEGによる編集の特徴であるが、映像と音声とが全く同じ方式で同時に符合ィ匕されていないことによる。従って、映像を主体とすれば、音声の連続性が保てないし、音声を主体とすれば映像の連続性が保てない。そこで、映像を主体としたシームレス再生時には、ビデオ再生時刻情報 VPTSをもととして、そのビデォ再生時刻情報 VPTSに、対応するオーディオ再生時刻情報 APTSを合わせるように音声再生をして、同期をかけることが望ましい。

[0167] 他方、音声を主体としてシームレスに編集する場合のシームレス再生時は、オーディォ再生時刻情報 APTSをもととして、そのオーディオ再生時刻情報 APTSに、対応するビデオ再生時刻情報 VPTSを持つ画像の再生を合わせるように同期をかけることが望ましい。

[0168] シームレス再生時において、両者の連続性をできるだけ保つようにシームレス再生するためには、以下のような方法がある。まず、映像を主体としてシームレス編集をする。接続点の前の映像に対する音声の再生を、一方のオーディオデコード部 A4にて、シームレス接続点の前の最後の再生時刻まで行なう。次に、別のオーディオデコード部 B5にて、次のシームレス接続点の最初の画像の再生時刻に対応するオーディォでデコードを行なって、同期する時刻の出音ができるように準備しておく。そして、映像のシームレス再生のビデオ再生時刻情報に従って、両方のデコード音声を切り替えるように再生すればよ!、。必要に応じて音声につ!、てはフェード処理を施す方力接続点前後の位相の違いによる異音が発生しにくい。このシームレス再生時においては、主音声のみの連続再生を重んじる場合、副音声の合成は禁止し副音声用のオーディオデコード処理を停止するような構成をとれば、複数のオーディオデコード部を、主音声のシームレス再生のために使用することができる。 3つオーディオデコード部を設けておけば、 1つは副音声のデコード用に確保しておき、他は主音声のデコード用及びシームレス処理用として使用することができる。更にもう一つオーディォデコード部があれば、副音声もシームレス用に確保し、副音声もシームレス再生が可能となる。

[0169] 他方、ビデオデコード後に画像合成部 106にて画像を合成するときに、画像処理部 160を設ければ、デコード後に合成画面拡大縮小等の出力サイズ変換を設定した場合、子画面を合成する場合、縮小してから子画面を合成するのか、特定部分を切り出して拡大するのかと!/、つた選択が可能となる。元画面の部分拡大や縮小等の選択も可能となる。ほかにも、出力テレビモニタにあわせた高解像力も低解像への変換又はその逆の解像度フォーマット変換 (4801の標準解像度から 10801の高画質解像度への変換等）、レターボックスとサイドパネルの出力フォーマット変換、 NTSC方式と PAL方式との間の周波数フォーマット変換等の各種のフォーマット変換、インターレース画質力プログレッシブ画質への IP変換等を実施することが想定される。これらの順序は、必ずしもこの例のとおりとは限らない。また、フォーマット変換についても、複数のフォーマット変換 (解像度フォーマットと出力フォーマット等）を同時に行なうこともある。なお、 2つの画像を合成する場合、一方が NTSC方式の画像で他方が P AL方式の画像であるとか、一方が標準画質の画像で他方が高画質の画像であるとき等にお、ては、両者のフォーマットを予め合わせておくと合成しやす、。

[0170] また、これらの重ね合わせた画像は、その画像に対して利用者の操作を助ける GU I画面等を貼り付けて表示するため、 GUI画面のメニュー配置に適した画面サイズでの合成が望まれる場合もある。例えば、背景画面に主映像を表示させ、それに子画面でコメンタリ映像を重ね、その上に各種画面設定用の透過メニュー画面を重ねる等の構成をとれば、設定メニューに従った画像効果を利用者が確認しやす、。

[0171] また、米国の放送方式では字幕は、クローズドキャプション信号と呼ばれ、利用者のリモコン操作により、表示と非表示とを切り替えることが仕様で定められている。従つて本発明の実施の形態に適用した場合、利用者の指示による、各出力処理の加算の選択と、表示の選択とが望まれる。更に、字幕文字等を、縦方向や横方向にスクロールするとか、ワイプを行なう等の各種表示効果を伴う場合においても、各種出力処理の前後を選択できるようにしてあれば、早送り時においても、重要な情報を見逃してしまう、又は、字幕が全部表示確認されないと次の画面の表示にうつれないといつたまどろつこしさが解消される。このような字幕や、字幕の類似例として、米国のクローズドキャプションだけでなく、欧州のテレテキスト等が存在する。

[0172] 更に、衛星デジタル放送のデータ放送から、字幕データと音声データとの再生の選択を別々に行なえるようにすると、例えば、データ放送中のストリームデータから抜き出した音声情報はオーディオ出力処理の前に加算し、文字情報はビデオ出力処理の後で加算する等各々の情報毎に別々〖こ加算できるような設定が可能となる。 [0173] これらの各ストリームの再生コンテンツ種別や内容を判断する判断部を設けておけば、再生時に、データから抜き出した音声情報を、前記判断部によって得られた結果により、オーディオ出力処理の前又は後を選択して再生し、又はデータ力も抜き出したテキストもしくは文字情報を、ビデオ出力処理の前もしくは後を選択して再生することができる。よって、入力又は再生媒体を特定せず、同じ再生方法にて対応できる。

[0174] オーディオ及びビデオ出力処理の機能別に、加算の前後の選択ができるように構成すれば、画面拡大後、子画面を追加して、可変速処理を施すといった複数出力処理にち対応することがでさる。

[0175] また、副音声以外に、ブザー等の付加音、複数の記録音声を加算するためのァフレコ音声、伴奏音にカラオケ等のマイクエコーを加算するマイクエコー音声も、ォーディォ出力処理の前又は後を選択して加算することができる構成をとれば、上記と同じ効果が得られる。他方、子画面以外に、字幕や文字スーパ、個人で編集時に挿入したい文字や図形等も、ビデオ出力処理の前又は後を選択して加算することができる構成をとることで、同様な効果が得られる。これは、専用のオーディオ演算素子やデジタルシグナルプロセッサ（DSP)を搭載すること、又は高性能の CPUを用いることで実現することができる。

[0176] なお、入力データは、外部力も入力されるデータ、外部記録媒体から入力されるデータとして説明してきたが、予め機器内に存在するデータであってもよい。

[0177] 今までは、入力部 1が、入力データをビデオ信号とオーディオ信号とに分離する場合について説明してきた。しかし、ビデオ信号とオーディオ信号は予め分離されているファイルデータであってもよい。圧縮ビデオデータと関連する再生時刻情報、圧縮オーディオデータと再生時刻情報を入力とし、各々の再生時刻情報を利用して、圧縮ビデオデータと圧縮オーディオデータとを同期させて再生することができる構成であれば、本発明の音声再生方法を実施する音声再生装置を構成することができる。これは、ビデオカメラ等で撮影した信号をパーソナルコンピュータ上で編集した結果として、 AV及びデータの混合ファイルと、 AVデータ独立のファイルとのどちらの場合でも、圧縮ビデオデータと関連する再生時刻情報、圧縮オーディオデータと再生時刻情報、ファイル上のデータ情報を互いに関連づけた同期をとつて再生する場合全てに適応される。

[0178] このデータ再生方法及び、装置の適用例としては、セットトップボックス、デジタル衛星放送受像機及びその記録機器、 DVDプレーヤ又は DVDレコーダ、 VCDの関連機器、ハードディスクレコーダ、パーソナルコンピュータ等がある。本発明の音声再生方法による AV再生プログラムを作成しておくことにより、パーソナルコンピュータ等へ、外部力もの動作プログラムをロードして、音声又は画像を合成しながら AV同期実行動作させることができる。

[0179] なお、図 2に示す各構成部の一部又は全部は一つの集積回路 (集積チップ)で実現されてもよい。また、図 7に示す各構成部の一部又は全部も一つの集積回路 (集積チップ)で実現されてもよい。また、図 8に示す各構成部の一部又は全部も一つの集積回路 (集積チップ)で実現されてもよい。また、図 12に示す各構成部の一部又は全部も一つの集積回路 (集積チップ)で実現されてもよい。更に、図 21に示す各構成部の一部又は全部も一つの集積回路 (集積チップ)で実現されてもょ、。

産業上の利用可能性

[0180] 本発明における音声再生方法及び音声再生装置は、符号化されたデジタルの複数の音声信号の同期信号を元に、符号化方式が異なってもサンプリングレートを変換する等、複数の音声信号を混合させるための手段を用いることによって、主音声及び主映像の再生を止めることなぐ主音声及び主映像の内容を補足するコメンタリ等の副音声や副映像の挿入再生といった用途に使用することができる。

Claims

請求の範囲

[1] 音声信号を再生して出力する音声再生装置であって、

一つの時間軸の上に、複数の音声信号それぞれの複数のオーディオ再生時刻情報を、音声信号毎に隣接する前記オーディオ再生時刻情報それぞれが示す再生時刻の差を保持した状態で割り当てることにより、前記複数の音声信号を同期させる同期手段と、

前記時間軸の上に割り当てられた複数の前記オーディオ再生時刻情報を利用して、前記複数の音声信号を合成する合成手段と

を備える音声再生装置。

[2] 前記時間軸は、前記複数の音声信号のうちの何れか一つの音声信号の複数の前記オーディオ再生時刻情報によって特定される時間軸であって、

前記同期手段は、前記何れか一つの音声信号の前記オーディオ再生時刻情報によって特定される時間軸の上に、他の音声信号の前記複数のオーディオ再生時刻情報を割り当てる

請求項 1記載の音声再生装置。

[3] 前記時間軸は、可変速再生されて!、る前記何れか一つの音声信号の複数の前記オーディオ再生時刻情報によって特定される時間軸である

請求項 2記載の音声再生装置。

[4] 前記複数の音声信号はビデオ信号と多重化されており、

前記時間軸は、前記ビデオ信号の複数のビデオ再生時刻情報によって特定される時間軸であって、

前記同期手段は、前記ビデオ再生時刻情報によって特定される時間軸の上に、前記複数の音声信号それぞれの前記複数のオーディオ再生時刻情報を割り当てる請求項 1記載の音声再生装置。

[5] 前記時間軸は、可変速再生されて！ヽる前記ビデオ信号のビデオ再生時刻情報によつて特定される時間軸である

請求項 4記載の音声再生装置。

[6] 前記時間軸は、可変速しているシステム時刻基準参照信号によって特定される時間軸である

請求項 1記載の音声再生装置。

[7] 更に、

前記複数の音声信号のうちの何れか一つの音声信号のサンプリングレートに合わせて、他の音声信号のサンプリングレートを変換するサンプリングレート変換手段を備え、

前記合成手段は、前記何れか一つの音声信号と、前記サンプリングレート変換手段によって変換された前記他の音声信号とを合成する

請求項 1記載の音声再生装置。

[8] 前記何れか一つの音声信号は、前記複数の音声信号のうちの、連続した音声再生区間が最も長い音声信号である

請求項 7記載の音声再生装置。

[9] 前記何れか一つの音声信号は、前記複数の音声信号のうちの、音声再生区間の間欠が最も少な、音声信号である

請求項 7記載の音声再生装置。

[10] 前記何れか一つの音声信号は、前記複数の音声信号のうちの、最も高いサンプリングレートを有する音声信号である

請求項 7記載の音声再生装置。

[11] 前記何れか一つの音声信号は、前記複数の音声信号のうちの、最も低いサンプリングレートを有する音声信号である

請求項 7記載の音声再生装置。

[12] 前記何れか一つの音声信号は、前記複数の音声信号のうちの、サンプリングレートが変わらな、音声信号である

請求項 7記載の音声再生装置。

[13] 更に、

前記複数の音声信号のうちの何れか一つの音声信号に他の音声信号を加算することにより前記複数の音声信号を合成する場合、前記何れか一つの音声信号の再生出力レベルを、前記他の音声信号を加算する部分のみ減ずる出力レベル調整手段を備える

請求項 1記載の音声再生装置。

[14] 前記出力レベル調整手段は、前記何れか一つの音声信号に対して前記他の音声信号を合成する場合であって、利用者によって前記他の音声信号の再生出カレべルをより大きく設定されたとき、前記何れか一つの音声信号の再生出力レベルを、前記他の音声信号の再生出力レベルの増加分減じる

請求項 13記載の音声再生装置。

[15] 更に、

前記複数の音声信号のうちの何れか一つの音声信号の再生信号チャンネル数に合わせて、他の音声信号の再生信号チャンネル数を統合又は分配する統合分配手段を備える

請求項 1記載の音声再生装置。

[16] 更に、

前記音声再生装置に接続される音声出力装置のチャンネル数に合わせて、各前記音声信号の再生信号チャンネル数を統合又は分配する統合分配手段を備える請求項 1記載の音声再生装置。

[17] 前記統合分配手段は、利用者による前記音声出力装置の音声出力指定チャンネルに合わせて、各前記音声信号の再生信号チャンネル数を統合又は分配する請求項 16記載の音声再生装置。

[18] 音声信号を再生して出力する音声再生方法であって、

一つの時間軸の上に、複数の音声信号それぞれの複数のオーディオ再生時刻情報を、音声信号毎に隣接する前記オーディオ再生時刻情報それぞれが示す再生時刻の差を保持した状態で割り当てることにより、前記複数の音声信号を同期させる同期ステップと、

前記時間軸の上に割り当てられた複数の前記オーディオ再生時刻情報を利用して、前記複数の音声信号を合成する合成ステップと

を含む音声再生方法。

[19] 音声信号を再生して出力するためのプログラムであって、一つの時間軸の上に、複数の音声信号それぞれの複数のオーディオ再生時刻情報を、音声信号毎に隣接する前記オーディオ再生時刻情報それぞれが示す再生時刻の差を保持した状態で割り当てることにより、前記複数の音声信号を同期させる同期ステップと、

をコンピュータに実行させるためのプログラム。