JP6971059B2

JP6971059B2 - 再配信システム、再配信方法、およびプログラム

Info

Publication number: JP6971059B2
Application number: JP2017110376A
Authority: JP
Inventors: 成暁加藤; 宗遠藤; 秋継馬場; 清彦石川; 裕紀藤井; 英樹丸山
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2017-06-02
Filing date: 2017-06-02
Publication date: 2021-11-24
Anticipated expiration: 2037-06-02
Also published as: JP2018207288A

Description

本発明は、再配信システム、再配信方法、およびプログラムに関する。

インターネット等の通信回線を用いて様々なコンテンツ（映像や音声など）をリアルタイムに配信（ストリーミング）する技術が普及してきている。インターネットを利用した映像や音声等の配信は、比較的低コストの設備や、相対的に低い情報伝送コストで実現できるため、今後、ますます活用されていくことが予想されている。

ところで、例えば、第１の事業者によって制作されたコンテンツを、第２の事業者が受信して再配信する場合に、コンテンツを付加する場合がある。典型的な例では、特定の地域向けあるいは特定の言語圏向けにコンテンツを再配信するときに、その地域ないしは言語等に特有のコンテンツを付加することが望まれることがある。そのような場合、従来の技術では、まず第１の事業者が制作したコンテンツ（例えば、映像および音声）を第２の事業者向けに伝送する。そして、第２の事業者は、付加すべきコンテンツ（例えば、特定言語による解説音声や、特定地域向けの解説音声）を付加した後、インターネット配信用の形式にエンコードしていた。

従来技術によるこのような方法では、第２の事業者がコンテンツを加工し、配信しやすくするため、高品質なコンテンツを専用線などを使用した伝送が必要で、第２の事業者がコンテンツ（上記の音声）を付加するために、多くの機材および工程を要していた。

具体的には、従来技術を用いた場合、第１の事業者から伝送された映像および音声をデコーダーによりデコードし、映像と音声とをＤｅＭＵＸ（デマルチプレクサー）で分離した後、元の音声に付加すべき音声を付加していた。そして、元の映像と付加された音声とをエンコーダーを用いてエンコードし、映像と音声を再びＭＵＸ（マルチプレクサー）で結合することでインターネット配信用の形式にエンコードしていた。

例えば、非特許文献１には、大規模なスポーツイベントに関して、放送事業者が、インターネット経由で全競技・全種目の映像を実際にライブストリーミングで配信した際のシステム構成が記載されている。この文献によれば、イベントが開催されている現地都市のセンター（ブラジル）から、国際回線を用いて、ＩＰＶａｎｄＡのＳＤ画質の映像リソースが、東京の放送センターまで伝送された。なお、ＳＤ画質の映像は、約２．５Ｍｂｐｓのビットレートによるものである。そして、その放送センターにおいて、ＩＰＶａｎｄＡの映像をより低ビットレートの映像にコーディングし直して、インターネット経由での配信が行われた。また、一部の競技の映像に関しては、上記の放送センター内に簡易の音声ブースを構築し、ネット配信独自の解説・実況の音声を付加して配信することが行われた。

島西顕司，遠藤宗，小久保幸紀，折下伸也，坂井駿一，前田彩、「リオデジャネイロオリンピックデジタルコンテンツ制作について」、放送技術、２０１６年１１月、ｐ．１０４−１０６．

従来技術において、コンテンツを付加して再配信する際に、元のコンテンツの少なくとも一部を再生する必要がある。また、元のコンテンツと、付加されるコンテンツとの間のタイミングを合わせて、再配信する必要がある。
そのために、元のコンテンツをまずベースバンド信号（非圧縮信号）の状態にして再生し、コンテンツを付加する必要があった。また、そのため、元のコンテンツを伝送するためにベースバンド信号（非圧縮信号）もしく高いビットレートでエンコードされた高解像度な映像を含む信号を伝送する必要があり、広帯域で安定した回線、即ち高コストな通信回線を必要としていた。また、そのようなシステムを構成するためには、多段の工程を必要とし、即ち多くの高価な機材等を必要としていた。特に、複数の拠点から従来技術を用いて同時にコンテンツを配信できるようにすることは、費用面において困難であった。

本発明は、上記の課題認識に基づいて行なわれたものであり、元のコンテンツを受信し、新たなコンテンツを付加し、それらをまとめて再配信する際に、伝送のコストや機材のコストを低くすることのできる、再配信システム、再配信方法、およびプログラムを提供しようとするものである。

［１］上記の課題を解決するため、本発明の一態様による再配信システムは、ＨＴＴＰストリーミング形式にエンコードされた少なくとも１種類のコンテンツを含む第１パッケージを受信する受信部と、前記受信部が受信した前記第１パッケージに含まれる前記コンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する編集部と、前記受信部が受信した前記第１パッケージに含まれる前記コンテンツのうちの少なくとも一部のコンテンツと、前記編集部によって生成された前記新たなコンテンツとを、一つの第２パッケージとして統合して出力する統合部と、前記統合部から出力される前記第２パッケージを再配信する配信部と、を具備することを特徴とする。

［２］また、本発明の一態様は、上記の再配信システムにおいて、前記受信部は、少なくとも１種類の映像のコンテンツと、少なくとも１種類の音声のコンテンツとを含む前記第１パッケージを受信し、前記編集部は、前記第１パッケージに含まれる少なくとも１種類の音声のコンテンツである第１音声を再生するとともに、前記第１音声と、前記第１音声に対応して入力される別の音声とを重畳して得られる第２音声を生成して前記新たなコンテンツとして出力し、前記統合部は、前記第１パッケージに含まれる前記映像のコンテンツおよび前記音声のコンテンツと、前記新たなコンテンツとの間で、再生のタイミングが整合するように統合して出力する、ことを特徴とする。

［３］また、本発明の一態様は、上記の再配信システムにおいて、前記編集部は、前記第１パッケージに含まれるコンテンツが保持するタイミング情報に基づいて、整合するタイミング情報を前記新たなコンテンツに付与するものであり、前記統合部は、前記第１パッケージに含まれるコンテンツが保持するタイミング情報と前記新たなコンテンツに付与されたタイミング情報とに基づいて、再生のタイミングが整合するようにする、ことを特徴とする。

［４］また、本発明の一態様は、上記の再配信システムにおいて、前記統合部は、前記第１音声の波形と前記第２音声の波形との類似性に基づいて、前記第１音声のコンテンツを含む前記第１パッケージのコンテンツと、前記新たなコンテンツである前記第２音声との、いずれか一方を時間方向に移動させることによって、再生のタイミングが整合するように統合して出力する、ことを特徴とする。

［５］また、本発明の一態様は、上記の再配信システムにおいて、前記受信部は、少なくとも１種類の音声のコンテンツを含む前記第１パッケージを受信し、前記編集部は、前記第１パッケージに含まれる少なくとも１種類の音声のコンテンツの音声認識処理を行うことによって前記音声のコンテンツに対応する字幕テキストのコンテンツを前記新たなコンテンツとして生成し、前記統合部は、前記音声のコンテンツに含まれる音声信号と生成された前記字幕テキストとの間の時間方向の対応関係に基づいて、前記音声のコンテンツの再生のタイミングと前記字幕テキストの提示のタイミングが整合するように統合して出力する、ことを特徴とする。

［６］また、本発明の一態様は、ＨＴＴＰストリーミング形式にエンコードされた少なくとも１種類のコンテンツを含む第１パッケージを受信する受信過程、前記受信過程で受信した前記第１パッケージに含まれる前記コンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する編集過程、前記受信過程で受信した前記第１パッケージに含まれる前記コンテンツのうちの少なくとも一部のコンテンツと、前記編集過程において生成された前記新たなコンテンツとを、一つの第２パッケージとして統合して出力する統合過程、前記統合過程で出力される前記第２パッケージを再配信する配信過程、を含むことを特徴とする再配信方法である。

［７］また、本発明の一態様は、コンピューターを、ＨＴＴＰストリーミング形式にエンコードされた少なくとも１種類のコンテンツを含む第１パッケージを受信する受信部と、前記受信部が受信した前記第１パッケージに含まれる前記コンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する編集部と、前記受信部が受信した前記第１パッケージに含まれる前記コンテンツのうちの少なくとも一部のコンテンツと、前記編集部によって生成された前記新たなコンテンツとを、一つの第２パッケージとして統合して出力する統合部と、前記統合部から出力される前記第２パッケージを再配信する配信部と、を具備する再配信システムとして機能させるためのプログラムである。

本発明によれば、低い伝送コスト、低い機器コストで、ストリーミング形式のコンテンツに新たなコンテンツを付加したうえで再配信することが可能となる。

本発明の第１実施形態による再配信システム（再配信装置）の概略機能構成と、同システムにおけるコンテンツデータの流れとを示す概略図である。同実施形態による再配信システムを含む、システム全体の構成例を示すブロック図である。第２実施形態による再配信システム（再配信装置）の概略機能構成と、同システムにおけるコンテンツデータの流れとを示す概略図である。同実施形態において、配信サーバー装置から配信されたコンテンツを再配信システムが再配信する際のコンテンツの流れを示す概略図である。同実施形態において配信サーバー装置側からストリーミング配信されるデータの構成例を示す概略図である。同実施形態において再配信システムからストリーミング配信されるデータの構成例を示す概略図である。同実施形態において用いられる最上位層のインデックスファイルの構成例を示す概略図である。同実施形態において用いられる、相対的に下位層のインデックスファイルの構成例を示す概略図である。第３実施形態による再配信システム（再配信装置）の概略機能構成と、同システムにおけるコンテンツデータの流れとを示す概略図である。

［第１実施形態］
図１は、本実施形態による再配信システム（再配信装置）の概略機能構成と、同システムにおけるコンテンツデータの流れとを示す概略図である。図示するように、再配信システム１は、受信部１２０と、編集部１４０と、統合部１６０と、配信部１８０とを含んで構成される。

再配信システム１は、例えば外部の配信サーバーからＨＴＴＰストリーミング等で配信されるコンテンツを受信する。なお、ＨＴＴＰは、ハイパーテキスト転送プロトコル（HyperText Transfer Protocol）の略である。再配信システム１が受信するコンテンツは、例えば、映像や音声やテキストなど、複数の種類のコンテンツを含んでいる。また、再配信システム１が受信するコンテンツは、例えば、複数の映像のコンテンツや、複数の音声のコンテンツ等を含んできてもよい。そして、再配信システム１は、受信したコンテンツの少なくとも一部に基づく新たなコンテンツを生成する。そして、再配信システム１は、受信した元のコンテンツと、生成した新たなコンテンツとを、まとめて１つのコンテンツのパッケージとして、再配信するものである。

受信部１２０は、例えばＨＴＴＰストリーミング形式にエンコードされた少なくとも１種類のコンテンツを含む第１パッケージを受信する。受信部１２０は、複数の種類のコンテンツを受信してもよい。図示する例では、Ｃ（１）からＣ（ｍ＋ｎ）までの（ｍ＋ｎ）種類のコンテンツを含んだパッケージを受信する。なお、ここで、ｍは０以上の整数であり、ｎは１以上の整数である。なお、受信部１２０は、例えばＨＬＳによりこれらのコンテンツを受信する。ＨＬＳは、「ＨＴＴＰライブストリーミング」（HTTP Live Streaming）の略であり、インターネット等を介して映像等をストリーミング配信する方法（プロトコル）として知られる。
受信部１２０は、受信したコンテンツであるＣ（１）からＣ（ｍ＋ｎ）を、統合部１６０に渡す。また、受信部１２０は、受信したコンテンツのうちのＣ（ｍ＋１）からＣ（ｍ＋ｎ）を、編集部１４０に渡す。

編集部１４０は、受信部１２０が受信した第１パッケージに含まれるコンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する。より具体的には、編集部１４０は、受信部１２０が受信したコンテンツのうちのＣ（ｍ＋１）からＣ（ｍ＋ｎ）までのｎ種類のコンテンツを、受信部１２０から受け取る。そして、編集部１４０は、受け取ったコンテンツであるＣ（ｍ＋１）からＣ（ｍ＋ｎ）までに基づいて、これらのコンテンツに関連する新たなコンテンツを生成する。編集部１４０が生成する新たなコンテンツは、Ｃ（ｍ＋ｎ＋１）からＣ（ｍ＋ｎ＋ｋ）までのｋ種類のコンテンツである。ただし、ｋは、１以上の整数である。編集部１４０が受け取るコンテンツであるＣ（ｍ＋１）からＣ（ｍ＋ｎ）までと、編集部が生成するコンテンツであるＣ（ｍ＋＋ｎ＋１）からＣ（ｍ＋ｎ＋ｋ）までとの関係は様々であるが、両者はコンテンツとして関係を有している。また、両者は、相互に関連するものであるので、その再生等（より一般的には、提示）においてタイミングを合わせるべきものである。編集部１４０は、生成したコンテンツを、統合部１６０に渡す。

統合部１６０は、受信部１２０が受信した第１パッケージに含まれるコンテンツと、編集部１４０によって生成された新たなコンテンツとを、一つの第２パッケージとして統合して出力する。統合部１６０は、受信部１２０から渡されたコンテンツであるＣ（１）からＣ（ｍ＋ｎ）までと、編集部１４０から渡されたコンテンツであるＣ（ｍ＋ｎ＋１）からＣ（ｍ＋ｎ＋ｋ）までとを統合する。なお、統合部１６０は、エンコードされたままの状態でＣ（１）からＣ（ｍ＋ｎ）までを受け取り、そのままコンテンツであるＣ（ｍ＋ｎ＋１）からＣ（ｍ＋ｎ＋ｋ）までとの統合を行う。そして、統合部１６０は、これらのコンテンツの全体を一つのパッケージとして、配信部１８０に渡す。なお、このとき、統合部１６０は、受信部１２０から渡されたコンテンツと編集部１４０から渡されたコンテンツとの間で、再生のタイミングが整合するように統合する。
なお、統合部１６０が、受信部１２０から渡されたコンテンツであるＣ（１）からＣ（ｍ＋ｎ）までの全部ではなく、それらの一部のみを、Ｃ（ｍ＋ｎ＋１）からＣ（ｍ＋ｎ＋ｋ）までと統合するようにしてもよい。この場合、Ｃ（１）からＣ（ｍ＋ｎ）のうちのいずれをＣ（ｍ＋ｎ＋１）からＣ（ｍ＋ｎ＋ｋ）までと統合するかは、適宜、定められる。
つまり、統合部１６０は、受信部１２０が受信した第１パッケージに含まれるコンテンツのうちの少なくとも一部のコンテンツと、編集部１４０によって生成された新たなコンテンツとを、一つの第２パッケージとして統合して出力する。

配信部１８０は、統合部１６０から渡されたコンテンツ（第２パッケージ）を、再配信する。

図２は、再配信システム１を含む、システム全体の構成例を示すブロック図である。図示するように、本システムは、配信サーバー装置２と、再配信システム１と、クライアント装置３とを含んで構成される。再配信システム１は、インターネット等の通信回線を介して、配信サーバー装置２およびクライアント装置３と接続されている。なお、この図においては、１台のクライアント装置３のみを示しているが、実際には多数のクライアント装置３が再配信システム１に接続されていてもよい。再配信システム１が受信部１２０と編集部１４０と統合部１６０と配信部１８０とを含んで構成される点は、図１を参照しながら説明した通りである。

配信サーバー装置２は、オリジナルのコンテンツを配信するサーバーコンピューターである。配信サーバー装置２が配信するコンテンツは、例えば、映像と音声とで構成されるコンテンツである。なお、配信サーバー装置２は、コンテンツの配信には、例えば、前述のＨＬＳを用いる。
クライアント装置３は、再配信システム１が送出するコンテンツ（再配信されるコンテンツ）を受信する。クライアント装置３は、例えば、パーソナルコンピューター（ＰＣ）や、スマートフォン（スマホ）や、腕時計型の情報端末や、メガネ型の情報端末や、その他の情報機器等を用いて実現される。クライアント装置３は、例えば、ウェブブラウザーの機能を備えており、ウェブブラウザーがＨＴＴＰクライアントとして機能する。これにより、再配信システム１からＨＬＳで再配信されるコンテンツが視聴可能となる。

本実施形態の構成によれば、ベースバンド信号（非圧縮信号）によるコンテンツを受信することなく、ストリーミング形式で受信したコンテンツに関連する新たなコンテンツを付加したうえで、コンテンツの再配信を実現することが可能となる。つまり、工程や機材等を大幅に削減できるため、安価に再配信システムを実現することが可能となる。

［第２実施形態］
次に、第２実施形態について説明する。なお、前実施形態において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。

図３は、本実施形態による再配信システム（再配信装置）の概略機能構成と、同システムにおけるコンテンツデータの流れとを示す概略図である。図示するように、再配信システム１１は、受信部２２０と、編集部２４０と、統合部２６０と、配信部２８０とを含んで構成される。

再配信システム１１は、映像および音声のコンテンツ（「音声Ａ」と呼ぶ）を受信し、受信した音声のコンテンツに基づく別の音声のコンテンツ（「音声Ｂ」と呼ぶ）を生成し、受信した元のコンテンツ（音声Ａをも含む）と、生成した音声のコンテンツ（音声Ｂ）とを統合したコンテンツを、再配信するものである。

受信部２２０は、少なくとも１種類の映像のコンテンツと、少なくとも１種類の音声のコンテンツとを含む第１パッケージを受信する。具体的には、受信部２２０は、インターネット等の通信回線を介して配信されるストリーミング映像および音声（「音声Ａ」と呼ぶ）のコンテンツを受信する。受信部２２０が受信する映像および音声Ａは、エンコードされた状態で、例えば外部の配信サーバー等から送信されたものである。なお、一例として、受信専用のコンピューター装置などを用いて、受信部２２０を実現することが可能である。

編集部２４０は、第１パッケージに含まれる少なくとも１種類の音声のコンテンツである第１音声を再生するとともに、その第１音声と、その第１音声に対応して入力される別の音声とを重畳して得られる第２音声を生成して新たなコンテンツとして出力する。つまり、編集部２４０は、受信部２２０が外部から受信したコンテンツのうち、少なくとも音声Ａのコンテンツを受け取り、再生する。なお、編集部２４０が、映像のコンテンツをも受け取って再生するようにしてもよい。そして、編集部２４０は、音声Ａのコンテンツと、編集部２４０に接続されたマイクロホン等から集音された音声とを、音声の帯域において混合し、所定の符号化方式でエンコードして、新たな音声（「音声Ｂ」と呼ぶ）のコンテンツとして出力する。
一例として、アナウンサーや解説者らが、編集部２４０で再生されるコンテンツ（映像および音声Ａ）を視聴しながら、実況あるいは解説等を行う。つまり、アナウンサーや解説者らは、自身の声をマイクロホン等に向けて発し、その声を含む音声Ｂのコンテンツを編集部２４０が生成する。このように、デコードされた第１音声を再生して、アナウンサーや解説者らがその第１音声をリアルタイムで聞きながら自身の声を発する場合には、音声を処理するための遅延時間が生じないか、その遅延時間は無視できるほどに小さい。よって、第１音声と新たな音声とは、適切なタイミングで混合され、音声Ｂが生成される。
なお、他の方法によって音声Ｂを作成してもよい。その場合、音声Ｂの作成にあたっては、必要に応じて、第１音声と別の音声（アナウンサーや解説者らが発する声）とのタイミングが整合するように、タイミング合わせのための適切な処理を行ってもよい。
なお、コンピューターを用いて、編集部２４０を実現することも可能である。一例として、パーソナルコンピューターやスマートフォン（スマホ）などの、個人用の情報機器などを用いて、編集部２４０を実現することも可能である。

統合部２６０は、第１パッケージに含まれる映像のコンテンツおよび音声のコンテンツと、上記の新たなコンテンツとの間で、再生のタイミングが整合するように統合して出力する。統合部２６０は、元々受信部２２０が受信したコンテンツ（映像と音声Ａ）と、編集部２４０から渡されたコンテンツ（音声Ｂ）とを統合して、配信部２８０に渡す。統合部２６０は、これらのコンテンツを統合する際、受信部２２０が受信したコンテンツ（映像と音声Ａ）と、編集部２４０から渡されたコンテンツ（音声Ｂ）との間で、タイミングが相互に整合するように調整する。また、統合部２６０は、受信部２２０から渡される音声Ａと、編集部２４０から渡される音声Ｂとの間の、レベル調整を行う。なお、統合部２６０は、映像および音声Ａを、エンコードされたままの状態で受信部２２０から受け取る。そして、そのままの状態で、音声Ｂとの統合を行う。
なお、統合部２６０が、受信部２２０から渡されたコンテンツの全部（映像と音声Ａ）ではなく、それらの一部のみを、編集部２４０から渡されるコンテンツ（音声Ｂ）と統合するようにしてもよい。その場合、例えば、統合部２６０は、受信部２２０から渡される映像、および編集部２４０から渡される音声Ｂだけを統合してもよい。また、例えば、受信部２２０から渡される音声Ａ、および編集部２４０から渡される音声Ｂだけを統合してもよい。これらのいずれの場合にも、統合部２６０は、コンテンツを統合する際、受信部２２０が受信したコンテンツと、編集部２４０から渡されたコンテンツとの間で、タイミングが相互に整合するように調整する。
つまり、統合部２６０は、受信部２２０が受信した第１パッケージに含まれるコンテンツのうちの少なくとも一部のコンテンツと、編集部２４０によって生成された新たなコンテンツとを、一つの第２パッケージとして統合して出力する。
なお、統合部２６０に依るタイミングの調整およびレベルの調整の処理は、自動的に行われる。統合部２６０がタイミングを調整する方法の詳細については、後で述べる。

配信部２８０は、統合部２６０から出力されたコンテンツを、配信する。配信部２８０は、インターネット等を介して、コンテンツを配信する。

図４は、本実施形態において、配信サーバー装置から配信されたコンテンツを再配信システムが再配信する際のコンテンツの流れを示す概略図である。同図において、受信部２２０と編集部２４０と統合部２６０と配信部２８０とは、図３にも示した通り、再配信システム１１を構成する装置（またはその一部の機能）である。また、再配信システム１１を構成するこれらの機能と、配信サーバー装置２と、クライアント装置３とは、それぞれインターネットに接続されており相互に通信可能である。なお、通信のために、インターネット以外の手段を用いてもよい。なお、図４において、クライアント装置３を１台のみ示しているが、実際には、多数のクライアント装置３が配信部２８０からの配信を受けるようにしてよい。

図示するように、配信サーバー装置２は、映像および音声を含むコンテンツを、インターネット経由で配信する。コンテンツの配信には、例えば、前述のＨＬＳを用いる。受信部２２０は、配信サーバー装置２から配信された上記コンテンツを受信する。受信部２２０は、受信したコンテンツである映像および音声（音声Ａ）を、インターネット経由で、または他の回線等を経由して、統合部２６０に渡す。また、受信部２２０は、受信したコンテンツのうちの少なくとも音声Ａを（必要に応じて映像をも）、インターネット経由で、または他の回線等を経由して、編集部２４０に渡す。編集部２４０は、受信部２２０から受信したコンテンツに基づいて、音声Ａとは異なる音声コンテンツである音声Ｂを生成する。なお、音声Ｂ内に、音声Ａが混合されていてもよい。典型的な適用例においては、音声Ａはイベント等が行われている現地からの生中継音声であり、音声Ｂは、編集部２４０を用いるアナウンサーや解説者等が、音声Ａに、マッチした発話を混合させたものである。編集部２４０は、音声Ａを有するファイルに含まれるタイミング情報を参照し、音声Ｂに前記タイミング情報を付加してエンコードし、ファイルとして出力する。ここで、タイミング情報とは、例えばＰＴＳ（プレゼンテーションタイムスタンプ）である。さらに、編集部２４０は、音声Ａと音声Ｂとの間で再生タイミングを一致させるためのメタデータ（音声Ａと音声Ｂとの間で対応付けられるファイル名等のデータ）を生成する。そして、編集部２４０は、音声Ｂを、新たな音声のコンテンツとして統合部２６０に渡す。なお、編集部２４０は、この音声のコンテンツ（音声Ｂ）を統合部２６０に渡す際、インターネット経由で送信してもよいし、その他の回線等を経由して送信してもよい。

統合部２６０は、受信部２２０から受け取ったコンテンツと、編集部２４０から受け取ったコンテンツとを、再生タイミングを一致させるためのメタデータ（ファイル名の対応関係等のデータ）に基づいて統合する。統合部２６０が行う重要な処理の一つは、受信部２２０側からのコンテンツと編集部２４０側からのコンテンツとの間で、上記のメタデータ（ファイル名の対応関係等）に基づいてタイミングを合わせることである。つまり、統合部２６０がコンテンツ間での同期を取ることにより、編集部２４０で生成された音声Ｂのコンテンツは、受信部２２０側からの映像および音声（音声Ａ）のそれぞれと、整合したタイミングで配信することが可能となる。統合部２６０は、タイミングを整合させる対象となる受信部２２０側からのコンテンツと編集部２４０側からのコンテンツの到達時刻が不一致となる場合を考慮し、コンテンツを蓄積するバッファ領域を備える。統合部２６０は、統合されたコンテンツを、配信部２８０に渡す。そして、配信部２８０は、統合部２６０から渡されたコンテンツの全体を、インターネット経由で配信する。コンテンツの配信には、例えば、前述のＨＬＳを用いる。クライアント装置３は、配信部２８０から再配信されたコンテンツを受信し、デコードして再生する。なお、クライアント装置３は、映像のコンテンツを再生するとともに、適宜、音声Ａあるいは音声Ｂのいずれか一方の音声のコンテンツを再生するようにしてよい。

次に、本実施形態において配信されるデータの形式等について説明する。
図５は、本実施形態において受信部２２０が受信するストリーミング配信データの構成例を示す概略図である。図示するように、配信サーバー装置２側から配信されるデータは、階層構造で構成されている。同図では、最も左側が最上位の階層、真中が中間の階層、最も右側が最下位の階層を表している。最上位の階層では、１個のインデックスファイルが存在しており、そのファイル名は「ＩｎｄｅｘＦｉｌｅ．ｍ３ｕ８」である。このインデックスファイル「ＩｎｄｅｘＦｉｌｅ．ｍ３ｕ８」は、下位層（中間の階層）の別の３種類のインデックスファイルの所在の情報（ファイル名、パス名等）を保持している。それらの３種類のインデックスファイルは、「Ａｌｔｅｒｎａｔｅ−ＬｏｗＩｎｄｅｘ」と、「Ａｌｔｅｒｎａｔｅ−ＭｉｄＩｎｄｅｘ」と、「Ａｌｔｅｒｎａｔｅ−ＨｉＩｎｄｅｘ」とである。これらの３種類のインデックスファイルは、適宜、確保可能な通信帯域幅に応じて使い分けることができる。例えば、配信を受けるクライアント装置側のユーザーが、低帯域幅、中帯域幅、高帯域幅の３種類の中から一つを指定できるようにする。「Ａｌｔｅｒｎａｔｅ−ＬｏｗＩｎｄｅｘ」と、「Ａｌｔｅｒｎａｔｅ−ＭｉｄＩｎｄｅｘ」と、「Ａｌｔｅｒｎａｔｅ−ＨｉＩｎｄｅｘ」のそれぞれは、所定時間長（例えば、６秒など）ごとの動画ファイルの所在情報のリストを保持している。一例として、インデックスファイル「Ａｌｔｅｒｎａｔｅ−ＬｏｗＩｎｄｅｘ」は、「Ｌｏｗ＿０１．ｔｓ」と、「Ｌｏｗ＿０２．ｔｓ」と、「Ｌｏｗ＿０３．ｔｓ」と、「Ｌｏｗ＿０４．ｔｓ」との４つの動画ファイルの所在の情報を保持している。なお、「Ｌｏｗ＿０１．ｔｓ」と、「Ｌｏｗ＿０２．ｔｓ」と、「Ｌｏｗ＿０３．ｔｓ」と、「Ｌｏｗ＿０４．ｔｓ」とは、順次再生されるべき動画ファイルである。なお、インデックスファイル「Ａｌｔｅｒｎａｔｅ−ＬｏｗＩｎｄｅｘ」は、４個に限らず、任意の数の動画ファイルの所在情報を持つことができる。ここではインデックスファイル「Ａｌｔｅｒｎａｔｅ−ＬｏｗＩｎｄｅｘ」を例として説明したが、「Ａｌｔｅｒｎａｔｅ−ＭｉｄＩｎｄｅｘ」と「Ａｌｔｅｒｎａｔｅ−ＨｉＩｎｄｅｘ」のそれぞれもまた、帯域幅に応じた動画ファイルの所在情報を保持する。

なお、図５に示すデータ構成の場合、音声（音声Ａ）は、それぞれの動画ファイル（Ｌｏｗ＿０１．ｔｓや、Ｍｉｄ＿０１．ｔｓや、Ｈｉ＿０１．ｔｓなど）の中に含まれている。
一方、音声（音声Ａ）を独立のファイルとして配信サーバー装置２側から配信し、受信部２２０がその音声ファイルをも受信するようにしてもよい。この場合、音声は、適切な長さに分割されて、時間の経過に沿った複数のファイルとして配信される。また、それらの音声ファイルは、動画ファイルをインデックスしているのと同一のインデックスファイルによってインデックスされている。

図６は、本実施形態において統合部２６０が出力し、配信部２８０が配信するストリーミング配信データの構成例を示す概略図である。図示するように、統合部２８０が配信するデータもまた、階層構造で構成されている。図５で説明したデータ構成と同様に、最も左側が最上位の階層、真中が中間の階層、最も右側が最下位の階層を表している。最上位の階層では、１個のインデックスファイルが存在しており、そのファイル名は「ＩｎｄｅｘＦｉｌｅ．ｍ３ｕ８」である。このインデックスファイル「ＩｎｄｅｘＦｉｌｅ．ｍ３ｕ８」は、下位層（中間の階層）の別の５種類のインデックスファイルの所在の情報（ファイル名、パス名等）を保持している。それらの５種類のインデックスファイルは、「Ａｌｔｅｒｎａｔｅ−ＬｏｗＩｎｄｅｘ」と、「Ａｌｔｅｒｎａｔｅ−ＭｉｄＩｎｄｅｘ」と、「Ａｌｔｅｒｎａｔｅ−ＨｉＩｎｄｅｘ」と、「ｍｉｘｅｄ」と、「ｏｒｉｇｉｎａｌ」とである。

このうち、「Ａｌｔｅｒｎａｔｅ−ＬｏｗＩｎｄｅｘ」と、「Ａｌｔｅｒｎａｔｅ−ＭｉｄＩｎｄｅｘ」と、「Ａｌｔｅｒｎａｔｅ−ＨｉＩｎｄｅｘ」との３種類は、図５で説明したデータ構成と同様、動画のファイルに関するインデックスである。これらの３種類のインデックスファイルの下位の動画ファイルも図５で説明したデータ構成と同様のものである。

また、中間階層の上記５種類のインデックスファイルのうち、「ｍｉｘｅｄ」と、「ｏｒｉｇｉｎａｌ」との２種類は、それぞれ、音声のファイルをインデックスする。「ｍｉｘｅｄ」と「ｏｒｉｇｉｎａｌ」とのそれぞれは、所定時間長（例えば、６秒など）ごとの音声ファイルの所在情報のリストを保持している。一例として、インデックスファイル「ｍｉｘｅｄ」は、「ｍｉｘｅｄ＿０１．ｔｓ」と、「ｍｉｘｅｄ＿０２．ｔｓ」と、「ｍｉｘｅｄ＿０３．ｔｓ」と、「ｍｉｘｅｄ＿０４．ｔｓ」との４つの音声ファイルの所在の情報を保持している。なお、「ｍｉｘｅｄ＿０１．ｔｓ」と、「ｍｉｘｅｄ＿０２．ｔｓ」と、「ｍｉｘｅｄ＿０３．ｔｓ」と、「ｍｉｘｅｄ＿０４．ｔｓ」とは、順次再生されるべき音声ファイルである。なお、インデックスファイル「ｍｉｘｅｄ」は、４個に限らず、任意の数の音声ファイルの所在情報を持つことができる。「ｍｉｘｅｄ」と全く同様に、「ｏｒｉｇｉｎａｌ」も、所定時間長（例えば、６秒など）ごとの別の音声ファイルの所在情報のリストを保持している。つまり、「ｏｒｉｇｉｎａｌ」は、「ｏｒｉｇｉｎａｌ＿０１．ｔｓ」と、「ｏｒｉｇｉｎａｌ＿０２．ｔｓ」と、「ｏｒｉｇｉｎａｌ＿０３．ｔｓ」と、「ｏｒｉｇｉｎａｌ＿０４．ｔｓ」との４つの、順次再生されるべき音声ファイルの所在の情報を保持する。

なお、上記のインデックスファイル「ｍｉｘｅｄ」がインデックスする音声ファイル（ｍｉｘｅｄ＿０１．ｔｓなど）は、編集部２４０によって出力される音声（音声Ｂ）を含むものである。また、インデックスファイル「ｏｒｉｇｉｎａｌ」がインデックスする音声フィアル（ｏｒｉｇｉｎａｌ＿０１．ｔｓなど）は、受信部２２０が配信サーバー装置２側から受信したオリジナルの音声（音声Ａ）を含むものである。

元の配信サーバー装置２から音声Ａの独立のファイルが配信される場合には、統合部２６０は、そのファイルをそのまま「ｏｒｉｇｉｎａｌ」によってインデックスされる音声ファイルとして出力すればよい。
元の配信サーバー装置２から配信される音声Ａが、配信される動画ファイル内にしか存在しない場合には、統合部２６０は、それらの動画ファイルから音声を抽出して音声ファイルを生成する。そして、統合部２６０は、生成された音声ファイルを、「ｏｒｉｇｉｎａｌ」によってインデックスされる音声ファイルとして出力すればよい。

図７は、本実施形態が用いるインデックスファイルの構成例を示す概略図である。なお、ここに例示するファイルは、階層構造における最上位のインデックスファイルである。このインデックスファイルのファイル名は「ｐｌａｙｌｉｓｔ．ｍ３ｕ８」である。図示するように、インデックスファイル「ｐｌａｙｌｉｓｔ．ｍ３ｕ８」は、拡張Ｍ３Ｕ形式のファイルであり、その内部にはインデックス情報を表すテキストを含んでいる。なお、図７において、便宜的にテキストの各行に対応する行番号を付している。以下、インデックスファイル「ｐｌａｙｌｉｓｔ．ｍ３ｕ８」の内容を説明する。

第１行目は、当ファイルが拡張Ｍ３Ｕ形式のファイルであることを示すヘッダーである。
第２行目と第３行目は、音声のコンテンツに関する情報を保持する。第２行目と第３行目は、ともに「ＴＹＰＥ＝ＡＵＤＩＯ」という記述を含んでおり、これは、第２行目と第３行目がそれぞれ音声のコンテンツのインデックスであることを示す。また、第２行目と第３行目は、ともに「ＧＲＯＵＰ−ＩＤ＝”ａｕｄｉｏ”」という記述を含んでおり、これは、第２行目と第３行目がともに「ａｕｄｉｏ」という識別情報によって識別されるグループに属することを示す。
これらのうち、第２行目は、「ＮＡＭＥ＝”ｍｉｘｅｄ”」という記述を含んでおり、これは、混合音声であること、即ち編集部２４０において付加音声が付加されたもの（つまり、音声Ｂ）であることを示すものである。また、第２行目は、「ＤＥＦＡＵＬＴ＝ＹＥＳ」という記述を含んでおり、これは、デフォルトの音声であることを示している。また、第２行目は、当該音声に関する下位のインデックスファイルの所在情報を保持している。「ＵＲＩ＝”ｍｉｘｅｄ／ｐｌａｙｌｉｓｔ．ｍ３ｕ８”」という記述がその所在情報にあたる。
一方で、第３行目は、「ＮＡＭＥ＝”ｏｒｉｇｉｎａｌ”」という記述を含んでおり、これは、混合される前のオリジナルの音声であることを示している。即ち、付加音声が付加されていない、受信部２２０が受信した音声（音声Ａ）であることを示すものである。また、第３行目は、「ＤＥＦＡＵＬＴ＝ＮＯ」という記述を含んでおり、これは、デフォルトの音声ではないことを示している。また、第３行目は、当該音声に関する下位のインデックスファイルの所在情報を保持している。「ＵＲＩ＝”ｏｒｉｇｉｎａｌ／ｐｌａｙｌｉｓｔ．ｍ３ｕ８”」という記述がその所在情報にあたる。

第４行目は、コンテンツの当該セグメントが、独立セグメントであることを表す情報である。つまり、当該セグメントのコンテンツをデコードするために他のセグメントからの情報を必要としないことを表す。

第５行目から第１６行目までは、６種類の映像ファイルのインデックスの情報を含むものである。
第５行目および第６行目は、第１の映像のインデックスの情報を保持する。第１の映像は、帯域幅（BANDWIDTH）および平均帯域幅（AVERAGE-BANDWIDTH）がともに「５４５６００」（単位は、ビット毎秒）である。また、この映像ストリームをデコードするためのコーデック（codec）は「ａｖｃ１．６６．３０」と「ｍｐ４ａ．４０．２」である。また、この映像の解像度は「４８０ｘ２７０」である。また、この映像のインデックスファイルは、「ｓｔｒｅａｍ１／ｐｌａｙｌｉｓｔ．ｍ３ｕ８」である。
第７行目および第８行目は、第２の映像のインデックスの情報を保持する。第２の映像は、帯域幅（BANDWIDTH）および平均帯域幅（AVERAGE-BANDWIDTH）がともに「７６５６００」（ビット毎秒）である。また、この映像ストリームをデコードするためのコーデック（codec）は「ａｖｃ１．６６．３０」と「ｍｐ４ａ．４０．２」である。また、この映像の解像度は「６４０ｘ３６０」である。また、この映像のインデックスファイルは、「ｓｔｒｅａｍ２／ｐｌａｙｌｉｓｔ．ｍ３ｕ８」である。
第９行目および第１０行目は、第３の映像のインデックスの情報を保持する。第３の映像は、帯域幅（BANDWIDTH）および平均帯域幅（AVERAGE-BANDWIDTH）がともに「１４２５６００」（ビット毎秒）である。また、この映像ストリームをデコードするためのコーデック（codec）は「ａｖｃ１．４２ｃ０１ｆ」と「ｍｐ４ａ．４０．２」である。また、この映像の解像度は「６４０ｘ３６０」である。また、この映像のインデックスファイルは、「ｓｔｒｅａｍ３／ｐｌａｙｌｉｓｔ．ｍ３ｕ８」である。

第１１行目および第１２行目は、第４の映像のインデックスの情報を保持する。第４の映像は、帯域幅（BANDWIDTH）および平均帯域幅（AVERAGE-BANDWIDTH）がともに「３９５５６００」（ビット毎秒）である。また、この映像ストリームをデコードするためのコーデック（codec）は「ａｖｃ１．４ｄ４０１ｆ」と「ｍｐ４ａ．４０．２」である。また、この映像の解像度は「９６０ｘ５４０」である。また、この映像のインデックスファイルは、「ｓｔｒｅａｍ４／ｐｌａｙｌｉｓｔ．ｍ３ｕ８」である。
第１３行目および第１４行目は、第５の映像のインデックスの情報を保持する。第５の映像は、帯域幅（BANDWIDTH）および平均帯域幅（AVERAGE-BANDWIDTH）がともに「５６４０８００」（ビット毎秒）である。また、この映像ストリームをデコードするためのコーデック（codec）は「ａｖｃ１．４ｄ４０１ｆ」と「ｍｐ４ａ．４０．２」である。また、この映像の解像度は「１２８０ｘ７２０」である。また、この映像のインデックスファイルは、「ｓｔｒｅａｍ５／ｐｌａｙｌｉｓｔ．ｍ３ｕ８」である。
第１５行目および第１６行目は、第６の映像のインデックスの情報を保持する。第６の映像は、帯域幅（BANDWIDTH）および平均帯域幅（AVERAGE-BANDWIDTH）がともに「７２９０８００」（ビット毎秒）である。また、この映像ストリームをデコードするためのコーデック（codec）は「ａｖｃ１．４ｄ４０１ｆ」と「ｍｐ４ａ．４０．２」である。また、この映像の解像度は「１２８０ｘ７２０」である。また、この映像のインデックスファイルは、「ｓｔｒｅａｍ６／ｐｌａｙｌｉｓｔ．ｍ３ｕ８」である。

なお、上記の第１の映像から第６の映像までに共通して、フレームレート（FRAME-RATE
）は「３０．０００」と定義されている。また、第１の映像から第６の映像までの映像に関してすべて「ＡＵＤＩＯ＝”ａｕｄｉｏ”」という記述が含まれている。これは、各映像に関連付けられる音声のコンテンツは、”ａｕｄｉｏ”というグループＩＤで識別されるものであることを表す。つまり、各映像に関連付けられる音声のコンテンツは、第２行目または第３行目で定義されているものである。

図８は、本実施形態が用いるインデックスファイルの例を示す概略図である。ここに示すファイルは、図７で示した最上位のインデックスファイルから参照される下位のインデックスファイルである。このインデックスファイルのファイル名は「ｍｉｘｅｄ／ｐｌａｙｌｉｓｔ．ｍ３ｕ８」である。図７で示した最上位のインデックスファイルの第２行目の記述における「ＵＲＩ＝”ｍｉｘｅｄ／ｐｌａｙｌｉｓｔ．ｍ３ｕ８”」という記述が、この図８のファイルの所在を示している。ここで「ｍｉｘｅｄ」はディレクトリ名であり、このディレクトリは混合音声（音声Ｂ）用のファイルを格納するディレクトリである。つまり、このインデックスファイル「ｍｉｘｅｄ／ｐｌａｙｌｉｓｔ．ｍ３ｕ８」は、混合音声に関するインデックスの情報を保持する。このインデックスファイル「ｍｉｘｅｄ／ｐｌａｙｌｉｓｔ．ｍ３ｕ８」もまた、拡張Ｍ３Ｕ形式のファイルである。なお、図８においても、テキストの各行に対応する行番号を付している。以下、インデックスファイル「ｍｉｘｅｄ／ｐｌａｙｌｉｓｔ．ｍ３ｕ８」の内容を説明する。

第１行目は、当ファイルが拡張Ｍ３Ｕ形式のファイルであることを示すヘッダーである。
第２行目は、ファイル形式のバージョン情報である。具体的には、このファイル形式のバージョンが「３」であることを示している。
第３行目の「#ＥＸＴ-Ｘ-ＴＡＲＧＥＴＤＵＲＡＴＩＯＮ」は、次に追加される予定のメディアファイルの予測時間長を示すものである。本データの例では、予測時間長は６秒である。
第４行目の「#ＥＸＴ-Ｘ-ＭＥＤＩＡ-ＳＥＱＵＥＮＣＥ」は、本インデックスファイルが含む最初のメディアファイルのシーケンス番号を表す。本データ例では、最初のシーケンス番号は「４１７５５４」（第８行目で指定されているファイルのファイル名に、この番号が含まれている）である。
第５行目の「#ＥＸＴ-Ｘ-ＤＩＳＣＯＮＴＩＮＵＩＴＹ-ＳＥＱＵＥＮＣＥ」については、説明を省略する。

第６行目から第３５行目までにおいて、３行ずつのまとまりを持つ組が、１０回（計３０行）繰り返されている。各組における第１行は、メディアファイルを日付・時刻に関連付ける。また、第２行は、そのメディアセグメントの長さを秒単位で表す。また、第３行は、メディアファイルそのものを参照するための情報である。

ここでは、例として、第６行目から第８行目までの組について説明する。
第６行目の「＃ＥＸＴ-Ｘ-ＰＲＯＧＲＡＭ-ＤＡＴＥ-ＴＩＭＥ」は、参照されるメディアファイルを、日時に関連付ける。本データ例では、最初のメディアファイルは「２０１７-０５-１１Ｔ１６:１９:０２．８６６+０９:００」（年月日・時分秒および千分の一秒の表記）で示される日時（世界標準時から９時間先行する時間帯における日時）に関連付けられる。
第７行目の「＃ＥＸＴＩＮＦ」は、この組に対応するメディアセグメントの長さを表す。具体的には、その長さは６．０００秒であることが指定されている。なお、「６．０００」に後続するコンマの次には、タイトルを指定可能であるが、本データではタイトルの記述が省略されている。
第８行目は、この組のメディアファイル（ここでは、混合音声（音声Ｂ）の音声ファイル）のファイル名を記述している。本データでは、具体的には、「ｔｅｓｔ２＿２７０＿４１７５５４.ｔｓ」である。

この組に後続する９組においても、同様に、日時の情報と、メディアセグメントの長さの情報と、そのメディアセグメントにおけるメディアファイルのファイル名の情報とが記述されている。具体的な日時、メディアセグメントの長さ、ファイル名は、図面に記載されている通りであるため、ここでは説明を省略する。

以上のように、ここに例示したインデックスファイルは、混合音声のファイルについて、１０セグメント分の情報を保持している。また、各セグメントの長さは６秒であり、１０セグメント分の合計の長さは６０秒である。

統合部２６０は、上の図７に例示したインデックスファイルを生成して出力する。つまり、統合部２６０は、音声Ａ（ＮＡＭＥ＝”ｏｒｉｇｉｎａｌ”）と音声Ｂ（ＮＡＭＥ＝”ｍｉｘｅｄ”）の両方を含むコンテンツを、配信部２８０に渡す。配信部２８０は、そのように統合部２６０によって統合されたコンテンツを、クライアント装置３に配信する。

次に、統合部２６０が、編集部２４０によって生成された（音声）音声Ｂのタイミングを、受信部２２０からわたされた映像および音声（音声Ａ）のタイミングに合わせる方法の詳細について説明する。本実施形態の方法では、ファイルに含まれる提示時刻情報を利用する。つまり、受信部２２０が受信する映像および音声（音声Ａ）のファイルには、再生のタイミング情報（ＰＴＳ，プレゼンテーションタイムスタンプ）と、再生時間の長さの情報とが含まれている。ＨＬＳを用いる場合は、受信部２２０は、映像・音声データを含むＴＳ（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）ファイルからタイミング情報（ＰＴＳ）を取得できる。また、配信サーバー装置２から配信されるインデックスファイル（Ｍ３Ｕ８ファイル）の「＃ＥＸＴＩＮＦ」の記述から、再生時間の長さの情報を取得することができる。編集部２４０は、元の音声Ａを再生しながら音声Ｂ（混合音声）を生成するが、その際、音声Ａのファイルに含まれていたタイミング情報および再生時間の長さの情報を、そのまま音声Ｂに埋め込む。例えば、音声の入力が開始した時点のタイミング情報（ＰＴＳ−１）を取得し、音声Ｂを生成する際に出力ストリームの先頭のタイミング情報を、前記ＰＴＳ−１とするように出力する。さらに、Ｍ３Ｕ８ファイルから取得した再生時間の長さが５秒の場合は、出力ストリームを５秒ごとのファイルに分割して生成する。つまり、編集部２４０は、音声Ａを構成する個々のファイルと同一のタイミング情報および再生時間の長さの情報を有する、音声Ｂを生成し出力する。そして、統合部２６０は、音声Ａと音声Ｂのファイルにおけるタイミング情報および再生時間の長さの情報が同一であることを確認して、受信部２２０からわたされた映像および音声（音声Ａ）と生成した音声Ｂの再生タイミングが整合するように、映像、音声Ａ、音声Ｂの情報を含む新たなＭ３Ｕ８ファイルを生成し、ＨＬＳコンテンツとして、Ｍ３Ｕ８ファイル、映像のＴＳファイル、音声ＡのＴＳファイル、音声ＢのＴＳファイルを配信する。

つまり、編集部２４０は、第１パッケージに含まれるコンテンツが保持するタイミング情報に基づいて、整合するタイミング情報を、生成する新たなコンテンツに付与するものである。また、統合部２６０は、第１パッケージに含まれるコンテンツが保持するタイミング情報と、上記の新たなコンテンツに付与されたタイミング情報とに基づいて、再生のタイミングが整合するようにする。

これにより、再配信システム１１が受信したオリジナルのコンテンツと、再配信システム１１が付加したコンテンツとの間でタイミングが合った状態で、コンテンツの再配信を行うことが可能となる。

［第２実施形態：変形例］
次に、第２実施形態の変形例について説明する。この変形例の基本的な構成は、第２実施形態におけるそれと同一であるが、統合部２６０が音声Ａと音声Ｂとの間のタイミングを合わせる方法の部分が第２実施形態とは異なる。

この変形例において、統合部２６０は、次の通り、音声Ａと音声Ｂとのタイミングを合わせる。編集部２４０は、オリジナルの音声（音声Ａ）にアナウンサー等の発話などを混合した混合音声（音声Ｂ）を生成する。つまり、編集部２４０が生成する音声Ｂのデータには、音声Ａの情報も含まれている。統合部２６０は、音声Ａ（「比較用音声」とも呼ぶ）と音声Ｂ（発話によるコメントが付加されているため「コメント音声」とも呼ぶ）とを取得する。なお、統合部２６０は、音声Ａを、受信部２２０から直接取得してもよいし、編集部２４０から取得してもよい。統合部２６０は、音声Ｂの中に音声Ａの信号が含まれていることを利用して、音声Ａと音声Ｂのタイミングを合わせるための処理を実行する。

その一例として、統合部２６０は、次の計算を行う。音声Ａおよび音声Ｂを、それぞれ、Ｓ_Ａ（ｔ）およびＳ_Ｂ（ｔ）で表す。Ｓ_Ａ（ｔ）およびＳ_Ｂ（ｔ）は、それぞれ、時刻ｔにおける信号値（例えば、音声信号の振幅）である。統合部２６０に音声Ａと音声Ｂとが届くとき、その時点までのプロセスの経路の違いにより、両者のタイミングがずれている可能性がある。そのずれ量をΔｔ（デルタ・ｔ）とする。図３等に示す処理を装置として構成した場合の音声Ａと音声Ｂとの間のタイミングのずれ量は、通常は最大でも１秒未満、特殊なケースでもせいぜい数秒以内と想定することは妥当である。そして、統合部２６０は、時刻ｔを含む所定の時間区間において、信号Ｓ_Ａ（ｔ）と信号Ｓ_Ｂ（ｔ＋Δｔ）との相互相関値を算出する。その相互相関値はｃ＝ｃｏｒｒ（Ｓ_Ａ（ｔ），Ｓ_Ｂ（ｔ＋Δｔ））と表される。ここで、ｃｏｒｒ（）は、２つの信号の相互相関値を求める関数である。そして、統合部２６０は、上記の相互相関値ｃを最大化するようなずれ量Δｔを求める。そして、統合部２６０は、求められたずれ量Δｔに基づいてタイミング情報（ＰＴＳ）の値を変更し、音声Ａと音声Ｂのコンテンツのタイミングを合わせて、出力する。

なお、上記の関数ｃｏｒｒ（）により相互相関値を算出する際、音声Ａの信号レベルと音声Ｂの信号レベルとを、適宜、調整するようにしてもよい。また、ここでの信号レベルの調整量を、例えば機械学習等に基づいて、自動的に求めるようにしてもよい。
また、ここでは相互相関値を用いて音声Ａと音声Ｂのタイミングを合わせる方法を例として挙げたが、統合部２６０が他の方法によって両者のタイミングを合わせるようにしてもよい。例えば、音声Ａと音声Ｂの信号波形を、画像処理によって比較し、両者の波形の一致度が最も高くなるずれ量Δｔを求めてもよい。

整理すると、統合部２６０は、第１音声の波形と第２音声の波形との類似性に基づいて、第１音声のコンテンツを含む第１パッケージのコンテンツと、編集部２４０によって生成された新たなコンテンツである第２音声との、いずれか一方を時間方向に移動させることによって、再生のタイミングが整合するように第１音声と第２音声とを統合して出力する。

［第３実施形態］
次に、第３実施形態について説明する。なお、前実施形態以前において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。

図９は、本実施形態による再配信システム（再配信装置）の概略機能構成と、同システムにおけるコンテンツデータの流れとを示す概略図である。図示するように、再配信システム１２は、受信部３２０と、編集部３４０と、統合部３６０と、配信部３８０とを含んで構成される。

再配信システム１２は、映像および音声のコンテンツを受信する。そして、再配信システム１２は、受信した音声のコンテンツに基づいて、字幕テキストのコンテンツを生成する。そして、再配信システム１２は、受信したオリジナルのコンテンツと、生成した字幕テキストのコンテンツとを、再生・提示するタイミングがあった状態で、再配信するものである。

受信部３２０は、少なくとも１種類の音声のコンテンツを含む第１パッケージを受信する。具体的には、例えば、受信部３２０は、外部の配信サーバー装置から、映像および音声で構成されるコンテンツを、ストリーミングの形式で受信する。受信部３２０は、受信した映像のファイルおよび音声のファイルを、統合部３６０に送信する。また、受信部３２０は、受信した音声のファイルを、編集部３４０に送信する。

編集部３４０は、第１パッケージに含まれる少なくとも１種類の音声のコンテンツの音声認識処理を行うことによってその音声のコンテンツに対応する字幕テキストのコンテンツを、新たなコンテンツとして生成する。編集部３４０は、音声認識エンジンを内部に備えており、入力された音声を文字列に変換する機能を有する。また、編集部３４０は、音声から変換された文字列を、さらに字幕テキストデータの形式に整形し、ライブストリーミングにおける映像の一部として表示可能な形態のファイルとして出力する。このとき、編集部３４０は、元の音声のファイルに含まれているタイミング情報（ＰＴＳ，プレゼンテーションタイムスタンプ）と、ファイル内での時刻の相対位置等に基づいて、字幕テキストデータの断片ごとにタイミング情報を付与する。なお、編集部３４０は、例えば、タイムド・テキスト・マークアップ言語（ＴＴＭＬ，Timed Text Markup Language）等の、タイミング情報を付加することのできるデータ形式で、字幕テキストを出力することができる。編集部３４０は、音声に基づいて生成された字幕テキストデータのファイルを、統合部３６０に送信する。
なお、音声認識エンジン自体には、既存の技術を適用することができる。音声認識エンジンは、基本的な処理として、入力される音声の音響的特徴を抽出し、必要に応じて言語としての特徴を考慮に入れながら、統計的に確からしい文字列を音声認識結果のテキストとして出力するものである。

統合部３６０は、音声のコンテンツに含まれる音声信号と生成された字幕テキストとの間の時間方向の対応関係に基づいて、音声のコンテンツの再生のタイミングと字幕テキストの提示のタイミングが整合するように統合して出力する。つまり、統合部３６０は、受信部３２０から受け取った映像および音声のコンテンツのファイルと、編集部３４０から受け取った字幕テキストのファイルとを、パッケージとして統合して、配信部３８０に渡す。より具体的には、統合部３６０は、音声のコンテンツと字幕テキストのコンテンツとの間でのタイミング情報が整合している状態で、コンテンツのデータを出力する。なお、統合部３６０は、映像および音声のコンテンツを、エンコードされたままの状態で受信部３２０から受け取る。そして、そのままの状態で、字幕テキストのコンテンツとの統合を行う。

配信部３８０は、インターネット等を経由して、統合部３６０から渡されたコンテンツのファイルを配信する。具体的には、配信部３８０は、映像と音声と字幕テキストのコンテンツを配信する。

［第３実施形態：変形例１］
次に、第３実施形態の変形例１について説明する。この変形例の基本的な構成は、第２実施形態におけるそれと同一であるが、統合部３６０が、さらに言語翻訳を行う点が、特徴的な構成である。

第３実施形態の変形例１において、編集部３４０は、言語翻訳エンジンを備える。言語翻訳エンジンは、自然言語によるテキストの他国語への翻訳を行う。例えば、統合部３６０は、音声認識処理の結果として得られた日本語のテキストを、英語に翻訳し、英語の字幕テキストデータを出力する。あるいは、編集部３４０は、音声認識処理の結果として得られたフランス語のテキストを、日本語に翻訳し、日本語の字幕テキストデータを出力する。なお、翻訳元と翻訳先の言語は、ここに例示したもの以外であってもよい。なお、元の音声に付加されていたタイミング情報に基づいて、翻訳後の字幕テキストにもタイミング情報が付与される。編集部３４０は、翻訳後の字幕テキストを、統合部３６０に送信する。その後の処理は、既に述べた形態における処理と同様である。

［第３実施形態：変形例２］
次に、第３実施形態の変形例２について説明する。この変形例の基本的な構成は、第２実施形態におけるそれと同一であるが、統合部３６０が、さらに手話への翻訳を行う点が、特徴的な構成である。
なお、言語翻訳の機能自体には、既存の技術を適用すれば良い。

第３実施形態の変形例２において、編集部３４０は、手話への翻訳機能を備える。言語翻訳エンジンは、音声認識処理の結果得られたテキストデータを、手話表現に翻訳する。そして、編集部３４０は、翻訳後の手話表現に対応する映像のコンテンツを生成し、出力する。手話は、例えば、コンピューターグラフィクス（ＣＧ）を用いて映像として表される。なお、元の音声に付加されていたタイミング情報に基づいて、出力される手話の映像にもタイミング情報が付与される。編集部３４０は、生成された手話の映像のデータを、統合部３６０に送信する。統合部３６０は、第３実施形態で説明した字幕テキストデータの代わりに、手話の映像のデータを、配信部３８０に渡す。配信部３８０は、元の映像および音声のコンテンツと、編集部３４０によって生成された手話の映像とを、配信する。

なお、上述した実施形態およびその変形例における再配信システムの機能や、再配信システムを構成する一部の装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、説明した各実施形態またはその変形例のいずれかによれば、再配信システムは、インターネット等を介して、例えばＨＬＳ等の手段を用いて配信されるコンテンツを受信する。言い換えれば、再配信システムは、ベースバンド信号（非圧縮信号）で構成されるコンテンツを受信しない。そして、再配信システムは、受信したコンテンツの少なくとも一部に基づいて、別の新たなコンテンツを生成する。そして、再配信システムは、受信したオリジナルのコンテンツと、生成した新たなコンテンツとを統合したうえで、再配信する。再配信もまた、例えば、ＨＬＳ等を用いる。これにより、クライアント装置は、新たなコンテンツが付加された状態でコンテンツのストリーミング配信を受けることが可能となる。

そして、各実施形態またはその変形例によれば、最小限の工程および機材により、再配信システムを実現することが可能となり、システムを構築したり運用したりするコストを抑えられる。また、例えば、インターネットに接続できる環境さえあれば基本的にどこにおいても、配信形式のストリーミング映像に対して、音声等の新たなコンテンツを付加して再配信するサービスを実現することができる。

コストに関して言えば、ベースバンド信号（非圧縮信号）のプロセッシングを行う高価な特殊機器が不要であり、インターネットにより映像の伝送が可能となるため、伝送コストの大幅な削減が期待できる。さらに、汎用的なコンピューターと、その上で稼働するソフトウェアのみでの処理が可能となるため、インターネット接続可能な場所であればどこからも、コンテンツを付加するサービスを実現することができる。また、元のコンテンツ（映像や音声等）と、付加するコンテンツ（たとえば、音声等）のタイミングを再配信システム内で自動的に同期させることができる。これにより、既存のストリーム映像音声にリアルタイムで新たなコンテンツ（音声等）を付加するという流れを１つにし、サービスの容易な実現が可能となる。コンテンツ配信等のサービスにおいて上の実施形態等で説明した構成を適用することにより、多様で、機動力に富んだサービスを提供することができるようになる。

なお、再配信システムが新たに付加するコンテンツは、音声のコンテンツに限られない。既に説明した例では、テキスト（いわゆる字幕テキストを含む）や、映像（一例として手話の映像）を生成して付加することができる。また、ここに例示したもの以外のコンテンツを、生成して付加することも可能となる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではない。さらなる変形例で実施するようにしてもよい。また、この発明の要旨を逸脱しない範囲の設計等を行ってもよい。

例えば、上記の実施形態では、映像や音声のコンテンツを配信するための形式としてＨＬＳを用いたが、他の形式によって配信するようにしてもよい。例えば、ＭＰＥＧ−ＤＡＳＨや、ＨＤＳや、ＭＳＳｍｏｏｔｈＳｔｒｅａｍｉｎｇなどといった形式も、使用することができる。

本発明は、例えばコンテンツを配信する事業等に利用することができる。ただし、産業上の利用可能性は、ここに例示した分野には限定されない。

１再配信システム（再配信装置）
２配信サーバー装置
３クライアント装置
１１，１２再配信システム（再配信装置）
１２０受信部
１４０編集部
１６０統合部
１８０配信部
２２０受信部
２４０編集部
２６０統合部
２８０配信部
３２０受信部
３４０編集部
３６０統合部
３８０配信部

Claims

ＨＴＴＰライブストリーミング（ＨＬＳ）形式にエンコードされた少なくとも１種類のコンテンツを含む第１パッケージを受信する受信部と、
前記受信部が受信した前記第１パッケージに含まれる前記コンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する編集部と、
前記受信部が受信した前記第１パッケージに含まれる前記コンテンツのうちの少なくとも一部のコンテンツと、前記編集部によって生成された前記新たなコンテンツとを、一つの第２パッケージとして統合して出力する統合部と、
前記統合部から出力される前記第２パッケージを再配信する配信部と、
を具備し、
前記受信部は、少なくとも１種類の映像のコンテンツと、少なくとも１種類の音声のコンテンツと、インデックスファイルとを含む前記第１パッケージを受信し、
前記編集部は、前記第１パッケージに含まれる少なくとも１種類の音声のコンテンツである第１音声を再生するとともに、前記第１音声と、前記第１音声に対応してマイクロホンで集音されて入力される別の音声とを重畳して得られる第２音声を生成して前記新たなコンテンツとして出力し、
前記統合部は、前記第１パッケージに含まれる前記映像のコンテンツおよび前記音声のコンテンツと、前記新たなコンテンツとの間で、再生のタイミングが整合するように統合して出力するものであり、
前記編集部は、前記第１パッケージに含まれるコンテンツが保持するタイミング情報であるプレゼンテーションタイムスタンプと、前記インデックスファイルに記述された再生時間の長さの情報とに基づいて、前記第１パッケージに含まれるコンテンツが保持していた前記プレゼンテーションタイムスタンプを整合するタイミング情報として前記新たなコンテンツに付与するとともに、前記インデックスファイルに記述されていた前記再生時間の長さに合わせた長さに分割した前記新たなコンテンツを生成するものであり、
前記統合部は、前記第１パッケージに含まれるコンテンツが保持する前記プレゼンテーションタイムスタンプおよび前記再生時間の長さと、前記新たなコンテンツに付与されたタイミング情報とおよびその再生時間の長さとが同一であることを確認して、前記第１パッケージに含まれるコンテンツと前記新たなコンテンツと前記新たなコンテンツの情報をも含む新たなインデックスファイルとを出力することによって、再生のタイミングが整合するようにする、
ことを特徴とする再配信システム。
ＨＴＴＰライブストリーミング（ＨＬＳ）形式にエンコードされた少なくとも１種類のコンテンツを含む第１パッケージを受信する受信過程、
前記受信過程で受信した前記第１パッケージに含まれる前記コンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する編集過程、
前記受信過程で受信した前記第１パッケージに含まれる前記コンテンツのうちの少なくとも一部のコンテンツと、前記編集過程において生成された前記新たなコンテンツとを、一つの第２パッケージとして統合して出力する統合過程、
前記統合過程で出力される前記第２パッケージを再配信する配信過程、
を含む再配信方法であって、
前記受信過程は、少なくとも１種類の映像のコンテンツと、少なくとも１種類の音声のコンテンツと、インデックスファイルとを含む前記第１パッケージを受信し、
前記編集過程は、前記第１パッケージに含まれる少なくとも１種類の音声のコンテンツである第１音声を再生するとともに、前記第１音声と、前記第１音声に対応してマイクロホンで集音されて入力される別の音声とを重畳して得られる第２音声を生成して前記新たなコンテンツとして出力し、
前記統合過程は、前記第１パッケージに含まれる前記映像のコンテンツおよび前記音声のコンテンツと、前記新たなコンテンツとの間で、再生のタイミングが整合するように統合して出力するものであり、
前記編集過程は、前記第１パッケージに含まれるコンテンツが保持するタイミング情報であるプレゼンテーションタイムスタンプと、前記インデックスファイルに記述された再生時間の長さの情報とに基づいて、前記第１パッケージに含まれるコンテンツが保持していた前記プレゼンテーションタイムスタンプを整合するタイミング情報として前記新たなコンテンツに付与するとともに、前記インデックスファイルに記述されていた前記再生時間の長さに合わせた長さに分割した前記新たなコンテンツを生成するものであり、
前記統合過程は、前記第１パッケージに含まれるコンテンツが保持する前記プレゼンテーションタイムスタンプおよび前記再生時間の長さと、前記新たなコンテンツに付与されたタイミング情報とおよびその再生時間の長さとが同一であることを確認して、前記第１パッケージに含まれるコンテンツと前記新たなコンテンツと前記新たなコンテンツの情報をも含む新たなインデックスファイルとを出力することによって、再生のタイミングが整合するようにする、
再配信方法。
コンピューターを、
ＨＴＴＰライブストリーミング（ＨＬＳ）形式にエンコードされた少なくとも１種類のコンテンツを含む第１パッケージを受信する受信部と、
前記受信部が受信した前記第１パッケージに含まれる前記コンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する編集部と、
前記受信部が受信した前記第１パッケージに含まれる前記コンテンツのうちの少なくとも一部のコンテンツと、前記編集部によって生成された前記新たなコンテンツとを、一つの第２パッケージとして統合して出力する統合部と、
前記統合部から出力される前記第２パッケージを再配信する配信部と、
を具備し、
前記受信部は、少なくとも１種類の映像のコンテンツと、少なくとも１種類の音声のコンテンツと、インデックスファイルとを含む前記第１パッケージを受信し、
前記編集部は、前記第１パッケージに含まれる少なくとも１種類の音声のコンテンツである第１音声を再生するとともに、前記第１音声と、前記第１音声に対応してマイクロホンで集音されて入力される別の音声とを重畳して得られる第２音声を生成して前記新たなコンテンツとして出力し、
前記統合部は、前記第１パッケージに含まれる前記映像のコンテンツおよび前記音声のコンテンツと、前記新たなコンテンツとの間で、再生のタイミングが整合するように統合して出力するものであり、
前記編集部は、前記第１パッケージに含まれるコンテンツが保持するタイミング情報であるプレゼンテーションタイムスタンプと、前記インデックスファイルに記述された再生時間の長さの情報とに基づいて、前記第１パッケージに含まれるコンテンツが保持していた前記プレゼンテーションタイムスタンプを整合するタイミング情報として前記新たなコンテンツに付与するとともに、前記インデックスファイルに記述されていた前記再生時間の長さに合わせた長さに分割した前記新たなコンテンツを生成するものであり、
前記統合部は、前記第１パッケージに含まれるコンテンツが保持する前記プレゼンテーションタイムスタンプおよび前記再生時間の長さと、前記新たなコンテンツに付与されたタイミング情報とおよびその再生時間の長さとが同一であることを確認して、前記第１パッケージに含まれるコンテンツと前記新たなコンテンツと前記新たなコンテンツの情報をも含む新たなインデックスファイルとを出力することによって、再生のタイミングが整合するようにする、
再配信システムとして機能させるためのプログラム。