WO2014091965A1

WO2014091965A1 - 情報処理装置、情報処理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: WO2014091965A1
Application number: PCT/JP2013/082444
Authority: WO
Inventors: 浩二浦脇
Original assignee: Ｎｅｃカシオモバイルコミュニケーションズ株式会社
Priority date: 2012-12-12
Filing date: 2013-12-03
Publication date: 2014-06-19

Abstract

　情報処理装置（１００）は、コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信部（１０１）と、コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集部（１０３）と、を備える。また、情報処理装置（１００）は、投稿メッセージ収集部（１０３）により収集された投稿メッセージデータを音声データに変換する音声変換部（１０４）と、音声変換部（１０４）により変換された音声データに係る音声とコンテンツ受信部（１０１）により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生部（１０５）と、を備える。

Description

情報処理装置、情報処理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体

　本発明は、情報処理装置、情報処理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。

　ユーザが投稿したメッセージをスマートフォンやタブレットＰＣ(Personal Computer)等の情報端末の画面上に表示するメッセージコミュニケーションサービスが存在する。このメッセージコミュニケーションサービスを利用することで、ユーザは、例えばテレビ番組やストリーミング等のコンテンツを視聴しながら、そのコンテンツに対して他のユーザが投稿したメッセージを見ることができる。しかし、コンテンツの視聴をしながら画面上に表示された投稿メッセージを見ることは、ユーザにとって負担が大きい。しかも、コンテンツの音声等と投稿メッセージの文字との間に一体感が無く、ユーザは臨場感を得ることができない。また、ユーザがコンテンツの視聴をしながら、更に他の作業（例えば身の周りの片付け）をした場合には、コンテンツの重要なシーンを見逃してしまう可能性がある。

　コンテンツの音声等を再生しつつ、そのコンテンツに関連付けられた音声等を再生する装置が特許文献１、２に記載されている。特許文献１に記載された情報端末は、サーバに保存されているコンテンツのデータと、そのコンテンツに対する発言に係る音声データとを受信して、コンテンツの映像・音声と共に、そのコンテンツに対する発言に係る音声を再生する。特許文献２に記載された装置は、ブロードキャストラジオ送信に含まれる補足コンテンツ、例えば番組名やアーティスト名、曲名の文字データを音声データに変換し、その変換後の音声データに係る音声をプライマリコンテンツの音声と共に再生する。

特開２０１１－１９３３７２号公報特表２０１０－５３１１１３号公報

　特許文献１に開示されている技術では、情報端末が音声データをサーバから受信するため、通信負担が大きくなってしまう。また、特許文献２に開示されている技術では、ブロードキャストラジオ送信のプライマリコンテンツを再生する際に、そのブロードキャストラジオ送信に含まれる補足コンテンツの文字データを再生するのみであり、ブロードキャストラジオ送信に含まれないデータ（コンテンツに対する投稿メッセージデータ等）を再生することについては想定していない、という問題があった。

　本発明は、上記実情に鑑みてなされたものであり、通信負担を軽減でき、かつ、コンテンツに対する投稿メッセージデータを受信して音声データに変換することができる情報処理装置、情報処理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。

　上記目的を達成するために、本発明の第１の観点に係る情報処理装置は、
　コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信手段と、
　前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集手段と、
　前記投稿メッセージ収集手段により収集された投稿メッセージデータを音声データに変換する音声変換手段と、
　前記音声変換手段により変換された音声データに係る音声と前記コンテンツ受信手段により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生手段と、
　を備える。

　また、本発明の第２の観点に係る情報処理方法は、
　コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信ステップと、
　前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集ステップと、
　前記投稿メッセージ収集ステップで収集された投稿メッセージデータを音声データに変換する音声変換ステップと、
　前記音声変換ステップで変換された音声データに係る音声と前記コンテンツ受信ステップで受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生ステップと、
　を含む。

　また、本発明の第３の観点に係るコンピュータ読み取り可能な記録媒体は、
　コンピュータを、
　コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信手段、
　前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集手段、
　前記投稿メッセージ収集手段により収集された投稿メッセージデータを音声データに変換する音声変換手段、
　前記音声変換手段により変換された音声データに係る音声と前記コンテンツ受信手段により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生手段、
　として機能させるプログラムを記録する。

　本発明によれば、通信負担を軽減でき、かつ、コンテンツに対する投稿メッセージデータを受信して音声データに変換することができる。

本発明の実施の形態１に係る複数コンテンツ同時視聴システムの構成を示す図である。図１に係る情報処理装置の構成を示す図である。図１に係る情報処理装置が行う複数コンテンツ同時視聴処理を説明するためのフローチャートである。本発明の実施の形態２に係る情報処理装置の構成を示す図である。図４の情報処理装置が行う複数コンテンツ同時視聴処理を説明するためのフローチャートである。本発明の実施の形態３に係る複数コンテンツ同時視聴システムの構成を示す図である。図６に係る情報処理装置の構成を示す図である。投稿メッセージの投稿者毎に設定した声質を説明するための図である。投稿メッセージデータに係る音声の再生タイミングを調整する様子を説明するための図である。画面表示部に投稿メッセージデータに係る音声のサラウンド再生状況が表示された状態を示す図である。音像位置を変更する様子を示す図である。投稿メッセージデータのグループ毎に音像位置を設定する様子を示す図である。本発明の実施の形態４に係る複数コンテンツ同時視聴システムの構成を示す図である。図１３に係る情報処理装置の構成を示す図である。

　（実施の形態１）
　本発明の実施の形態１について図１から図３を参照して説明する。

　実施の形態１に係る複数コンテンツ同時視聴システム１は、図１に示すようにコンテンツサーバ１０、投稿メッセージサーバ２０、情報処理装置１００及び音響機器３０を備えている。

　コンテンツサーバ１０は、動画や音声、ｗｅｂサービス等のコンテンツの映像データや音声データ等、即ちコンテンツデータを蓄積している。コンテンツサーバ１０は、インターネット４０に接続されており、このインターネット４０を介して情報処理装置１００等にコンテンツデータを配信する。

　投稿メッセージサーバ２０は、様々な人が投稿したメッセージ、例えばＥ－Ｍａｉｌ(Electronic Mail)やＳＮＳ(Social Network Service)等で投稿されたメッセージのデータ（以下、投稿メッセージデータという。）を蓄積している。投稿メッセージサーバ２０は、インターネット４０に接続されており、このインターネット４０を介して情報処理装置１００等に投稿メッセージデータを配信する。

　情報処理装置１００は、コンテンツデータを受信し、このコンテンツデータに係る映像や音声を再生可能な端末装置全般、例えば携帯電話機、スマートフォン、タブレットＰＣ(Personal Computer)、ノートＰＣ等任意の情報端末から構成される。本実施形態では、一例として、図１に示すように情報処理装置１００はタブレットＰＣから構成されるものとする。

　情報処理装置１００は、機能面では、図２に示すように、コンテンツ受信部１０１、投稿メッセージ収集部１０３、音声変換部１０４及び複数音同時再生部１０５を備える。これらの機能部は、情報処理装置１００が備えるＣＰＵ（Central Processor Unit）やＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、通信部、記憶部、出力部等から構成される。

　コンテンツ受信部１０１は、コンテンツサーバ１０等から配信されたコンテンツデータを受信する。投稿メッセージ収集部１０３は、投稿メッセージサーバ２０から配信された投稿メッセージデータを収集する。

　音声変換部１０４は、投稿メッセージ収集部１０３により収集された投稿メッセージデータを音声データに変換する。複数音同時再生部１０５は、音声変換部１０４により変換された音声データに係る音声と、コンテンツの音声データに係る音声（以下、コンテンツの音声という。）と、を同時に再生する。

　音響機器３０は、ヘッドホン等から構成されている。音響機器３０は情報処理装置１００に接続している。音響機器３０は、複数音同時再生部１０５が再生する音声を、実際の音として外部に出力する。

　次に、情報処理装置１００の動作について図３を参照して説明する。

　ユーザが情報処理装置１００を操作し、コンテンツを視聴するためのアプリケーションを起動させると、情報処理装置１００は、複数コンテンツ同時視聴処理を開始する。

　複数コンテンツ同時視聴処理では、まず、コンテンツ受信部１０１は、インターネット４０に接続し、コンテンツサーバ１０からコンテンツデータを受信して保存する（ステップＳ１１１）。

　投稿メッセージ収集部１０３は、インターネット４０に接続し、投稿メッセージサーバ２０から、ステップＳ１１１で受信したコンテンツデータに関連する、文字データから成る投稿メッセージデータを収集して保存する（ステップＳ１１２）。

　音声変換部１０４は、投稿メッセージ収集部１０３により保存された投稿メッセージデータを音声データに変換して、この音声データを保存する（ステップＳ１１３）。

　複数音同時再生部１０５は、コンテンツ受信部１０１により保存されたコンテンツの音声データと、音声変換部１０４により保存された音声データと、を読み出し、これらの音声データを同時に音響機器３０に出力する。これらの音声データは、音響機器３０を介して音声として再生される。即ち、複数音同時再生部１０５は、コンテンツの音声と投稿メッセージデータに係る音声とを同時に再生する（ステップＳ１１４）。

　情報処理装置１００は、コンテンツの音声及び投稿メッセージデータに係る音声を最後まで再生すると、複数コンテンツ同時視聴処理を終了する。

　ここまで示した複数コンテンツ同時視聴処理を実行することにより、情報処理装置１００は、コンテンツサーバ１０から受信したコンテンツ（第１のコンテンツ）の再生と並行し、投稿されたメッセージ（第２のコンテンツ）を音声にして出力する。情報処理装置１００により、ユーザは、メインコンテンツを視聴しつつ、投稿されたメッセージの内容を音声で聞くことができる。

　上述したように情報処理装置１００は、文字データから成る投稿メッセージデータを受信する。文字データは音声データに比べてデータ量が格段に小さいため、音声データを受信する場合に比べて通信負担を軽減できる。また、情報処理装置１００は、投稿メッセージ収集部１０３及び音声変換部１０４を備えているので、コンテンツに対する投稿メッセージデータを収集し、その投稿メッセージデータを音声データに変換することができる。

　上述したように情報処理装置１００は、コンテンツの音声と投稿メッセージデータに係る音声とを同時に再生するので、コンテンツと投稿メッセージとの間に一体感が生まれ、臨場感を得ることができる。更に、ユーザは、コンテンツを視聴しながら他人の投稿メッセージを直接見る必要がなくなる。従って、情報処理装置１００は、ユーザの負担を少なくすることができる。

　また、ユーザは、情報処理装置１００がコンテンツを再生している間に目を離したとしても、投稿メッセージデータに係る音声により、コンテンツの大まかな内容を把握することができる。例えばコンテンツを視聴しながら更に他の作業（身の周りの片付け等）をしていても、ユーザは、投稿メッセージデータに係る音声を聞いていれば、場面が重要なシーンに差し掛かった場合にそれを把握することができる。従って、情報処理装置１００は、ユーザがコンテンツの重要なシーンを見逃してしまうことを防止することができる。

　なお、上述した例では、コンテンツ受信部１０１がコンテンツデータを受信した後で、投稿メッセージ収集部１０３が、当該コンテンツデータに関連する投稿メッセージデータを収集している。しかしながら、本発明の実施形態はこれに限られず、コンテンツデータの受信と投稿メッセージの受信とを並行して実施してもよい。また、上述した例では、コンテンツデータ及び投稿メッセージデータを受信し、音声変換を完了した後で両者を再生しているが、これに限られず、いわゆるストリーミング形式（データの受信と再生を並行して行う形式）によってもよい。

　（実施の形態２）
　次に、本発明の実施の形態２について図４と図５を参照して説明する。

　実施の形態２に係る複数コンテンツ同時視聴システム２は、実施の形態１に係る複数コンテンツ同時視聴システム１と同様の構成部分を有するので、複数コンテンツ同時視聴システム１と同様の構成部分については、同じ符号を付すことで説明を省略する。以下、実施の形態３、４についても同様とする。

　実施の形態２では、上記実施の形態１に係る情報処理装置１００をより具体化した情報処理装置２００について説明する。図４に示すように情報処理装置２００は、入力部２０１、制御部２０２、通信部２０３、記憶部２０４、表示制御部２０５、画面表示部２０６、音声変換部２０７、音声出力部２０８及びバス２０９を備えている。

　入力部２０１は、タッチパネルやキーボード等から構成されている。制御部２０２は、ＣＰＵ(Central Processing Unit)等から構成されている。制御部２０２は、システム全体を制御する。通信部２０３は、インターネット４０に接続し、コンテンツデータや投稿メッセージデータ等を受信する。

　記憶部２０４は、メモリやハードディスク等から構成され、受信したデータや演算処理を行ったデータ、制御部２０２が動作するためのプログラム等を記憶する。表示制御部２０５は、画面表示部２０６を制御する。画面表示部２０６は、ディスプレイ等から構成されている。画面表示部２０６は、コンテンツデータに係る映像等を表示する。

　音声変換部２０７は、投稿メッセージデータを音声データに変換する。音声出力部２０８は、コンテンツの音声や投稿メッセージデータに係る音声を出力する。バス２０９は、入力部２０１や制御部２０２、通信部２０３、記憶部２０４、表示制御部２０５、音声変換部２０７等の各部を接続する。

　コンテンツ受信手段は、例えば、通信部２０３によって構成される。投稿メッセージ収集手段は、例えば、通信部２０３によって構成される。音声変換手段は、例えば、音声変換部２０７によって構成される。複数音同時再生手段は、例えば、音声出力部２０８によって構成される。

　次に、情報処理装置２００の動作について図５を参照して説明する。

　ユーザが入力部２０１を操作し、コンテンツを視聴するためのアプリケーションを起動させると、情報処理装置２００は、複数コンテンツ同時視聴処理を開始する。

　複数コンテンツ同時視聴処理では、まず、通信部２０３は、インターネット４０に接続し、コンテンツサーバ１０からコンテンツデータを受信する。通信部２０３は、受信したコンテンツデータを記憶部２０４に保存する（ステップＳ２１１）。

　また、通信部２０３は、インターネット４０に接続し、投稿メッセージサーバ２０から、ステップＳ２１１で受信したコンテンツデータに関連する、文字データから成る投稿メッセージデータを受信する。通信部２０３は、受信した投稿メッセージデータを記憶部２０４に保存する（ステップＳ２１２）。

　表示制御部２０５は、記憶部２０４に保存されたコンテンツデータのうち映像データを画面表示部２０６に出力するとともに、画面表示部２０６を制御する。即ち、表示制御部２０５は、画面表示部２０６を介してコンテンツの映像を再生する（ステップＳ２１３）。画面表示部２０６にはコンテンツの映像が表示される。

　音声変換部２０７は、記憶部２０４に保存された投稿メッセージデータを音声データに変換する。音声変換部２０７は、この音声データを記憶部２０４に保存する（ステップＳ２１４）。

　音声出力部２０８は、記憶部２０４に保存されたコンテンツの音声データと投稿メッセージに係る音声データとを読み出し、これらの音声データを同時に音響機器３０に出力する。これらの音声データは、音響機器３０を介して音声として再生される。即ち、音声出力部２０８は、コンテンツの音声と投稿メッセージデータに係る音声とを同時に再生する（ステップＳ２１５）。

　情報処理装置２００は、コンテンツの映像・音声及び投稿メッセージデータに係る音声を最後まで再生すると、複数コンテンツ同時視聴処理を終了する。

　上述したように情報処理装置２００は、文字データから成る投稿メッセージデータを受信するので、音声データを受信するよりも通信負担を軽減できる。また、情報処理装置２００は、通信部２０３及び音声変換部２０７を備えているので、コンテンツに対する投稿メッセージデータを収集し、その投稿メッセージデータを音声データに変換することが可能となる。

　なお、上述した例では、コンテンツデータの受信後に、当該コンテンツデータに関連する投稿メッセージデータを収集しているが、これらを並行して実施してもよい。また、データの受信と再生についても、並行して実行してもよい。

（変形例１）
　上記実施の形態１、２では、インターネット４０を介して投稿メッセージサーバ２０から投稿メッセージデータを受信する構成としたが、インターネット４０ではなく他のネットワークを介して投稿メッセージデータを受信する構成としてもよい。また、他の情報処理装置と直接通信して投稿メッセージデータを受信する構成としてもよい。例えば、Bluetooth（登録商標）等の無線通信を介して投稿メッセージデータを受信する構成としてもよい。

（変形例２）
　上記実施の形態１、２では、音響機器３０をヘッドホンにより構成したが、音響機器３０をイヤホンやスピーカにより構成してもよい。また、外付けの音響機器３０を用いる構成としたが、音響機器３０を用いないで、情報処理装置１００、２００に内蔵されたスピーカを用いる構成としてもよい。

　（実施の形態３）
　次に、本発明の実施の形態３を、図６から図１０を参照して説明する。

　実施の形態３に係る複数コンテンツ同時視聴システム３は、図６に示すようにコンテンツサーバ１０、投稿メッセージサーバ２０、情報処理装置３００及び音響機器３１から構成される。

　図７に示すように情報処理装置３００は、入力部２０１、制御部２０２、通信部２０３、記憶部２０４、表示制御部２０５、画面表示部２０６、音声変換部３０７、音声出力部３０８、投稿メッセージ選抜部３１０、投稿メッセージ分類部３１１、再生タイミング調整部３１２及びバス２０９を備えている。

　音声変換部３０７は、声質設定部３０７ａを備えている。声質設定部３０７ａは、投稿メッセージデータに係るメッセージを投稿した投稿者毎に異なる声質を設定する。具体的には、声質設定部３０７ａは、複数の声質に関するデータ（声質データ）を保持し、複数の投稿者に、重複しないように声質を割り当てる。声質設定部３０７ａは、例えば声質を、若い男性の高い声、若い男性の低い声、年配の男性の低い声等に分類して保持しており、投稿者に対し、それぞれ声質を割り当てる。
　音声出力部３０８は、サラウンド音声再生部３０８ａを備えている。サラウンド音声再生部３０８ａは、音声データに係る音像位置を設定して音声を再生する。

　投稿メッセージ選抜部３１０は、予め定めた条件に基づいて再生対象にする投稿メッセージデータを選抜する。投稿メッセージ分類部３１１は、予め定めた条件に基づいて投稿メッセージデータを分類する。再生タイミング調整部３１２は、投稿メッセージデータに係る音声を再生するタイミングを調整する。

　図６に示すように音響機器３１は、サラウンド音声の再生可能なスピーカ３１ａ、３１ｂ、３１ｃ、３１ｄ、３１ｅから構成される。スピーカ３１ａ～３１ｅは、例えば、Bluetooth（登録商標）等の無線通信を介して情報処理装置３００に接続している。スピーカ３１ａはユーザの前方に位置している。スピーカ３１ｂはユーザの前方右側に位置している。スピーカ３１ｃはユーザの前方左側に位置している。スピーカ３１ｄはユーザの後方右側に位置している。スピーカ３１ｅはユーザの後方左側に位置している。

　次に、情報処理装置３００の特徴的な動作について説明する。
　投稿メッセージ選抜部３１０は、通信部２０３により収集された投稿メッセージデータのうちから、以下の３つの条件をすべて満たす投稿メッセージデータを再生対象にする投稿メッセージデータとして選抜する。

　１つめの条件は、投稿メッセージデータに係るメッセージがコンテンツに関係性の高いこと、である。コンテンツに関係性の高いメッセージとしては、例えば、コンテンツの音声に出てくる言葉が含まれているものがある。

　２つめの条件は、投稿メッセージデータに係るメッセージがユーザにとって理解できないものでないこと、である。ユーザにとって理解できないメッセージとしては、例えば、記号のみから構成されたものやインターネットのリンク先を示したものがある。

　３つめの条件は、投稿メッセージデータに係るメッセージが、そのメッセージが投稿された時刻よりも前に投稿されたメッセージと同じものでないこと、である。

　このように投稿メッセージ選抜部３１０は、予め定めた条件に基づいて再生対象にする投稿メッセージデータを選抜する。これにより情報処理装置３００は、再生する音声の数を減らすことができ、ユーザの負担を減らすことが可能となる。

　次に、音声変換部３０７の声質設定部３０７ａは、記憶部２０４に保存されたコンテンツの音声データからそのコンテンツの声質を分析し、保持している声質データと対比することにより、コンテンツの声質を特定する。本実施の形態３では、図８に示すようにコンテンツの声質を声質１とする。また、声質設定部３０７ａは、保持している声質データから、再生対象とした投稿メッセージの投稿者に、上述の分析により特定したコンテンツの声質とは異なる声質を設定する。例えば、声質設定部３０７ａは、投稿者Ａに対して声質２を設定し、投稿者Ｂに対して声質３を設定する。声質２、３は、例えば機械的な音で構成され、声質１とは異なる声質となっている。また、声質設定部３０７ａは、投稿者毎にも声質が異なるように設定する。例えば声質設定部３０７ａは、投稿者Ａに対して声質２を設定した場合、投稿者Ｂには、コンテンツの声質（声質１）とも投稿者Ａに設定した声質（声質２）とも異なる性質（声質３）を設定する。
　音声変換部３０７は、上記のように投稿者Ａ、Ｂに対する声質２、３を設定した状態で、投稿メッセージデータを音声データに変換する。

　上述したように情報処理装置３００は、再生対象とした投稿メッセージの投稿者（投稿者Ａ、Ｂ）に対してコンテンツの声質１とは異なる声質（声質２、３）を設定する。そのため、情報処理装置３００がコンテンツを再生した場合に、ユーザは、コンテンツの音声と投稿者Ａ、Ｂの投稿メッセージデータに係る音声とを明確に区別して認識することができる。また、情報処理装置３００は、投稿メッセージの投稿者毎に異なる声質を設定するので、どの投稿者が投稿した投稿メッセージであるのかを明確に区別して音声を再生することが可能である。

　なお、本実施の形態においては、上述した例に限られない。例えば、声質設定部３０７ａは、メッセージの投稿者のプロフィール等の属性を示す情報を参照し、それに合致した声質を設定してもよい。その場合、例えば、投稿者のプロフィールを示す情報において、投稿者が男性であることが示されていれば、声質設定部３０７ａは当該投稿者に男性の声質を割り当てる。逆に、投稿者が女性であれば、声質設定部３０７ａは当該投稿者に女性の声質を割り当てる。また、投稿者のプロフィールを示す情報において、投稿者が子どもであることが示されていれば、その投稿者に子どもの声質を割り当て、年齢が高ければそれに応じた声質を割り当ててもよい。

　また、音声変換部３０７は、記憶部２０４に保存されたコンテンツデータから音声データのみを抽出する。音声変換部３０７は、その音声データのチャンネル数Ｎｃ（以下、コンテンツ音声チャンネル数Ｎｃという。）を調べ、そのコンテンツ音声チャンネル数Ｎｃを記憶部２０４に保存する。ここでは、コンテンツ音声チャンネル数Ｎｃが３であるコンテンツを例として説明する。

　サラウンド音声再生部３０８ａは、スピーカ３１ａ～３１ｅで出力可能なチャンネル数Ｎｏ（以下、出力音声チャンネル数Ｎｏという。）を調べ、その出力音声チャンネル数Ｎｏを記憶部２０４に保存する。本実施の形態３で示す例では、音響機器３１がスピーカーを５つ（スピーカ３１ａ～３１ｅ）備えており、出力音声チャンネル数Ｎｏは５である。

　サラウンド音声再生部３０８ａは、出力音声チャンネル数Ｎｏからコンテンツ音声チャンネル数Ｎｃを引いた数Ｎｔ（Ｎｔ＝Ｎｏ－Ｎｃ）を算出する。サラウンド音声再生部３０８ａは、Ｎｃ個のスピーカをコンテンツの音声の再生用に設定し、Ｎｔ個のスピーカを投稿者メッセージデータに係る音声の再生用に設定する。ここで示す例においては、出力音声チャンネル数Ｎｏが５、コンテンツ音声チャンネル数Ｎｃが３であり、Ｎｔは２である。

　本実施の形態３では、サラウンド音声再生部３０８ａは、一例として、３つのスピーカ３１ａ、３１ｂ、３１ｃをコンテンツの音声の再生用に設定し、２つのスピーカ３１ｄ、３１ｅを投稿者メッセージに係る音声の再生用に設定する。Ｎｃが３であることから、サラウンド音声再生部３０８ａは、３つのスピーカ（スピーカ３１ａ、３１ｂ、３１ｃ）をコンテンツの音声の再生用に割り当てる。同様に、Ｎｔが２であることから、サラウンド音声再生部３０８ａは２つのスピーカ（スピーカ３１ｄ、３１ｅ）を投稿メッセージの再生用に割り当てる。

　また、サラウンド音声再生部３０８ａは、コンテンツの音声データから、図６に示すように音像位置Ｓ１、Ｓ２、Ｓ３を特定する。サラウンド音声再生部３０８ａは、音像位置Ｓ１、Ｓ２、Ｓ３と重複しない位置に、音声変換部３０７により変換された音声データに係る音像位置ＳＴ１、ＳＴ２を設定する。更に、サラウンド音声再生部３０８ａは、投稿者Ａ、Ｂ毎に異なる音像位置ＳＴ１、ＳＴ２を設定する。そして、サラウンド音声再生部３０８ａは、上記のように音像位置ＳＴ１、ＳＴ２を設定した状態で、コンテンツの音声と投稿メッセージデータに係る音声とを同時に再生する。

　コンテンツの映像・音声が再生されると、図６に示すようにサラウンド空間において、音像位置Ｓ１からコンテンツのメインの音声が再生され、音像位置Ｓ２、Ｓ３からＢＧＭ（Background music）が再生される。また、音像位置ＳＴ１から投稿者Ａの投稿メッセージデータに係る音声が再生され、音像位置ＳＴ２から投稿者Ｂの投稿メッセージデータに係る音声が再生される。

　このように情報処理装置３００は、コンテンツの音声データに係る音像位置Ｓ１、Ｓ２、Ｓ３と重複しない位置に、投稿メッセージデータに係る音像位置を設定して、音声を再生する。そのため、ユーザは、コンテンツの音声と投稿メッセージデータに係る音声とを明確に区別することができる。更に、情報処理装置３００は、投稿者Ａ、Ｂ毎に異なる音像位置ＳＴ１、ＳＴ２を設定して、音声を再生する。そのため、ユーザは投稿者Ａ、Ｂ毎の音声を明確に区別することができる。

　上述した例では、スピーカーを５つ備えた音響機器において、コンテンツ音声チャンネル数Ｎｃが３であるコンテンツを再生するケースについて説明したが、これに限られない。音像位置をそれぞれ設定できる範囲内において、コンテンツ用及び投稿メッセージ用に割り当てるスピーカ数は任意である。また、上述した例では、コンテンツ音声と投稿メッセージの再生とは別のスピーカで再生する例について説明したが、それぞれ音像位置を独立に設定できるならば、同一のスピーカーで両者を再生するようにしてもよい。

　再生タイミング調整部３１２は、記憶部２０４に保存されたコンテンツの音声データから音声量の分布を解析し、音声量の多い時間帯と音声量の少ない時間帯を特定する（図９参照）。例えば、再生タイミング調整部３１２は、コンテンツの音声データにおいて、全編を通じての音声量の平均値を割り出した後、音声量が、その平均値からみて所定の割合（例えば平均値の３００％等）を超える時間帯を、「音声量の多い時間帯」と特定する。再生タイミング調整部３１２は、音声出力部３０８に、音声量の多い時間帯の投稿メッセージデータに係る音声の再生数を減らし、その減らした分の投稿メッセージデータに係る音声を音声量の少ない時間帯にまとめて再生させる。具体的には、再生タイミング調整部３１２は、例えば音声量が多い時間帯には、再生する音声の数に閾値を設定し、その閾値の数だけ投稿メッセージデータに係る音声を再生した後は、次に音声量の少ない時間帯に入るまで投稿メッセージに係る音声の再生を停止する。このようにすることで、再生タイミング調整部３１２により投稿メッセージデータに係る音声を再生するタイミングが調整された状態で、音声出力部３０８は音声を再生する。

　このように情報処理装置３００は、投稿メッセージデータに係る音声を再生するタイミングを調整するので、ユーザにとってコンテンツの音声が聞き取りづらくなるのを防止することができ、ユーザが各々の投稿メッセージを理解するための負担を抑えることが可能になる。

　次に、特定の投稿メッセージに対する返答メッセージを投稿する方法について説明する。

　ユーザは、投稿者Ａの投稿メッセージデータに係る音声に対し返答メッセージを投稿する場合には、画面表示部２０６に表示されたサラウンド再生状況表示ボタン（図示せず）を押す。画面表示部２０６は、上述したユーザの操作を受けて、図１０に示すように投稿メッセージデータに係る音声の再生状況を表示する。この際、画面表示部２０６は、ユーザのアバター（アバターとは、分身を表すキャラクターのことをいう。）と投稿者Ａ、Ｂのアバターを表示する。ここで、ユーザのアバターと投稿者Ａ、Ｂのアバターとの相対位置が、サラウンド空間におけるユーザと音像位置ＳＴ１、ＳＴ２との相対位置に対応するように、画面表示部２０６は、ユーザのアバターを表示する。なお、投稿メッセージデータに係る音声を再生する際には、投稿者が誰であるかユーザに分かるように、画面表示部２０６はその投稿者のアバターを点滅する等により強調して表示する。

　ユーザによって画面表示部２０６に表示された投稿者Ａのアバターがタッチされると、画面表示部２０６は、投稿者Ａに対する投稿メッセージ入力画面を表示する（図示せず）。そして、その投稿メッセージ入力画面においてメッセージが入力され、画面表示部２０６に表示されている投稿ボタンが押されると、通信部２０３は、ユーザが作成した投稿メッセージデータを、インターネット４０を介して投稿メッセージサーバ２０に送信する。

　次いで、音像位置の再設定方法について説明する。

　ユーザは、音像位置を変更する場合には、例えば、図１１に示すように投稿者Ａのアバターを指でタッチしながら、ユーザのアバターの前方に指を移動して、その指を離す。投稿者Ａのアバターは、ユーザのアバターの前方に位置する。これによりサラウンド空間における音像位置ＳＴ１がユーザの前方に設定される。このように情報処理装置３００は、特定の投稿メッセージに注力したいとき等に、各音像位置を再設定することで、ユーザの望むサラウンド環境を実現できる。

　次に、投稿メッセージデータをコンテンツに対するメッセージに基づいてグループに分類し、音像位置を設定する処理について説明する。

　例えば、ユーザによって情報処理装置３００の図示しない設定画面における肯定否定分類ボタンが押されると、投稿メッセージ分類部３１１は、記憶部２０４に保存された投稿メッセージデータに係るメッセージを分析する。投稿メッセージ分類部３１１は、投稿メッセージデータを、肯定的なメッセージに係る投稿メッセージデータ（以下、肯定的メッセージデータという。）のグループと、否定的なメッセージに係る投稿メッセージデータ（以下、否定的メッセージデータという。）のグループと、に分類する。肯定的なメッセージは、例えば、「良い」という文字が含まれているものであり、否定的なメッセージは、例えば、「悪い」という文字が含まれているものである。

　サラウンド音声再生部３０８ａは、投稿メッセージデータに係る音像位置の設定領域を、図１２に示すように領域Ｒ１と領域Ｒ２とに分ける。サラウンド音声再生部３０８ａは、領域Ｒ１内に肯定的メッセージデータに係る音像位置を設定する。また、サラウンド音声再生部３０８ａは、領域Ｒ２内に否定的メッセージデータに係る音像位置を設定する。なお、この場合も、サラウンド音声再生部３０８ａは、各領域Ｒ１、Ｒ２内において投稿者毎に異なる音像位置を設定する。そして、サラウンド音声再生部３０８ａは、上記のように音像位置を設定した状態で、コンテンツの音声と投稿メッセージデータに係る音声とを同時に再生する。

　コンテンツの映像及び音声が再生されると、サラウンド空間において、領域Ｒ１内から肯定的メッセージデータに係る音声が再生され、領域Ｒ２内から否定的メッセージデータに係る音声が再生される。

　上記したように情報処理装置３００は、投稿メッセージデータに係るメッセージを分析し、そのメッセージに基づいて投稿メッセージデータをグループに分類する。そして、情報処理装置３００は、投稿メッセージデータのグループ毎に音像位置の設定領域を分けて、各音像位置を設定する。従って、情報処理装置３００は、ユーザに対し、投稿メッセージデータのグループ毎に音声を明確に区別することができる。

（変形例１）
　上記に示した例では、投稿メッセージ選抜部３１０は、３つの条件をすべて満たす投稿メッセージデータを再生対象にする投稿メッセージデータとして選抜することとしたが、投稿メッセージデータを再生対象にする基準は任意である。例えば、投稿メッセージ選抜部３１０は、上記３つの条件のうちいずれか１つ又は２つの条件を満たす投稿メッセージデータを選抜してもよい。また、再生対象にする投稿メッセージデータを選抜するための条件や数を、適宜変更してもよい。

（変形例２）
　上記実施の形態３では、コンテンツ音声チャンネル数Ｎｃを３とし、出力音声チャンネル数Ｎｏを５としたが、すでに述べたようにコンテンツ音声チャンネル数Ｎｃや出力音声チャンネル数Ｎｏは任意のものが可能であり、適宜変更してもよい。例えば出力音声チャンネル数Ｎｏとコンテンツ音声チャンネル数Ｎｃとが同じ数の場合には、コンテンツの音声の再生用に設定するチャンネル数を減らし、減らした分のチャンネルを投稿メッセージデータに係る音声の再生用に設定してもよい。出力音声チャンネル数Ｎｏがコンテンツ音声チャンネル数Ｎｃよりも少ない場合には、コンテンツの音声の再生用に設定するチャンネル数を減らし、空いているチャンネルを投稿メッセージデータに係る音声の再生用に設定してもよい。

（変形例３）
　上記実施の形態３では、音響機器３１をスピーカ３１ａ～３１ｅで構成したが、音響機器３１を、サラウンド音声を再生することができるヘッドホン（以下、サラウンドヘッドホンという。）から構成してもよい。このサラウンドヘッドホンを用いても、スピーカから成る音響機器３１を用いる場合と同様のサラウンド音声を得ることができる。

（変形例４）
　上記実施の形態３では、投稿メッセージデータを、肯定的メッセージデータのグループと否定的メッセージデータのグループとに分類したが、分類する方法を適宜変更してもよい。例えば、討論番組等のコンテンツを視聴する場合には、投稿メッセージに込められた賛成又は反対の意図を分析する。そして、投稿メッセージデータを、賛成の意図が込められた投稿メッセージデータのグループと反対の意図が込められた投稿メッセージデータのグループとに分類する。

（変形例５）
　上述した実施形態では、コンテンツの音声と投稿メッセージデータに係る音声とを常時再生するようにしたが、投稿メッセージデータを再生するタイミングを特定の時期に限定してもよい。例えば、コンテンツの再生中、ユーザにより特定の操作がなされたタイミングに限って投稿メッセージデータを再生するようにすることもできる。このようにすると、例えばユーザは、コンテンツの特定のシーンが判りにくいと判断したときに、入力部２０１を操作し、そのシーンに関連する投稿メッセージデータに係る音声を再生することができる。ユーザは、投稿メッセージデータに係る音声を聞くことで、その判りにくいシーンを解釈するヒントを得ることができる。

　また、入力部２０１に対する入力操作を省くために、情報処理装置２００は、自動的に再生中のコンテンツをユーザが理解できているかを推測し、ユーザがコンテンツを理解できていないタイミングを特定するようにしてもよい。例えば、ユーザを撮影している画像を用いてユーザがコンテンツに対する視線を外していることを検出すると、検出した時点ではユーザがコンテンツを理解できていないと推測し、そのタイミングをユーザがコンテンツを理解できていないタイミングと特定する。または、脳波センサーをユーザの頭部に装着してユーザの脳波を測定し、ユーザの集中度等を解析して、ユーザが理解できていないタイミングを特定してもよい。

　（実施の形態４）
　上述した実施の形態１～３においては、情報処理装置が、コンテンツサーバから受信したコンテンツを再生する例を説明した。しかし、本発明はこれに限定されず、例えばマイクロホン等を通じて入力されたコンテンツに関連する投稿メッセージデータを再生するものであってもよい。ここから、本発明の実施の形態４を、図１３と図１４を参照して説明する。

　実施の形態４に係る複数コンテンツ同時視聴システム４は、図１３に示すように投稿メッセージサーバ２０、情報処理装置４００、音響機器３０及びマイクロホン５０を備えている。

　情報処理装置４００は、実施の形態３の情報処理装置３００の構成に加え、図１４に示すように録音部４１３を備えている。本実施の形態４では、コンテンツ受信手段は、例えば、録音部４１３によって構成される。

　録音部４１３は、マイクロホン５０から出力された音声データを受信する。録音部４１３は、バス２０９に接続している。

　マイクロホン５０は、ユーザの周囲音を集める。マイクロホン５０は、情報処理装置４００の録音部４１３に接続している。

　次に、情報処理装置４００の特徴的な動作について説明する。なお、セミナーや講義等で、ユーザが発表者の発表を視聴する場面を例として説明する。

　マイクロホン５０は発表者の音声を集め、その音声を音声データとして出力する。録音部４１３は、マイクロホン５０から出力された音声データをコンテンツデータとして受信する。録音部４１３は、受信した音声データを記憶部２０４に保存する。

　一方、同じ発表者の発表を視聴している他人が、その発表者の発言に対して補足説明や質問事項等のメッセージデータを、スマートフォン等の情報処理装置で作成して投稿すると、その投稿メッセージデータは、投稿メッセージサーバ２０に蓄積される。

　通信部２０３は、投稿メッセージサーバ２０を介して、上記投稿メッセージデータを受信し、その投稿メッセージデータを記憶部２０４に保存する。音声変換部３０７は、記憶部２０４に保存された投稿メッセージデータを音声データに変換する。

　音声出力部３０８は、録音部４１３が保存した発表者の発言に係る音声データと、発表者の発言に対する投稿メッセージデータに係る音声データと、を記憶部２０４から読み出す。音声出力部３０８は、これらの音声データを同時に音響機器３０に出力する。即ち、情報処理装置４００は、発表者の音声と投稿メッセージデータに係る音声とを同時に再生する。

　上述したように情報処理装置４００は、マイクロホン５０から出力された音声データをコンテンツデータとして受信する。従って、情報処理装置４００は、発表者の発表中、リアルタイムに、発表者の音声と投稿メッセージデータに係る音声とを同時に再生することができる。

（変形例１）
　上記実施の形態４では、ヘッドホンから成る音響機器３０を用いる構成としたが、実施の形態３のスピーカから成る音響機器３１を用いる構成としてもよい。また、サラウンドヘッドホンを用いる構成としてもよい。音響機器３１やサラウンドヘッドホンを用いる場合には、投稿メッセージの投稿者の位置情報、例えば投稿者が利用したスマートフォン等のＧＰＳ(Global Positioning System)機能を用いた位置情報に基づいて、投稿メッセージデータに係る音像位置を設定してもよい。具体的には、実際のユーザと投稿者との相対位置を調べ、サラウンド空間においてその投稿者の投稿メッセージデータに係る音像位置を、実際の相対位置に対応する位置に設定する。これにより、実際に投稿者がいる位置から、あたかもその投稿者がメッセージを声に出してつぶやいているような臨場感の高いサラウンド音声を聞くことができるようになる。

（変形例２）
　上記実施の形態４では、外付けのマイクロホン５０を用いる構成としたが、外付けのマイクロホン５０を用いないで、情報処理装置４００に内蔵されたマイクロホンを用いる構成としてもよい。

（変形例３）
　上記実施の形態４では、セミナーや講義等で、ユーザが発表者の発表を視聴する場面を例として説明したが、情報処理装置４００を使用する場面は必ずしもこれに限られない。例えば、情報処理装置４００を、コンサートや演劇を視聴する場合に使用してもよい。

（変形例４）
　上記に示した例では、情報処理装置４００は、マイクロホン５０を介して受信した音声と、投稿メッセージデータに係る音声とを同時に再生する。しかし、実施の形態４で情報処理装置４００が受信するデータは、マイクロホン５０を介して受信する音声に限られない。例えば情報処理装置４００は、マイクロホン５０に代えて、映像と音声とを同時に収集できるビデオカメラを備え、また録音部４１３に代えてビデオ記録部を備えるものであってもよい。この場合、情報処理装置４００は、ビデオカメラを介して受信した映像及び音声と、投稿メッセージデータに係る音声とを同時に再生する。このような情報処理装置４００は、特定の画像（例えば、２次元バーコード等）と、特定の音声とをビデオカメラで収集した場合に、それに関連する投稿メッセージデータを再生することができる。

　また、コンピュータがプログラムを実行することで、情報処理装置１００、２００、３００、４００の機能を実現してもよい。情報処理装置１００、２００、３００、４００の機能を実現するためのプログラムは、ＵＳＢメモリ、ＳＤメモリカード、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ（Digital Versatile Disc）、ＨＤＤ（Hard Disc Drive）等のコンピュータ読み取り可能な記録媒体に記憶されてもよいし、ネットワークを介してコンピュータにダウンロードされてもよい。

　情報処理装置１００、２００、３００、４００は、携帯電話、スマートフォン、ゲーム機、タブレットＰＣ（Personal Computer）、ノートＰＣ、ＰＤＡ（Personal Data Assistants：携帯情報端末）等、任意である。

　なお、本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施形態及び変形が可能とされるものである。また、上述した実施形態は、本発明を説明するためのものであり、本発明の範囲を限定するものではない。つまり、本発明の範囲は、実施形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、本発明の範囲内とみなされる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信手段と、
　前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集手段と、
　前記投稿メッセージ収集手段により収集された投稿メッセージデータを音声データに変換する音声変換手段と、
　前記音声変換手段により変換された音声データに係る音声と前記コンテンツ受信手段により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生手段と、
　を備えることを特徴とする情報処理装置。

　（付記２）
　前記音声変換手段は、前記投稿メッセージデータに係るメッセージを投稿した投稿者毎に異なる声質を設定する声質設定手段を備える、
　ことを特徴とする付記１に記載の情報処理装置。

　（付記３）
　前記複数音同時再生手段は、前記コンテンツデータの音声データに係る音像位置と重複しない位置に、前記音声変換手段により変換された音声データに係る音像位置を設定して、音声を再生するサラウンド音声再生手段を備える、
　ことを特徴とする付記１又は２に記載の情報処理装置。

　（付記４）
　前記サラウンド音声再生手段は、前記投稿メッセージデータに係るメッセージを投稿した投稿者毎に異なる音像位置を設定して、音声を再生する、
　ことを特徴とする付記３に記載の情報処理装置。

　（付記５）
　前記投稿メッセージ収集手段により収集された投稿メッセージデータを、予め定めた条件に基づいてグループに分類する投稿メッセージ分類手段を備え、
　前記サラウンド音声再生手段は、前記グループ毎に音像位置の設定領域を分けて、前記音声変換手段により変換された音声データに係る音像位置を設定して、音声を再生する、
　ことを特徴とする付記３又は４に記載の情報処理装置。

　（付記６）
　前記投稿メッセージ収集手段により収集された投稿メッセージデータのうちから、予め定めた条件に基づいて再生対象にする投稿メッセージデータを選抜する投稿メッセージ選抜手段を備え、
　前記複数音同時再生手段は、前記投稿メッセージ選抜手段により選抜された投稿メッセージデータに係る音声を再生する、
　ことを特徴とする付記１乃至５のいずれか１つに記載の情報処理装置。

　（付記７）
　前記投稿メッセージデータに係る音声を再生するタイミングを調整する再生タイミング調整手段を備え、
　前記複数音同時再生手段は、前記再生タイミング調整手段により前記投稿メッセージデータに係る音声を再生するタイミングが調整された状態で、音声を再生する、
　ことを特徴とする付記１乃至６のいずれか１つに記載の情報処理装置。

　（付記８）
　前記コンテンツ受信手段は、マイクロホンから出力された音声データを前記コンテンツデータとして受信する、
　ことを特徴とする付記１乃至７のいずれか１つに記載の情報処理装置。

　（付記９）
　付記１乃至７のいずれか１つに記載の情報処理装置と、
　前記情報処理装置に前記コンテンツデータの配信を行うコンテンツサーバと、
　前記情報処理装置に前記投稿メッセージデータの配信を行う投稿メッセージサーバと、
　を備えることを特徴とする複数コンテンツ同時視聴システム。

　（付記１０）
　付記８に記載の情報処理装置と、
　前記情報処理装置に前記コンテンツデータの出力を行うマイクロホンと、
　前記情報処理装置に前記投稿メッセージデータの配信を行う投稿メッセージサーバと、
　を備えることを特徴とする複数コンテンツ同時視聴システム。

　（付記１１）
　コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信ステップと、
　前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集ステップと、
　前記投稿メッセージ収集ステップで収集された投稿メッセージデータを音声データに変換する音声変換ステップと、
　前記音声変換ステップで変換された音声データに係る音声と前記コンテンツ受信ステップで受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生ステップと、
　を含むことを特徴とする情報処理方法。

　（付記１２）
　コンピュータを、
　コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信手段、
　前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集手段、
　前記投稿メッセージ収集手段により収集された投稿メッセージデータを音声データに変換する音声変換手段、
　前記音声変換手段により変換された音声データに係る音声と前記コンテンツ受信手段により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生手段、
　として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。

　本発明は、２０１２年１２月１２日に出願された日本国特許出願２０１２－２７１２３４号に基づく。本明細書中に日本国特許出願２０１２－２７１２３４号の明細書、特許請求の範囲、図面全体を参照として取り込むものとする。

１、２、３、４　…複数コンテンツ同時視聴システム
１０　　　　…コンテンツサーバ
２０　　　　…投稿メッセージサーバ
３０、３１　…音響機器
３１ａ～ｅ　…スピーカ
４０　　　　…インターネット
５０　　　　…マイクロホン
１００　　　…情報処理装置
１０１　　　…コンテンツ受信部
１０３　　　…投稿メッセージ収集部
１０４　　　…音声変換部
１０５　　　…複数音同時再生部
２００　　　…情報処理装置
２０１　　　…入力部
２０２　　　…制御部
２０３　　　…通信部
２０４　　　…記憶部
２０５　　　…表示制御部
２０６　　　…画面表示部
２０７　　　…音声変換部
２０８　　　…音声出力部
２０９　　　…バス
３００　　　…情報処理装置
３０２　　　…制御部
３０７　　　…音声変換部
３０７ａ　　…声質設定部
３０８　　　…音声出力部
３０８ａ　　…サラウンド音声再生部
３１０　　　…投稿メッセージ選抜部
３１１　　　…投稿メッセージ分類部
３１２　　　…再生タイミング調整部
４００　　　…情報処理装置
４１３　　　…録音部
Ｓ１、Ｓ２、Ｓ３　…音像位置
ＳＴ１、ＳＴ２　　…音像位置
Ｒ１、Ｒ２　　　　…音像位置の設定領域

Claims

　コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信手段と、
　前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集手段と、
　前記投稿メッセージ収集手段により収集された投稿メッセージデータを音声データに変換する音声変換手段と、
　前記音声変換手段により変換された音声データに係る音声と前記コンテンツ受信手段により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生手段と、
　を備えることを特徴とする情報処理装置。
　前記音声変換手段は、前記投稿メッセージデータに係るメッセージを投稿した投稿者毎に異なる声質を設定する声質設定手段を備える、
　ことを特徴とする請求項１に記載の情報処理装置。
　前記複数音同時再生手段は、前記コンテンツデータの音声データに係る音像位置と重複しない位置に、前記音声変換手段により変換された音声データに係る音像位置を設定して、音声を再生するサラウンド音声再生手段を備える、
　ことを特徴とする請求項１又は２に記載の情報処理装置。
　前記サラウンド音声再生手段は、前記投稿メッセージデータに係るメッセージを投稿した投稿者毎に異なる音像位置を設定して、音声を再生する、
　ことを特徴とする請求項３に記載の情報処理装置。
　前記投稿メッセージ収集手段により収集された投稿メッセージデータを、予め定めた条件に基づいてグループに分類する投稿メッセージ分類手段を備え、
　前記サラウンド音声再生手段は、前記グループ毎に音像位置の設定領域を分けて、前記音声変換手段により変換された音声データに係る音像位置を設定して、音声を再生する、
　ことを特徴とする請求項３又は４に記載の情報処理装置。
　前記投稿メッセージ収集手段により収集された投稿メッセージデータのうちから、予め定めた条件に基づいて再生対象にする投稿メッセージデータを選抜する投稿メッセージ選抜手段を備え、
　前記複数音同時再生手段は、前記投稿メッセージ選抜手段により選抜された投稿メッセージデータに係る音声を再生する、
　ことを特徴とする請求項１乃至５のいずれか１項に記載の情報処理装置。
　前記投稿メッセージデータに係る音声を再生するタイミングを調整する再生タイミング調整手段を備え、
　前記複数音同時再生手段は、前記再生タイミング調整手段により前記投稿メッセージデータに係る音声を再生するタイミングが調整された状態で、音声を再生する、
　ことを特徴とする請求項１乃至６のいずれか１項に記載の情報処理装置。
　前記コンテンツ受信手段は、マイクロホンから出力された音声データを前記コンテンツデータとして受信する、
　ことを特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。
　コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信ステップと、
　前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集ステップと、
　前記投稿メッセージ収集ステップで収集された投稿メッセージデータを音声データに変換する音声変換ステップと、
　前記音声変換ステップで変換された音声データに係る音声と前記コンテンツ受信ステップで受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生ステップと、
　を含むことを特徴とする情報処理方法。
　コンピュータを、
　コンテンツの音声データを含むコンテンツデータを受信するコンテンツ受信手段、
　前記コンテンツに関連する文字データから成る投稿メッセージデータを収集する投稿メッセージ収集手段、
　前記投稿メッセージ収集手段により収集された投稿メッセージデータを音声データに変換する音声変換手段、
　前記音声変換手段により変換された音声データに係る音声と前記コンテンツ受信手段により受信されたコンテンツデータの音声データに係る音声とを同時に再生する複数音同時再生手段、
　として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。