WO2019030811A1

WO2019030811A1 - 端末、音声連携再生システム及びコンテンツ表示装置

Info

Publication number: WO2019030811A1
Application number: PCT/JP2017/028700
Authority: WO
Inventors: 章悟喜多村; 谷田部　祐介; 孝志松原
Original assignee: マクセル株式会社
Priority date: 2017-08-08
Filing date: 2017-08-08
Publication date: 2019-02-14
Also published as: JPWO2019030811A1; CN113824999A; JP7467513B2; US20200252726A1; US20220021980A1; CN110999318B; US11140484B2; JP2022050516A; CN110999318A; JP2024096765A; JP7004727B2

Abstract

音声コンテンツを出力する、第１の音声出力部及び第２の音声出力部を備えた端末であって、第１の音声コンテンツと、第２の音声コンテンツとを取得する音声取得部と、前記第１の音声コンテンツ及び前記第２の音声コンテンツの出力先を示す情報を設定する設定部と、前記設定部により設定された情報に基づいて、前記第１の音声コンテンツを前記第１の音声出力部及び第２の音声出力部の一方に出力し、前記第２の音声コンテンツを前記第１の音声出力部及び第２の音声出力部の他方に出力する音声出力制御部と、を備える。

Description

端末、音声連携再生システム及びコンテンツ表示装置

　本発明は、端末、音声連携再生システム及びコンテンツ表示装置に関する。

　従来から、主となる受信端末装置とデータの送受信が可能な複数の副受信端末のそれぞれに、各副受信端末装置に固有のＩＤ情報（識別情報）を持たせ、このＩＤ情報に対応する副コンテンツを主受信端末装置から副受信端末装置に送信する技術がある（例えば、特許文献１参照）。

特開２０１３－２３６３８９号公報

　特許文献１に記載されたような主受信端末装置（テレビ受信機）と、副受信端末装置とを含むシステムでは、主受信端末装置及び副受信端末装置それぞれに音声出力部がある。また、１台の端末装置でも、複数の音声出力部（例えば、スピーカとヘッドフォン）を有することがある。

　このように、複数の音声出力部を有している場合、適切にコンテンツの音声出力することが望ましい。そこで、上述のように、複数の音声出力部に対して適切に音声コンテンツを出力制御し得る端末、音声連携再生システム及びコンテンツ表示装置を提供することを目的とする。

　前記課題を解決するための手段として、特許請求の範囲に記載の技術を用いる。

　一例を挙げるならば、音声コンテンツを出力する、第１の音声出力部及び第２の音声出力部を備えた端末であって、第１の音声コンテンツと、第２の音声コンテンツとを取得する音声取得部と、前記第１の音声コンテンツ及び前記第２の音声コンテンツの出力先を示す情報を設定する設定部と、前記設定部により設定された情報に基づいて、前記第１の音声コンテンツを前記第１の音声出力部及び第２の音声出力部の一方に出力し、前記第２の音声コンテンツを前記第１の音声出力部及び第２の音声出力部の他方に出力する音声出力制御部と、を備える。

　本発明の技術を用いることにより、複数の音声出力部に対して適切に音声コンテンツを出力制御することができる。

実施例１に係る携帯情報端末の活用例を示す図である。実施例１に係る携帯情報端末のブロック図である。実施例１に係る携帯情報端末の音声出力部からの出力パターンを説明する図である。実施例１に係る携帯情報端末の処理を示すフローチャートである。実施例２に係る音声連携再生システムのシステム構成図（１）である。実施例２に係る音声連携再生システムのシステム構成図（２）である。実施例２に係る音声連携再生システムのシステム構成図（３）である。実施例２に係る音声連携再生システムの携帯情報端末の音声出力部におけるデフォルト設定の説明図である。実施例２に係るコンテンツ表示装置のブロック図である。実施例２に係る外部送信装置のブロック図である。実施例２に係る携帯情報端末の処理を示すフローチャート（１）である。実施例２に係る携帯情報端末の処理を示すフローチャート（２）である。実施例２に係る音声連携再生システムの活用例を示す図（１）である。実施例２に係る音声連携再生システムの活用例を示す図（２）である。実施例２に係る音声連携再生システムの活用例を示す図（３）である。実施例２に係る音声連携再生システムの活用例を示す図（４）である。実施例３に係る音声連携再生システムの音声制御を説明する図である。実施例３に係る携帯情報端末の処理を示すフローチャート（１）である。実施例３に係る携帯情報端末の処理を示すフローチャート（２）である。実施例４に係る携帯情報端末の処理を示すフローチャートである。実施例４に係る音声連携再生システムの同期制御を説明する図である。実施例５に係る携帯情報端末の処理を示すフローチャートである。実施例６に係る携帯情報端末の処理を示すフローチャートである。実施例７に係る音声連携再生システムの字幕表示例を示す図である。実施例８に係る音声連携再生システムの翻訳に必要となる各種処理を示す図である。

　以下、本発明の実施形態の例を、図面を用いて説明する。

　（実施例１）
　先ず、本実施例の携帯情報端末（端末）で再生可能なコンテンツの一例を説明する。まず、図１を用いて、携帯情報端末７００（携帯情報端末７００ｍｕ）の活用例を説明する。携帯情報端末７００は、例えば、携帯電話やスマートフォン、タブレット端末等である。また、携帯情報端末７００は、ＰＤＡ（Ｐｅｒｓｏｎａｌ　Ｄｉｇｉｔａｌ　Ａｓｓｉｓｔａｎｔｓ）やノート型ＰＣであってもよい。また、携帯情報端末７００は、デジタルスチルカメラや動画撮影可能なビデオカメラ、携帯型ゲーム機等、またはその他の携帯用デジタル機器であってもよい。

　携帯情報端末７００は、外部ネットワーク（例えば、インターネット等）を介して音声データを含む音声コンテンツを受信し、当該音声コンテンツを再生する。ここで、音声コンテンツとは、音楽コンテンツ、動画コンテンツ、ワンセグメント放送コンテンツ等である。また、携帯情報端末７００は、ワンセグメント放送波を受信可能であり、ワンセグメント放送コンテンツを受信し、当該ワンセグメントコンテンツを再生する。

　携帯情報端末７００は、複数の音声出力部を有し、当該音声出力部から音声出力可能である。具体的に、携帯情報端末７００は、スピーカと、自装置が接続するヘッドフォンから音声出力することができる。

　さらに、携帯情報端末７００は、上記の外部ネットワークまたは移動体電話通信網を介して通話することができる。すなわち、携帯情報端末７００は、電話網を用いて通話可能である。さらに、携帯情報端末７００は、外部ネットワークまたは移動体電話通信網を介して通話を行い、通話音声を受信し、通話相手に通話データを送信する。また、携帯情報端末７００は、予め記憶している音楽コンテンツを再生する。以上の説明は、日本国内のみの適用に限定されるものではない。

　図１は、２種類のコンテンツ視聴を示す模式図である。携帯情報端末７００では、ストリーミングコンテンツと音楽コンテンツとを再生している。ここで、Ａユーザ１００００ｍｕａはストリーミングコンテンツを視聴したい一方で、Ｂユーザ１００００ｍｕｂは音楽コンテンツを視聴したいと考えているものとする。

　この場合、携帯情報端末７００ｍｕのヘッドフォン音声出力部は、前記ストリーミングコンテンツの音声を再生し、携帯情報端末７００ｍｕのスピーカ音声出力部は、前記音楽コンテンツを再生する。この場合、Ａユーザ１００００ｍｕａは、ストリーミングコンテンツを、Ｂユーザ１００００ｍｕｂは音楽コンテンツを、それぞれ他方のコンテンツの視聴を阻害することなく視聴することが可能となる。

　［携帯情報端末のハードウェア構成］
　次に、本実施例における具体的な構成例の説明を行う。図２は、携帯情報端末７００の内部構成の一例を示すブロック図である。携帯情報端末７００は、主制御部７０１、システムバス７０２、通信処理部７２０（受信部）、操作部７３０、画像処理部７４０（表示制御部）、及び音声処理部７５０を備える。

　主制御部７０１は、携帯情報端末７００全体を制御するマイクロプロセッサユニットである。主制御部７０１は、通信処理部７２０を介して放送コンテンツ、動画コンテンツ等の複数の音声コンテンツを取得する。また、主制御部７０１は、取得したコンテンツを記憶してもよい。このように、主制御部７０１は、音声取得部として機能する。

　主制御部７０１は、コンテンツを再生するアプリケーション（例えば、音声連携再生アプリケーション）、通話アプリケーションをインストールしており、ユーザの操作要求等に応じて、これらのアプリケーションを実行する。コンテンツを再生するアプリケーションは、各種音声コンテンツを再生する。例えば、取得した音声コンテンツを再生する。また、音声連携再生アプリケーションは、テレビ受信機から取得した音声データを再生するアプリケーションである。この音声連携アプリケーションの動作については、後述する。通話アプリケーションは、発着信を制御するアプリケーションである。

　主制御部７０１は、上記のコンテンツを再生するアプリケーションが、コンテンツの再生要求を受け付けた場合、取得したコンテンツ又は記憶したコンテンツを画像処理部７４０又は音声処理部７５０へ送出する。また、主制御部７０１は、上記の通話アプリケーションにより、電話による発着信制御と、スピーカ音声出力部７５１及び音声入力部７５４を利用した通話制御を行う。システムバス７０２は、主制御部７０１と携帯情報端末７００内の各動作ブロックとの間でデータ送受信を行うためのデータ通信路である。

　通信処理部７２０は、ＬＡＮ通信部７２１、移動体電話網通信部７２２、及びＮＦＣ通信部７２３を有する。ＬＡＮ通信部７２１は、インターネットを介してデータの送受信を行う。移動体電話網通信部７２２は、移動体電話通信網を介して電話通信（通話）及びデータの送受信を行う。

　ＮＦＣ通信部７２３は、対応するリーダ／ライタとの近接時に無線通信を行う。ＬＡＮ通信部７２１、移動体電話網通信部７２２、及びＮＦＣ通信部７２３は、それぞれ符号回路や復号回路、アンテナ等を備えるものとする。また、通信処理部７２０が、ＢｌｕｅＴｏｏｔｈ（登録商標）通信部や赤外線通信部等、他の通信部を更に備えていてもよい。例えば、通信処理部７２０は、外部装置（例えば、テレビ受信機）から送信されたコンテンツを受信する。

　操作部７３０は、携帯情報端末７００に対する操作指示の入力を行う指示入力部であり、本実施例では、表示部７４１に重ねて配置したタッチパネル及びボタンスイッチを並べた操作キーで構成されるものとする。何れか一方のみであってもよい。有線通信または無線通信により接続された別体の携帯端末機器を用いて携帯情報端末７００の操作を行ってもよい。また、前記タッチパネル機能は表示部７４１が備え持っているものであってもよい。

　画像処理部７４０は、表示部７４１、画像信号処理部７４２、第一画像入力部７４３、及び第二画像入力部７４４で構成される。表示部７４１は、例えば、液晶パネル等の表示デバイスであり、画像信号処理部７４２で処理した画像データを携帯情報端末７００のユーザに提供（表示出力）する。画像信号処理部７４２は、図示を省略したビデオＲＡＭを備え、ビデオＲＡＭに入力された画像データに基づいて表示部７４１が駆動される。

　また、画像信号処理部７４２は、必要に応じてフォーマット変換、メニューやその他のＯＳＤ（Ｏｎ　Ｓｃｒｅｅｎ　Ｄｉｓｐｌａｙ）信号の重畳処理等を行う機能を有するものとする。第一画像入力部７４３及び第二画像入力部７４４は、例えば、カメラユニットである。このカメラユニットは、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）やＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）センサ等の電子デバイスを用いてレンズから入力した光を電気信号に変換することにより、周囲や対象物の画像データを入力する。

　音声処理部７５０は、スピーカ音声出力部７５１（第１の音声出力部）、ヘッドフォン音声出力部７５２（第２の音声出力部）、音声信号処理部７５３（音声出力制御部、解析部、算出部）、及び音声入力部７５４（入力部）で構成される。

　スピーカ音声出力部７５１は、出力されるスピーカ音声を聞くことのできる範囲内にいる全ユーザに対し、音声信号処理部７５３で処理した音声信号を提供する。ヘッドフォン音声出力部７５２は、音声信号処理部７５３で処理した音声信号を携帯情報端末７００のユーザに提供するものである。ヘッドフォン音声出力部７５２は、ヘッドフォンやイヤフォン等を接続可能な端子を備えるものであってもよい。また、ヘッドフォン音声出力部７５２は、ＢｌｕｅＴｏｏｔｈ（登録商標）通信（近距離無線通信）等を介して音声信号を無線出力するものであってもよい。このように、携帯情報端末７００は、音声コンテンツを出力する複数の音声出力部を備えた端末である。

　また、音声信号処理部７５３は、スピーカ音声出力部７５１とヘッドフォン音声出力部７５２で異なる音声信号を出力するために、２つ以上の音声信号を処理することが可能である。スピーカ音声出力部７５１またはヘッドフォン音声出力部７５２から出力する音声信号は、主制御部７０１によって選択的に制御される。

　スピーカ音声出力部７５１とヘッドフォン音声出力部７５２で出力される音声信号は、それぞれモノラルであってもよいしステレオであってもよい。音声入力部７５４はマイクであり、ユーザの声などを音声データに変換して入力する。

　音声信号処理部７５３は、操作部７３０を介して、後述する出力パターン情報を設定し、設定した出力パターン情報を記憶する。このように、音声信号処理部７５３は、設定部として機能する。また、音声信号処理部７５３は、出力パターン情報に基づいて、第１の音声コンテンツを第１の音声出力部及び第２の音声出力部の一方に出力し、第２の音声コンテンツを第１の音声出力部及び第２の音声出力部の他方に出力する。

　なお、図２に示した携帯情報端末７００の構成例は、本実施例に必須ではない構成も多数含んでいるが、これらが備えられていない構成であっても本実施例の効果を損なうことはない。また、デジタル放送受信機能や電子マネー決済機能等、図示していない構成が更に加えられていてもよい。

　［音声信号の出力パターン］
　図３は、携帯情報端末７００において第一の音声信号または第二の音声信号をスピーカ音声出力部７５１とヘッドフォン音声出力部７５２から出力する際の出力パターンの一例を示す図である。各音声信号は、「出力せず」「スピーカ音声出力部７５１から出力」「ヘッドフォン音声出力部７５２から出力」の３パターンがあり、二種類の音声信号の組み合わせとしては３×３＝９パターンを取り得る。二種類の音声信号は、いずれも音声コンテンツの信号である。第一の音声信号は、例えば、動画コンテンツの信号であり、第二の音声信号は、例えば、音楽コンテンツの信号である。

　具体的には、図３に示すＮｏ．１出力パターン２２０００乃至Ｎｏ．９出力パターン２２００８である。このうち、第一の音声信号と第二の音声信号を共に出力するパターンは、Ｎｏ．５出力パターン２２００４、Ｎｏ．６出力パターン２２００５、Ｎｏ．８出力パターン２２００７、Ｎｏ．９出力パターン２２００８の4パターンである。特にＮｏ．５出力パターン２２００４とＮｏ．９出力パターン２２００８は、第一の音声信号と第二の音声信号を重畳して出力する。

　これらの出力パターンの選択は、操作部７３０を介してユーザが手動で選択してもよいし、ヘッドフォンが接続されたことを判定するヘッドフォン接続検出部を備え、ヘッドフォン接続検出部の検出結果に基づいて自動で選択してもよい。主制御部７０１が、端子の接続状態を検出したり、近距離無線通信によるヘッドフォン接続を検出したりすることにより、ヘッドフォン接続検出部を実現する。

　図３に示す設定はあくまで一例であり、携帯情報端末７００が他の音声出力部を備える場合は、他の音声出力部の選択も許容し、複数の音声出力部からの同一の音声信号の出力も許容する。

　続いて、図４を用いて、携帯情報端末７００が音声信号の出力切り替えをする処理の手順を説明する。図４は、携帯情報端末７００が音声信号の出力切り替えをする処理の手順を示すフローチャートである。なお、予め出力パターンが設定されているものとする。

　まず、主制御部７０１が第１の音声コンテンツ（第一の音声信号）を取得し（ステップＳ９１）、さらに第２の音声コンテンツ（第二の音声信号）を取得する（ステップＳ９２）。音声信号処理部７５３は、出力パターン（設定値）を参照して、第１の音声コンテンツを第１の音声出力部及び第２の音声出力部の一方に出力し、第２の音声コンテンツを第１の音声出力部及び第２の音声出力部の他方に出力する（ステップＳ９３）。

　以上説明したように、実施例１に記載の携帯情報端末７００によれば、出力パターンを設定しておき、当該出力パターンにより、第１の音声信号を第１の音声出力部及び第２の音声出力部の一方に出力し、第２の音声信号を第１の音声出力部及び第２の音声出力部の他方に出力する。例えば、携帯情報端末７００は、音楽コンテンツをスピーカ音声出力部７５１から出力し、映像コンテンツをヘッドフォン音声出力部７５２から出力することができる。このように、携帯情報端末７００は、複数の音声出力部を用いて適切に音声コンテンツを出力制御し得る。

　（実施例２）
　本発明の実施例２に関して説明する。本実施例は実施例１に記載の携帯情報端末を使用する音声連携再生システムである。なお、本実施例における携帯情報端末の構成及び効果等は特に断りのない限り実施例１と同様であるものとする。

　先ず、本実施例の音声連携再生システムで再生可能なコンテンツの一例を説明する。本実施例の音声連携再生システムでは、例えばテレビ受信機であるコンテンツ表示装置がアンテナを介して放送波を受信することで、ＢＳ／地上デジタル放送を再生可能である。

　さらには、コンテンツ表示装置が外部ネットワークと接続可能である場合、外部ネットワークを介してストリーミングコンテンツを受信し、再生することが可能である。一方で、携帯情報端末が前記外部ネットワークを介して受信したストリーミングコンテンツをコンテンツ表示装置に伝送し、再生することが可能である。

　さらには、携帯情報端末７００がワンセグメント放送波を受信可能である場合は、ワンセグメント放送コンテンツをコンテンツ表示装置に伝送し、再生することが可能である。以上の説明は、日本国内のみの適用に限定されるものではない。

　次に、本実施例における実施形態の具体的な構成例の説明を行う。

　［システム構成］
　まず、図５（図５Ａ～図５Ｃ）を用いて、音声連携再生システムのシステム構成を説明する。図５は、音声連携システムのシステム構成を示す図である。図５Ａは、本実施例の音声連携再生システムの一例を示すシステム構成図である。本実施例の音声連携再生システムは、コンテンツ表示装置１００と、アンテナ１００ａと、ブロードバンドネットワーク等であるインターネット２００と、ルータ装置２１０と、放送局の電波塔３００ｔと、移動体電話通信網の基地局６００ｂと、携帯情報端末７００とを含む。

　コンテンツ表示装置１００は、既存のデジタル放送受信機能に加え、放送通信連携システムに対応する機能を有するテレビ受信機である。コンテンツ表示装置１００は、電波塔３００ｔから送出された放送波を、アンテナ１００ａを介して受信する。また、コンテンツ表示装置１００は、ルータ装置２１０を介してインターネット２００と接続可能であり、インターネット２００上の各サーバ装置との通信によるデータの送受信が可能である。

　ルータ装置２１０は、インターネット２００と無線通信または有線通信により接続され、また、コンテンツ表示装置１００とは無線通信または有線通信で、携帯情報端末７００とは無線通信で接続される。これにより、インターネット２００上の各サーバ装置とコンテンツ表示装置１００と携帯情報端末７００とが、ルータ装置２１０を介して、データの送受信を相互に行うことが可能となる。すなわち、コンテンツ表示装置１００と携帯情報端末７００とは、通信可能である。電波塔３００ｔは、放送局の放送設備からデジタル放送信号等を含む放送波を送出する。

　図５Ｂは、本実施例の音声連携再生システムの別の一例を示すシステム構成図である。図５Ａに示すシステム構成と異なり、ルータ装置２１０を含まない。図５Ｂに示すシステム構成では、ルータ装置２１０を介さない代わりに、ＢｌｕｅＴｏｏｔｈ（登録商標）等の方式を用いることで、コンテンツ表示装置１００と携帯情報端末７００との通信を行う。

　図５Ｃは、本実施例の音声連携再生システムの別の一例を示すシステム構成図である。図５Ｂに示すシステム構成と異なり、外部送信装置１００ｂを使用する。

　コンテンツ表示装置１００は、ルータ装置２１０との接続ができない場合やＢｌｕｅＴｏｏｔｈ（登録商標）等の通信方式を有さない場合、外部送信装置１００ｂを介し、音声信号等を携帯情報端末７００に伝送する。

　図５Ａ乃至図５Ｃに示す３つのシステム構成は、コンテンツ表示装置１００と携帯情報端末７００間の通信方式が異なるが、いずれか１つの通信方式に限定されたものではなく、２つ以上の通信方式を併用してもよい。上述のように、コンテンツ表示装置１００は、各種通信手段（ルータ装置２１０、外部送信装置１００ｂ等）を用いて、携帯情報端末７００へ各種情報（例えば、デジタル放送における音声データ）を送信する。携帯情報端末７００は、これに応じて当該情報を受信する。また、コンテンツ表示装置１００が、携帯情報端末７００へ送信する音声データには、主音声又は副音声の種別を示す情報が含まれる。

　なお、携帯情報端末７００の主制御部７０１は、上述のように、コンテンツ表示装置１００と連携するためのアプリケーションを記憶している。携帯情報端末７００は、当該アプリケーションを起動すると、コンテンツ表示装置１００との間で認証処理を行う。また、携帯情報端末７００は、予め音量基準情報を記憶しており、受信した情報（音声データ）を当該音量基準情報に基づいて音声出力する。

　［音声信号の出力パターン］
　ところで、本実施例の音声連携再生システムは、実施例１の携帯情報端末７００を使用するため、第一の音声信号または第二の音声信号をスピーカ音声出力部７５１とヘッドフォン音声出力部７５２から出力することが可能である。例えば、コンテンツ表示装置１００のスピーカ１７４から出力される音声を、携帯情報端末７００のスピーカ音声出力部７５１から出力し、ネットワーク上の動画コンテンツといった他の音声コンテンツの音声信号をヘッドフォン音声出力部７５２から出力することが可能である。携帯情報端末７００は、出力対象のデータの出力先を、取得元毎で定めた出力パターンを予め記憶している。

　図６は、携帯情報端末７００において各種音声コンテンツを再生する場合の、音声出力部に関するデフォルト設定の一例を示す図である。コンテンツ表示装置１００で映像を表示するコンテンツ２００００においては、多くのユーザが視聴する主音声をスピーカ音声出力部７５１から出力し、副音声をヘッドフォン音声出力部７５２から出力することがデフォルト設定されている。

　一方で、携帯情報端末７００で映像を表示するコンテンツ２０００１においては、基本的には、視聴するユーザは前記携帯情報端末７００を所持する一名のみであるため、音声コンテンツの種類を問わずヘッドフォン音声出力部７５２から音声を出力することがデフォルト設定されている。

　図６に示すデフォルト設定に基づく場合、ヘッドフォンを外している状態ではコンテンツ２００００の副音声やコンテンツ２０００１の音声信号は出力できないため、スピーカ音声出力部７５１から前記コンテンツ２００００の主音声のみが出力される。また、音声信号処理部７５３は、ヘッドフォンを接続している状態では、スピーカ音声出力部７５１からコンテンツ２００００の主音声の音声信号を出力する。また、音声信号処理部７５３は、ヘッドフォン音声出力部７５２からコンテンツ２００００の副音声またはコンテンツ２０００１の音声信号を出力する。ヘッドフォンの接続が解除された場合、音声信号処理部７５３は、ヘッドフォン音声出力部７５２からの音声信号の出力を中断する。

　図６に示す設定はあくまでデフォルト設定であり、図６における各音声出力の設定は他方の出力部の選択も許容する。

　［コンテンツ表示装置のハードウェア構成］
　図７は、コンテンツ表示装置１００の内部構成の一例を示すブロック図である。コンテンツ表示装置１００は、主制御部１０１と、システムバス１０２と、外部通信部１０３と、チューナ／復調部１３１と、分離部１３２と、映像表示部１７３と、スピーカ１７４（第３の音声出力部）とを含む。

　主制御部１０１は、所定の動作プログラムに従ってコンテンツ表示装置１００全体を制御するマイクロプロセッサユニットである。システムバス１０２は主制御部１０１とコンテンツ表示装置１００内の各動作ブロックとの間でデータ送受信を行うためのデータ通信路である。

　外部通信部１０３は、例えばＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）通信部を備える場合、図５Ａに示すように、ルータ装置２１０を介してインターネットからストリーミングコンテンツを受信したり、携帯情報端末７００と通信したりするシステムを構成可能である。また、前記外部通信部１０３は、例えばＢｌｕｅＴｏｏｔｈ（登録商標）通信部等を備える場合、図５Ｂに示すように、携帯情報端末７００と直接通信するシステムを構成可能である。

　また、外部通信部１０３は、例えば音声出力部を備える場合、図５Ｃに示すように外部送信装置１００ｂを介し、携帯情報端末７００へ音声情報を送信することが可能となる。ＬＡＮ通信部、ＢｌｕｅＴｏｏｔｈ通信部、音声出力部による通信方式は、いずれか１つの通信方式に限定されたものではなく、２つ以上の通信方式を併用してもよい。また、外部通信部１０３は、ＮＦＣ通信部、赤外線通信部等、他の通信部を更に備えていてもよい。

　外部通信部１０３は、後述する分離部１３２から音声データを受け取った場合、当該音声データを携帯情報端末７００へ送信する。なお、外部通信部１０３は、チューナ／復調部１３１によって受信されたコンテンツを携帯情報端末７００へ送信するようにしてもよい。

　チューナ／復調部１３１は、アンテナ１００ａを介して電波塔３００ｔから放送波を受信し、主制御部１０１の制御に基づいてユーザの所望するサービスのチャンネルに同調（選局）する。更に、チューナ／復調部１３１は、受信した放送信号を復調してトランスポートストリーム（Ｔｒａｎｓｐｏｒｔ　Ｓｔｒｅａｍ：ＴＳ）を取得する。なお、図６に示した例では、チューナ／復調部が一つである構成を例示しているが、複数画面同時表示や裏番組録画等を目的として、コンテンツ表示装置１００がチューナ／復調部を複数搭載する構成としてもよい。

　分離部１３２は、チューナ／復調部１３１から出力されたＴＳを入力し、映像データ列、音声データ列、字幕データ列、等の各データ列に分離して出力する。このように、分離部１３２は、受信したコンテンツ（ＴＳ）から映像データ及び音声データを取得する。映像表示部１７３は、例えば液晶パネル等の表示デバイスであり、分離部１３２で分離された映像情報や字幕情報をコンテンツ表示装置１００のユーザに提供する。スピーカ１７４は、分離部１３２で分離された音声情報をコンテンツ表示装置１００のユーザに提供する。

　コンテンツ表示装置１００は、テレビ受信機の他、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）レコーダなどの光ディスクドライブレコーダ、ＨＤＤレコーダなどの磁気ディスクドライブレコーダ、ＳＴＢ（Ｓｅｔ　Ｔｏｐ　Ｂｏｘ）等であってもよい。デジタル放送受信機能及び放送通信連携機能を備えたＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）やタブレット端末、ゲーム機等であってもよい。コンテンツ表示装置１００がＤＶＤレコーダ、ＨＤＤレコーダ、ＳＴＢ等である場合、映像表示部１７３及びスピーカ１７４は備えなくともよい。外部通信部１０３に外部モニタ及び外部スピーカを接続することにより、本実施例のコンテンツ表示装置１００と同様の動作が可能となる。

　［外部送信装置のハードウェア構成］
　図８は、本実施例の音声連携再生システムが、例えば図５Ｃに示すシステム構成をとる場合に使用する外部送信装置１００ｂに関して、内部構成の一例を示すブロック図である。外部送信装置１００ｂは、主制御部１００ｂ１、システムバス１００ｂ２、音声入力部１００ｂ３、及び外部信号送信部１００ｂ４を備える。

　主制御部１００ｂ１は、所定の動作プログラムに従って外部送信装置１００ｂ全体を制御するマイクロプロセッサユニットである。システムバス１００ｂ２は、主制御部１００ｂ１と外部送信装置１００ｂ内の各動作ブロックとの間でデータ送受信を行うためのデータ通信路である。

　音声入力部１００ｂ３は、コンテンツ表示装置１００内の外部通信部１０３が備える音声出力部より出力された音声信号を取得する。

　外部信号送信部１００ｂ４は、例えばＢｌｕｅＴｏｏｔｈ（登録商標）通信部を備え、音声入力部が取得した音声信号を変換し、装置の外部へ送信する。外部信号送信部１００ｂ４は、ＮＦＣ通信部、赤外線通信部等、他の通信部を更に備えていてもよい。

　コンテンツ表示装置１００内の外部通信部１０３が、例えば映像出力部を備える場合、外部送信装置１００ｂは映像入力部を備えることで、例えばＢｌｕｅＴｏｏｔｈ（登録商標）通信によって映像信号を装置の外部へ送信することが可能となる。音声信号入力と映像信号入力は、それぞれ独立した端子で行ってもよいし、例えば、ＨＤＭＩ端子等を介して音声信号と映像信号を同時に入力してもよい。また、音声信号と映像信号と共に入力した場合、外部信号送信部１００ｂ４で送信する情報は、音声信号と映像信号の両方であってもよいし、音声信号のみであってもよい。

　［音声連携再生時の動作シーケンス］
　図９は、本実施例の音声連携再生システムを動作させる際の、携帯情報端末７００の動作シーケンスの一例を示す動作シーケンス図である。同図は、本実施例の音声連携再生システムを動作させるためのアプリケーションを携帯情報端末７００が起動し、コンテンツの視聴を継続したのちに視聴を終了するまでの一連の流れを示すものである。

　まず、携帯情報端末７００は、本実施例の音声連携再生システムを動作させるためのアプリケーションを起動し（Ｓ１０１）、連携するコンテンツ表示装置１００の認証を行う。本実施例の音声連携再生システムが図５Ａに示すシステムを構成している場合は、携帯情報端末７００は、ネットワークを介してパスワード入力等により認証を行う。本実施例の音声連携再生システムが図５Ｂに示すシステムを構成している場合は、ペアリング操作等によりコンテンツ表示装置１００の認証を行う。

　本実施例の音声連携再生システムが図５Ｃに示すシステムを構成している場合は、携帯情報端末７００は、ペアリング操作等により外部送信装置１００ｂの認証を行う。なお、コンテンツ表示装置１００や外部送信装置１００ｂがＮＦＣ通信部を備える場合、携帯情報端末７００は、ＮＦＣ通信部７２３を介してコンテンツ表示装置１００や外部送信装置１００ｂの認証を直接行ってもよい。

　また、コンテンツ表示装置１００がユーザ操作によって映像表示部１７３にＱＲコードを表示し、携帯情報端末７００の画像処理部７４０が画像処理によってＱＲコードを処理することで認証を行ってもよい。特に、本実施例の音声連携再生システムは、家族のような複数ユーザでコンテンツを視聴することを想定しているため、ＮＦＣ通信やＱＲコードを活用する方法は操作が簡単であり、子供からお年寄りまで簡単に連携を開始することが可能となる。

　本実施例の音声連携再生システムを動作させるためのアプリケーションの起動と各装置の認証が完了したら、音声連携再生を開始する。携帯情報端末７００は、個人差による音声の聞こえ方の差異を低減するために、操作部７３０を介して再生基準音量の設定等が可能である。音声信号処理部７５３は、操作部７３０等により設定された設定値を確認（Ｓ１０３）した後、通信処理部７２０より受信する受信音声を確認し（Ｓ１０５）、前記受信した音声を、スピーカ音声出力部７５１またはヘッドフォン音声出力部７５２より出力する（Ｓ１０６）。

　音声連携再生を継続するか否かは、Ｓ１０３乃至Ｓ１０６の処理ループ内で常時監視されている（Ｓ１０２）。アプリケーションの中断／終了要求が操作部７３０より入力されたり、コンテンツ表示装置１００の電源が切れてコンテンツ表示装置１００と携帯情報端末７００間の通信が途切れたりした場合、本実施例の音声連携再生システムを終了する。以上の処理により、コンテンツ表示装置１００と携帯情報端末７００による、本実施例の音声連携再生システムの動作が可能となる。

　図１０は、図９に示す携帯情報端末７００の動作シーケンスの一例において、音声出力（Ｓ１０６）の詳細な動作シーケンスの一例を示す動作シーケンス図である。まず、音声信号処理部７５３は、音声を出力するにあたり、携帯情報端末７００が通話状態であるか否かを確認する（Ｓ１０６０１）。

　具体的に、音声信号処理部７５３は、主制御部７０１へ通話状態の問合せをして、主制御部７０１から通話中であるか否かを示す情報を取得して判断する。音声信号処理部７５３は、もし通話状態である場合は（Ｓ１０６０１：Ｙｅｓ）、着信音声を聴く上で支障にならないように、全ての音声信号の出力は行わずに処理を終了する。

　一方で、音声信号処理部７５３は、通話状態でない場合は（Ｓ１０６０１：Ｎｏ）、音声信号は再生可能とし、次いでヘッドフォン接続検出部よる接続判定を行う（Ｓ１０６０２）。音声信号処理部７５３は、ヘッドフォンが接続されている場合は（Ｓ１０６０２：Ｙｅｓ）、２つ以上の音声信号の再生が可能であるため、スピーカ音声出力部７５１乃至ヘッドフォン音声出力部７５２の一方もしくは両方を使用して、１つまたは２つの音声信号の出力を行う（Ｓ１０６０３）。

　一方で、ヘッドフォンが接続されていない場合、音声信号処理部７５３は、音声出力が可能であるのはスピーカ音声出力部７５１のみであるため、前記スピーカ音声出力部７５１より単一の音声信号を再生する（Ｓ１０６０４）。Ｓ１０６０３乃至Ｓ１０６０４の処理で出力する音声信号の選択は、Ｓ１０３の処理において選択してもよいし、予め設定したデフォルト設定に基づいて選択してもよい。

　図１０に示す動作シーケンスに基づいて音声信号を再生している途中に、携帯情報端末７００に着信があった場合、音声信号処理部７５３は、Ｓ１０６０１の処理における判断が変わり、音声信号の出力を中断する。通話が終了すると、音声信号処理部７５３は、Ｓ１０６０１の処理における判断を再度変えて、音声信号の出力を再開する。

　また、ヘッドフォンを接続してスピーカ音声出力部７５１とヘッドフォン音声出力部７５２の両方からそれぞれ音声信号を再生している途中に、ヘッドフォンの接続が解除された場合、Ｓ１０６０２の処理における判断を変えて、ヘッドフォン音声出力部７５２からの音声信号の出力を中断する。ヘッドフォンが接続されると、音声信号処理部７５３は、Ｓ１０６０２の処理における選択を再度変えて、ヘッドフォン音声出力部７５２からの音声信号の出力を再開する。

　図９及び図１０の各動作シーケンスは適宜部分的に組み合わせることが可能であり、更に、一部動作ステップは他の動作ステップと、適宜、順序入れ替え、同時動作、等が可能であるものとする。また、図９及び図１０の各動作シーケンスは、ユーザ操作の入力を除いてバックグラウンド動作が可能であり、ユーザが他のアプリケーションを使用する際に、これを阻害することはないものとする。

　［本実施例の音声連携再生システムの活用例］
　図１１Ａは、本実施例の音声連携再生システムの活用例の一例である、２種コンテンツ視聴を示す模式図である。コンテンツ表示装置１００ｕａの映像表示部１７３で再生しているコンテンツを、Ａユーザ１００００ｕａａとＢユーザ１００００ｕａｂが視聴している。Ｂユーザ１００００ｕａｂはＡユーザ１００００ｕａａよりコンテンツ表示装置１００ｕａから離れた位置にいる。

　一方で、Ｃユーザ１００００ｕａｃは、Ｂユーザ１００００ｕａｂで前記コンテンツを視聴中に、携帯情報端末７００ｕａで前記コンテンツの関連コンテンツの視聴を開始したものとする。ここで、携帯情報端末７００ｕａのスピーカ音声出力部７５１は、コンテンツ表示装置１００ｕａのスピーカ１７４が再生する音声を再生する。また、携帯情報端末７００ｕａのヘッドフォン音声出力部７５２は、前記関連コンテンツの音声を再生する。これにより、Ａユーザ１００００ｕａａとＢユーザ１００００ｕａｂはコンテンツ表示装置１００ｕａの映像表示部１７３で再生しているコンテンツを視聴し、Ｃユーザ１００００ｕａｃは前記コンテンツの再生を阻害することなく、携帯情報端末７００ｕａで前記コンテンツの関連コンテンツを視聴することが可能となる。

　図１１Ｂは、本実施例の音声連携再生システムの活用例の一例である、２画面のコンテンツ表示装置のコンテンツ視聴を示す模式図である。コンテンツ表示装置１００ｕｂは、チューナ／復調部１３１を２つ備え、映像表示部１７３を２分割し、第一コンテンツと第二コンテンツを再生している。

　ここで、Ａユーザ１００００ｕｂａとＢユーザ１００００ｕｂｂは第一コンテンツを視聴したい一方で、Ｃユーザ１００００ｕｃｃは第二コンテンツを視聴したいものとする。そこで、コンテンツ表示装置１００ｕｂのスピーカ１７４と携帯情報端末７００ｕｂのスピーカ音声出力部７５１から前記第一コンテンツの音声を再生する。また、携帯情報端末７００ｕｂのヘッドフォン音声出力部７５２から前記第二コンテンツの音声を再生する。これにより、Ａユーザ１００００ｕｂａとＢユーザ１００００ｕｂｂは、第一コンテンツを、Ｃユーザ１００００ｕｃｃは第二コンテンツを、それぞれ他方のコンテンツの視聴を阻害することなく、映像／音声共に視聴することが可能となる。

　図１２Ａは、本実施例の音声連携再生システムの活用例の一例である、多重音声コンテンツ視聴を示す模式図である。コンテンツ表示装置１００ｕｃは、第一音声と第二音声を含む多重音声コンテンツを再生している。

　ここで、Ａユーザ１００００ｕｃａとＢユーザ１００００ｕｃｂは前記多重音声コンテンツを第一音声で視聴したい一方で、Ｃユーザ１００００ｕｃｃは前記多重音声コンテンツを第二音声で視聴したいものとする。そこで、コンテンツ表示装置１００ｕｃのスピーカ１７４と携帯情報端末７００ｕｃのスピーカ音声出力部７５１から前記第一音声を再生する。また、携帯情報端末７００ｕｃのヘッドフォン音声出力部７５２から前記第二音声を再生する。これにより、Ａユーザ１００００ｕｃａとＢユーザ１００００ｕｃｂは第一音声で、Ｃユーザ１００００ｕｃｃは第二音声で、それぞれ他方の視聴を阻害することなく、多重音声コンテンツを視聴することが可能となる。

　図１２Ｂは、本実施例の音声連携再生システムの活用例の一例である、サラウンドサウンドコンテンツ視聴を示す模式図である。コンテンツ表示装置１００ｕｄは、例えば５．１ｃｈのようなサラウンドサウンドを含むコンテンツを再生している。

　ここで、前記コンテンツを視聴するＡユーザ１００００ｕｄａ、Ｂユーザ１００００ｕｄｂ、及びＣユーザ１００００ｕｄｃの周囲に、Ａ携帯情報端末７００ｕｄａ、Ｂ携帯情報端末７００ｕｄｂ、Ｃ携帯情報端末７００ｕｄｃ、及びＤ携帯情報端末７００ｕｄｄを配置しているものとする。コンテンツ表示装置１００ｕｄは、前記サラウンドサウンドをＡ携帯情報端末７００ｕｄａ乃至Ｄ携帯情報端末７００ｕｄｄに伝送する。Ａ携帯情報端末７００ｕｄａ乃至Ｄ携帯情報端末７００ｕｄｄは、伝送された各音声を再生する。これにより、Ａユーザ１００００ｕｄａ乃至Ｃユーザ１００００ｕｄｃは、サラウンドサウンドコンテンツを高臨場な視聴環境で視聴することが可能となる。

　なお、本実施例の音声連携再生システムを動作させるためのアプリケーションの拡張機能として、コンテンツ表示装置と複数の携帯情報端末の台数や位置関係を登録し、前記携帯情報端末の台数や位置関係に基づいて、所望のサラウンドサウンド視聴を実現するための各音声を生成し、前記各音声を各携帯情報端末に伝送するようにしてもよい。

　以上説明したように、実施例２に記載の音声連携再生システムによれば、コンテンツ表示装置１００から携帯情報端末７００へ音声データを送信するので、コンテンツ表示装置１００だけでなく、携帯情報端末７００の音声出力部（例えば、スピーカ音声出力部７５１）でも出力することができる。このように、複数の音声出力部に対する複数の音声コンテンツの選択的な出力制御が可能な携帯情報端末７００を用い、コンテンツ表示装置１００で再生する第一のコンテンツの視聴環境を向上させると同時に、携帯情報端末７００のユーザが第二のコンテンツを視聴可能な音声連携再生システムを実現できる。

　（実施例３）
　以下では、本発明の実施例３に関して説明する。なお、本実施例における構成及び効果等は特に断りのない限り実施例２と同様であるものとする。このため、以下では、本実施例と実施例２との相違点を主に説明し、共通する点については重複を避けるため極力説明を省略する。

　実施例２においても音声連携再生システムを行う場合の実施態様を記載したが、さらに詳細の実施態様につき説明する。

　音声連携再生を行う際に、コンテンツ表示装置からの距離の違いに依る音声の聞こえ方の差異が少ない視聴環境を構築したい場合がある。この際、コンテンツ表示装置から携帯情報端末７００までの距離が離れるほど携帯情報端末７００のスピーカ音量を上げるように制御するのが望ましい。

　そこで、本実施例では、携帯情報端末７００は、コンテンツ表示装置１００から出力された音声を入力し、入力された音声の音量に基づいて、スピーカ音声出力部７５１から音声を出力する。

　具体的に、携帯情報端末７００の音声入力部７５４が周囲の音声（端末外部の音声）を入力し、音声信号処理部７５３が、当該音声を取得する。音声信号処理部７５３は、当該音声と、コンテンツ表示装置１００から通信により取得した音声データとを比較して、入力した音声の中からコンテンツ表示装置１００から出力した音声を特定し、当該音声の音量を特定する。音声信号処理部７５３は、特定した音量と、設定された基準音量とに基づいてコンテンツ表示装置１００から取得した音声データの音量を特定して、音声出力する。

　図１３は、本実施例の音声連携再生システムにおける音量制御の一例を示す模式図である。コンテンツ表示装置１００で再生されるコンテンツのユーザとして、コンテンツ表示装置１００から近い場所にＡユーザ１００００ａ、コンテンツ表示装置１００から遠い場所にＢユーザ１００００ｂがいる。Ａユーザ１００００ａはＡ携帯情報端末７００ａを所持しており、Ｂユーザ１００００ｂはＢ携帯情報端末７００ｂを所持している。

　Ａユーザ１００００ａは、コンテンツ表示装置１００のスピーカ１７４から出力される音声を、Ａユーザの位置におけるコンテンツ表示装置のスピーカ音量１００ｓａで聞く。一方でＢユーザ１００００ｂは、コンテンツ表示装置１００のスピーカ１７４から出力される音声を、Ｂユーザの位置におけるコンテンツ表示装置のスピーカ音量１００ｓｂで聞く。前記Ｂユーザの位置におけるコンテンツ表示装置のスピーカ音量１００ｓｂは、前記Ａユーザの位置におけるコンテンツ表示装置のスピーカ音量１００ｓａと比較して小さく、Ｂユーザ１００００ｂはＡユーザ１００００ａと比較して、スピーカ１７４が出力する音声が聞き取りづらくなる。

　そこで、Ａ携帯情報端末７００ａとＢ携帯情報端末７００ｂはコンテンツ表示装置１００と連携し、Ａ携帯情報端末７００ａはスピーカ音声出力部７５１からＡ携帯情報端末のスピーカ音量７００ｓａで音声を再生し、Ｂ携帯情報端末７００ｂはスピーカ音声出力部７５１からＢ携帯情報端末のスピーカ音量７００ｓｂで音声を再生する。

　前記Ａ携帯情報端末のスピーカ音量７００ｓａと比較し、Ｂ携帯情報端末のスピーカ音量７００ｓｂは大きい音量である。このとき、Ａユーザ１００００ａとＢユーザ１００００ｂが聞く音量はそれぞれ、Ａユーザが聞く音量８００ｓａとＢユーザが聞く音量８００ｓｂとなる。Ａ携帯情報端末７００ａとＢ携帯情報端末７００ｂは、前記Ａユーザが聞く音量８００ｓａと前記Ｂユーザが聞く音量８００ｓｂがおおよそ同じ値となるよう、それぞれ前記Ａ携帯情報端末のスピーカ音量７００ｓａと前記Ｂ携帯情報端末のスピーカ音量７００ｓｂを制御する。

　図１４は、図９に示す携帯情報端末７００の動作シーケンスに対し、スピーカ音声出力部７５１の音量制御を考慮した動作シーケンスの一例を示す動作シーケンス図である。図９中のＳ１０５の処理では受信音声の確認のみであったのに対し、図１４中のＳ１０４の処理では受信音声に加えて音声入力部７５４から入力される入力音声の確認を行う。

　音声信号処理部７５３は、受信音声と入力音声を確認したら、音声入力部７５４から入力される入力音声の音量を計測する（Ｓ１０７）。図１３に示すように、音声信号処理部７５３は、コンテンツ表示装置１００がスピーカ１７４より出力する出力音声と携帯情報端末７００がスピーカ音声出力部７５１より出力する出力音声の音量の合計が再生基準音量に常時近い値となるよう、携帯情報端末７００のスピーカ音声出力部７５１より出力する音声の音量を算出する（Ｓ１０８）。そして、携帯情報端末７００は、算出した音量の音声を、スピーカ音声出力部７５１より出力する（Ｓ１０６）。

　図１５は、図１４に示す携帯情報端末７００の動作シーケンスの一例において、入力音声確認／受信音声確認（Ｓ１０４）の詳細な動作シーケンスの一例を示す動作シーケンス図である。まず、音声信号処理部７５３は、携帯情報端末７００の音声入力部７５４から入力される入力音声を確認し（Ｓ１０４０１）、所定時間のバッファリングが可能なバッファへ入力音声データを格納する（Ｓ１０４０２）。

　一方、携帯情報端末７００の通信処理部７２０が受信した受信音声を確認し（Ｓ１０４０３）、所定時間のバッファリングが可能なバッファへ受信音声データを格納する（Ｓ１０４０４）。そして、前記入力音声データが格納されたバッファと前記受信音声が格納されたバッファの両バッファ間において、同一の音声データと判定される箇所を検出する（Ｓ１０４０５）。前記検出を行うことで、入力音声データに含まれる音声コンテンツの音声信号成分のみの大きさを算出することが可能となる。

　図１４及び図１５の各動作シーケンスは適宜部分的に組み合わせることが可能であり、更に、一部動作ステップは他の動作ステップと、適宜、順序入れ替え、同時動作、等が可能であるものとする。また、図１４及び図１５の各動作シーケンスは、ユーザ操作の入力を除いてバックグラウンド動作が可能であり、ユーザが他のアプリケーションを使用する際に、これを阻害することはないものとする。

　音量制御は、コンテンツ表示装置１００のスピーカ１７４より出力される音声と同一の音声信号を携帯情報端末７００のスピーカ音声出力部７５１より出力する場合は、コンテンツ表示装置１００からの距離の違いに依る聞こえ方の差異を低減するために、デフォルト設定ではオンとしておくのが望ましい。一方で、前記音声信号をヘッドフォン音声出力部７５２より出力する場合は、コンテンツ表示装置１００からの距離の違いに依る聞こえ方の差異は非常に小さいため、デフォルト設定ではオフとしておくのが望ましい。

　以上説明したように、スピーカ音声出力部７５１が携帯情報端末７００の外部の音声を入力し、音声信号処理部７５３が、入力された音声に基づいて、音声出力を制御する。具体的には、音声信号処理部７５３は、スピーカ音声出力部７５１によって入力された音声に基づいて、受信した音声データの音量を定めて出力する。これにより、コンテンツ表示装置１００から離れている利用者にも適切な音量で音声データをスピーカ音声出力部７５１から出力することができる。

　以上説明したように、本発明では、コンテンツ表示装置１００から携帯情報端末７００までの距離が離れるほど携帯情報端末のスピーカ音量を上げるように制御することで、コンテンツ表示装置１００からの距離の違いに依る音声の聞こえ方の差異が少ない音声連携再生システムを実現可能とする。

　（実施例４）
　以下では、本発明の実施例４に関して説明する。なお、本実施例における構成及び効果等は特に断りのない限り実施例２と同様であるものとする。このため、以下では、本実施例と実施例２との相違点を主に説明し、共通する点については重複を避けるため極力説明を省略する。

　音声連携再生を行う際に、コンテンツ表示装置１００のスピーカから出力する音声信号と、携帯情報端末７００のスピーカ音声出力部７５１から出力する前記音声信号と同一の音声信号の再生タイミングがずれる場合がある。これは、コンテンツ表示装置１００と携帯情報端末７００間の通信遅延によるものである。この際、好適な視聴環境を得るためには、前記同一の音声信号、さらにはコンテンツ表示装置が再生する映像の再生タイミングを同期させる制御を行うのが望ましい。

　本実施例の音声連携再生システムは、上記の再生タイミングを調整するものである。具体的に、携帯情報端末７００の音声入力部７５４が周囲の音声を入力し、音声信号処理部７５３が、当該音声を取得し、記憶する。また、音声信号処理部７５３は、通信処理部７２０を介して取得した音声データを記憶する。

　音声信号処理部７５３は、音声入力部７５４から入力した音声と、通信処理部７２０を介して取得した音声データとを比較して、一致するデータの有無を判断する。音声信号処理部７５３は、一致するデータがある場合、音声入力時の時刻と、受信データの受信時刻とを比較して、時刻差を算出する。音声信号処理部７５３は、当該時刻差に基づき、音声出力タイミングを調整する。具体的には、音声入力時の時刻の方が先である場合、音声信号処理部７５３は、コンテンツ表示装置１００の再生タイミングを遅らせる旨制御する。また、音声データの方が早い場合、携帯情報端末７００の再生タイミングを遅らせる。

　同期制御は音声入力部７５４から入力される入力音声に基づいて行うため、携帯情報端末７００の動作シーケンスは図１６となる。図１６は、図１５に示す入力音声確認／受信音声確認（Ｓ１０４）の詳細な動作シーケンスに対し、同期制御を考慮した動作シーケンスの一例である。入力音声データと受信音声データの同一箇所を検出（Ｓ１０４０５）したのちに、入力音声における前記同一の音声データの可聴タイミングと、受信音声における前記同一の音声データの再生タイミングの時刻差を計算する（Ｓ１０４０６）。

　ここで、入力音声の方が早い場合は、コンテンツ表示装置１００におけるコンテンツ再生タイミングを遅らせ（Ｓ１０４０８）、一方で受信音声の方が早い場合は、携帯情報端末７００のスピーカ音声出力部７５１における音声再生タイミングを遅らせる（Ｓ１０４０９）。Ｓ１０４０８の処理は、携帯情報端末７００からコンテンツ表示装置１００への通信が可能な場合のみ実行できるため、本実施例の音声連携再生システムとしては、図５Ａ、または図５Ｂに示すシステム構成をとる場合に有効となる。

　図１７は、本実施例の音声連携再生システムにおける同期制御の一例を示す模式図である。コンテンツとして、コンテンツ表示装置１００が受信したＢＳ／地上デジタル放送を視聴することを想定する。コンテンツ表示装置１００と携帯情報端末７００間の伝送時間等を考慮すると、基本的には、コンテンツ表示装置１００のスピーカ１７４より出力される音声、すなわち携帯情報端末７００の音声入力部７５４から入力される入力音声の方が、携帯情報端末７００の通信処理部７２０が受信する受信音声より、時間的に早いデータとなる。

　そこで、音声信号処理部７５３は、同期前の入力音声１００ｓｐの可聴タイミング１１０００ａと、同期前の受信音声７００ｓｐの再生タイミング１１０００ｂとの時刻差を解消するために、Ｓ１０４０８の処理を行う。Ｓ１０４０８の処理では、まずコンテンツ表示装置１００におけるコンテンツ再生タイミングを遅らせる指示をコンテンツ表示装置１００の外部通信部１０３に伝送し、指示を受信したコンテンツ表示装置１００は、リップシンク技術等を活用することで、５０ｍｓｅｃ程度の分解能１００ｓｄｔで、スピーカ１７４や映像表示部１７３の再生タイミングを遅らせる。

　しかし、入力音声の可聴タイミングと受信音声の再生タイミングは、空気中の音声の伝搬遅延等を考慮してさらに細かいオーダーで同期をとらないと、ユーザにはエコーがかかったように聞こえてしまう。そこで、音声信号処理部７５３は、入力音声の可聴タイミングが受信音声の再生タイミングより遅くなるように前記分解能１００ｓｄｔに基づいてスピーカ１７４の再生タイミングを遅らせると同時に、さらに細かい２０ｕｓｅｃ程度の分解能７００ｓｄｔで、携帯情報端末７００のスピーカ音声出力部７５１における再生タイミングを遅らせる。

　分解能１００ｓｄｔに基づいて遅らせた同期後の入力音声１００ｓｑの可聴タイミングと、分解能７００ｓｄｔに基づいて遅らせた同期後の受信音声７００ｓｑの再生タイミングは、同期タイミング１１０００ｃで一致し、ユーザはエコーが低減された視聴環境でコンテンツを視聴することが可能となる。

　本実施例の音声連携再生システムにおけるコンテンツとして、コンテンツ表示装置１００が受信したストリーミングコンテンツを視聴する場合も、図１６に示す動作シーケンスに基づいて同期制御を行うことができる。ＢＳ／地上デジタル放送との視聴時と異なり、Ｓ１０４０８の処理においてストリーミングを行うためのプログラムを制御することで、コンテンツ表示装置１００の再生タイミングを遅らせてもよい。

　本実施例の音声連携再生システムにおけるコンテンツとして、携帯情報端末７００が受信したストリーミングコンテンツまたはワンセグメント放送コンテンツを視聴する場合を想定する。この場合、携帯情報端末７００からコンテンツ表示装置１００への伝送時間等を考慮すると、基本的には、コンテンツ表示装置１００のスピーカ１７４より出力される音声の再生タイミングの方が、携帯情報端末７００のスピーカ音声出力部７５１より出力される音声の再生タイミングより、時間的に遅くなる。したがって、携帯情報端末７００の再生タイミングを遅らせるＳ１０４０９の処理のみで同期制御を行うことが可能となる。

　図１６の動作シーケンスは適宜部分的に組み合わせることが可能であり、更に、一部動作ステップは他の動作ステップと、適宜、順序入れ替え、同時動作、等が可能であるものとする。また、図１６の動作シーケンスは、ユーザ操作の入力を除いてバックグラウンド動作が可能であり、ユーザが他のアプリケーションを使用する際に、これを阻害することはないものとする。

　１台のコンテンツ表示装置１００に対し、２台以上の携帯情報端末７００を連携させ、本実施例の音声連携再生システムを構築する場合においても、図１６に示す動作シーケンスに基づいて同期制御を行うことで、これらの全装置における音声や映像等の同期制御を行うことが可能となる。

　同期制御は、コンテンツ表示装置１００のスピーカ１７４より出力される音声と同一の音声信号を、携帯情報端末７００のスピーカ音声出力部７５１乃至ヘッドフォン音声出力部７５２より出力するいずれの場合においても、コンテンツ表示装置１００が再生する映像との再生タイミングを同期させるという目的で、デフォルト設定ではオンとしておくのが望ましい。

　以上説明したように、本実施例では、音声信号処理部７５３は、音声入力部７５４により入力されたタイミングを特定し、当該タイミングに基づいて、スピーカ音声出力部７５１へ出力するタイミングを制御する。これにより、コンテンツ表示装置１００から出力される音声と、携帯情報端末７００から出力する音声との出力タイミングを適切に調整することができ、例えば、通信遅延により受信タイミングにズレが生じても、適切に調整することができる。

　（実施例５）
　以下では、本発明の実施例５に関して説明する。なお、本実施例における構成及び効果等は特に断りのない限り実施例２乃至４と同様であるものとする。このため、以下では、本実施例と実施例２乃至４との相違点を主に説明し、共通する点については重複を避けるため極力説明を省略する。

　実施例２乃至４においても音声連携再生システムを行う場合の実施態様を記載したが、さらに詳細の実施態様につき説明する。

　音声連携再生を行う際に、再生するコンテンツの音声の他にも、周辺音を解析し、周辺状況に合わせてコンテンツの音声の音量を制御したい場合がある。例えばコンテンツの視聴ユーザが他人に話しかけられた場合、会話を聞き取りやすくするために、携帯情報端末のスピーカの音量は下げるのが望ましい。一方で、例えばコンテンツの視聴ユーザの周囲の生活音が大きい場合、コンテンツの音声を聞き取りやすくするために、携帯情報端末のスピーカの音量は上げるのが望ましい。

　本実施例の音声連携再生システムは、周辺音の種別を解析し、当該種別に基づいて、出力する音声の音量を制御するものである。具体的に、携帯情報端末７００の音声入力部７５４が周囲の音声を入力し、音声信号処理部７５３が、当該音声を取得し、記憶する。また、音声信号処理部７５３は、通信処理部７２０を介して取得した音声データを記憶する。

　音声信号処理部７５３は、音声入力部７５４から入力した音声と、通信処理部７２０を介して取得した音声データとを比較して、一致する部分を抽出すると共に、音声入力部７５４から入力した音声から一致しない部分（周辺音部分）を抽出する。音声信号処理部７５３は、周辺音の種別（例えば、会話、周辺の騒音）を特定して、特定した周辺音の種別に応じて、受信した音声データの音声出力音量を決定し、当該音量に基づいて音声出力する。

　本実施例では、以上の詳細の実施態様を実現するための手順について説明する。図１８は、図９に示す携帯情報端末７００の動作シーケンスに対し、周辺音の解析に基づく音量制御を考慮した動作シーケンスの一例を示す動作シーケンス図である。Ｓ１０４の処理において、音声入力部７５４から入力される入力音声の中から受信音声と一致するデータ、すなわちコンテンツの音声を検出した際、前記入力音声においてコンテンツの音声と周辺音の分離を行う（Ｓ１０９）。

　音声信号処理部７５３は、分離した周辺音に基づき、前記周辺音に含まれる主成分が例えば会話であるのか、あるいは生活音であるのか、といった種別解析を行う（Ｓ１１０）。音声信号処理部７５３は、一方で、前記周辺音の音量を計測し（Ｓ１１１）、Ｓ１０８の処理では、周辺音の種別解析結果と音量を考慮した上で、携帯情報端末７００のスピーカ音声出力部７５１より出力する音声の音量を算出する。

　音量の制御方法の例としては、前記周辺音の種別解析結果が例えば会話であった場合、スピーカ音声出力部７５１より出力する音声は一律で所定の小さい音量とし、前記周辺音の種別解析結果が例えば生活音であった場合、スピーカ音声出力部７５１より出力する音声は、生活音の音量が大きいほど大きくなるように音量の制御を行う。

　ここで、音声分離（Ｓ１０９）や周辺音の解析（Ｓ１１０）等は、携帯情報端末７００の内部で行ってもよいし、インターネット上のサーバ装置において行ってもよい。処理Ｓ１０９やＳ１１０等が長い処理時間を要するようであれば、処理時間の最大値を予め見積もった上で、Ｓ１０４の処理における同期制御では前記処理時間の最大値を考慮する。そして、図７Ｂに示すＳ１０４０６の処理で前記処理時間の最大値、すなわち受信音声を確認（Ｓ１０４０３）してから周辺音を解析し実際に出力（Ｓ１０６）されるまでの時間を考慮して入力音声との時刻差を計算してもよい。

　図１８の各動作シーケンスは適宜部分的に組み合わせることが可能であり、更に、一部動作ステップは他の動作ステップと、適宜、順序入れ替え、同時動作、等が可能であるものとする。また、図１８の各動作シーケンスは、ユーザ操作の入力を除いてバックグラウンド動作が可能であり、ユーザが他のアプリケーションを使用する際に、これを阻害することはないものとする。

　このように、音声信号処理部７５３は、周辺音を抽出し、当該周辺音の種別を解析して、当該解析結果に基づいて、出力音量を制御するので、周辺状況に応じた音量制御をすることができる。

　以上説明したように、本発明では、周辺音を解析し、周辺状況に合わせてコンテンツの音声の音量を制御可能な音声連携再生システムを実現可能である。

　（実施例６）
　以下では、本発明の実施例６に関して説明する。なお、本実施例における構成及び効果等は特に断りのない限り実施例２乃至４と同様であるものとする。このため、以下では、本実施例と実施例２乃至４との相違点を主に説明し、共通する点については重複を避けるため極力説明を省略する。

　音声連携再生システムによりコンテンツを視聴している最中に、携帯情報端末を用いて通話を行いたい場合がある。この際、通話を行う相手に対して明瞭な音声を届けるためには、マイクより入力する音声に含まれる通話内容成分を増大させるか、視聴中のコンテンツの音声成分をなるべく低減するのが望ましい。

　前者の方式の一例としては、実施例５における音声分離処理（Ｓ１０９）を適用することで、マイクより入力する音声に含まれる通話内容成分と視聴中のコンテンツの音声成分を分離し、このうち通話内容成分のみを増幅させる方式がある。後者の方式の一例としては、スピーカ音声出力部７５１より出力するために受信している受信音声情報を用いて、マイクより入力する音声に含まれる視聴中のコンテンツの音声成分を打ち消す方式が考えられる。

　本実施例の音声連携システムは、携帯情報端末７００が、コンテンツ表示装置１００から受信する音声データを出力しつつ、通話処理をしている場合に、通話音声（通話による入力音声）を適切に制御するものである。具体的には、音声信号処理部７５３は、主制御部７０１へ通話状態の問合せをして、主制御部７０１から通話中であるか否かを示す情報を取得して判断する。音声信号処理部７５３は、受信した音声データの位相反転と、音声入力部７５４に入力されるコンテンツの音声成分の音量に基づく振幅調整をして、ユーザの発信音声に加算する。

　本実施例では、以上の詳細の実施態様を実現するための手順について説明する。図１９は、図９に示す携帯情報端末７００の動作シーケンスに対し、本実施例の音声連携再生システムを動作させるためのアプリケーションと通話アプリケーションの連携動作を考慮した動作シーケンスの一例を示す動作シーケンス図である。通話アプリケーションは、着信もしくは発信したら処理ループを開始する（Ｓ１２１）。まず、着信音声の確認（Ｓ１２３）と、受話部より前記着信音声の出力を行う（Ｓ１２４）。一方、音声入力部７５４からのユーザの発信音声を確認する（Ｓ１２５）。

　ここで、前記発信音声を発信するにあたり、音声連携再生システムとして動作している携帯情報端末７００のスピーカ音声出力部７５１より出力するコンテンツの音声を利用する。具体的には、音声信号処理部７５３は、Ｓ１０６の処理でスピーカ音声出力部７５１より出力するコンテンツの音声の位相反転と、発信音声に含まれるコンテンツの音声成分の音量に基づく振幅調整を行う（Ｓ１２０）。そして、音声信号処理部７５３は、Ｓ１２５の処理で確認したユーザの発信音声に加算（Ｓ１２６）することで、発信音声に含まれるコンテンツの音声成分を低減し、明瞭な発信音声を生成することが可能となる。そして、前記明瞭な発信音声を発信する（Ｓ１２７）。

　通話を継続するか否かは、Ｓ１２３乃至Ｓ１２７の処理ループ内で常時監視されており（Ｓ１２２）、終話要求が操作部７３０より入力されたり、通話を行う相手が終話を要求したりした場合、本実施例の通話を終了する。

　図１９の各動作シーケンスは適宜部分的に組み合わせることが可能であり、更に、一部動作ステップは他の動作ステップと、適宜、順序入れ替え、同時動作、等が可能であるものとする。また、図１９の各動作シーケンスは、ユーザ操作の入力を除いてバックグラウンド動作が可能であり、ユーザが他のアプリケーションを使用する際に、これを阻害することはないものとする。

　上述の実施例のように、音声信号処理部７５３は、音声入力部７５４により入力された音声と、通信処理部７２０を介して取得した音声データとに基づいて、音声入力部７５４により入力された音声に含まれる通話音声を強調する。具体的には、音声信号処理部７５３は、当該強調処理として、通信処理部７２０により受信された音声データの位相を反転させた結果を、音声入力部７５４により入力された音声に加算する。これにより、音声信号処理部７５３は、受信した音声データ（音声コンテンツ）部分を弱める処理をするので、コンテンツを視聴している最中でも、明瞭な音声で通話を行うことができる。

　なお、音声信号処理部７５３は、上述の例で挙げたように、実施例５における音声分離処理をして、マイクより入力する音声に含まれる通話内容成分と視聴中のコンテンツの音声成分を分離し、このうち通話内容成分（通話音声部分）のみを増幅するようにしてもよい。この場合、音声信号処理部７５３は、通話内容部分を強調するので、コンテンツを視聴している最中でも、明瞭な音声で通話を行うことができる。

　（実施例７）
　以下では、本発明の実施例７に関して説明する。なお、本実施例における構成及び効果等は特に断りのない限り実施例２乃至４と同様であるものとする。このため、以下では、本実施例と実施例２乃至４との相違点を主に説明し、共通する点については重複を避けるため極力説明を省略する。

　音声連携再生システムによりコンテンツを視聴している最中に、携帯情報端末において音声のみならず、映像または字幕を表示したい場合がある。特に、字幕に関しては、複数ユーザが視聴するコンテンツ表示装置で表示する場合に、映像に重畳する字幕を邪魔と考えるユーザがいる場合がある。このとき、例えばコンテンツ表示装置には字幕を表示せず、字幕を必要とするユーザが所持する携帯情報端末にのみ字幕を表示するのが望ましい。

　本実施例の音声連携システムでは、携帯情報端末７００が、音声データに関連する字幕データを受信して、当該字幕データを表示する。

　本実施例では、以上の詳細の実施態様を実現するための手順について説明する。図２０は、携帯情報端末７００の表示部７４１における表示画面の一例である。前記表示部７４１はタッチパネル機能を備え、操作部７３０を兼ねる。まず、メニュー７４１ｂでは、ユーザが映像や字幕の表示要否等を選択する。ユーザが字幕の表示を選択した場合、字幕７４１ａが表示される。

　前記字幕７４１ａは、タッチパネル機能を活用して上下方向にスライドさせることで、所定の時間の字幕データを遡ることができ、もし一時的にコンテンツの見逃し／聞き逃しをした場合、コンテンツの再生を止めずに見逃し／聞き逃しをした箇所の内容を知ることが可能となる。表示する字幕７４１ａは、スクロールバー７４１ｃにおいて現在の字幕の位置を示すつまみ７４１ｄを操作することにより移動することも可能である。

　以上説明したように、本発明では、携帯情報端末において音声のみならず、映像または字幕を表示することが可能な音声連携再生システムを実現可能とする。

　（実施例８）
　以下では、本発明の実施例８に関して説明する。なお、本実施例における構成及び効果等は特に断りのない限り実施例２乃至４と同様であるものとする。このため、以下では、本実施例と実施例２乃至４との相違点を主に説明し、共通する点については重複を避けるため極力説明を省略する。

　音声連携再生を行う際に、再生するコンテンツの一種類以上の音声や一種類以上の字幕において、視聴ユーザが理解可能な言語が含まれていない場合がある。このとき、前記一種類以上の音声や一種類以上の字幕のいずれかを用いて翻訳を行い、ユーザが理解可能な言語の音声または字幕として提供できるのが望ましい。

　本実施例では、携帯情報端末７００は、字幕データを受信して、受信した字幕データを外部のサーバ（翻訳部）に翻訳要求し、当該外部サーバが当該翻訳要求に応じて翻訳して、当該翻訳結果を表示したり、音声出力したりする。なお、携帯情報端末７００自身が翻訳手段を備えるようにしてもよい。

　本実施例では、以上の詳細の実施態様を実現するための手順について説明する。図２１は、各種翻訳パターンにおいて必要となる各種処理の一例を示す図である。翻訳パターンとしては、翻訳前のデータとして「字幕」「音声」の２パターンがあり、翻訳後のデータとしても「字幕」「音声」の２パターンがあるため、翻訳パターンの組み合わせとしては、２×２＝４パターンを取り得る。

　具体的には、図２１に示すように、字幕から字幕への翻訳パターン２３０００、字幕から音声への翻訳パターン２３００１、音声から字幕への翻訳パターン２３００２、音声から音声への翻訳パターン２３００３である。また、一般的に翻訳はテキストベースで行うことが多いため、前記４パターンの翻訳を行うための処理として、音声をテキストに変換するための音声テキスト化処理２３００４、テキストベースの翻訳処理２３００５、テキストを音声に変換するためのテキスト音声化処理２３００６が必要となる。前記３種類の処理を図２１に示すように適用することで、前記４パターンの翻訳が可能となる。

　音声から字幕への翻訳パターン２３００２、音声から音声への翻訳パターン２３００３は、図１４に示す携帯情報端末７００の動作シーケンスにおいて、Ｓ１０４の処理内で受信音声を確認したのちに実行する。字幕から字幕への翻訳パターン２３０００、字幕から音声への翻訳パターン２３００１についても、音声と同等のタイミングで伝送される字幕を用いて行うため、音声を用いて行う翻訳パターンと同等のタイミングで実行する。ここで、音声テキスト化処理２３００４乃至テキスト音声化処理２３００６は、携帯情報端末７００の内部で行ってもよいし、インターネット上のサーバ装置において行ってもよい。

　翻訳後の字幕または音声は、コンテンツに元より含まれてはいないデータであるため、ユーザへの提供タイミングは図１６に示す動作シーケンスのように厳密な同期は取れないが、コンテンツの映像と大まかに同期が取れているのが望ましい。そのため、音声テキスト化処理２３００４乃至テキスト音声化処理２３００６が長い処理時間を要するようであれば、処理時間の最大値を予め見積もる。そして、Ｓ１０４の処理における同期制御では前記処理時間の最大値を考慮し、図１６に示すＳ１０４０６の処理で前記処理時間の最大値、すなわち受信音声を確認（Ｓ１０４０３）してから翻訳を行い実際に出力（Ｓ１０６）されるまでの時間を考慮して入力音声との時刻差を計算してもよい。

　図２１に示す設定はあくまで一例であり、例えばテキストベースの翻訳処理ではなく、音声から音声への翻訳が可能な音声ベースの翻訳処理の適用も許容する。

　以上説明したように、本発明では、一種類以上の音声や一種類以上の字幕のいずれかを用いて翻訳を行い、ユーザが理解可能な言語の音声または字幕を提供可能な音声連携再生システムを実現可能とする。

　以上、本発明の実施形態の例を、実施例１～８を用いて説明したが、言うまでもなく、本発明の技術を実現する構成は前記実施例に限られるものではなく、様々な変形例が考えられる。例えば、ある実施例の構成の一部を他の実施例の構成と置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。これらは全て本発明の範疇に属するものである。また、文中や図中に現れる数値やメッセージ等もあくまでも一例であり、異なるものを用いても本発明の効果を損なうことはない。

　例えば、携帯情報端末７００は、近距離無線通信手段（例えば、ビーコン等）を用いて、携帯情報端末７００とコンテンツ表示装置１００との距離を算出して、算出した結果に基づいて、受信した音声データを出力する音量の制御するようにしてもよい。例えば、携帯情報端末７００は、距離に応じた音量を定めた情報を記憶しておき、当該情報を参照して、算出した距離に対応する音量を特定し、当該音量で音声データを出力するようにしてもよい。

　この場合、携帯情報端末７００は、距離が長い場合に音量を高めるようにすれば、コンテンツ表示装置１００と離れていても、携帯情報端末７００から高い音量で音声データを出力するので、視聴環境を向上させることができる。

　また、コンテンツ表示装置１００は、受信対象のコンテンツの変更を受け付けた場合、変更後のコンテンツの音声データを携帯情報端末７００へ送信するようにしてもよい。また、コンテンツ表示装置１００は、受信対象のコンテンツの変更を受け付けた場合、変更前のコンテンツを携帯情報端末７００へ送信するようにしてもよい。

　なお、コンテンツ表示装置１００が、受信対象のコンテンツの変更を受け付けた場合において、当該変更に応じて携帯情報端末７００へ送信する音声データを変えるか否かを予め定めておいてもよいし、携帯情報端末７００へ問い合わせるようにしてもよい。

　前述した本発明の機能等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、マイクロプロセッサユニット等がそれぞれの機能等を実現する動作プログラムを解釈して実行することによりソフトウェアで実現してもよい。ハードウェアとソフトウェアを併用してもよい。

　また、図中に示した制御線や情報線は説明上必要と考えられるものを示しており、必ずしも製品上の全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

　また、図中に示した制御線や情報線は説明上必要と考えられるものを示しており、必ずしも製品上の全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

　１００…コンテンツ表示装置、１００ａ…アンテナ、１００ｂ…外部送信装置、１００ｂ１…主制御部、１００ｂ２…システムバス、１００ｂ３…音声入力部、１００ｂ４…外部信号送信部、１０１…主制御部、１０２…システムバス、１０３…外部通信部、１３１…チューナ／復調部、１３２…分離部、１７３…映像表示部、１７４…スピーカ、２００…インターネット、２１０…ルータ装置、３００ｔ…放送局の電波塔、６００ｂ…移動体電話通信網の基地局、７００…携帯情報端末、７０１…主制御部、７０２…システムバス、７２０…通信処理部、７２１…ＬＡＮ通信部、７２２…移動体電話網通信部、７２３…ＮＦＣ通信部、７３０…操作部、７４０…画像処理部、７４１…表示部、７４２…画像信号処理部、７４３…第一画像入力部、７４４…第二画像入力部、７５０…音声処理部、７５１…スピーカ音声出力部、７５２…ヘッドフォン音声出力部、７５３…音声信号処理部、７５４…音声入力部。

Claims

　音声コンテンツを出力する、第１の音声出力部及び第２の音声出力部を備えた端末であって、
　第１の音声コンテンツと、第２の音声コンテンツとを取得する音声取得部と、
　前記第１の音声コンテンツ及び前記第２の音声コンテンツの出力先を示す情報を設定する設定部と、
　前記設定部により設定された情報に基づいて、前記第１の音声コンテンツを前記第１の音声出力部及び第２の音声出力部の一方に出力し、前記第２の音声コンテンツを前記第１の音声出力部及び第２の音声出力部の他方に出力する音声出力制御部と、
を備える端末。
　受信したコンテンツを表示するコンテンツ表示装置と、請求項１に記載の端末とを備える音声連携システムであって、
　前記コンテンツ表示装置は、
　前記受信したコンテンツから映像データ及び音声データを取得する取得部と、
　前記取得部により取得された映像データを表示する表示部と、
　前記取得部により取得された音声データを出力する第３の音声出力部と、
　前記音声データを前記端末へ送信する送信部と、を備え、
　前記端末は、
　前記コンテンツ表示装置から前記音声データを前記第１の音声コンテンツとして受信する受信部、を備える、
音声連携システム。
　請求項２に記載の音声連携システムであって、
　前記端末は、
　前記第３の音声出力部によって出力された音声を含む端末外部の音声を入力する入力部をさらに備え、
　前記音声出力制御部は、前記入力部により入力された音声に基づいて出力制御する、音声連携システム。
　請求項３に記載の音声連携システムであって、
　前記音声出力制御部は、前記入力部により入力された音声の音量を特定し、当該音量に基づいて、前記第１の音声出力部または第２の音声出力部へ出力する音量を制御する、音声連携システム。
　請求項３または４のいずれか一項に記載の音声連携システムあって、
　前記音声出力制御部は、前記入力部により入力された音声の入力タイミングを特定し、当該入力タイミングに基づいて、前記第１の音声出力部または第２の音声出力部へ出力するタイミングを制御する、音声連携システム。
　請求項３から５のいずれか一項に記載の音声連携システムであって、
　前記入力部により入力された音声から周辺音を抽出し、当該周辺音の種別を解析する解析部をさらに備え、
　前記音声出力制御部は、前記解析部による解析結果に基づいて、前記第１の音声出力部または第２の音声出力部へ出力する音量を制御する、音声連携システム。
　請求項３から５のいずれか一項に記載の音声連携システムであって、
　前記端末は、電話網を用いて通話可能であり、
　前記音声出力制御部は、前記入力部により入力された音声と、前記受信部により受信された音声データとに基づいて、前記入力部により入力された音声に含まれる通話音声を強調する強調処理をする、音声連携システム。
　請求項７に記載の音声連携システムであって、
　前記音声出力制御部は、前記強調処理として、前記受信部により受信された音声データの位相を反転させた結果を、前記入力部により入力された音声に加算する、音声連携システム。
　請求項７または８に記載の音声連携システムであって、
　前記音声出力制御部は、前記強調処理として、前記入力部により入力された音声を分離した結果の内、通話音声部分を増幅させる、音声連携システム。
　請求項３から８のいずれか一項に記載の音声連携システムであって、
　前記コンテンツ表示装置は、
　受信対象のコンテンツの変更を受け付ける変更受付部をさらに備え、
　前記送信部は、前記変更受付部により受け付けられた変更に応じたコンテンツの音声データを送信する、音声連携システム。
　請求項２に記載の音声連携システムであって、
　前記端末は、
　前記端末と前記コンテンツ表示装置との距離を算出する算出部をさらに備え、
　前記音声出力制御部は、前記算出部により算出された距離に基づき、前記第１の音声出力部または第２の音声出力部へ出力する音量を制御する、音声連携システム。
　請求項３から１１のいずれか一項に記載の音声連携システムであって、
　前記端末は、
　情報を表示出力する表示部と、
　前記表示部へ前記情報を表示させるように制御する表示制御部と、
をさらに備え、
　前記受信部は、前記音声データに関連する字幕データをさらに取得し、
　前記表示制御部は、前記字幕データに関する情報を前記表示部へ表示する、音声連携システム。
　請求項１２に記載の音声連携システムであって、
　前記字幕データを翻訳する翻訳部をさらに備え、
　前記表示制御部は、前記翻訳されたデータを、前記字幕データに関する情報として、前記表示部へ表示する、音声連携システム。
　請求項３から１１のいずれか一項に記載の音声連携システムであって、
　情報を翻訳する翻訳部をさらに備え、
　前記受信部は、前記音声データに関連する字幕データをさらに取得し、
　前記音声出力制御部は、前記字幕データを前記翻訳部に翻訳させたデータを音声出力する、音声連携システム。
　音声コンテンツを出力可能な端末と通信手段により通信可能であり、受信したコンテンツを表示するコンテンツ表示装置であって、
　前記受信したコンテンツから映像データ及び音声データを取得する取得部と、
　前記取得部により取得された映像データを表示する表示部と、
　前記取得部により取得された音声データを出力する音声出力部と、
　前記音声データを前記端末へ送信する送信部と、
を備えるコンテンツ表示装置。