JP5957760B2

JP5957760B2 - 映像音声処理装置

Info

Publication number: JP5957760B2
Application number: JP2012051943A
Authority: JP
Inventors: 田中　俊介; 俊介田中; 豪山田
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2012-03-08
Filing date: 2012-03-08
Publication date: 2016-07-27
Anticipated expiration: 2032-03-08
Also published as: JP2013187765A; US20140376873A1; WO2013132562A1

Description

本願発明は、映像音声処理装置に関し、特に再生時における映像信号と音声信号との同期のための処理を行う映像音声処理装置に関する。

従来、映像信号および音声信号を処理して出力する映像音声処理装置が存在する。このような映像音声処理装置では、例えば、映像信号と音声信号とを互いに異なる機器に出力して、それぞれに映像または音声を再生させる場合がある。この場合、再生時における映像信号と音声信号との同期（例えば、「リップシンク」と呼ばれる）が問題となる。

そこで、再生時における映像信号と音声信号とを同期させるための技術も開示されている。例えば、特許文献１には、音声信号を遅延させることで再生映像と再生音とのずれを低減させる音声映像伝送装置について記載されている。

特開２００４−８８４４２号公報

ここで、例えば、ある放送番組をテレビのディスプレイに表示させながら、当該テレビから送信される当該放送番組の音声信号を、当該テレビの外部機器（外部スピーカ、または、ヘッドホンなど）に受信させて再生させる場合を想定する。この場合、当該外部機器で再生される音声信号が、当該ディスプレイに表示される映像信号に対して遅れる場合がある。

このような場合、例えば、映像信号をどの程度遅らせればいいのか等の調整量の決定は容易ではなく、当該調整を効率よく行うことは困難である。

本発明は、上記従来の課題を考慮し、再生時における映像信号と音声信号との同期のための処理を効率よく実行することができる映像音声処理装置を提供することを目的とする。

上記目的を達成するために、本発明の一態様に係る映像音声処理装置は、映像音声処理装置であって、映像信号を出力する映像出力部と、前記映像信号に対応する音声信号を出力する音声出力部と、前記映像信号に対応する前記音声信号を、前記映像音声処理装置の外部の音声再生装置に送信する音声送信部と、前記映像音声処理装置の動作モードを、（ａ）前記音声出力部から前記音声信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第一モード、および、（ｂ）前記映像出力部から前記映像信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第二モードの一方から他方へ切り換える制御部と、前記動作モードが前記第一モードである期間に、前記音声出力部から出力される音声信号を遅延させる量である音声遅延量を特定する遅延情報の入力を受け付ける受付部と、前記受付部が受け付けた前記遅延情報によって特定される前記音声遅延量に応じて前記音声出力部から出力される音声信号を遅延させる音声遅延部と、前記動作モードが前記第二モードである期間に、前記映像出力部から出力される映像信号を前記音声遅延量に応じた映像遅延量だけ遅延させる映像遅延部とを備える。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたは記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本発明の映像音声処理装置によれば、再生時における映像信号と音声信号との同期のための処理を効率よく実行することができる。

図１は、実施の形態におけるＡＶ（ＡｕｄｉｏＶｉｓｕａｌ）システムの構成概要を示す図である。図２は、実施の形態におけるＡＶシステムの基本的な機能構成を示すブロック図である。図３は、実施の形態の映像音声処理装置における基本的な処理の流れを示すフロー図である。図４は、実施の形態の映像音声処理装置が出力するユーザインターフェース画面の一例を示す図である。図５は、実施の形態の映像音声処理装置が行う映像信号と音声信号の同期調整を説明するための図である。図６は、１フレーム時間と、スピーカおよびヘッドホンの間の出音タイミングのずれ量との関係を示す図である。図７は、実施の形態における映像音声処理装置が記憶部を備える場合の基本的な機能構成を示すブロック図である。図８は、実施の形態のＡＶシステムが複数の音声再生装置を備える場合の構成概要を示す図である。図９は、実施の形態における映像遅延情報のデータ構成例を示す図である。図１０は、実施の形態における映像音声処理装置が遅延情報として再生音信号を取得する場合の基本的な機能構成を示すブロック図である。

（本発明の基礎となった知見）
本発明者は、再生時における映像信号と音声信号との同期に関し、以下の問題が生じることを見出した。

例えばデジタルテレビ放送における放送番組は、当該放送番組に対応する映像信号および音声信号とともに、映像信号と音声信号とを同期させるための信号を含むストリームによって、各テレビに送信される。そのため、当該放送番組をテレビ単体で再生する場合には、一般にリップシンクの問題は発生しない。

しかし、上述のように、例えば、テレビで当該映像信号を再生させながら当該テレビから送信される当該音声信号を外部機器（音声再生装置）で受信させて再生させる場合、当該テレビにおける再生映像に対して、当該音声再生装置における再生音が遅れる場合がある。

この遅れは、例えば、当該テレビと当該音声再生装置との間の通信手順（通信エラー時の音声信号の再送など）、または、当該音声再生装置における音声信号の処理（音切れ防止のための音声信号のバッファリングなど）に起因して発生する。

このように、再生映像に対して再生音が遅れた場合、上記の当該遅れの要因を考慮すると、再生音の出力を早めることは現実的ではなくかつ困難である。

そのため、再生映像を遅延させることで、再生映像と再生音との再生タイミングの一致を図ることが考えられる。つまり、映像信号をディスプレイに出力し、かつ、音声信号を外部の音声再生装置に送信する映像音声処理装置において、映像信号の出力を遅延させることで、再生時における映像信号と音声信号との同期を図ることが考えられる。

しかしながら、この場合、例えば、ユーザは、音声再生装置で再生される音を聞きながら、再生映像を遅らせるように、当該映像音声処理装置に、映像信号の遅延量を入力する必要がある。

例えば、ユーザは、音声再生装置で再生される人物の声を聞きながら、その声と、テレビでの再生映像における当該人物の唇の動きとを合わせるように、映像信号の遅延量を調整する。

つまり、聴覚と視覚とを同時に働かせながら、聴覚でとらえた音声の特徴点と、視覚でとらえた映像の特徴点とを時系列上で一致させようとする容易ではない作業が行われる。

その結果、当該映像音声処理装置では、聴覚および視覚でとらえる音声および映像についてのユーザの違和感がなくなるまで、遅延量の増加および減少を繰り返すという、非効率的な処理が発生することとなる。

さらに、音声信号を受信して再生する音声再生装置が変更になると、当該遅延量も変わるため、音声再生装置の変更のたびに、非効率的な処理が発生するという問題が生じる。

このような問題を解決するために、本発明の一態様に係る映像音声処理装置は、映像音声処理装置であって、映像信号を出力する映像出力部と、前記映像信号に対応する音声信号を出力する音声出力部と、前記映像信号に対応する前記音声信号を、前記映像音声処理装置の外部の音声再生装置に送信する音声送信部と、前記映像音声処理装置の動作モードを、（ａ）前記音声出力部から前記音声信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第一モード、および、（ｂ）前記映像出力部から前記映像信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第二モードの一方から他方へ切り換える制御部と、前記動作モードが前記第一モードである期間に、前記音声出力部から出力される音声信号を遅延させる量である音声遅延量を特定する遅延情報の入力を受け付ける受付部と、前記受付部が受け付けた前記遅延情報によって特定される前記音声遅延量に応じて前記音声出力部から出力される音声信号を遅延させる音声遅延部と、前記動作モードが前記第二モードである期間に、前記映像出力部から出力される映像信号を前記音声遅延量に応じた映像遅延量だけ遅延させる映像遅延部とを備える。

この構成によれば、映像音声処理装置が第一モードで動作中に出力される、例えば音声出力部に接続されたスピーカからの音声と、外部の音声再生装置からの音声との比較の結果から得られる遅延情報を、映像音声処理装置に入力することができる。

つまり、映像信号との同期の問題のない音声信号であって、音声出力部から出力される音声信号に基づく音声（第一音声）と、外部の音声再生装置からの音声（第二音声）とのずれ量（音声遅延量）を特定する遅延情報が映像音声処理装置に入力される。さらに、当該音声遅延量に応じて映像信号が遅延される。

簡単にいうと、外部の音声再生装置からの第二音声と、映像出力部に接続されたディスプレイに表示される映像との間のずれ量が、当該第二音声と当該映像との比較ではなく、当該第二音声と、当該映像と同期が保障された第一音声との比較によって決定される。

ここで、人間は、ある音源の発生位置等の特定に、当該音源から発生し、僅かに時間をあけて耳に到達する２つの音の時間差を利用するため、音の時間的なずれを知覚する能力が優れているという特長を有する。そのため、第一音声と第二音声とを高い精度で一致させることが可能である。すなわち、上記比較を人間が行った場合であっても、第二音声とタイミングが一致するように、第一音声を遅延させることは容易である。

従って、第一音声を第二音声に同期させるための音声遅延量の決定は容易化され、その結果、第二音声と、当該映像信号に基づく再生映像との同期のための映像遅延量の決定も容易化される。

もちろん、人間ではなく、機械的に音声遅延量を決定する場合であっても、例えば、第一音声および第二音声の音圧レベルのピークのタイミングの比較等によって、容易に特定することができる。つまり、音声解析の結果と、映像解析の結果とを比較するような複雑な処理なしに、音声遅延量は決定され、その結果、第二音声と、当該映像信号に基づく再生映像との同期のための映像遅延量の決定も容易化される。

以上のように、本態様の映像音声処理装置は、再生時における映像信号と音声信号との同期のための映像遅延量を効率よく特定することができ、その結果、当該同期のための処理を効率よく実行することができる。

また、例えば、前記映像出力部は、前記動作モードが前記第一モードである期間に、ユーザによる所定の操作のためのユーザインターフェース画面を示す映像信号を出力し、前記受付部は、ユーザの前記所定の操作により入力される前記遅延情報の入力を受け付けるとしてもよい。

この構成によれば、映像音声処理装置は、例えば、リップシンクのための調整作業を、ユーザに効率よく行わせることができる。

また、例えば、前記映像遅延部は、前記音声遅延量以下の値である前記映像遅延量だけ前記映像出力部から出力される前記映像信号を遅延させるとしてもよい。

この構成によれば、映像遅延量は、リップシンクのための厳密な遅延量よりも小さくなる可能性があるが、少なくとも、音声が映像に先行する事態が防止される。例えば、人物が喋っている映像において、人物が口を動かす前に発話音が外部の音声再生装置で再生されるような、極めて不自然な状況の発生が防止される。

また、例えば、前記音声遅延部は、前記映像信号のフレームレートから算出される１フレーム分の時間の整数倍に対応する前記音声遅延量に応じて前記音声出力部から出力される前記音声信号を遅延させるとしてもよい。

この構成によれば、例えば、映像の遅延がフレーム単位で行われる場合に、音声遅延量をそのまま映像遅延量として用いることができる。つまり、映像信号と音声信号との同期に係る処理負荷が軽減される。

また、例えば、前記映像遅延部は、前記音声遅延量より大きな前記映像遅延量だけ前記映像出力部から出力される前記映像信号を遅延させ、前記音声送信部は、前記音声遅延量と前記映像遅延量との差分に応じた値だけ、前記送信部から送信される前記音声信号を遅延させるとしてもよい。

この構成によれば、例えば以下のような効果を生ずる。例えば映像遅延量が定数の整数倍として決定される場合、音声遅延量が厳密な遅延量と同一視できる場合であっても、映像遅延量を、音声遅延量と一致させられない場合がある。

このような場合であっても、映像遅延量を音声遅延量より大きな値として決定し、かつ、音声送信部から送信される音声信号を遅延させることで、映像遅延量を厳密な遅延量に近づける場合と同じ効果が生ずる。つまり、リップシンクの精度が向上される。

また、例えば、前記映像遅延部は、前記音声遅延量以下である前記映像遅延量であって、前記映像信号のフレームレートから算出される１フレーム分の時間の整数倍に対応する前映像遅延量だけ前記映像出力部から出力される前記映像信号を遅延させるとしてもよい。

この構成によれば、映像遅延量が、当該映像信号におけるフレームレートに応じて決定されるため、当該映像信号の遅延処理がフレーム単位で行われる。つまり、当該遅延処理の煩雑化が抑制される。

また、例えば、前記受付部は、前記遅延情報として、前記音声信号を受信して再生する前記外部の音声再生装置から出力される音声の信号である再生音信号の入力を受け付け、前記映像遅延部は、前記再生音信号と、前記音声遅延部が遅延させる前の前記音声信号との間の遅延量である前記音声遅延量に応じた前記映像遅延量だけ、前記映像出力部から出力される前記映像信号を遅延させるとしてもよい。

この構成によれば、外部の音声再生装置から得られる再生音信号が遅延情報として用いられる。そのため、例えば、映像音声処理装置による、リップシンクの自動化が可能となる。

また、例えば、本発明の一態様に係る映像音声処理装置はさらに、前記映像遅延量を示す情報である映像遅延情報を記憶する記憶部を備え、前記映像遅延部は、前記動作モードが前記第二モードである期間に、前記記憶部から読み出した前記映像遅延情報に示される前記映像遅延量だけ、前記映像出力部から出力される前記映像信号を遅延させるとしてもよい。

この構成によれば、映像音声処理装置において決定された映像遅延量が記憶される。そのため、例えば、映像音声処理装置からの音声信号の送信先として複数の音声再生装置が存在する場合、当該複数の音声再生装置のそれぞれに対応する映像遅延量を記憶部に記憶させておくことができる。

その結果、映像音声処理装置は、音声信号の送信先の音声再生装置が変更になった場合であっても、適切な映像遅延量を用いた映像信号の遅延処理を行うことができる。

また、例えば、前記記憶部は、前記音声再生装置を含む複数の音声再生装置のそれぞれに対応する複数の映像遅延量を示す前記映像遅延情報を記憶し、前記映像遅延部は、前記動作モードが前記第二モードであって、かつ、前記音声送信部が、前記複数の音声再生装置のそれぞれに同時に前記音声信号を送信する場合、（ｃ）前記記憶部に記憶されている前記映像遅延情報に示される前記複数の映像遅延量のうち、最も大きな映像遅延量を選択し、（ｄ）前記映像出力部から出力される前記映像信号を、選択した映像遅延量だけ遅延させるとしてもよい。

この構成によれば、例えば以下のような効果を生ずる。例えば複数のユーザが、映像出力部に接続された一つのディスプレイに表示された映像を見ながら、それぞれが装着する、映像音声処理装置と無線通信するヘッドホンで音声を聞く場合を想定する。

この場合、ヘッドホンごとに音声の遅延量が異なるため、これらヘッドホンそれぞれに対応する映像遅延量も異なるが、これら映像遅延量のうちの最大値に応じて映像信号が遅延される。つまり、少なくとも、これらヘッドホンそれぞれからの再生音が、当該ディスプレイに表示される映像に先行するような極めて不自然な事態の発生は抑制される。

（実施の形態）
以下、実施の形態の映像音声処理装置を、図面を参照しつつ説明する。なお、各図は、模式図であり、必ずしも厳密に図示したものではない。

また、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

図１は、実施の形態におけるＡＶ（ＡｕｄｉｏＶｉｓｕａｌ）システム１０の構成概要を示す図である。

図２は、実施の形態におけるＡＶシステム１０の基本的な機能構成を示すブロック図である。

図１に示すように、実施の形態におけるＡＶシステム１０は、テレビ１００とヘッドホン２００とを備える。

テレビ１００は、放送番組等のＡＶコンテンツを受信して再生する装置であり、映像音声処理装置１１０と、ディスプレイ１５０と、スピーカ１６０とを備える。

ヘッドホン２００は、映像音声処理装置１１０の外部の音声再生装置の一例である。ヘッドホン２００は、映像音声処理装置１１０から送信される音声信号を受信する受信部２１０と、受信部２１０が受信した音声信号の再生音を出力するスピーカ２２０とを有する。

なお、ヘッドホン２００は右耳用と左耳用の２つのスピーカ２２０を有しているが、図２では、いずれか一方のスピーカ２２０の図示は省略している。

ユーザは、ヘッドホン２００でＡＶコンテンツの音声を聞きながら、当該ＡＶコンテンツの映像をテレビ１００のディスプレイ１５０で見ることができる。

なお、映像音声処理装置１１０とヘッドホン２００との間の通信規格としては、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）が採用される。

映像音声処理装置１１０は、図２に示すように、映像出力部１１１と、音声出力部１１２と、音声送信部１１３と、制御部１１４と、受付部１１５と、音声遅延部１１６と、映像遅延部１１７と、映像信号処理部１１８と、音声信号処理部１１９とを備える。

映像出力部１１１は、映像信号を出力する。本実施の形態では、映像出力部１１１は、映像信号処理部１１８から映像遅延部１１７を介して取得した映像信号を、ディスプレイ１５０に出力する。その結果、当該映像信号に基づく映像がディスプレイ１５０に表示される。

音声出力部１１２は、当該映像信号に対応する音声信号を出力する。本実施の形態では、音声出力部１１２は、音声信号処理部１１９から音声遅延部１１６を介して取得した音声信号を、スピーカ１６０に出力する。その結果、当該音声信号に基づく音声、つまり、ディスプレイ１５０に表示される映像に対応する音声がスピーカ１６０から出力される。

音声送信部１１３は、当該映像信号に対応する音声信号を、映像音声処理装置１１０の外部の音声再生装置であるヘッドホン２００に送信する。

本実施の形態では、音声送信部１１３は、音声信号処理部１１９から取得した音声信号を、ヘッドホン２００に送信する。その結果、当該音声信号に基づく音声がヘッドホン２００から出力される。

具体的には、ヘッドホン２００では、音声送信部１１３から送信された音声信号を受信部２１０が受信し、音声の再生のための所定の処理を行う。これにより、例えばディスプレイ１５０に表示される映像に対応する音声が、ヘッドホン２００が備えるスピーカ２２０から出力される。

制御部１１４は、映像音声処理装置１１０の動作モードを調整モードおよび視聴モードの一方から他方へ切り換える。また、制御部１１４は、映像出力部１１１等の映像音声処理装置１１０が備える各構成要素の制御も行う。

なお、調整モードは、第一モードの一例であり、音声出力部１１２から音声信号が出力され、かつ、音声送信部１１３から音声信号が送信される動作モードである。具体的には、後述する、リップシンクのための調整（以下、「同期調整」という。）を実行する場合の動作モードである。

また、視聴モードは、第二モードの一例であり、映像出力部１１１から映像信号が出力され、かつ、音声送信部１１３から音声信号が送信される動作モードである。つまり、ユーザが、ディスプレイ１５０に表示された映像を見ながら、ヘッドホン２００で当該映像に対応する音声を聞く場合の動作モードである。

本実施の形態では、視聴モードでは、スピーカ１６０からの音声出力は停止される。

なお、映像音声処理装置１１０は、ディスプレイ１５０とスピーカ１６０とを用いてＡＶコンテンツをユーザに視聴させる通常の動作モード（通常モード）でも動作する。しかし、当該通常モードは、テレビ１００としての一般的な動作モードであるためその説明は省略する。

受付部１１５は、動作モードが調整モードである期間に、音声出力部１１２から出力される音声信号を遅延させる量である音声遅延量を特定する遅延情報の入力を受け付ける。

本実施の形態では、調整モードにおいて、当該遅延情報の入力のためのユーザインターフェース画面がディスプレイ１５０に表示される。ユーザインターフェース画面については図４を用いて後述する。

音声遅延部１１６は、受付部１１５が受け付けた遅延情報によって特定される音声遅延量に応じて、音声出力部１１２から出力される音声信号を遅延させる。つまり、スピーカ１６０から出力される音声が、当該音声遅延量に応じて遅延される。

映像遅延部１１７は、動作モードが視聴モードである期間に、映像出力部１１１から出力される映像信号を当該音声遅延量に応じた映像遅延量だけ遅延させる。つまり、調整モードにおいて決定された音声遅延量に応じて、ディスプレイ１５０に表示される映像が遅延される。

本実施の形態の映像音声処理装置１１０は、上記構成を有することで、リップシンクのための処理、つまり、再生時における映像信号と音声信号との同期のための処理を効率よく実行することができる。

具体的には、本実施の形態では、上述のように音声信号の送信の通信規格として、Ｂｌｕｅｔｏｏｔｈ（登録商標）が採用されている。

また、ヘッドホン２００では音声信号のバッファリングが行われており（バッファは図２に図示せず）、これにより、ヘッドホン２００では、ヘッドホン２００で再生されるべき音声信号が途切れることなく再生される。

しかしながら、音声信号のバッファリング等の処理に起因して、ヘッドホン２００での再生音が本来的な再生タイミングより遅れて再生され得る。その結果、ディスプレイ１５０での再生映像と、ヘッドホン２００での再生音との間にずれが生じ得る。

そこで、本実施の形態の映像音声処理装置１１０では、音声遅延部１１６と映像遅延部１１７との処理により、ディスプレイ１５０での再生映像と、ヘッドホン２００での再生音との間の同期のための処理を効率よく実行することができる。

なお、本実施の形態では、映像信号処理部１１８は、例えば、テレビ１００が有するチューナ（図示せず）から受け取ったストリームから映像信号を取得し、映像遅延部１１７に出力する。また、音声信号処理部１１９は、当該ストリームから音声信号を取得し、音声遅延部１１６に出力する。

つまり、映像信号処理部１１８および音声信号処理部１１９は、テレビ１００で再生される映像および音声のソースである信号を映像音声処理装置１１０に与える装置であり、映像音声処理装置１１０の外部に備えられていてもよい。つまり、映像信号処理部１１８および音声信号処理部１１９は、映像音声処理装置１１０に必須の要素ではない。

以下、図３〜図６を用いて、本実施の形態の映像音声処理装置１１０の処理の流れを説明する。

図３は、実施の形態の映像音声処理装置１１０における基本的な処理の流れを示すフロー図である。

制御部１１４は、例えばユーザからの指示により、映像音声処理装置１１０の動作モードを視聴モードから調整モードに切り換える（Ｓ１）。

動作モードが調整モードである期間に、受付部１１５は、ユーザの所定の操作により、遅延情報の入力を受け付ける（Ｓ２）。例えば、“２００ｍｉｌｌｉｓｅｃｏｎｄ（ｍｓｅｃ）”という音声遅延量そのもの、または、“＋１２”等の音声遅延量の大きさを表す数値等が、遅延情報として入力される。

音声遅延部１１６は、当該遅延情報によって特定される音声遅延量に応じて音声出力部１１２から出力される音声信号を遅延させる（Ｓ３）。

その後、制御部１１４は、例えばユーザからの指示により、音声遅延量を決定した後で映像音声処理装置１１０の動作モードを調整モードから視聴モードに切り換える（Ｓ４）。

映像遅延部１１７は、動作モードが視聴モードである期間に、映像出力部１１１から出力される映像信号を当該音声遅延量に応じた映像遅延量だけ遅延させる（Ｓ５）。

以上の処理を実行する映像音声処理装置１１０の具体的な動作を、図４および図５を参照しながら説明する。

図４は、実施の形態の映像音声処理装置１１０が出力するユーザインターフェース画面１５１の一例を示す図である。

図５は、実施の形態の映像音声処理装置１１０が行う同期調整を説明するための図である。

映像音声処理装置１１０は、調整モードで動作する場合、図４に示すようなユーザインターフェース画面１５１を、ディスプレイ１５０に出力する。

また、この調整モードでは、スピーカ１６０およびヘッドホン２００の双方から、同期調整のための音声として、例えば所定の間隔ごと（例えば、１ｓｅｃ〜２ｓｅｃごと）のパルス音が出力される。

また、スピーカ１６０から出力される所定の間隔ごとのパルス音に同期して、例えば、図５に示すような、ボールが床面で跳ね返されることで単振動する動画がユーザインターフェース画面１５１に表示される。具体的には、ボールが床面に当たるタイミングでスピーカ１６０からパルス音が出力される。

また、同期調整が完了されていない時点では、図５の（ａ）に示すように、ヘッドホン２００からの出音のタイミングは、スピーカ１６０からの出音のタイミングに対して遅れている。

従って、ユーザは、例えば、左右の一方の耳で、ヘッドホン２００からの音声を聞きながら、他方の耳で、スピーカ１６０からの音声を聞いた場合、左右の耳で知覚される音声の間に時間的なずれがあることが認識される。

このような状況において、例えばユーザがテレビ１００のリモコン１７０の十字キーを操作することで、遅延情報が映像音声処理装置１１０に入力される。

図４に示す例では、ユーザインターフェース画面１５１には、音声遅延量を特定する遅延情報として、設定値“＋１２”が、設定値表示フィールド１５２に表示されている。この設定値は、例えばユーザがリモコン１７０の十字キーを操作することで変更される。さらに、当該設定値が遅延情報として受付部１１５に受け付けられる。

具体的には、正の整数である設定値に単位遅延量ｄを乗じた値が、音声遅延量として扱われる。単位遅延量ｄは、例えば、映像出力部１１１から出力される映像信号のフレームレートから算出される１フレーム分の時間（以下、「１フレーム時間」という。）である。

例えば、当該フレームレートが６０Ｆｒａｍｅｓ／ｓｅｃである場合、単位遅延量ｄは、１フレーム時間である（５０／３（＝１６．６６６６６．．．））ｍｓｅｃである。そのため、設定値が“１２”である場合、（５０／３）ｍｓｅｃに１２を乗じた結果である２００ｍｓｅｃが音声遅延量として算出される。なお、この算出は、例えば、受付部１１５、制御部１１４、または音声遅延部１１６によって行われる。

音声遅延部１１６は、このようにして得られた音声遅延量に応じて、音声信号処理部１１９から受信する音声信号を遅延させる。その結果、音声出力部１１２から出力される音声信号が遅延される。

例えば、音声遅延部１１６による遅延の単位が０．１ｍｓｅｃであれば、音声出力部１１２から出力される音声信号が、２００．０ｍｓｅｃだけ遅延される。なお、音声遅延量と実際の音声の遅延量とが厳密に一致しなくてもよい。例えば、音声遅延部１１６による遅延の単位が３ｍｓｅｃである場合、実際の音声の遅延量が２０１ｍｓｅｃであってもよい。

このように、ユーザにより入力される遅延情報（設定値）に応じて、音声出力部１１２から出力される音声信号が遅延され、その結果、スピーカ１６０から出力される音声が遅延される。

そのため、ユーザは、スピーカ１６０からの音声とヘッドホン２００からの音声の間に時間的なずれが最も小さくなるように、設定値を変更することができる。

その結果、図５の（ｂ）に示すように、当該時間的なずれが最も小さくなると知覚される音声遅延量Ｄが決定される。例えば、設定値が“＋１２”である場合に、ユーザによりリモコン１７０の所定のボタンが押下されることで、設定値“＋１２”が、同期調整のための遅延情報として決定される。つまり、設定値“＋１２”に対応する“２００ｍｓｅｃ”が、音声遅延量Ｄとして特定される。

また、このように特定された音声遅延量Ｄだけ音声出力部１１２から出力される音声信号が遅延され、これにより、図５の（ｂ）に示すように、ヘッドホン２００からの出音のタイミングとスピーカ１６０からの出音のタイミングとが一致（略一致も含む、以下同じ）する。つまり、ヘッドホン２００とスピーカ１６０との間における音声信号の同期がなされる。

制御部１１４は、このように特定された音声遅延量Ｄを取得し、映像遅延部１１７に送信する。

映像遅延部１１７は、受信した音声遅延量Ｄに応じて映像遅延量Ｖを決定し、映像信号処理部１１８から受信する映像信号を映像遅延量Ｖだけ遅延させる。その結果、映像出力部１１１から出力される映像信号が映像遅延量Ｖだけ遅延される。

ここで、上記のように、単位遅延量ｄが映像信号における１フレーム時間である場合、つまり、音声遅延量Ｄが、当該１フレーム時間の整数倍の値である場合、例えば、音声遅延量Ｄがそのまま映像遅延量Ｖとして扱われる。

例えば、音声遅延量Ｄが“２００ｍｓｅｃ”である場合、映像遅延量Ｖも“２００ｍｓｅｃ”と決定される。

この場合、映像遅延部１１７は、映像信号を映像信号処理部１１８から受信して１２フレーム遅延させて映像出力部１１１に出力する。これにより、映像出力部１１１からディスプレイ１５０に出力される映像信号は、映像遅延量Ｖである“２００ｍｓｅｃ”だけ遅延される。

なお、単位遅延量ｄが映像信号における１フレーム時間である場合、映像遅延部１１７は、音声遅延量Ｄそのものではなく、単位遅延量ｄに乗算される設定値を受け取ってもよい。例えば、設定値が“＋１２”である場合、当該設定値を受け取った映像遅延部１１７は、映像遅延量Ｖとして“＋１２”を決定し、上記のように映像信号を１２フレーム遅延させる。

その結果、映像出力部１１１からディスプレイ１５０に出力される映像信号は、音声遅延量Ｄと同じ値である“２００ｍｓｅｃ”だけ遅延される。

このように、映像遅延部１１７が、音声遅延量Ｄに応じた映像遅延量Ｖだけ映像信号を遅延させることで、ヘッドホン２００からの出音のタイミングとディスプレイ１５０での映像の表示のタイミングとが一致する。

ここで、本実施の形態においては、以上の映像遅延部１１７による映像信号の遅延処理は、調整モードでの動作期間中にも実行される。つまり、スピーカ１６０からのパルス音の出力のタイミングの変化に追随して、図４に示すユーザインターフェース画面１５１に表示されたボールが床面に当たるタイミングが変化する。

なお、映像遅延部１１７による映像信号の遅延処理は、少なくとも、映像音声処理装置１１０の動作モードが視聴モードである期間に行われればよい。つまり、調整モードにおいてスピーカ１６０およびヘッドホン２００から出力される、同期調整用の音声に対応する映像（例えば、図４におけるボールの映像）は、ユーザインターフェース画面１５１に表示されていなくてもよい。

また、ユーザインターフェース画面１５１は、ディスプレイ１５０の表示領域の一部のみに表示されてもよい。例えば、通常の放送番組の映像に重畳させて、設定値表示フィールド１５２等の、設定値の入力および確認に必要なユーザインターフェース用の映像を表示させてもよい。この場合、同期調整用の音声として、当該放送番組の音声が用いられてもよい。

また、ユーザインターフェース画面１５１は必須ではなく、ディスプレイ１５０に表示される画像、テレビ１００に設けられたランプ、またはスピーカ１６０からの音声等を介して、調整モードで動作中であることをユーザに知覚させてもよい。

この場合、ユーザは、調整モードで動作中であることを認識できるため、例えばリモコン１７０の十字キーを操作することで、スピーカ１６０からの音声を、ヘッドホン２００からの音声と同期させるように、スピーカ１６０からの音声を遅延させることができる。

また、調整モードから視聴モードへの切り替えは、例えば、上述の、設定値の決定のための、リモコン１７０の所定のボタンの押下をトリガとして実行される。また、例えば、受付部１１５が受け付ける遅延情報（設定値）が変更されない期間が閾値を越えたことをトリガとして、調整モードから視聴モードに切り替えられてもよい。

映像音声処理装置１１０の動作モードが視聴モードとなった場合、ユーザは、上記のように遅延された映像をディスプレイ１５０で見ることができる。

具体的には、ヘッドホン２００から出力される音声の、本来的な出力タイミングからのずれ量だけ遅延された映像がディスプレイ１５０に表示される。その結果、ヘッドホン２００での再生音とディスプレイ１５０に表示される再生映像とは同期される。

なお、映像音声処理装置１１０の動作モードが視聴モードである場合に、スピーカ１６０からの音声出力を停止させずに継続させてもよい。この場合、音声遅延部１１６は、例えば上記の音声遅延量Ｄ（または映像遅延量Ｖ）だけ、音声出力部１１２から出力される音声信号を遅延させればよい。

これにより、ヘッドホン２００を装着しているユーザが視聴するＡＶコンテンツを、当該ヘッドホン２００を装着していないユーザにも視聴させることができる。つまり、当該ヘッドホン２００を装着していないユーザに、ディスプレイ１５０に表示された再生映像と同期した音声を、スピーカ１６０によって提供することができる。

また、映像音声処理装置１１０とヘッドホン２００との通信が終了した場合、例えば、当該通信の終了をトリガとして、映像音声処理装置１１０の視聴モードから通常モードに切り替わる。また、映像遅延部１１７は映像信号の遅延処理を終了する。

このように、本実施の形態の映像音声処理装置１１０は、同期調整において、スピーカ１６０からの音声とヘッドホン２００からの音声との比較により、ヘッドホン２００から出力される音声の本来的な出力タイミングからのずれ量が決定される。

つまり、ヘッドホン２００での再生音との比較対象として、ヘッドホン２００での再生音と同期されるべき映像そのものではなく、当該映像と同期が保障されたスピーカ１６０からの出力音が用いられ、これにより、当該映像の遅延量が決定される。

従って、本実施の形態の映像音声処理装置１１０によれば、再生時における映像信号と音声信号との同期のための処理を効率よく行うことができる。

なお、上記説明では、単位遅延量ｄとして、映像信号のフレームレートから算出される１フレーム時間が用いられるとした。しかしながら、単位遅延量ｄに特に限定はなく、例えば、１ｍｓｅｃなどの、映像音声処理装置１１０が扱う映像信号の１フレーム時間よりも小さな数値であってもよい。

これにより、例えば、遅延情報として映像音声処理装置１１０に入力される値の厳密性を向上させることができる。つまり、音声遅延量Ｄとして、同期調整のためのより正確な値を決定することが可能となる。

ここで、このように、単位遅延量ｄとして１フレーム時間よりも小さな数値が採用された場合、音声遅延量Ｄは、１フレーム時間の整数倍にならない場合がある。

つまり、音声遅延量Ｄとして、厳密な同期のための正確な値が決定された場合であっても、上述のように映像遅延部１１７が映像信号をフレーム単位で遅延させる場合、ヘッドホン２００での再生音とディスプレイ１５０に表示される再生映像とが、厳密には同期しないことになる。

そのため、映像遅延部１１７は、映像信号をフレーム単位で遅延させるのではなく、１フレーム時間よりも小さな単位で映像信号を遅延させてもよい。これにより、ヘッドホン２００での再生音とディスプレイ１５０での再生映像とのより厳密な同期が可能となる。

また、例えば映像遅延部１１７による映像遅延の処理負荷を増加させないために、映像信号をフレーム単位で遅延させることを維持する場合、映像遅延量Ｖを、音声遅延量Ｄよりも小さな値に決定してもよい。これにより、少なくとも、ヘッドホン２００からの再生音がディスプレイ１５０に表示される再生映像に先行するような極めて不自然な事象の発生は防止される。

図６は、１フレーム時間Ｓと、スピーカ１６０およびヘッドホン２００の間の出音タイミングのずれ量との関係を示す図である。

例えば、スピーカ１６０からの音声とヘッドホン２００からの音声との間の厳密な時間的なずれ量がＤ１である場合を想定する。この場合、スピーカ１６０からの音声とディスプレイ１５０の再生映像とは同期されているため、ディスプレイ１５０の再生映像とヘッドホン２００からの音声との間の厳密な時間的なずれ量もＤ１であるとみなされる。

ここで、このＤ１を音声遅延量として示す遅延情報が、映像音声処理装置１１０に入力された場合を想定する。

この想定において、映像遅延部１１７が映像信号をフレーム単位で遅延させた場合、映像遅延量Ｖは１フレーム時間Ｓの整数倍である。つまり、図６において、ｔ（０）を起点（映像遅延量＝０）とした場合、ｔ（０）と、ｔ（１）・・・、ｔ（ｎ＋１）、・・のいずれかの値が、映像遅延量Ｖとして決定される。なお、ｔ（ｎ）＝Ｓ・ｎ（ｎは正の整数）である。

この場合、例えば制御部１１４または映像遅延部１１７は、遅延情報によって特定される音声遅延量Ｄ１以下の値を、映像遅延量Ｖとして決定する。

図６に示す場合、音声遅延量Ｄ１以下であって、かつ、音声遅延量Ｄ１に最も近い、１フレーム時間Ｓのｎ倍である、ｔ（ｎ）が、映像遅延量Ｖとして決定される。

例えば、音声遅延量Ｄ１が２１０ｍｓｅｃであり、１フレーム時間Ｓが（５０／３）ｍｓｅｃである場合、２１０ｍｓｅｃ以下であり、かつ、２１０ｍｓｅｃに最も近い、（５０／３）ｍｓｅｃの１２倍である、“２００ｍｓｅｃ”が、映像遅延量Ｖとして決定される。なお、この場合、映像遅延量Ｖとしては、上述のように、“２００ｍｓｅｃ”に対応するフレーム数である“１２”が決定されてもよい。

このように、映像音声処理装置１１０に入力される遅延情報から特定される音声遅延量Ｄが定数の整数倍である場合、当該定数が小さいほど、音声遅延量Ｄは、リップシンクのための本来的な遅延量により近い値をとりうる。つまり、音声遅延量Ｄの厳密性を向上させることができる。

また、映像遅延量Ｖが１フレーム時間の整数倍である場合など、映像遅延量Ｖが、厳密性の高い音声遅延量Ｄの値と一致する値をとり得ない場合、上記のように、音声遅延量Ｄ以下であり、かつ、音声遅延量Ｄに近い値を映像遅延量Ｖとして決定する。これにより、ディスプレイ１５０とヘッドホン２００との間のリップシンクの問題の発生は実質的に防止され、かつ、音声が映像より先行するような極めて不自然な状況の発生は防止される。

また、図６に示す場合において、音声遅延量Ｄ１より大きな値が、映像遅延量Ｖとして決定されてもよい。例えば、音声遅延量Ｄ１に最も近い、１フレーム時間Ｓの整数倍である、ｔ（ｎ＋１）が、映像遅延量Ｖとして決定されてもよい。

この場合、例えば、音声送信部１１３からヘッドホン２００に送信する音声信号を遅延させることで、ヘッドホン２００での再生音とディスプレイ１５０での再生映像とを同期させることができる。

例えば、音声遅延量Ｄ１が１８６ｍｓｅｃであり、１フレーム時間Ｓが（５０／３）ｍｓｅｃである場合において、１８６ｍｓｅｃより大きく、かつ、（５０／３）ｍｓｅｃの整数倍（１２倍）である、“２００ｍｓｅｃ”が、映像遅延量Ｖとして決定された場合を想定する。

この場合、映像遅延量Ｖが音声遅延量Ｄ１よりも１４ｍｓｅｃ大きいため、なんら手当てをしない場合、ヘッドホン２００での再生音が、１４ｍｓｅｃだけ、ディスプレイ１５０での再生映像に先行することになる。

そこで、音声送信部１１３からヘッドホン２００に送信する音声信号を、１４ｍｓｅｃだけ遅延させる。

これにより、音声遅延量Ｄ１が、リップシンクのための本来的な遅延量と同一である場合、理論上、ヘッドホン２００での再生音とディスプレイ１５０での再生映像とは完全に同期する。また、音声遅延量Ｄ１の誤差を考慮した場合であっても、ヘッドホン２００とディスプレイ１５０との間のリップシンクの厳密性は向上する。

つまり、簡単にいうと、映像音声処理装置１１０は、映像の遅延量を本来的な必要量よりも大きくし、かつ、ヘッドホン２００への音声を遅延させることで、ヘッドホン２００での再生音とディスプレイ１５０での再生映像とを厳密に同期させることも可能である。

また、以上説明した、映像音声処理装置１１０の同期調整において用いられた映像遅延量Ｖを記憶しておいてもよい。

図７は、実施の形態における映像音声処理装置１１０が記憶部１３０を備える場合の基本的な機能構成を示すブロック図である。

例えば、映像音声処理装置１１０の制御部１１４が、上記の同期調整において決定された映像遅延量Ｖを、映像遅延情報１３１として記憶部１３０に記憶させる。

これにより、その後、ヘッドホン２００と映像音声処理装置１１０との間の通信が一旦終了した後に、ヘッドホン２００と映像音声処理装置１１０とが通信を再開した場合、記憶された映像遅延量Ｖが用いられた自動的な同期調整が実行される。つまり、制御部１１４は、記憶部１３０から映像遅延量Ｖを読み出して、映像遅延部１１７に送信し、映像遅延部１１７に、映像遅延量Ｖに応じた映像信号の遅延を行わせることができる。

なお、記憶部１３０に記憶される映像遅延情報１３１は、映像遅延量Ｖそのものを示さなくてもよい。例えば、映像遅延量Ｖに対応する音声遅延量Ｄを示す映像遅延情報１３１が、記憶部１３０に記憶されてもよい。

また、映像音声処理装置１１０が、複数の音声再生装置と通信する場合、記憶部１３０は、これら複数の音声再生装置のそれぞれに対応する複数の映像遅延量を示す映像遅延情報１３１を記憶してもよい。

図８は、実施の形態のＡＶシステム１０が複数の音声再生装置を備える場合の構成概要を示す図である。

図９は、実施の形態における映像遅延情報１３１のデータ構成例を示す図である。

図８に示すように、映像音声処理装置１１０を備えるテレビ１００が、上記のヘッドホン２００の他に、２つのヘッドホン（２０１、２０２）と通信する場合を想定する。

なお、ヘッドホン２０１および２０２のそれぞれについても、例えば映像音声処理装置１１０とのペアリングが終了した後に、図３〜図５を用いて説明した同期調整が実行されている。そのため、ヘッドホン２０１および２０２のそれぞれに対応する映像遅延量Ｖが求められている。

また、これら３つのヘッドホン（２００、２０１、２０２）は、互いに機種が異なるため、または個体差により、それぞれの再生音の本来的な再生タイミングからのずれ量（遅延量）が互いに異なる。

そのため、図９に示すように、これら３つのヘッドホン（２００、２０１、２０２）のそれぞれに対応する映像遅延量Ｖを示す映像遅延情報１３１を、それぞれの識別子である外部機器ＩＤと対応付けて記憶部１３０に記憶させておく。なお、各ヘッドホン（２００、２０１、２０２）の外部機器ＩＤは、映像音声処理装置１１０と通信を開始する場合に、各ヘッドホン（２００、２０１、２０２）から映像音声処理装置１１０に通知される。

また、図９に示す例では、ヘッドホン２００の外部機器ＩＤは、“Ｈ−Ａ”であり、ヘッドホン２０１の外部機器ＩＤは、“Ｈ−Ｂ”であり、ヘッドホン２０２の外部機器ＩＤは、“Ｈ−Ｃ”である。

このような情報を含む映像遅延情報１３１を、記憶部１３０に記憶させておくことで、映像音声処理装置１１０は、音声信号の送信先のヘッドホンが変更になった場合であっても、適切な映像遅延量を用いた映像信号の遅延処理を行うことができる。

ここで、これら３つのヘッドホン（２００、２０１、２０２）のうちの少なくとも２つが同時に映像音声処理装置１１０と通信する場合も考えられる。

例えば、３人のユーザのそれぞれがヘッドホン（２００、２０１、または、２０２）を装着して、テレビ１００のディスプレイ１５０に表示される映像を見る場合が考えられる。

この場合、映像音声処理装置１１０の映像遅延部１１７は、以下の処理を実行する。すなわち、映像遅延部１１７は、動作モードが視聴モードであって、かつ、音声送信部１１３が、３つのヘッドホン（２００、２０１、２０２）のそれぞれに同時に音声信号を送信する場合、（ａ）記憶部１３０に記憶されている映像遅延情報１３１に示される複数の映像遅延量Ｖのうち、最も大きな映像遅延量Ｖを選択し、（ｂ）映像出力部１１１から出力される映像信号を、選択した映像遅延量Ｖだけ遅延させる。

例えば、３つのヘッドホン（２００、２０１、２０２）それぞれに対応する映像遅延量が、図９に示す値である場合、映像遅延部１１７が用いる映像遅延量Ｖとして、ヘッドホン２０２に対応する“２０１ｍｓｅｃ”が採用される。

つまり、映像音声処理装置１１０は、音声信号の送信先の装置が複数ある場合、その複数の装置のうちの、最も音声の遅延量の大きな装置に合わせて、映像音声処理装置１１０から出力する映像信号を遅延させる。

これにより、少なくとも、これらヘッドホン（２００、２０１、２０２）それぞれからの再生音が、ディスプレイ１５０に表示される再生映像に先行するような極めて不自然な事態の発生は抑制される。

また、この場合、例えば音声送信部１１３が、ヘッドホン２００および２０１のそれぞれに送信される音声信号を遅延させてもよい。これにより、ディスプレイ１５０に表示される当該映像と、これらヘッドホン２００および２０１のそれぞれでの再生音との同期をより厳密にすることができる。

例えば、上記のように、映像遅延部１１７が用いる映像遅延量Ｖとして“２０１ｍｓｅｃ”が採用された場合を想定する。この場合、音声送信部１１３は、映像遅延量Ｖ“１９７ｍｓｅｃ”に対応するヘッドホン２００に対しては、４ｍｓｅｃだけ音声信号を遅延させる。

また、音声送信部１１３は、映像遅延量Ｖ“１８９ｍｓｅｃ”に対応するヘッドホン２００に対しては、１２ｍｓｅｃだけ音声信号を遅延させる。

つまり、ヘッドホン２００および２０１との関係で、相対的に遅く設定された映像遅延量Ｖに合わせるように、ヘッドホン２００および２０１のそれぞれに送信される音声信号を遅延させる。これにより、これら３つのヘッドホン（２００、２０１、２０２）の全てについて、リップシンクの問題がより確実に解消される。

また、遅延情報は、ユーザインターフェース画面１５１を介して映像音声処理装置１１０に入力されなくてもよい。例えば、ヘッドホン２００の再生音を示す再生音信号が、遅延情報として映像音声処理装置１１０に入力されてもよい。

図１０は、実施の形態における映像音声処理装置１１０が遅延情報として再生音信号を取得する場合の基本的な機能構成を示すブロック図である。

図１０に示すように、ヘッドホン２００の再生音を示す再生音信号が、遅延情報として、受付部１１５に受け付けられる。

例えば、受付部１１５に接続されたマイクロフォン（図示せず）を介して、再生音信号が受付部１１５に入力される。または、受付部１１５に接続された音声入力端子（図示せず）を介して、再生音信号が受付部１１５に入力される。

この場合、例えば制御部１１４は、音声遅延部１１６から出力される音声信号に示される音圧レベルのピークのタイミングと、当該再生音信号に入力される音声信号に示される音圧レベルのピークのタイミングとの間の時間的な差分から、音声遅延量Ｄを特定する。

なお、これら２種類の信号を用いた音声遅延量Ｄの特定の手法は、上記手法に限定されない。また、制御部１１４ではなく、例えば、音声遅延部１１６または受付部１１５によって、音声遅延量Ｄが特定されてもよい。

また、音声遅延量Ｄの特定は、一回の上記比較処理によって行われてもよい。また、当該音声遅延量Ｄの特定は、音声遅延部１１６による音声信号の遅延量を変化させながら、音声遅延部１１６から出力される音声信号と、再生音信号とのずれ量をフィードバックすることによって行われてもよい。

また、本実施の形態では、映像音声処理装置１１０とヘッドホン２００との間の通信規格として、Ｂｌｕｅｔｏｏｔｈ（登録商標）が採用されるとしたが、当該通信規格としてＢｌｕｅｔｏｏｔｈ（登録商標）以外の通信規格が採用されてもよい。また、映像音声処理装置１１０とヘッドホン２００との間が無線通信ではなく有線通信であってもよい。

つまり、通信規格が採用する手順等の都合により、ヘッドホン２００での再生音と、ディスプレイ１５０での再生映像との間に、人間が知覚できる程度のずれが生じる場合、当該通信規格の種類に関係なく、映像音声処理装置１１０による同期調整は有効である。

また、映像音声処理装置１１０は、テレビ１００以外の種類の装置に備えられてもよい。例えば、Ｂｌｕ−ｒａｙＤｉｓｃ（登録商標）等の光ディスクまたはハードディスクに記憶されたＡＶコンテンツを再生するレコーダまたはプレーヤに、映像音声処理装置１１０が備えられてもよい。

また、映像音声処理装置１１０からの音声信号の送信先の装置は、ヘッドホン２００以外の種類の音声再生装置であってもよい。

例えば、複数のスピーカを備え、映像音声処理装置１１０と無線または有線で通信するサラウンドシステムに、映像音声処理装置１１０からの音声信号が送信されてもよい。つまり、映像音声処理装置１１０による同期調整における音声の発生元である音声再生装置の種類は、ヘッドホンに限定されない。

また、上記の実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態の映像音声処理装置を実現するソフトウェアは、次のようなプログラムである。

すなわち、このプログラムは、コンピュータに、以下の映像音声処理方法を実行させる。

当該映像音声処理方法は、映像音声処理装置によって実行される映像音声処理方法であって、前記映像音声処理装置は、映像信号を出力する映像出力部と、前記映像信号に対応する音声信号を出力する音声出力部と、前記映像信号に対応する前記音声信号を、前記映像音声処理装置の外部の音声再生装置に送信する音声送信部とを備え、前記映像音声処理方法は、前記映像音声処理装置の動作モードが、前記音声出力部から前記音声が出力され、かつ、前記音声送信部から前記音声信号が送信される第一モードである期間に、前記音声出力部から出力される音声信号を遅延させる量である音声遅延量を特定する遅延情報の入力を受け付ける受付ステップと、前記受付ステップにおいて受け付けられた前記遅延情報によって特定される前記音声遅延量に応じて前記音声出力部から出力される音声信号を遅延させる音声遅延ステップと、前記映像音声処理装置の動作モードが、前記映像出力部から前記映像信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第二モードである期間に、前記映像出力部から出力される映像信号を前記音声遅延量に応じた映像遅延量だけ遅延させる映像遅延ステップとを含む映像音声処理方法である。

以上、本発明の一態様に係る映像音声処理装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の一態様の範囲内に含まれてもよい。

本発明は、放送波またはネットワーク経由で送信されるＡＶコンテンツを再生するテレビ、および、Ｂｌｕ−ｒａｙＤｉｓｃ（登録商標）等の光ディスク、フラッシュメモリ等の半導体メモリ、またはハードディスク等の記録媒体に記憶されたＡＶコンテンツを再生するレコーダまたはプレーヤ等のＡＶ機器が備える映像音声処理装置として有用である。

１０ＡＶシステム
１００テレビ
１１０映像音声処理装置
１１１映像出力部
１１２音声出力部
１１３音声送信部
１１４制御部
１１５受付部
１１６音声遅延部
１１７映像遅延部
１１８映像信号処理部
１１９音声信号処理部
１３０記憶部
１３１映像遅延情報
１５０ディスプレイ
１５１ユーザインターフェース画面
１５２設定値表示フィールド
１６０、２２０スピーカ
１７０リモコン
２００、２０１、２０２ヘッドホン
２１０受信部

Claims

映像音声処理装置であって、
映像信号を出力する映像出力部と、
前記映像信号に対応する音声信号を出力する音声出力部と、
前記映像信号に対応する前記音声信号を、前記映像音声処理装置の外部の音声再生装置に送信する音声送信部と、
前記映像音声処理装置の動作モードを、（ａ）前記音声出力部から前記音声信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第一モード、および、（ｂ）前記映像出力部から前記映像信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第二モードの一方から他方へ切り換える制御部と、
前記動作モードが前記第一モードである期間に、前記音声出力部から出力される音声信号を遅延させる量である音声遅延量を特定する遅延情報の入力を受け付ける受付部と、
前記受付部が受け付けた前記遅延情報によって特定される前記音声遅延量に応じて前記音声出力部から出力される音声信号を遅延させる音声遅延部と、
前記動作モードが前記第二モードである期間に、前記映像出力部から出力される映像信号を前記音声遅延量に応じた映像遅延量だけ遅延させる映像遅延部とを備え、
前記音声出力部は、前記第一モードである期間に、前記音声出力部から出力される音声信号の遅延の調整のための、時系列上で変化する調整用の音声信号を出力し、
前記音声送信部は、前記第一モードである期間に、前記調整用の音声信号を送信し、
前記映像出力部は、前記動作モードが前記第一モードである期間に、ユーザによる所定の操作のためのユーザインターフェース画面であって、前記調整用の音声信号の変化に同期して動く調整用の動画を含むユーザインターフェース画面を示す映像信号を出力し、
前記受付部は、ユーザの前記所定の操作により入力される前記遅延情報の入力を受け付ける
映像音声処理装置。
前記映像出力部は、音声遅延部により、前記音声出力部から出力される前記音声信号が遅延された場合、前記音声信号に追随して遅延させた前記調整用の動画を含むユーザインターフェース画面を示す映像信号を出力する
請求項１記載の映像音声処理装置。
前記映像遅延部は、前記音声遅延量以下の値である前記映像遅延量だけ前記映像出力部から出力される前記映像信号を遅延させる
請求項１記載の映像音声処理装置。
前記音声遅延部は、前記映像信号のフレームレートから算出される１フレーム分の時間の整数倍に対応する前記音声遅延量に応じて前記音声出力部から出力される前記音声信号を遅延させる
請求項１記載の映像音声処理装置。
前記映像遅延部は、前記音声遅延量より大きな前記映像遅延量だけ前記映像出力部から出力される前記映像信号を遅延させ、
前記音声送信部は、前記音声遅延量と前記映像遅延量との差分に応じた値だけ、前記音声送信部から送信される前記音声信号を遅延させる
請求項１記載の映像音声処理装置。
前記映像遅延部は、前記音声遅延量以下である前記映像遅延量であって、前記映像信号のフレームレートから算出される１フレーム分の時間の整数倍に対応する前映像遅延量だけ前記映像出力部から出力される前記映像信号を遅延させる
請求項１記載の映像音声処理装置。
前記受付部は、前記遅延情報として、前記音声信号を受信して再生する前記外部の音声再生装置から出力される音声の信号である再生音信号の入力を受け付け、
前記映像遅延部は、前記再生音信号と、前記音声遅延部が遅延させる前の前記音声信号との間の遅延量である前記音声遅延量に応じた前記映像遅延量だけ、前記映像出力部から出力される前記映像信号を遅延させる
請求項１記載の映像音声処理装置。
さらに、前記映像遅延量を示す情報である映像遅延情報を記憶する記憶部を備え、
前記映像遅延部は、前記動作モードが前記第二モードである期間に、前記記憶部から読み出した前記映像遅延情報に示される前記映像遅延量だけ、前記映像出力部から出力される前記映像信号を遅延させる
請求項１記載の映像音声処理装置。
前記記憶部は、前記音声再生装置を含む複数の音声再生装置のそれぞれに対応する複数の映像遅延量を示す前記映像遅延情報を記憶し、
前記映像遅延部は、前記動作モードが前記第二モードであって、かつ、前記音声送信部が、前記複数の音声再生装置のそれぞれに同時に前記音声信号を送信する場合、（ｃ）前記記憶部に記憶されている前記映像遅延情報に示される前記複数の映像遅延量のうち、最も大きな映像遅延量を選択し、（ｄ）前記映像出力部から出力される前記映像信号を、選択した映像遅延量だけ遅延させる
請求項８記載の映像音声処理装置。
映像音声処理装置によって実行される映像音声処理方法であって、
前記映像音声処理装置は、映像信号を出力する映像出力部と、前記映像信号に対応する音声信号を出力する音声出力部と、前記映像信号に対応する前記音声信号を、前記映像音声処理装置の外部の音声再生装置に送信する音声送信部とを備え、
前記映像音声処理方法は、
前記映像音声処理装置の動作モードが、前記音声出力部から前記音声信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第一モードである期間に、前記音声出力部から出力される音声信号を遅延させる量である音声遅延量を特定する遅延情報の入力を受け付ける受付ステップと、
前記受付ステップにおいて受け付けられた前記遅延情報によって特定される前記音声遅延量に応じて前記音声出力部から出力される音声信号を遅延させる音声遅延ステップと、
前記映像音声処理装置の動作モードが、前記映像出力部から前記映像信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第二モードである期間に、前記映像出力部から出力される映像信号を前記音声遅延量に応じた映像遅延量だけ遅延させる映像遅延ステップとを含み、
前記音声出力部は、前記第一モードである期間に、前記音声出力部から出力される音声信号の遅延の調整のための、時系列上で変化する調整用の音声信号を出力し、
前記音声送信部は、前記第一モードである期間に、前記調整用の音声信号を送信し、
さらに、前記動作モードが前記第一モードである期間に、前記映像出力部が、ユーザによる所定の操作のためのユーザインターフェース画面であって、前記調整用の音声信号の変化に同期して動く調整用の動画を含むユーザインターフェース画面を示す映像信号を出力する、ユーザインターフェース画面出力ステップを含み、
前記受付ステップでは、ユーザの前記所定の操作により入力される前記遅延情報の入力を受け付ける
映像音声処理方法。