JP5957760B2 - 映像音声処理装置 - Google Patents

映像音声処理装置 Download PDF

Info

Publication number
JP5957760B2
JP5957760B2 JP2012051943A JP2012051943A JP5957760B2 JP 5957760 B2 JP5957760 B2 JP 5957760B2 JP 2012051943 A JP2012051943 A JP 2012051943A JP 2012051943 A JP2012051943 A JP 2012051943A JP 5957760 B2 JP5957760 B2 JP 5957760B2
Authority
JP
Japan
Prior art keywords
video
audio
unit
delay
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012051943A
Other languages
English (en)
Other versions
JP2013187765A (ja
Inventor
田中 俊介
俊介 田中
豪 山田
豪 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2012051943A priority Critical patent/JP5957760B2/ja
Priority to PCT/JP2012/007669 priority patent/WO2013132562A1/ja
Priority to US14/376,575 priority patent/US20140376873A1/en
Publication of JP2013187765A publication Critical patent/JP2013187765A/ja
Application granted granted Critical
Publication of JP5957760B2 publication Critical patent/JP5957760B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43076Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of the same content streams on multiple devices, e.g. when family members are watching the same movie on different devices
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B31/00Arrangements for the associated working of recording or reproducing apparatus with related apparatus
    • G11B31/006Arrangements for the associated working of recording or reproducing apparatus with related apparatus with video camera or receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44227Monitoring of local network, e.g. connection or bandwidth variations; Detecting new devices in the local network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Receiver Circuits (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本願発明は、映像音声処理装置に関し、特に再生時における映像信号と音声信号との同期のための処理を行う映像音声処理装置に関する。
従来、映像信号および音声信号を処理して出力する映像音声処理装置が存在する。このような映像音声処理装置では、例えば、映像信号と音声信号とを互いに異なる機器に出力して、それぞれに映像または音声を再生させる場合がある。この場合、再生時における映像信号と音声信号との同期(例えば、「リップシンク」と呼ばれる)が問題となる。
そこで、再生時における映像信号と音声信号とを同期させるための技術も開示されている。例えば、特許文献1には、音声信号を遅延させることで再生映像と再生音とのずれを低減させる音声映像伝送装置について記載されている。
特開2004−88442号公報
ここで、例えば、ある放送番組をテレビのディスプレイに表示させながら、当該テレビから送信される当該放送番組の音声信号を、当該テレビの外部機器(外部スピーカ、または、ヘッドホンなど)に受信させて再生させる場合を想定する。この場合、当該外部機器で再生される音声信号が、当該ディスプレイに表示される映像信号に対して遅れる場合がある。
このような場合、例えば、映像信号をどの程度遅らせればいいのか等の調整量の決定は容易ではなく、当該調整を効率よく行うことは困難である。
本発明は、上記従来の課題を考慮し、再生時における映像信号と音声信号との同期のための処理を効率よく実行することができる映像音声処理装置を提供することを目的とする。
上記目的を達成するために、本発明の一態様に係る映像音声処理装置は、映像音声処理装置であって、映像信号を出力する映像出力部と、前記映像信号に対応する音声信号を出力する音声出力部と、前記映像信号に対応する前記音声信号を、前記映像音声処理装置の外部の音声再生装置に送信する音声送信部と、前記映像音声処理装置の動作モードを、(a)前記音声出力部から前記音声信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第一モード、および、(b)前記映像出力部から前記映像信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第二モードの一方から他方へ切り換える制御部と、前記動作モードが前記第一モードである期間に、前記音声出力部から出力される音声信号を遅延させる量である音声遅延量を特定する遅延情報の入力を受け付ける受付部と、前記受付部が受け付けた前記遅延情報によって特定される前記音声遅延量に応じて前記音声出力部から出力される音声信号を遅延させる音声遅延部と、前記動作モードが前記第二モードである期間に、前記映像出力部から出力される映像信号を前記音声遅延量に応じた映像遅延量だけ遅延させる映像遅延部とを備える。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたは記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本発明の映像音声処理装置によれば、再生時における映像信号と音声信号との同期のための処理を効率よく実行することができる。
図1は、実施の形態におけるAV(Audio Visual)システムの構成概要を示す図である。 図2は、実施の形態におけるAVシステムの基本的な機能構成を示すブロック図である。 図3は、実施の形態の映像音声処理装置における基本的な処理の流れを示すフロー図である。 図4は、実施の形態の映像音声処理装置が出力するユーザインターフェース画面の一例を示す図である。 図5は、実施の形態の映像音声処理装置が行う映像信号と音声信号の同期調整を説明するための図である。 図6は、1フレーム時間と、スピーカおよびヘッドホンの間の出音タイミングのずれ量との関係を示す図である。 図7は、実施の形態における映像音声処理装置が記憶部を備える場合の基本的な機能構成を示すブロック図である。 図8は、実施の形態のAVシステムが複数の音声再生装置を備える場合の構成概要を示す図である。 図9は、実施の形態における映像遅延情報のデータ構成例を示す図である。 図10は、実施の形態における映像音声処理装置が遅延情報として再生音信号を取得する場合の基本的な機能構成を示すブロック図である。
(本発明の基礎となった知見)
本発明者は、再生時における映像信号と音声信号との同期に関し、以下の問題が生じることを見出した。
例えばデジタルテレビ放送における放送番組は、当該放送番組に対応する映像信号および音声信号とともに、映像信号と音声信号とを同期させるための信号を含むストリームによって、各テレビに送信される。そのため、当該放送番組をテレビ単体で再生する場合には、一般にリップシンクの問題は発生しない。
しかし、上述のように、例えば、テレビで当該映像信号を再生させながら当該テレビから送信される当該音声信号を外部機器(音声再生装置)で受信させて再生させる場合、当該テレビにおける再生映像に対して、当該音声再生装置における再生音が遅れる場合がある。
この遅れは、例えば、当該テレビと当該音声再生装置との間の通信手順(通信エラー時の音声信号の再送など)、または、当該音声再生装置における音声信号の処理(音切れ防止のための音声信号のバッファリングなど)に起因して発生する。
このように、再生映像に対して再生音が遅れた場合、上記の当該遅れの要因を考慮すると、再生音の出力を早めることは現実的ではなくかつ困難である。
そのため、再生映像を遅延させることで、再生映像と再生音との再生タイミングの一致を図ることが考えられる。つまり、映像信号をディスプレイに出力し、かつ、音声信号を外部の音声再生装置に送信する映像音声処理装置において、映像信号の出力を遅延させることで、再生時における映像信号と音声信号との同期を図ることが考えられる。
しかしながら、この場合、例えば、ユーザは、音声再生装置で再生される音を聞きながら、再生映像を遅らせるように、当該映像音声処理装置に、映像信号の遅延量を入力する必要がある。
例えば、ユーザは、音声再生装置で再生される人物の声を聞きながら、その声と、テレビでの再生映像における当該人物の唇の動きとを合わせるように、映像信号の遅延量を調整する。
つまり、聴覚と視覚とを同時に働かせながら、聴覚でとらえた音声の特徴点と、視覚でとらえた映像の特徴点とを時系列上で一致させようとする容易ではない作業が行われる。
その結果、当該映像音声処理装置では、聴覚および視覚でとらえる音声および映像についてのユーザの違和感がなくなるまで、遅延量の増加および減少を繰り返すという、非効率的な処理が発生することとなる。
さらに、音声信号を受信して再生する音声再生装置が変更になると、当該遅延量も変わるため、音声再生装置の変更のたびに、非効率的な処理が発生するという問題が生じる。
このような問題を解決するために、本発明の一態様に係る映像音声処理装置は、映像音声処理装置であって、映像信号を出力する映像出力部と、前記映像信号に対応する音声信号を出力する音声出力部と、前記映像信号に対応する前記音声信号を、前記映像音声処理装置の外部の音声再生装置に送信する音声送信部と、前記映像音声処理装置の動作モードを、(a)前記音声出力部から前記音声信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第一モード、および、(b)前記映像出力部から前記映像信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第二モードの一方から他方へ切り換える制御部と、前記動作モードが前記第一モードである期間に、前記音声出力部から出力される音声信号を遅延させる量である音声遅延量を特定する遅延情報の入力を受け付ける受付部と、前記受付部が受け付けた前記遅延情報によって特定される前記音声遅延量に応じて前記音声出力部から出力される音声信号を遅延させる音声遅延部と、前記動作モードが前記第二モードである期間に、前記映像出力部から出力される映像信号を前記音声遅延量に応じた映像遅延量だけ遅延させる映像遅延部とを備える。
この構成によれば、映像音声処理装置が第一モードで動作中に出力される、例えば音声出力部に接続されたスピーカからの音声と、外部の音声再生装置からの音声との比較の結果から得られる遅延情報を、映像音声処理装置に入力することができる。
つまり、映像信号との同期の問題のない音声信号であって、音声出力部から出力される音声信号に基づく音声(第一音声)と、外部の音声再生装置からの音声(第二音声)とのずれ量(音声遅延量)を特定する遅延情報が映像音声処理装置に入力される。さらに、当該音声遅延量に応じて映像信号が遅延される。
簡単にいうと、外部の音声再生装置からの第二音声と、映像出力部に接続されたディスプレイに表示される映像との間のずれ量が、当該第二音声と当該映像との比較ではなく、当該第二音声と、当該映像と同期が保障された第一音声との比較によって決定される。
ここで、人間は、ある音源の発生位置等の特定に、当該音源から発生し、僅かに時間をあけて耳に到達する2つの音の時間差を利用するため、音の時間的なずれを知覚する能力が優れているという特長を有する。そのため、第一音声と第二音声とを高い精度で一致させることが可能である。すなわち、上記比較を人間が行った場合であっても、第二音声とタイミングが一致するように、第一音声を遅延させることは容易である。
従って、第一音声を第二音声に同期させるための音声遅延量の決定は容易化され、その結果、第二音声と、当該映像信号に基づく再生映像との同期のための映像遅延量の決定も容易化される。
もちろん、人間ではなく、機械的に音声遅延量を決定する場合であっても、例えば、第一音声および第二音声の音圧レベルのピークのタイミングの比較等によって、容易に特定することができる。つまり、音声解析の結果と、映像解析の結果とを比較するような複雑な処理なしに、音声遅延量は決定され、その結果、第二音声と、当該映像信号に基づく再生映像との同期のための映像遅延量の決定も容易化される。
以上のように、本態様の映像音声処理装置は、再生時における映像信号と音声信号との同期のための映像遅延量を効率よく特定することができ、その結果、当該同期のための処理を効率よく実行することができる。
また、例えば、前記映像出力部は、前記動作モードが前記第一モードである期間に、ユーザによる所定の操作のためのユーザインターフェース画面を示す映像信号を出力し、前記受付部は、ユーザの前記所定の操作により入力される前記遅延情報の入力を受け付けるとしてもよい。
この構成によれば、映像音声処理装置は、例えば、リップシンクのための調整作業を、ユーザに効率よく行わせることができる。
また、例えば、前記映像遅延部は、前記音声遅延量以下の値である前記映像遅延量だけ前記映像出力部から出力される前記映像信号を遅延させるとしてもよい。
この構成によれば、映像遅延量は、リップシンクのための厳密な遅延量よりも小さくなる可能性があるが、少なくとも、音声が映像に先行する事態が防止される。例えば、人物が喋っている映像において、人物が口を動かす前に発話音が外部の音声再生装置で再生されるような、極めて不自然な状況の発生が防止される。
また、例えば、前記音声遅延部は、前記映像信号のフレームレートから算出される1フレーム分の時間の整数倍に対応する前記音声遅延量に応じて前記音声出力部から出力される前記音声信号を遅延させるとしてもよい。
この構成によれば、例えば、映像の遅延がフレーム単位で行われる場合に、音声遅延量をそのまま映像遅延量として用いることができる。つまり、映像信号と音声信号との同期に係る処理負荷が軽減される。
また、例えば、前記映像遅延部は、前記音声遅延量より大きな前記映像遅延量だけ前記映像出力部から出力される前記映像信号を遅延させ、前記音声送信部は、前記音声遅延量と前記映像遅延量との差分に応じた値だけ、前記送信部から送信される前記音声信号を遅延させるとしてもよい。
この構成によれば、例えば以下のような効果を生ずる。例えば映像遅延量が定数の整数倍として決定される場合、音声遅延量が厳密な遅延量と同一視できる場合であっても、映像遅延量を、音声遅延量と一致させられない場合がある。
このような場合であっても、映像遅延量を音声遅延量より大きな値として決定し、かつ、音声送信部から送信される音声信号を遅延させることで、映像遅延量を厳密な遅延量に近づける場合と同じ効果が生ずる。つまり、リップシンクの精度が向上される。
また、例えば、前記映像遅延部は、前記音声遅延量以下である前記映像遅延量であって、前記映像信号のフレームレートから算出される1フレーム分の時間の整数倍に対応する前映像遅延量だけ前記映像出力部から出力される前記映像信号を遅延させるとしてもよい。
この構成によれば、映像遅延量が、当該映像信号におけるフレームレートに応じて決定されるため、当該映像信号の遅延処理がフレーム単位で行われる。つまり、当該遅延処理の煩雑化が抑制される。
また、例えば、前記受付部は、前記遅延情報として、前記音声信号を受信して再生する前記外部の音声再生装置から出力される音声の信号である再生音信号の入力を受け付け、前記映像遅延部は、前記再生音信号と、前記音声遅延部が遅延させる前の前記音声信号との間の遅延量である前記音声遅延量に応じた前記映像遅延量だけ、前記映像出力部から出力される前記映像信号を遅延させるとしてもよい。
この構成によれば、外部の音声再生装置から得られる再生音信号が遅延情報として用いられる。そのため、例えば、映像音声処理装置による、リップシンクの自動化が可能となる。
また、例えば、本発明の一態様に係る映像音声処理装置はさらに、前記映像遅延量を示す情報である映像遅延情報を記憶する記憶部を備え、前記映像遅延部は、前記動作モードが前記第二モードである期間に、前記記憶部から読み出した前記映像遅延情報に示される前記映像遅延量だけ、前記映像出力部から出力される前記映像信号を遅延させるとしてもよい。
この構成によれば、映像音声処理装置において決定された映像遅延量が記憶される。そのため、例えば、映像音声処理装置からの音声信号の送信先として複数の音声再生装置が存在する場合、当該複数の音声再生装置のそれぞれに対応する映像遅延量を記憶部に記憶させておくことができる。
その結果、映像音声処理装置は、音声信号の送信先の音声再生装置が変更になった場合であっても、適切な映像遅延量を用いた映像信号の遅延処理を行うことができる。
また、例えば、前記記憶部は、前記音声再生装置を含む複数の音声再生装置のそれぞれに対応する複数の映像遅延量を示す前記映像遅延情報を記憶し、前記映像遅延部は、前記動作モードが前記第二モードであって、かつ、前記音声送信部が、前記複数の音声再生装置のそれぞれに同時に前記音声信号を送信する場合、(c)前記記憶部に記憶されている前記映像遅延情報に示される前記複数の映像遅延量のうち、最も大きな映像遅延量を選択し、(d)前記映像出力部から出力される前記映像信号を、選択した映像遅延量だけ遅延させるとしてもよい。
この構成によれば、例えば以下のような効果を生ずる。例えば複数のユーザが、映像出力部に接続された一つのディスプレイに表示された映像を見ながら、それぞれが装着する、映像音声処理装置と無線通信するヘッドホンで音声を聞く場合を想定する。
この場合、ヘッドホンごとに音声の遅延量が異なるため、これらヘッドホンそれぞれに対応する映像遅延量も異なるが、これら映像遅延量のうちの最大値に応じて映像信号が遅延される。つまり、少なくとも、これらヘッドホンそれぞれからの再生音が、当該ディスプレイに表示される映像に先行するような極めて不自然な事態の発生は抑制される。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたは記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
(実施の形態)
以下、実施の形態の映像音声処理装置を、図面を参照しつつ説明する。なお、各図は、模式図であり、必ずしも厳密に図示したものではない。
また、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
図1は、実施の形態におけるAV(Audio Visual)システム10の構成概要を示す図である。
図2は、実施の形態におけるAVシステム10の基本的な機能構成を示すブロック図である。
図1に示すように、実施の形態におけるAVシステム10は、テレビ100とヘッドホン200とを備える。
テレビ100は、放送番組等のAVコンテンツを受信して再生する装置であり、映像音声処理装置110と、ディスプレイ150と、スピーカ160とを備える。
ヘッドホン200は、映像音声処理装置110の外部の音声再生装置の一例である。ヘッドホン200は、映像音声処理装置110から送信される音声信号を受信する受信部210と、受信部210が受信した音声信号の再生音を出力するスピーカ220とを有する。
なお、ヘッドホン200は右耳用と左耳用の2つのスピーカ220を有しているが、図2では、いずれか一方のスピーカ220の図示は省略している。
ユーザは、ヘッドホン200でAVコンテンツの音声を聞きながら、当該AVコンテンツの映像をテレビ100のディスプレイ150で見ることができる。
なお、映像音声処理装置110とヘッドホン200との間の通信規格としては、例えば、Bluetooth(登録商標)が採用される。
映像音声処理装置110は、図2に示すように、映像出力部111と、音声出力部112と、音声送信部113と、制御部114と、受付部115と、音声遅延部116と、映像遅延部117と、映像信号処理部118と、音声信号処理部119とを備える。
映像出力部111は、映像信号を出力する。本実施の形態では、映像出力部111は、映像信号処理部118から映像遅延部117を介して取得した映像信号を、ディスプレイ150に出力する。その結果、当該映像信号に基づく映像がディスプレイ150に表示される。
音声出力部112は、当該映像信号に対応する音声信号を出力する。本実施の形態では、音声出力部112は、音声信号処理部119から音声遅延部116を介して取得した音声信号を、スピーカ160に出力する。その結果、当該音声信号に基づく音声、つまり、ディスプレイ150に表示される映像に対応する音声がスピーカ160から出力される。
音声送信部113は、当該映像信号に対応する音声信号を、映像音声処理装置110の外部の音声再生装置であるヘッドホン200に送信する。
本実施の形態では、音声送信部113は、音声信号処理部119から取得した音声信号を、ヘッドホン200に送信する。その結果、当該音声信号に基づく音声がヘッドホン200から出力される。
具体的には、ヘッドホン200では、音声送信部113から送信された音声信号を受信部210が受信し、音声の再生のための所定の処理を行う。これにより、例えばディスプレイ150に表示される映像に対応する音声が、ヘッドホン200が備えるスピーカ220から出力される。
制御部114は、映像音声処理装置110の動作モードを調整モードおよび視聴モードの一方から他方へ切り換える。また、制御部114は、映像出力部111等の映像音声処理装置110が備える各構成要素の制御も行う。
なお、調整モードは、第一モードの一例であり、音声出力部112から音声信号が出力され、かつ、音声送信部113から音声信号が送信される動作モードである。具体的には、後述する、リップシンクのための調整(以下、「同期調整」という。)を実行する場合の動作モードである。
また、視聴モードは、第二モードの一例であり、映像出力部111から映像信号が出力され、かつ、音声送信部113から音声信号が送信される動作モードである。つまり、ユーザが、ディスプレイ150に表示された映像を見ながら、ヘッドホン200で当該映像に対応する音声を聞く場合の動作モードである。
本実施の形態では、視聴モードでは、スピーカ160からの音声出力は停止される。
なお、映像音声処理装置110は、ディスプレイ150とスピーカ160とを用いてAVコンテンツをユーザに視聴させる通常の動作モード(通常モード)でも動作する。しかし、当該通常モードは、テレビ100としての一般的な動作モードであるためその説明は省略する。
受付部115は、動作モードが調整モードである期間に、音声出力部112から出力される音声信号を遅延させる量である音声遅延量を特定する遅延情報の入力を受け付ける。
本実施の形態では、調整モードにおいて、当該遅延情報の入力のためのユーザインターフェース画面がディスプレイ150に表示される。ユーザインターフェース画面については図4を用いて後述する。
音声遅延部116は、受付部115が受け付けた遅延情報によって特定される音声遅延量に応じて、音声出力部112から出力される音声信号を遅延させる。つまり、スピーカ160から出力される音声が、当該音声遅延量に応じて遅延される。
映像遅延部117は、動作モードが視聴モードである期間に、映像出力部111から出力される映像信号を当該音声遅延量に応じた映像遅延量だけ遅延させる。つまり、調整モードにおいて決定された音声遅延量に応じて、ディスプレイ150に表示される映像が遅延される。
本実施の形態の映像音声処理装置110は、上記構成を有することで、リップシンクのための処理、つまり、再生時における映像信号と音声信号との同期のための処理を効率よく実行することができる。
具体的には、本実施の形態では、上述のように音声信号の送信の通信規格として、Bluetooth(登録商標)が採用されている。
また、ヘッドホン200では音声信号のバッファリングが行われており(バッファは図2に図示せず)、これにより、ヘッドホン200では、ヘッドホン200で再生されるべき音声信号が途切れることなく再生される。
しかしながら、音声信号のバッファリング等の処理に起因して、ヘッドホン200での再生音が本来的な再生タイミングより遅れて再生され得る。その結果、ディスプレイ150での再生映像と、ヘッドホン200での再生音との間にずれが生じ得る。
そこで、本実施の形態の映像音声処理装置110では、音声遅延部116と映像遅延部117との処理により、ディスプレイ150での再生映像と、ヘッドホン200での再生音との間の同期のための処理を効率よく実行することができる。
なお、本実施の形態では、映像信号処理部118は、例えば、テレビ100が有するチューナ(図示せず)から受け取ったストリームから映像信号を取得し、映像遅延部117に出力する。また、音声信号処理部119は、当該ストリームから音声信号を取得し、音声遅延部116に出力する。
つまり、映像信号処理部118および音声信号処理部119は、テレビ100で再生される映像および音声のソースである信号を映像音声処理装置110に与える装置であり、映像音声処理装置110の外部に備えられていてもよい。つまり、映像信号処理部118および音声信号処理部119は、映像音声処理装置110に必須の要素ではない。
以下、図3〜図6を用いて、本実施の形態の映像音声処理装置110の処理の流れを説明する。
図3は、実施の形態の映像音声処理装置110における基本的な処理の流れを示すフロー図である。
制御部114は、例えばユーザからの指示により、映像音声処理装置110の動作モードを視聴モードから調整モードに切り換える(S1)。
動作モードが調整モードである期間に、受付部115は、ユーザの所定の操作により、遅延情報の入力を受け付ける(S2)。例えば、“200milli second(msec)”という音声遅延量そのもの、または、“+12”等の音声遅延量の大きさを表す数値等が、遅延情報として入力される。
音声遅延部116は、当該遅延情報によって特定される音声遅延量に応じて音声出力部112から出力される音声信号を遅延させる(S3)。
その後、制御部114は、例えばユーザからの指示により、音声遅延量を決定した後で映像音声処理装置110の動作モードを調整モードから視聴モードに切り換える(S4)。
映像遅延部117は、動作モードが視聴モードである期間に、映像出力部111から出力される映像信号を当該音声遅延量に応じた映像遅延量だけ遅延させる(S5)。
以上の処理を実行する映像音声処理装置110の具体的な動作を、図4および図5を参照しながら説明する。
図4は、実施の形態の映像音声処理装置110が出力するユーザインターフェース画面151の一例を示す図である。
図5は、実施の形態の映像音声処理装置110が行う同期調整を説明するための図である。
映像音声処理装置110は、調整モードで動作する場合、図4に示すようなユーザインターフェース画面151を、ディスプレイ150に出力する。
また、この調整モードでは、スピーカ160およびヘッドホン200の双方から、同期調整のための音声として、例えば所定の間隔ごと(例えば、1sec〜2secごと)のパルス音が出力される。
また、スピーカ160から出力される所定の間隔ごとのパルス音に同期して、例えば、図5に示すような、ボールが床面で跳ね返されることで単振動する動画がユーザインターフェース画面151に表示される。具体的には、ボールが床面に当たるタイミングでスピーカ160からパルス音が出力される。
また、同期調整が完了されていない時点では、図5の(a)に示すように、ヘッドホン200からの出音のタイミングは、スピーカ160からの出音のタイミングに対して遅れている。
従って、ユーザは、例えば、左右の一方の耳で、ヘッドホン200からの音声を聞きながら、他方の耳で、スピーカ160からの音声を聞いた場合、左右の耳で知覚される音声の間に時間的なずれがあることが認識される。
このような状況において、例えばユーザがテレビ100のリモコン170の十字キーを操作することで、遅延情報が映像音声処理装置110に入力される。
図4に示す例では、ユーザインターフェース画面151には、音声遅延量を特定する遅延情報として、設定値“+12”が、設定値表示フィールド152に表示されている。この設定値は、例えばユーザがリモコン170の十字キーを操作することで変更される。さらに、当該設定値が遅延情報として受付部115に受け付けられる。
具体的には、正の整数である設定値に単位遅延量dを乗じた値が、音声遅延量として扱われる。単位遅延量dは、例えば、映像出力部111から出力される映像信号のフレームレートから算出される1フレーム分の時間(以下、「1フレーム時間」という。)である。
例えば、当該フレームレートが60Frames/secである場合、単位遅延量dは、1フレーム時間である(50/3(=16.66666...))msecである。そのため、設定値が“12”である場合、(50/3)msecに12を乗じた結果である200msecが音声遅延量として算出される。なお、この算出は、例えば、受付部115、制御部114、または音声遅延部116によって行われる。
音声遅延部116は、このようにして得られた音声遅延量に応じて、音声信号処理部119から受信する音声信号を遅延させる。その結果、音声出力部112から出力される音声信号が遅延される。
例えば、音声遅延部116による遅延の単位が0.1msecであれば、音声出力部112から出力される音声信号が、200.0msecだけ遅延される。なお、音声遅延量と実際の音声の遅延量とが厳密に一致しなくてもよい。例えば、音声遅延部116による遅延の単位が3msecである場合、実際の音声の遅延量が201msecであってもよい。
このように、ユーザにより入力される遅延情報(設定値)に応じて、音声出力部112から出力される音声信号が遅延され、その結果、スピーカ160から出力される音声が遅延される。
そのため、ユーザは、スピーカ160からの音声とヘッドホン200からの音声の間に時間的なずれが最も小さくなるように、設定値を変更することができる。
その結果、図5の(b)に示すように、当該時間的なずれが最も小さくなると知覚される音声遅延量Dが決定される。例えば、設定値が“+12”である場合に、ユーザによりリモコン170の所定のボタンが押下されることで、設定値“+12”が、同期調整のための遅延情報として決定される。つまり、設定値“+12”に対応する“200msec”が、音声遅延量Dとして特定される。
また、このように特定された音声遅延量Dだけ音声出力部112から出力される音声信号が遅延され、これにより、図5の(b)に示すように、ヘッドホン200からの出音のタイミングとスピーカ160からの出音のタイミングとが一致(略一致も含む、以下同じ)する。つまり、ヘッドホン200とスピーカ160との間における音声信号の同期がなされる。
制御部114は、このように特定された音声遅延量Dを取得し、映像遅延部117に送信する。
映像遅延部117は、受信した音声遅延量Dに応じて映像遅延量Vを決定し、映像信号処理部118から受信する映像信号を映像遅延量Vだけ遅延させる。その結果、映像出力部111から出力される映像信号が映像遅延量Vだけ遅延される。
ここで、上記のように、単位遅延量dが映像信号における1フレーム時間である場合、つまり、音声遅延量Dが、当該1フレーム時間の整数倍の値である場合、例えば、音声遅延量Dがそのまま映像遅延量Vとして扱われる。
例えば、音声遅延量Dが“200msec”である場合、映像遅延量Vも“200msec”と決定される。
この場合、映像遅延部117は、映像信号を映像信号処理部118から受信して12フレーム遅延させて映像出力部111に出力する。これにより、映像出力部111からディスプレイ150に出力される映像信号は、映像遅延量Vである“200msec”だけ遅延される。
なお、単位遅延量dが映像信号における1フレーム時間である場合、映像遅延部117は、音声遅延量Dそのものではなく、単位遅延量dに乗算される設定値を受け取ってもよい。例えば、設定値が“+12”である場合、当該設定値を受け取った映像遅延部117は、映像遅延量Vとして“+12”を決定し、上記のように映像信号を12フレーム遅延させる。
その結果、映像出力部111からディスプレイ150に出力される映像信号は、音声遅延量Dと同じ値である“200msec”だけ遅延される。
このように、映像遅延部117が、音声遅延量Dに応じた映像遅延量Vだけ映像信号を遅延させることで、ヘッドホン200からの出音のタイミングとディスプレイ150での映像の表示のタイミングとが一致する。
ここで、本実施の形態においては、以上の映像遅延部117による映像信号の遅延処理は、調整モードでの動作期間中にも実行される。つまり、スピーカ160からのパルス音の出力のタイミングの変化に追随して、図4に示すユーザインターフェース画面151に表示されたボールが床面に当たるタイミングが変化する。
なお、映像遅延部117による映像信号の遅延処理は、少なくとも、映像音声処理装置110の動作モードが視聴モードである期間に行われればよい。つまり、調整モードにおいてスピーカ160およびヘッドホン200から出力される、同期調整用の音声に対応する映像(例えば、図4におけるボールの映像)は、ユーザインターフェース画面151に表示されていなくてもよい。
また、ユーザインターフェース画面151は、ディスプレイ150の表示領域の一部のみに表示されてもよい。例えば、通常の放送番組の映像に重畳させて、設定値表示フィールド152等の、設定値の入力および確認に必要なユーザインターフェース用の映像を表示させてもよい。この場合、同期調整用の音声として、当該放送番組の音声が用いられてもよい。
また、ユーザインターフェース画面151は必須ではなく、ディスプレイ150に表示される画像、テレビ100に設けられたランプ、またはスピーカ160からの音声等を介して、調整モードで動作中であることをユーザに知覚させてもよい。
この場合、ユーザは、調整モードで動作中であることを認識できるため、例えばリモコン170の十字キーを操作することで、スピーカ160からの音声を、ヘッドホン200からの音声と同期させるように、スピーカ160からの音声を遅延させることができる。
また、調整モードから視聴モードへの切り替えは、例えば、上述の、設定値の決定のための、リモコン170の所定のボタンの押下をトリガとして実行される。また、例えば、受付部115が受け付ける遅延情報(設定値)が変更されない期間が閾値を越えたことをトリガとして、調整モードから視聴モードに切り替えられてもよい。
映像音声処理装置110の動作モードが視聴モードとなった場合、ユーザは、上記のように遅延された映像をディスプレイ150で見ることができる。
具体的には、ヘッドホン200から出力される音声の、本来的な出力タイミングからのずれ量だけ遅延された映像がディスプレイ150に表示される。その結果、ヘッドホン200での再生音とディスプレイ150に表示される再生映像とは同期される。
なお、映像音声処理装置110の動作モードが視聴モードである場合に、スピーカ160からの音声出力を停止させずに継続させてもよい。この場合、音声遅延部116は、例えば上記の音声遅延量D(または映像遅延量V)だけ、音声出力部112から出力される音声信号を遅延させればよい。
これにより、ヘッドホン200を装着しているユーザが視聴するAVコンテンツを、当該ヘッドホン200を装着していないユーザにも視聴させることができる。つまり、当該ヘッドホン200を装着していないユーザに、ディスプレイ150に表示された再生映像と同期した音声を、スピーカ160によって提供することができる。
また、映像音声処理装置110とヘッドホン200との通信が終了した場合、例えば、当該通信の終了をトリガとして、映像音声処理装置110の視聴モードから通常モードに切り替わる。また、映像遅延部117は映像信号の遅延処理を終了する。
このように、本実施の形態の映像音声処理装置110は、同期調整において、スピーカ160からの音声とヘッドホン200からの音声との比較により、ヘッドホン200から出力される音声の本来的な出力タイミングからのずれ量が決定される。
つまり、ヘッドホン200での再生音との比較対象として、ヘッドホン200での再生音と同期されるべき映像そのものではなく、当該映像と同期が保障されたスピーカ160からの出力音が用いられ、これにより、当該映像の遅延量が決定される。
従って、本実施の形態の映像音声処理装置110によれば、再生時における映像信号と音声信号との同期のための処理を効率よく行うことができる。
なお、上記説明では、単位遅延量dとして、映像信号のフレームレートから算出される1フレーム時間が用いられるとした。しかしながら、単位遅延量dに特に限定はなく、例えば、1msecなどの、映像音声処理装置110が扱う映像信号の1フレーム時間よりも小さな数値であってもよい。
これにより、例えば、遅延情報として映像音声処理装置110に入力される値の厳密性を向上させることができる。つまり、音声遅延量Dとして、同期調整のためのより正確な値を決定することが可能となる。
ここで、このように、単位遅延量dとして1フレーム時間よりも小さな数値が採用された場合、音声遅延量Dは、1フレーム時間の整数倍にならない場合がある。
つまり、音声遅延量Dとして、厳密な同期のための正確な値が決定された場合であっても、上述のように映像遅延部117が映像信号をフレーム単位で遅延させる場合、ヘッドホン200での再生音とディスプレイ150に表示される再生映像とが、厳密には同期しないことになる。
そのため、映像遅延部117は、映像信号をフレーム単位で遅延させるのではなく、1フレーム時間よりも小さな単位で映像信号を遅延させてもよい。これにより、ヘッドホン200での再生音とディスプレイ150での再生映像とのより厳密な同期が可能となる。
また、例えば映像遅延部117による映像遅延の処理負荷を増加させないために、映像信号をフレーム単位で遅延させることを維持する場合、映像遅延量Vを、音声遅延量Dよりも小さな値に決定してもよい。これにより、少なくとも、ヘッドホン200からの再生音がディスプレイ150に表示される再生映像に先行するような極めて不自然な事象の発生は防止される。
図6は、1フレーム時間Sと、スピーカ160およびヘッドホン200の間の出音タイミングのずれ量との関係を示す図である。
例えば、スピーカ160からの音声とヘッドホン200からの音声との間の厳密な時間的なずれ量がD1である場合を想定する。この場合、スピーカ160からの音声とディスプレイ150の再生映像とは同期されているため、ディスプレイ150の再生映像とヘッドホン200からの音声との間の厳密な時間的なずれ量もD1であるとみなされる。
ここで、このD1を音声遅延量として示す遅延情報が、映像音声処理装置110に入力された場合を想定する。
この想定において、映像遅延部117が映像信号をフレーム単位で遅延させた場合、映像遅延量Vは1フレーム時間Sの整数倍である。つまり、図6において、t(0)を起点(映像遅延量=0)とした場合、t(0)と、t(1)・・・、t(n+1)、・・のいずれかの値が、映像遅延量Vとして決定される。なお、t(n)=S・n(nは正の整数)である。
この場合、例えば制御部114または映像遅延部117は、遅延情報によって特定される音声遅延量D1以下の値を、映像遅延量Vとして決定する。
図6に示す場合、音声遅延量D1以下であって、かつ、音声遅延量D1に最も近い、1フレーム時間Sのn倍である、t(n)が、映像遅延量Vとして決定される。
例えば、音声遅延量D1が210msecであり、1フレーム時間Sが(50/3)msecである場合、210msec以下であり、かつ、210msecに最も近い、(50/3)msecの12倍である、“200msec”が、映像遅延量Vとして決定される。なお、この場合、映像遅延量Vとしては、上述のように、“200msec”に対応するフレーム数である“12”が決定されてもよい。
このように、映像音声処理装置110に入力される遅延情報から特定される音声遅延量Dが定数の整数倍である場合、当該定数が小さいほど、音声遅延量Dは、リップシンクのための本来的な遅延量により近い値をとりうる。つまり、音声遅延量Dの厳密性を向上させることができる。
また、映像遅延量Vが1フレーム時間の整数倍である場合など、映像遅延量Vが、厳密性の高い音声遅延量Dの値と一致する値をとり得ない場合、上記のように、音声遅延量D以下であり、かつ、音声遅延量Dに近い値を映像遅延量Vとして決定する。これにより、ディスプレイ150とヘッドホン200との間のリップシンクの問題の発生は実質的に防止され、かつ、音声が映像より先行するような極めて不自然な状況の発生は防止される。
また、図6に示す場合において、音声遅延量D1より大きな値が、映像遅延量Vとして決定されてもよい。例えば、音声遅延量D1に最も近い、1フレーム時間Sの整数倍である、t(n+1)が、映像遅延量Vとして決定されてもよい。
この場合、例えば、音声送信部113からヘッドホン200に送信する音声信号を遅延させることで、ヘッドホン200での再生音とディスプレイ150での再生映像とを同期させることができる。
例えば、音声遅延量D1が186msecであり、1フレーム時間Sが(50/3)msecである場合において、186msecより大きく、かつ、(50/3)msecの整数倍(12倍)である、“200msec”が、映像遅延量Vとして決定された場合を想定する。
この場合、映像遅延量Vが音声遅延量D1よりも14msec大きいため、なんら手当てをしない場合、ヘッドホン200での再生音が、14msecだけ、ディスプレイ150での再生映像に先行することになる。
そこで、音声送信部113からヘッドホン200に送信する音声信号を、14msecだけ遅延させる。
これにより、音声遅延量D1が、リップシンクのための本来的な遅延量と同一である場合、理論上、ヘッドホン200での再生音とディスプレイ150での再生映像とは完全に同期する。また、音声遅延量D1の誤差を考慮した場合であっても、ヘッドホン200とディスプレイ150との間のリップシンクの厳密性は向上する。
つまり、簡単にいうと、映像音声処理装置110は、映像の遅延量を本来的な必要量よりも大きくし、かつ、ヘッドホン200への音声を遅延させることで、ヘッドホン200での再生音とディスプレイ150での再生映像とを厳密に同期させることも可能である。
また、以上説明した、映像音声処理装置110の同期調整において用いられた映像遅延量Vを記憶しておいてもよい。
図7は、実施の形態における映像音声処理装置110が記憶部130を備える場合の基本的な機能構成を示すブロック図である。
例えば、映像音声処理装置110の制御部114が、上記の同期調整において決定された映像遅延量Vを、映像遅延情報131として記憶部130に記憶させる。
これにより、その後、ヘッドホン200と映像音声処理装置110との間の通信が一旦終了した後に、ヘッドホン200と映像音声処理装置110とが通信を再開した場合、記憶された映像遅延量Vが用いられた自動的な同期調整が実行される。つまり、制御部114は、記憶部130から映像遅延量Vを読み出して、映像遅延部117に送信し、映像遅延部117に、映像遅延量Vに応じた映像信号の遅延を行わせることができる。
なお、記憶部130に記憶される映像遅延情報131は、映像遅延量Vそのものを示さなくてもよい。例えば、映像遅延量Vに対応する音声遅延量Dを示す映像遅延情報131が、記憶部130に記憶されてもよい。
また、映像音声処理装置110が、複数の音声再生装置と通信する場合、記憶部130は、これら複数の音声再生装置のそれぞれに対応する複数の映像遅延量を示す映像遅延情報131を記憶してもよい。
図8は、実施の形態のAVシステム10が複数の音声再生装置を備える場合の構成概要を示す図である。
図9は、実施の形態における映像遅延情報131のデータ構成例を示す図である。
図8に示すように、映像音声処理装置110を備えるテレビ100が、上記のヘッドホン200の他に、2つのヘッドホン(201、202)と通信する場合を想定する。
なお、ヘッドホン201および202のそれぞれについても、例えば映像音声処理装置110とのペアリングが終了した後に、図3〜図5を用いて説明した同期調整が実行されている。そのため、ヘッドホン201および202のそれぞれに対応する映像遅延量Vが求められている。
また、これら3つのヘッドホン(200、201、202)は、互いに機種が異なるため、または個体差により、それぞれの再生音の本来的な再生タイミングからのずれ量(遅延量)が互いに異なる。
そのため、図9に示すように、これら3つのヘッドホン(200、201、202)のそれぞれに対応する映像遅延量Vを示す映像遅延情報131を、それぞれの識別子である外部機器IDと対応付けて記憶部130に記憶させておく。なお、各ヘッドホン(200、201、202)の外部機器IDは、映像音声処理装置110と通信を開始する場合に、各ヘッドホン(200、201、202)から映像音声処理装置110に通知される。
また、図9に示す例では、ヘッドホン200の外部機器IDは、“H−A”であり、ヘッドホン201の外部機器IDは、“H−B”であり、ヘッドホン202の外部機器IDは、“H−C”である。
このような情報を含む映像遅延情報131を、記憶部130に記憶させておくことで、映像音声処理装置110は、音声信号の送信先のヘッドホンが変更になった場合であっても、適切な映像遅延量を用いた映像信号の遅延処理を行うことができる。
ここで、これら3つのヘッドホン(200、201、202)のうちの少なくとも2つが同時に映像音声処理装置110と通信する場合も考えられる。
例えば、3人のユーザのそれぞれがヘッドホン(200、201、または、202)を装着して、テレビ100のディスプレイ150に表示される映像を見る場合が考えられる。
この場合、映像音声処理装置110の映像遅延部117は、以下の処理を実行する。すなわち、映像遅延部117は、動作モードが視聴モードであって、かつ、音声送信部113が、3つのヘッドホン(200、201、202)のそれぞれに同時に音声信号を送信する場合、(a)記憶部130に記憶されている映像遅延情報131に示される複数の映像遅延量Vのうち、最も大きな映像遅延量Vを選択し、(b)映像出力部111から出力される映像信号を、選択した映像遅延量Vだけ遅延させる。
例えば、3つのヘッドホン(200、201、202)それぞれに対応する映像遅延量が、図9に示す値である場合、映像遅延部117が用いる映像遅延量Vとして、ヘッドホン202に対応する“201msec”が採用される。
つまり、映像音声処理装置110は、音声信号の送信先の装置が複数ある場合、その複数の装置のうちの、最も音声の遅延量の大きな装置に合わせて、映像音声処理装置110から出力する映像信号を遅延させる。
これにより、少なくとも、これらヘッドホン(200、201、202)それぞれからの再生音が、ディスプレイ150に表示される再生映像に先行するような極めて不自然な事態の発生は抑制される。
また、この場合、例えば音声送信部113が、ヘッドホン200および201のそれぞれに送信される音声信号を遅延させてもよい。これにより、ディスプレイ150に表示される当該映像と、これらヘッドホン200および201のそれぞれでの再生音との同期をより厳密にすることができる。
例えば、上記のように、映像遅延部117が用いる映像遅延量Vとして“201msec”が採用された場合を想定する。この場合、音声送信部113は、映像遅延量V“197msec”に対応するヘッドホン200に対しては、4msecだけ音声信号を遅延させる。
また、音声送信部113は、映像遅延量V“189msec”に対応するヘッドホン200に対しては、12msecだけ音声信号を遅延させる。
つまり、ヘッドホン200および201との関係で、相対的に遅く設定された映像遅延量Vに合わせるように、ヘッドホン200および201のそれぞれに送信される音声信号を遅延させる。これにより、これら3つのヘッドホン(200、201、202)の全てについて、リップシンクの問題がより確実に解消される。
また、遅延情報は、ユーザインターフェース画面151を介して映像音声処理装置110に入力されなくてもよい。例えば、ヘッドホン200の再生音を示す再生音信号が、遅延情報として映像音声処理装置110に入力されてもよい。
図10は、実施の形態における映像音声処理装置110が遅延情報として再生音信号を取得する場合の基本的な機能構成を示すブロック図である。
図10に示すように、ヘッドホン200の再生音を示す再生音信号が、遅延情報として、受付部115に受け付けられる。
例えば、受付部115に接続されたマイクロフォン(図示せず)を介して、再生音信号が受付部115に入力される。または、受付部115に接続された音声入力端子(図示せず)を介して、再生音信号が受付部115に入力される。
この場合、例えば制御部114は、音声遅延部116から出力される音声信号に示される音圧レベルのピークのタイミングと、当該再生音信号に入力される音声信号に示される音圧レベルのピークのタイミングとの間の時間的な差分から、音声遅延量Dを特定する。
なお、これら2種類の信号を用いた音声遅延量Dの特定の手法は、上記手法に限定されない。また、制御部114ではなく、例えば、音声遅延部116または受付部115によって、音声遅延量Dが特定されてもよい。
また、音声遅延量Dの特定は、一回の上記比較処理によって行われてもよい。また、当該音声遅延量Dの特定は、音声遅延部116による音声信号の遅延量を変化させながら、音声遅延部116から出力される音声信号と、再生音信号とのずれ量をフィードバックすることによって行われてもよい。
また、本実施の形態では、映像音声処理装置110とヘッドホン200との間の通信規格として、Bluetooth(登録商標)が採用されるとしたが、当該通信規格としてBluetooth(登録商標)以外の通信規格が採用されてもよい。また、映像音声処理装置110とヘッドホン200との間が無線通信ではなく有線通信であってもよい。
つまり、通信規格が採用する手順等の都合により、ヘッドホン200での再生音と、ディスプレイ150での再生映像との間に、人間が知覚できる程度のずれが生じる場合、当該通信規格の種類に関係なく、映像音声処理装置110による同期調整は有効である。
また、映像音声処理装置110は、テレビ100以外の種類の装置に備えられてもよい。例えば、Blu−ray Disc(登録商標)等の光ディスクまたはハードディスクに記憶されたAVコンテンツを再生するレコーダまたはプレーヤに、映像音声処理装置110が備えられてもよい。
また、映像音声処理装置110からの音声信号の送信先の装置は、ヘッドホン200以外の種類の音声再生装置であってもよい。
例えば、複数のスピーカを備え、映像音声処理装置110と無線または有線で通信するサラウンドシステムに、映像音声処理装置110からの音声信号が送信されてもよい。つまり、映像音声処理装置110による同期調整における音声の発生元である音声再生装置の種類は、ヘッドホンに限定されない。
また、上記の実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU(Central Processing Unit)またはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態の映像音声処理装置を実現するソフトウェアは、次のようなプログラムである。
すなわち、このプログラムは、コンピュータに、以下の映像音声処理方法を実行させる。
当該映像音声処理方法は、映像音声処理装置によって実行される映像音声処理方法であって、前記映像音声処理装置は、映像信号を出力する映像出力部と、前記映像信号に対応する音声信号を出力する音声出力部と、前記映像信号に対応する前記音声信号を、前記映像音声処理装置の外部の音声再生装置に送信する音声送信部とを備え、前記映像音声処理方法は、前記映像音声処理装置の動作モードが、前記音声出力部から前記音声が出力され、かつ、前記音声送信部から前記音声信号が送信される第一モードである期間に、前記音声出力部から出力される音声信号を遅延させる量である音声遅延量を特定する遅延情報の入力を受け付ける受付ステップと、前記受付ステップにおいて受け付けられた前記遅延情報によって特定される前記音声遅延量に応じて前記音声出力部から出力される音声信号を遅延させる音声遅延ステップと、前記映像音声処理装置の動作モードが、前記映像出力部から前記映像信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第二モードである期間に、前記映像出力部から出力される映像信号を前記音声遅延量に応じた映像遅延量だけ遅延させる映像遅延ステップとを含む映像音声処理方法である。
以上、本発明の一態様に係る映像音声処理装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の一態様の範囲内に含まれてもよい。
本発明は、放送波またはネットワーク経由で送信されるAVコンテンツを再生するテレビ、および、Blu−ray Disc(登録商標)等の光ディスク、フラッシュメモリ等の半導体メモリ、またはハードディスク等の記録媒体に記憶されたAVコンテンツを再生するレコーダまたはプレーヤ等のAV機器が備える映像音声処理装置として有用である。
10 AVシステム
100 テレビ
110 映像音声処理装置
111 映像出力部
112 音声出力部
113 音声送信部
114 制御部
115 受付部
116 音声遅延部
117 映像遅延部
118 映像信号処理部
119 音声信号処理部
130 記憶部
131 映像遅延情報
150 ディスプレイ
151 ユーザインターフェース画面
152 設定値表示フィールド
160、220 スピーカ
170 リモコン
200、201、202 ヘッドホン
210 受信部

Claims (10)

  1. 映像音声処理装置であって、
    映像信号を出力する映像出力部と、
    前記映像信号に対応する音声信号を出力する音声出力部と、
    前記映像信号に対応する前記音声信号を、前記映像音声処理装置の外部の音声再生装置に送信する音声送信部と、
    前記映像音声処理装置の動作モードを、(a)前記音声出力部から前記音声信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第一モード、および、(b)前記映像出力部から前記映像信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第二モードの一方から他方へ切り換える制御部と、
    前記動作モードが前記第一モードである期間に、前記音声出力部から出力される音声信号を遅延させる量である音声遅延量を特定する遅延情報の入力を受け付ける受付部と、
    前記受付部が受け付けた前記遅延情報によって特定される前記音声遅延量に応じて前記音声出力部から出力される音声信号を遅延させる音声遅延部と、
    前記動作モードが前記第二モードである期間に、前記映像出力部から出力される映像信号を前記音声遅延量に応じた映像遅延量だけ遅延させる映像遅延部とを備え、
    前記音声出力部は、前記第一モードである期間に、前記音声出力部から出力される音声信号の遅延の調整のための、時系列上で変化する調整用の音声信号を出力し、
    前記音声送信部は、前記第一モードである期間に、前記調整用の音声信号を送信し
    前記映像出力部は、前記動作モードが前記第一モードである期間に、ユーザによる所定の操作のためのユーザインターフェース画面であって、前記調整用の音声信号の変化に同期して動く調整用の動画を含むユーザインターフェース画面を示す映像信号を出力し、
    前記受付部は、ユーザの前記所定の操作により入力される前記遅延情報の入力を受け付ける
    映像音声処理装置。
  2. 前記映像出力部は、音声遅延部により、前記音声出力部から出力される前記音声信号が遅延された場合、前記音声信号に追随して遅延させた前記調整用の動画を含むユーザインターフェース画面を示す映像信号を出力する
    請求項1記載の映像音声処理装置。
  3. 前記映像遅延部は、前記音声遅延量以下の値である前記映像遅延量だけ前記映像出力部から出力される前記映像信号を遅延させる
    請求項1記載の映像音声処理装置。
  4. 前記音声遅延部は、前記映像信号のフレームレートから算出される1フレーム分の時間の整数倍に対応する前記音声遅延量に応じて前記音声出力部から出力される前記音声信号を遅延させる
    請求項1記載の映像音声処理装置。
  5. 前記映像遅延部は、前記音声遅延量より大きな前記映像遅延量だけ前記映像出力部から出力される前記映像信号を遅延させ、
    前記音声送信部は、前記音声遅延量と前記映像遅延量との差分に応じた値だけ、前記音声送信部から送信される前記音声信号を遅延させる
    請求項1記載の映像音声処理装置。
  6. 前記映像遅延部は、前記音声遅延量以下である前記映像遅延量であって、前記映像信号のフレームレートから算出される1フレーム分の時間の整数倍に対応する前映像遅延量だけ前記映像出力部から出力される前記映像信号を遅延させる
    請求項1記載の映像音声処理装置。
  7. 前記受付部は、前記遅延情報として、前記音声信号を受信して再生する前記外部の音声再生装置から出力される音声の信号である再生音信号の入力を受け付け、
    前記映像遅延部は、前記再生音信号と、前記音声遅延部が遅延させる前の前記音声信号との間の遅延量である前記音声遅延量に応じた前記映像遅延量だけ、前記映像出力部から出力される前記映像信号を遅延させる
    請求項1記載の映像音声処理装置。
  8. さらに、前記映像遅延量を示す情報である映像遅延情報を記憶する記憶部を備え、
    前記映像遅延部は、前記動作モードが前記第二モードである期間に、前記記憶部から読み出した前記映像遅延情報に示される前記映像遅延量だけ、前記映像出力部から出力される前記映像信号を遅延させる
    請求項1記載の映像音声処理装置。
  9. 前記記憶部は、前記音声再生装置を含む複数の音声再生装置のそれぞれに対応する複数の映像遅延量を示す前記映像遅延情報を記憶し、
    前記映像遅延部は、前記動作モードが前記第二モードであって、かつ、前記音声送信部が、前記複数の音声再生装置のそれぞれに同時に前記音声信号を送信する場合、(c)前記記憶部に記憶されている前記映像遅延情報に示される前記複数の映像遅延量のうち、最も大きな映像遅延量を選択し、(d)前記映像出力部から出力される前記映像信号を、選択した映像遅延量だけ遅延させる
    請求項8記載の映像音声処理装置。
  10. 映像音声処理装置によって実行される映像音声処理方法であって、
    前記映像音声処理装置は、映像信号を出力する映像出力部と、前記映像信号に対応する音声信号を出力する音声出力部と、前記映像信号に対応する前記音声信号を、前記映像音声処理装置の外部の音声再生装置に送信する音声送信部とを備え、
    前記映像音声処理方法は、
    前記映像音声処理装置の動作モードが、前記音声出力部から前記音声信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第一モードである期間に、前記音声出力部から出力される音声信号を遅延させる量である音声遅延量を特定する遅延情報の入力を受け付ける受付ステップと、
    前記受付ステップにおいて受け付けられた前記遅延情報によって特定される前記音声遅延量に応じて前記音声出力部から出力される音声信号を遅延させる音声遅延ステップと、
    前記映像音声処理装置の動作モードが、前記映像出力部から前記映像信号が出力され、かつ、前記音声送信部から前記音声信号が送信される第二モードである期間に、前記映像出力部から出力される映像信号を前記音声遅延量に応じた映像遅延量だけ遅延させる映像遅延ステップとを含み、
    前記音声出力部は、前記第一モードである期間に、前記音声出力部から出力される音声信号の遅延の調整のための、時系列上で変化する調整用の音声信号を出力し、
    前記音声送信部は、前記第一モードである期間に、前記調整用の音声信号を送信し
    さらに、前記動作モードが前記第一モードである期間に、前記映像出力部が、ユーザによる所定の操作のためのユーザインターフェース画面であって、前記調整用の音声信号の変化に同期して動く調整用の動画を含むユーザインターフェース画面を示す映像信号を出力する、ユーザインターフェース画面出力ステップを含み、
    前記受付ステップでは、ユーザの前記所定の操作により入力される前記遅延情報の入力を受け付ける
    映像音声処理方法。
JP2012051943A 2012-03-08 2012-03-08 映像音声処理装置 Expired - Fee Related JP5957760B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012051943A JP5957760B2 (ja) 2012-03-08 2012-03-08 映像音声処理装置
PCT/JP2012/007669 WO2013132562A1 (ja) 2012-03-08 2012-11-29 映像音声処理装置および映像音声処理方法
US14/376,575 US20140376873A1 (en) 2012-03-08 2012-11-29 Video-audio processing device and video-audio processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012051943A JP5957760B2 (ja) 2012-03-08 2012-03-08 映像音声処理装置

Publications (2)

Publication Number Publication Date
JP2013187765A JP2013187765A (ja) 2013-09-19
JP5957760B2 true JP5957760B2 (ja) 2016-07-27

Family

ID=49116078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012051943A Expired - Fee Related JP5957760B2 (ja) 2012-03-08 2012-03-08 映像音声処理装置

Country Status (3)

Country Link
US (1) US20140376873A1 (ja)
JP (1) JP5957760B2 (ja)
WO (1) WO2013132562A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8495236B1 (en) 2012-02-29 2013-07-23 ExXothermic, Inc. Interaction of user devices and servers in an environment
US20150296247A1 (en) * 2012-02-29 2015-10-15 ExXothermic, Inc. Interaction of user devices and video devices
US8896765B1 (en) * 2014-05-16 2014-11-25 Shadowbox Media, Inc. Systems and methods for remote control of a television
KR102185702B1 (ko) * 2014-05-16 2020-12-02 삼성전자주식회사 컨텐츠 출력 장치, 모바일 장치 및 그 제어 방법
WO2015174753A1 (en) 2014-05-16 2015-11-19 Samsung Electronics Co., Ltd. Content output apparatus, mobile apparatus, and controlling methods thereof
US10178281B2 (en) * 2014-07-28 2019-01-08 Starkey Laboratories, Inc. System and method for synchronizing audio and video signals for a listening system
US10034035B2 (en) * 2014-12-10 2018-07-24 DISH Technologies L.L.C. Methods, devices and systems for audiovisual synchronization with multiple output devices
JP2016171418A (ja) * 2015-03-12 2016-09-23 パイオニア株式会社 遅延制御装置
CN105338393A (zh) * 2015-10-29 2016-02-17 小米科技有限责任公司 媒体同步方法和装置
US10158905B2 (en) * 2016-09-14 2018-12-18 Dts, Inc. Systems and methods for wirelessly transmitting audio synchronously with rendering of video
FR3059507B1 (fr) 2016-11-30 2019-01-25 Sagemcom Broadband Sas Procede de synchronisation d'un premier signal audio et d'un deuxieme signal audio
US10892833B2 (en) * 2016-12-09 2021-01-12 Arris Enterprises Llc Calibration device, method and program for achieving synchronization between audio and video data when using Bluetooth audio devices
US10225516B2 (en) 2017-06-23 2019-03-05 Cisco Technology, Inc. Latency mitigation through intelligent extrapolation in multimedia systems
US10616061B2 (en) 2018-05-09 2020-04-07 Dish Network L.L.C. Methods and systems for automated configurations of media presentation devices
CN112216277A (zh) * 2019-07-12 2021-01-12 Oppo广东移动通信有限公司 通过耳机进行语音识别的方法、耳机、语音识别装置
WO2021095918A1 (ko) * 2019-11-13 2021-05-20 엘지전자 주식회사 영상표시장치, 서버 및 이를 포함하는 영상표시시스템
CN110971783B (zh) * 2019-11-29 2022-08-02 深圳创维-Rgb电子有限公司 电视音画同步自整定方法、装置和存储介质
KR20210087190A (ko) * 2020-01-02 2021-07-12 삼성전자주식회사 디스플레이 장치 및 그 제어 방법
US10924636B1 (en) * 2020-04-30 2021-02-16 Gopro, Inc. Systems and methods for synchronizing information for videos

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07222209A (ja) * 1994-01-31 1995-08-18 Nippon Hoso Kyokai <Nhk> ダウンコンバータの特性評価用記録媒体およびダウンコンバータの特性調整方法
KR100651894B1 (ko) * 2004-07-23 2006-12-06 엘지전자 주식회사 영상기기 및 그 제어방법
JP2007043652A (ja) * 2005-06-30 2007-02-15 Shibasoku:Kk リップシンク信号発生装置
US7907212B2 (en) * 2006-03-20 2011-03-15 Vixs Systems, Inc. Multiple path audio video synchronization
JP4360400B2 (ja) * 2006-12-05 2009-11-11 セイコーエプソン株式会社 コンテンツ再生システムおよびこれに用いられる再生装置、並びにコンテンツ再生方法
JP5660895B2 (ja) * 2007-09-21 2015-01-28 トムソン ライセンシングThomson Licensing ユーザー観察可能な信号を同期化させるための装置および方法
EP2081373A1 (en) * 2008-01-15 2009-07-22 Hitachi, Ltd. Video/audio reproducing apparatus
JP2009182912A (ja) * 2008-02-01 2009-08-13 Hitachi Ltd 映像音声再生装置
JP5316189B2 (ja) * 2008-05-23 2013-10-16 ヤマハ株式会社 Avシステム
US20090310027A1 (en) * 2008-06-16 2009-12-17 James Fleming Systems and methods for separate audio and video lag calibration in a video game
JP5310007B2 (ja) * 2008-10-16 2013-10-09 ソニー株式会社 情報処理システム、表示装置、出力装置および情報処理装置
JP2010219783A (ja) * 2009-03-16 2010-09-30 Toshiba Corp 通信端末、通信方法およびコンピュータプログラム
WO2010109745A1 (ja) * 2009-03-24 2010-09-30 パナソニック株式会社 音声画像再生システム、補聴器、音声画像処理装置
US8505054B1 (en) * 2009-12-18 2013-08-06 Joseph F. Kirley System, device, and method for distributing audio signals for an audio/video presentation
US20120038827A1 (en) * 2010-08-11 2012-02-16 Charles Davis System and methods for dual view viewing with targeted sound projection
US20120154679A1 (en) * 2010-12-21 2012-06-21 Comcast Cable Communications, Llc User-controlled synchronization of audio and video

Also Published As

Publication number Publication date
JP2013187765A (ja) 2013-09-19
US20140376873A1 (en) 2014-12-25
WO2013132562A1 (ja) 2013-09-12

Similar Documents

Publication Publication Date Title
JP5957760B2 (ja) 映像音声処理装置
US10992451B2 (en) Audio and video playback system and method for playing audio data applied thereto
EP3136718B1 (en) Method for synchronizing video and audio in virtual reality system
JP6509116B2 (ja) オーディオ転送デバイス及び対応する方法
JP5660895B2 (ja) ユーザー観察可能な信号を同期化させるための装置および方法
KR20170113087A (ko) 오디오 재생을 위한 시스템 및 방법
KR20140077097A (ko) 안경 장치 및 이의 제어 방법, 오디오 장치 및 이의 오디오 신호 제공 방법, 그리고 디스플레이 장치
US11678005B2 (en) Latency negotiation in a heterogeneous network of synchronized speakers
KR20170061100A (ko) 매체 동기화 방법, 장치, 프로그램 및 컴퓨터 판독가능한 기록매체
US20220369034A1 (en) Method and system for switching wireless audio connections during a call
US11503405B2 (en) Capturing and synchronizing data from multiple sensors
US20220345845A1 (en) Method, Systems and Apparatus for Hybrid Near/Far Virtualization for Enhanced Consumer Surround Sound
JP6720566B2 (ja) オーディオ機器
US20220368554A1 (en) Method and system for processing remote active speech during a call
WO2018173312A1 (ja) 仮想現実視聴システム、再生同期方法および仮想現実視聴用プログラム
JP7004627B2 (ja) 映像音声再生システム、映像表示装置及び映像表示方法
US20070248170A1 (en) Transmitting Apparatus, Receiving Apparatus, and Reproducing Apparatus
JP2010154249A (ja) 映像音声再生システム及び配信装置
US20230113703A1 (en) Method and system for audio bridging with an output device
WO2023032308A1 (ja) 情報処理装置、情報処理方法、情報処理システム
US20240029755A1 (en) Intelligent speech or dialogue enhancement
JP2010093614A (ja) 映像信号再生装置
JP2007318283A (ja) パケット通信システム、データ受信機器
JP2018078459A (ja) 撮像装置
JP2012182769A (ja) 映像音声再生装置及び映像音声再生方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140902

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20141008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160602

R151 Written notification of patent or utility model registration

Ref document number: 5957760

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees