CN1973536A - 视频-音频同步 - Google Patents

视频-音频同步 Download PDF

Info

Publication number
CN1973536A
CN1973536A CNA2005800108941A CN200580010894A CN1973536A CN 1973536 A CN1973536 A CN 1973536A CN A2005800108941 A CNA2005800108941 A CN A2005800108941A CN 200580010894 A CN200580010894 A CN 200580010894A CN 1973536 A CN1973536 A CN 1973536A
Authority
CN
China
Prior art keywords
signal
video
audio
audio signal
delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005800108941A
Other languages
English (en)
Inventor
C·亨茨彻尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1973536A publication Critical patent/CN1973536A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4305Synchronising client clock from received content stream, e.g. locking decoder clock with encoder clock, extraction of the PCR packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs
    • G11B2220/2562DVDs [digital versatile discs]; Digital video discs; MMCDs; HDCDs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Receiver Circuits (AREA)
  • Picture Signal Circuits (AREA)

Abstract

来自视听***(100,200,300)的视觉和听觉输出通过一个反馈处理而被同步。视觉事件和听觉事件分别在音频信号路径和视频信号路径中被识别出来。然后,一个相关性程序计算出所述信号之间的时间差,并且该视频信号或该音频信号被延迟,以便使观众/听众获得对音频和视频的同步接收。

Description

视频-音频同步
本发明涉及一种用于在视听***中同步音频输出和视频输出的方法和***。
在当前的视听***中,不同设备之间的信息流动不断增加,其具有表示视觉数据(即视频数据)和声音(即音频数据)的序列的数据流的形式。通常来说,数字数据流以已编码的形式(例如MPEG)在设备之间传输,因此需要强大的数字数据编码器和解码器。这些编码器和解码器虽然在绝对意义上足够强大因而提供了令人满意的性能,但是问题出在设备之间的性能差异,尤其是考虑到视频数据相对于音频数据的性能差异。简而言之,从例如使用连接到电视单元的DVD播放器来观看电影的人的角度来看,存在关于声音和画面的同步的问题。视频信号常常相对于音频信号被延迟,因此要调用一个延时功能以作用于音频信号上。另外,用于或者处于显示设备中的视频处理典型地使用对于视频信号引起附加延迟的帧存储器。所述延迟可以根据输入源和内容(模拟的、数字的、分辨率、格式、输入信号伪像等等)、为该特定输入信号选择的视频处理以及在可缩放或自适应***中可用于视频处理的资源而变化。特别地,当一个***由大量不同设备组成并且所述不同设备可能来自不同的厂商时,通常没有办法预测同步问题的程度。
在已公布的英国专利申请GB2366110A中公开了一种同步安排的现有技术实例。在GB2366110A中,通过使用视觉和音频语音识别来消除同步误差。然而,GB2366110A没有讨论在考虑一个完整功能链(即从诸如DVD播放器的源到诸如电视机的输出设备)时的相关问题。例如,GB2366110A没有揭示这样的情况:由接近实际显示的视频数据处理引入延迟,比如在高端电视机或PC显卡中的情况。
因此,本发明的一个目标是克服上面讨论的与现有技术***相关的缺点。
在本发明的***中,通过多个步骤来获得音频输出和视频输出的同步。接收一个音频信号和一个视频信号,并且将其分别提供给扬声器和显示器。分析该音频信号,其中包括识别至少一个听觉事件;该视频信号也被分析,其中包括识别至少一个视觉事件。将该听觉事件与该视觉事件进行相关,在该相关期间,计算该听觉事件和该视觉事件之间的时间差。然后,在该音频信号和该视频信号二者的至少其中之一上施加延迟,该延迟的数值取决于所计算出的该听觉事件和该视觉事件之间的时间差。音频输出和视频输出由此被同步。
优选地,在对信号的任何视频处理(至少是引入相当大的延迟的数字视频处理)之后执行对视频信号的分析,在音频信号被扬声器发出并且通过麦克风接收之后执行对该音频信号的分析,所述麦克风优选地定位在所述***和观众附近。
通过室内的麦克风可以相当容易地测量由显示***的扬声器所发出的声音,由麦克风拾取声音的时间与进入观众耳朵的时间相当(因此延迟补偿被调谐到观众感觉到的程度)并且与扬声器发出声音的时间相当,至少在典型的音频/视频延迟的时间尺度(通常约十分之一秒或者更少)上是如此。
设置与麦克风对等的摄影机相当繁琐,并且可能会有与摄影机相关的附加延迟。
发明者认识到,可以恰好在视频信号由显示器进行显示之前对视频信号进行定时,其中使得在给定***所需精度的情况下还可以忽略进一步的延迟(嘴唇同步所需的精度在心理声学实验中是公知的)。
因此,优选地在处理链的后期执行对音频信号和视频信号的分析,也就是说在***中的接近于把音频信号和视频信号转换到机械声波和来自显示屏幕的光学发射的地方(例如,在进入LCD屏幕的驱动器、到达CRT的阴极等等之前)。这样做是有利的,因为有可能获得由观看输出的人所感知的声音和视图的非常好的同步。在通过显示硬件发射视频信号之前执行大量视频信号处理的***中利用本发明是特别有利的,在显示之前必须对已编码媒体进行解码的数字传输***就是这种情况。优选地,本发明在包含分析功能和延迟校正的电视机中实现。
应当注意到,所述处理可以在另一个设备中进行(比如盘读取器,其中假设关于处理链中的进一步的延迟(例如在高端电视机中的视频处理)的某些信息被传送到该盘读取器(比如对于所测量的信号或者相对于主时钟的定时信息的有线/无线传送))。传送延迟和/或在处理链中的适当点处进行测量(特别是在观众体验附近)使得补偿电视***中的设备的延迟成为可能,其中不可能对所述电视***进行内部访问。
由于延迟校正是先于后面的处理链中的音频测量而在信号处理链中执行的,因此所述延迟校正通过一个调节反馈环来完成。
在本发明的一个实施例中,所述音频信号和视频信号包括一个具有基本上同时的视觉和听觉事件的测试信号。为了容易地识别和精确地测量所述延迟,该测试信号优选地具有相当简单的结构。
在一个优选实施例中,延迟的数值被存储,而在另一个实施例中,关于音频信号和视频信号的源的标识信息被接收。然后,将所存储的延迟数值与所述关于音频信号和视频信号的源的信息进行相关。因此,这样的***的优势在于,该***能够处理一个视听***中的大量不同输入设备,比如DVD播放器、有线电视源或者卫星接收机。
通过执行上面讨论的同步步骤,有可能通过改变延迟数值的差而以连续的方式获得来自受损的源的视频和音频信号的同步。这包括交换设备和处理路径。
例如,取决于导致可变延迟的场景内容,可以接收具有可变复杂度的压缩标准,或者所述处理可以取决于内容(例如,当一则电子邮件消息弹出时,正在背景中运行的运动画面的基于运动的上变换被改变到计算上更加简单的变量)。
下面参考附图来描述本发明:
图1示意性地示出其中实施本发明的视听***的框图。
图2示意性地示出依照本发明的同步***的第一优选实施例的功能框图。
图3示意性地示出依照本发明的同步***的第二优选实施例的功能框图。
图4a和4b分别示意性也说明了视频信号分析和音频信号分析。
图1示出了音视频***100,其包括电视机132和源部件131,该电视机132被配置成接收视频信号150和音频信号152,该源部件131提供所述视频和音频信号150、152。源部件131包含媒体源102(例如DVD源或有线电视信号源等等),其能够提供包括视频信号150和音频信号152的数据流。
电视机132包括能够分析视频信号和音频信号的分析电路106,其可以包括诸如输入-输出接口、处理单元和存储器电路的子部件,正如本领域技术人员可以想到的那样。该分析电路分析视频信号150和音频信号152,并且把这些信号提供给电视机132中的视频处理电路124和音频处理电路126。麦克风122包括把模拟声音转换成数字形式的任何必要电路,其也和分析电路106相连接。
电视机132的视频处理电路124和音频处理电路126分别准备视觉数据和声音,并且把所述视觉数据和声音分别呈现在显示器114和扬声器112上。通常来说,由于解码(画面的重新排序)、用于帧速率上变换的画面内插等因素会发生处理延迟。
反馈线153把在视频处理电路124中处理过的视频信号提供给分析电路106,正如将结合图2到4进一步讨论的那样。所述分析还可以在并行分支等等中进行,而不是在直接路径中进行。
源部件131在可选实施例中可以包括驻留在电视机132中的一个或多个单元,比如分析电路106。举例来说,DVD播放器可以配备有分析电路,从而有可能使用现有的电视机并且仍然受益于本发明。
本领域技术人员会想到,图1中的***通常包含大量附加单元,比如电源、放大器以及许多其他数字和模拟单元。然而,为了清楚起见,只有与本发明相关的单元被显示在图1中。此外,本领域的技术人员将认识到,取决于集成水平,***100中的不同单元可以在一个或多个物理组件中实现。
下面将参照图2和3的功能框图进一步描述使用图1的***100中的不同单元的本发明的操作。
在图2中利用功能块示意性地示出了依照本发明的同步***200。源单元202(比如DVD播放器或有线电视网的机顶盒等等)为***200提供视频信号250和音频信号252。本领域的技术人员将认识到,视频信号250和音频信号252可以通过数字数据流或模拟数据流来提供。
视频信号250在视频处理装置204中被处理,并且以画面的形式在显示器206上被呈现给观众/听众。音频信号252在音频处理装置210中被处理,并且以声音的形式通过扬声器212被输出给观众/听众。所述视频处理和音频处理都可以包含模/数和数/模转换以及解码操作。音频信号经受可调节延迟处理208,该操作取决于对时间差的分析,这将在下面进行解释。
在经过视频处理204之后,恰好在视频信号被提供到显示器206之前(或者与此同时),该视频信号经受视频分析214。在视频分析期间,包含在视频信号中的图像序列被分析,并且在其中搜索特定的视觉事件,比如镜头改变、所刻画人物的嘴唇开始移动、突然的内容改变(例如***)等等,这将在下面连同图4a做进一步的讨论。
和视频分析一起,对于通过麦克风222从扬声器212接收的音频信号执行音频分析。该麦克风优选地放置在紧邻观众/听众的地方。在音频分析期间,音频信号被分析,并且在其中搜索特定的听觉事件,比如声音间隙和声音开始、大的振幅改变、特定的音频内容事件(比如***)等等,这将在下面连同图4b做进一步的讨论。
在一个可选的实施例中,所述视觉事件和听觉事件可以是由所述源单元提供的测试信号的一部分。这样的测试信号可以包含很简单的视觉事件(比如在许多只包含黑色信息的帧当中的只包含白色信息的一帧)和简单的听觉事件(比如非常短的声音片段(snippet),例如短音调、***声、滴答声等等)。
视频分析214和音频分析216的结果分别具有所检测到的视觉和听觉事件的形式,二者均被提供到时间差分析功能218。例如使用相关性算法在视觉事件和听觉事件之间进行关联,并且计算、评估并用存储功能220存储两者之间的时间差。所述评估对于忽略弱分析结果以及信任具有高概率的视频和音频相关性的事件来说十分重要。在一定的调节时间之后,所述时间差变得接近于零。这也有助于识别弱音频和视频事件。在切换到不同的输入源之后,延迟数值可能改变。可以发信号到一个或多个视频-音频相关性单元214、216、218和220以便向其通知切换到新输入源以及可选地向其通知该新输入源的属性。在这种情况下,可以选择对应于新输入源的所存储的延迟数值以便立即进行延迟补偿。
然后,所存储的时间差被可调节延迟处理208使用,从而在差值分析功能218中导致所述时间差的递归收敛,并且由此获得由观众/听众感觉到的音频和视频的同步。
作为一个可选方案,对于音频信号的可调节延迟处理208可以位于源单元202中,或者位于后面的音频处理链中(比如在不同的放大器级之间)。
现在转到图3,其中利用功能框示意生地示出了依照本发明的同步***300的另一个实施例。源单元302(比如DVD播放器或者有线电视网的机顶盒等等)为***300提供视频信号350和音频信号352。像前面的实施例一样,视频信号350和音频信号352可以通过数字数据流或模拟数据流来提供。
视频信号350在视频处理装置304中被处理,并且以画面的形式在显示器306上被呈现给观众/听众。音频信号352在音频处理装置310中被处理,并且以声音的形式通过扬声器312被输出给观众/听众。所述视频处理和音频处理都可以包含模/数和数/模转换以及解码操作。音频信号经受可调节延迟处理308,该操作取决于对时间差的分析,这将在下面进行解释。
在经过处理304之后,恰好在视频信号被提供到显示器306之前(或者与此同时),该视频信号经受视频分析314。在视频分析期间,包含在视频信号中的图像序列被分析,并且在其中搜索特定的视觉事件,比如镜头改变、所刻画人物的嘴唇开始移动、突然的内容改变(例如***)等等,这将在下面连同图4a做进一步的讨论。
与视频分析同时,对音频信号执行音频分析316。和上面描述的实施例相对比(在上面的实施例中,通过麦克风222从扬声器212接收音频信号),在这里将音频信号直接(即与通过扬声器312输出同时)提供给音频分析功能316。在音频分析316期间,分析音频信号,并且搜索特定的听觉事件,比如声音间隙和声音开始、大的振幅改变、特定的音频内容事件(比如***)等等,这将在下面连同图4b做进一步的讨论。
和上面一样,在一个可选的实施例中,所述视觉事件和听觉事件可以是由所述源单元302提供的测试信号的一部分。
视频分析314和音频分析316的结果分别具有所检测到的视觉和听觉事件的形式,二者均被提供到时间差分析功能318。例如使用相关生算法在视觉事件和听觉事件之间进行关联,并且计算、评估以及在存储功能320中存储两者之间的时间差。所述评估对于忽略弱分析结果以及信任具有高概率的视频和音频相关生的事件来说十分重要。在一定的调节时间之后,所述时间差变得接近于零。这也有助于识别弱音频和视频事件。在切换到不同的输入源之后,延迟数值可能改变。可以发信号到一个或多个视频-音频相关性单元314、316、318和320以便向其通知切换到新输入源以及可选地向其通知该新输入源的属性。在这种情况下,可以选择对应于新输入源的所存储的延迟数值以便立即进行延迟补偿。
然后,所存储的时间差被可调节延迟处理308使用,从而在差值分析功能318中导致所述时间差的递归收敛,并且由此获得由观众/听众感觉到的音频和视频的同步。
和前面的实施例一样,对视频信号的可调节延迟处理308可以替换地位于源单元302中,或者位于后面的音频处理链中(比如在前置放大器和主放大器之间)。
现在转到图4a和4b,下面将更加详细地讨论分析视觉事件和听觉事件以及出于获得延迟数值的目的而对其进行相关的一个实施例。
在图4a中,视频信号亮度401恰好在被提供给CRT或LCD等中的显示输出硬件之前被检测,其作为时间的函数在示例性的两个不同的视频专家模块中被分析,其中一个是***检测专家模块403,另一个是说话人分析模块405。这些模块的输出是一个视觉事件序列407,其例如被典型地编码成时刻的序列(Texpll是第一个检测到的***的所估计时刻)。
相应地,在图4b中,声音音量信号402作为时间的函数在一个或多个音频检测专家模块404中被分析,以便获得与相同的主时钟起始时刻(t0)相关的定时,各事件由于音频-视觉延迟而被移位到将来。该示例性音频检测专家模块404包括诸如离散傅立叶变换模块(DFT)和共振峰分析模块(用于检测和模拟语音部分)之类的组件,该音频检测专家模块的输出被提供给事件时间位置映射模块406,该事件时间位置映射模块406在这个示例中被用来将各时间位置与所分析的子部分听觉波形进行相关。也就是说,时间位置映射模块406的输出是一个听觉事件序列408(可选择地,如在视频实例中一样,所述映射可以发生在所述专家模块自身中)。
这些模块,也就是视频和音频专家模块405、404(映射模块406)通常进行如下操作:识别一个片段是否是特定的类型,识别其时间范围,然后与一个时刻进行相关(例如,一次试探(heuristic)可以定义讲话的起始点)。
例如,一个能够识别***的视频专家模块还计算多个附加的数据元素:颜色分析器识别出在***中图像帧的大部分是发白的、发红的或者发黄的,这显示在连续画面的颜色直方图中。运动分析器识别出在***之前的相对静止的场景和***的快速改变之间的大量可变性。纹理分析器识别出***在图像帧上的纹理方面是相当平滑的。基于所有这些测量值的特定输出,将一个场景归类为***。
本领域的技术人员还可以在文献中找到面部行为模块,比如可以根据现有技术利用所谓的蛇形曲线(snake)(数学边界曲线)来跟踪嘴唇。不同的算法可以被组合来产生具有不同的所需精度和鲁棒性的专家模块。
利用试探生算法,这些测量值典型地被转换到置信度级别[0,1]中,举例来说,所有高于阈值k=+/-1的画面被识别为***。
用来识别***的音频专家模块检查音量(增加)、重低音和环绕声道分布(***通常在LFE(低频效果)声道中)等等。
于是,视觉事件和听觉事件之间的关联在原理上是直接明了的:音频的峰值对应于视频的峰值。
然而,情况可能更复杂。也就是说,映射到特定时刻(比如语音序列的开始)的试探可能会引入误差(不同的试探将把该时刻置于另一个地方),对于证据的计算可能引入误差,在音频和视频之间可能存在视频内领先时间(比如由于对源信号的编辑导致音频事件被置于相应的视频事件的一小段时间之后),并且会有假阳性(即过多的事件)和假阴性(即丢失事件)。所以,一个视觉事件到一个听觉事件的单一映射的效果可能不是很好。
另一种把视觉事件和听觉事件进行相关的方法是映射多个事件,即场景签名。例如,使用一个典型的公式,如果音频和视频事件在其时间线上发生在TA=TV+D+/-E之内,则所述音频和视频事件匹配,其中TA和TV是由所述专家模块提供的精确的事件时刻,D是当前预测的延迟,而E是误差余量。
匹配的数目是所估计的延迟的精确程度的度量,也就是说,在所有可能延迟上获得的最大匹配(数目)产生对于实际延迟的良好估计。当然,所述事件必须是相同类型的。例如,***决不应当和讲话相匹配,即使它们之间的时刻差几乎就是该实际延迟也是如此,因为这显然是一个错误。
这样已经有助于匹配,但是E不应当太大,否则将存在剩余最大误差E,其平均值是E/2。
由于通过加上高斯函数可以是误差稍微地均衡,因此可以更加精确地估计匹配。基于排序分析,例如,如果有两个连续的***,那么最有可能的是第一个音频***事件应当与第一个视频事件相匹配,并且对于第二个也是一样。然后对这些基于排序的匹配进行差分,从而产生一组延迟:D1=TA1-TV1(***1),D2=TA2-TV2(***2),依此类推。然后对于连续的事件将这些延迟相加,从而产生更加稳定的平均延迟估计。
在实践中,取代把音频和视频分段直接加载到所述专家模块中,可以在“操作中(on-the-fly)”对视频和音频信号进行处理,然后可以对加有注释(即什么类型,比如***、讲话等)的事件时间序列的足够长的分段进行匹配。如果在相当长的周期内所述延迟保持相同和/或可以容许短暂的延迟失配,则可以有延迟的分析。
因此,总而言之,来自视听***的视觉和听觉输出通过一个反馈处理而被同步。视觉事件和听觉事件分别在音频信号路径和视频信号路径中被识别。然后,一个相关性程序计算所述信号之间的时间差,并且该视频信号或音频信号被延迟,以便使观众/听众获得音频和视频的同步接收。
在实践中,所公开的算术组件可以被(整体地或部分地)实现为硬件(例如专用IC的各部分),或者被实现为运行在专用数字信号处理器、通用处理器等等之上的软件。
所谓的计算机程序产品应当被理解成命令集合的任何物理实现,其使得(通用或专用)处理器能够在把命令加载到该处理器中的一系列加载步骤之后执行本发明的任何特征功能。特别地,所述计算机程序产品可以被实现为诸如硬盘或磁带的载体上的数据、存在于存储器中的数据、通过(有线的或无线的)网络连接传播的数据或者纸上的程序代码。除了程序代码,所述程序所需要的特征数据也可以被实现为计算机程序产品。
应该注意的是,上面提到的实施例说明而不限制本发明。除了在权利要求书中组合的本发明的元件组合以外,其他的元件组合也是可能的。任何元件组合都可以在单个专用元件中实现。
权利要求书中的括号内的任何附图标记都不是为了限制该权利要求。“包含”一词不排除没有在权利要求中列出的其他元件或方面的存在。元件前的“一个”不排除多个这样的元件的存在。

Claims (14)

1、一种在视听***(100,200,300)中同步音频输出和视频输出的方法,包括下面的步骤:
-接收音频信号和视频信号;
-向扬声器(112,212,312)提供该音频信号;
-分析该音频信号,其中包括从该音频信号中识别出至少一个听觉事件;
-向显示单元(114,206,306)提供该视频信号;
-分析该视频信号,其中包括从该视频信号中识别出至少一个视觉事件;
-将该听觉事件与该视觉事件进行相关,其中包括计算该听觉事件和该视觉事件之间的时间差;
-对于该音频信号和该视频信号二者的至少其中之一施加延迟,从而同步该音频输出和该视频输出,其中该延迟的数值取决于该听觉事件和该视觉事件之间的所计算出的时间差。
2、如权利要求1所述的方法,其中,所述分析视频信号的步骤是在对该信号的任何视频处理之后执行的。
3、如权利要求1或2所述的方法,其中,所述分析音频信号的步骤是在由所述扬声器发出该音频信号并且通过麦克风(122,222)接收到该音频信号之后执行的。
4、如权利要求1到3中的任意一个所述的方法,其中,所述音频信号和视频信号包括具有基本上同时的视觉和听觉事件的测试信号。
5、如权利要求1到4中的任意一个所述的方法,进一步包含存储所述延迟的数值的步骤。
6、如权利要求5所述的方法,其中,将所存储的延迟数值与关于对应的音频和视频信号源的信息进行相关。
7、如权利要求6所述的方法,进一步包含下列步骤:
-接收关于所述音频信号和视频信号源的标识信息;以及
-将所述延迟数值与关于所述音频和视频信号源的信息进行相关。
8、如权利要求1到7中的任何一个所述的方法,其中连续地重复以下步骤,从而提供所述音频输出和视频输出的动态同步:
-接收音频信号和视频信号;
-向扬声器提供该音频信号;
-分析该音频信号,其中包括从该音频信号中识别出至少一个听觉事件;
-向显示单元提供该视频信号;
-分析该视频信号,其中包括从该视频信号中识别出至少一个视觉事件;
-将该听觉事件与该视觉事件进行相关,其中包括计算该听觉事件和该视觉事件之间的时间差;以及
-对于该音频信号和该视频信号二者的至少其中之一施加延迟,其中该延迟的数值取决于该听觉事件和该视觉事件之间的所计算出的时间差。
9、一种用于同步视听***(100,200,300)中的音频输出和视频输出的***(131),包括:
-用于分析来自信号源(102)的信号的装置(106),其中包括从来自该信号源的信号的音频部分中识别出至少一个听觉事件,以及从来自该信号源的信号的视频部分中识别出至少一个视觉事件;
-用于把该听觉事件与该视觉事件进行相关的装置(106),其中包括计算该听觉事件和该视觉事件之间的时间差;
-对于该音频信号和该视频信号二者的其中之一施加延迟的装置(106),从而同步该音频输出和该视频输出,其中该延迟的数值取决于该听觉事件和该视觉事件之间的所计算出的时间差;以及
-用于分别向扬声器(112,222,322)提供该音频信号以及向显示器(114,206,306)提供该视频信号的装置(124,126)。
10、如权利要求9所述的***,其中,所述用于分析视频信号的装置被定位在用于处理该视频信号的任何装置的后面。
11、如权利要求9或10所述的***,其中,所述用于分析音频信号的装置被配置成通过麦克风(122)接收该音频信号。
12、如权利要求9到11中的任意一个所述的***,进一步包含用于存储所述延迟的数值的装置(108)。
13、如权利要求12所述的***,进一步包含:
-用于接收关于所述音频和视频信号源的标识信息的装置;以及
-用于把所述延迟数值与关于所述音频和视频信号源的所述信息进行相关的装置。
14、一种计算机程序产品,其包括使得处理器能够执行权利要求1的方法的代码。
CNA2005800108941A 2004-04-07 2005-03-29 视频-音频同步 Pending CN1973536A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04101436 2004-04-07
EP04101436.6 2004-04-07

Publications (1)

Publication Number Publication Date
CN1973536A true CN1973536A (zh) 2007-05-30

Family

ID=34962047

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005800108941A Pending CN1973536A (zh) 2004-04-07 2005-03-29 视频-音频同步

Country Status (6)

Country Link
US (1) US20070223874A1 (zh)
EP (1) EP1736000A1 (zh)
JP (1) JP2007533189A (zh)
KR (1) KR20070034462A (zh)
CN (1) CN1973536A (zh)
WO (1) WO2005099251A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102244805A (zh) * 2009-10-25 2011-11-16 特克特朗尼克公司 借助签名曲线的av延迟测量和校正
CN101802816B (zh) * 2007-09-18 2012-10-03 微软公司 同步幻灯片显示事件与音频
CN104768050A (zh) * 2014-01-07 2015-07-08 三星电子株式会社 音视频装置及其控制方法
CN104902317A (zh) * 2015-05-27 2015-09-09 青岛海信电器股份有限公司 音视频同步方法及装置
CN108377406A (zh) * 2018-04-24 2018-08-07 青岛海信电器股份有限公司 一种调整音画同步的方法及装置
CN110753165A (zh) * 2019-11-07 2020-02-04 金华深联网络科技有限公司 一种推土机远程操控视频数据与音频数据同步的方法
CN110753166A (zh) * 2019-11-07 2020-02-04 金华深联网络科技有限公司 一种清淤机器人远程操控视频数据与音频数据同步的方法
CN110798591A (zh) * 2019-11-07 2020-02-14 金华深联网络科技有限公司 一种挖掘机远程操控视频数据与音频数据同步的方法
CN110830677A (zh) * 2019-11-07 2020-02-21 金华深联网络科技有限公司 一种凿岩机器人远程操控视频数据与音频数据同步的方法
CN111354235A (zh) * 2020-04-24 2020-06-30 刘纯 一种钢琴远程教学***

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1657929A1 (fr) 2004-11-16 2006-05-17 Thomson Licensing Dispositif et méthode de synchronisation de différentes parties d'un service numérique
KR100584615B1 (ko) * 2004-12-15 2006-06-01 삼성전자주식회사 오디오/비디오 동기 자동 조정 장치 및 그 방법
US7970222B2 (en) * 2005-10-26 2011-06-28 Hewlett-Packard Development Company, L.P. Determining a delay
KR100793790B1 (ko) * 2006-03-09 2008-01-11 엘지전자 주식회사 무선 비디오 시스템 및 이 무선 비디오 시스템에서 신호를처리하는 방법
CA2541560C (en) 2006-03-31 2013-07-16 Leitch Technology International Inc. Lip synchronization system and method
JP4953707B2 (ja) * 2006-06-30 2012-06-13 三洋電機株式会社 デジタル放送受信機
US8698812B2 (en) * 2006-08-04 2014-04-15 Ati Technologies Ulc Video display mode control
CN101295531B (zh) * 2007-04-27 2010-06-23 鸿富锦精密工业(深圳)有限公司 多媒体装置及其使用方法
US9083943B2 (en) * 2007-06-04 2015-07-14 Sri International Method for generating test patterns for detecting and quantifying losses in video equipment
DE102007039603A1 (de) * 2007-08-22 2009-02-26 Siemens Ag Verfahren zum Synchronisieren von medialen Datenströmen
CN101785007A (zh) * 2007-08-31 2010-07-21 国际商业机器公司 同步数据流的方法
US20100303159A1 (en) * 2007-09-21 2010-12-02 Mark Alan Schultz Apparatus and method for synchronizing user observable signals
US9936143B2 (en) 2007-10-31 2018-04-03 Google Technology Holdings LLC Imager module with electronic shutter
JP5050807B2 (ja) 2007-11-22 2012-10-17 ソニー株式会社 再生装置、表示装置、再生方法および表示方法
US10515523B2 (en) 2010-07-21 2019-12-24 D-Box Technologies Inc. Media recognition and synchronization to a motion signal
KR101884483B1 (ko) * 2010-07-21 2018-08-01 디-박스 테크놀러지스 인코포레이트 미디어 인식 및 움직임 신호와의 동기화
US9565426B2 (en) 2010-11-12 2017-02-07 At&T Intellectual Property I, L.P. Lip sync error detection and correction
EP2571281A1 (en) * 2011-09-16 2013-03-20 Samsung Electronics Co., Ltd. Image processing apparatus and control method thereof
WO2013086027A1 (en) * 2011-12-06 2013-06-13 Doug Carson & Associates, Inc. Audio-video frame synchronization in a multimedia stream
KR20130101629A (ko) * 2012-02-16 2013-09-16 삼성전자주식회사 보안 실행 환경 지원 휴대단말에서 컨텐츠 출력 방법 및 장치
US9392322B2 (en) 2012-05-10 2016-07-12 Google Technology Holdings LLC Method of visually synchronizing differing camera feeds with common subject
US20140365685A1 (en) * 2013-06-11 2014-12-11 Koninklijke Kpn N.V. Method, System, Capturing Device and Synchronization Server for Enabling Synchronization of Rendering of Multiple Content Parts, Using a Reference Rendering Timeline
US9357127B2 (en) 2014-03-18 2016-05-31 Google Technology Holdings LLC System for auto-HDR capture decision making
US9729784B2 (en) 2014-05-21 2017-08-08 Google Technology Holdings LLC Enhanced image capture
US9774779B2 (en) 2014-05-21 2017-09-26 Google Technology Holdings LLC Enhanced image capture
US9813611B2 (en) 2014-05-21 2017-11-07 Google Technology Holdings LLC Enhanced image capture
US10250799B2 (en) 2014-05-21 2019-04-02 Google Technology Holdings LLC Enhanced image capture
US9501915B1 (en) 2014-07-07 2016-11-22 Google Inc. Systems and methods for analyzing a video stream
US9420331B2 (en) 2014-07-07 2016-08-16 Google Inc. Method and system for categorizing detected motion events
US9224044B1 (en) 2014-07-07 2015-12-29 Google Inc. Method and system for video zone monitoring
US10140827B2 (en) 2014-07-07 2018-11-27 Google Llc Method and system for processing motion event notifications
US9449229B1 (en) 2014-07-07 2016-09-20 Google Inc. Systems and methods for categorizing motion event candidates
US10127783B2 (en) 2014-07-07 2018-11-13 Google Llc Method and device for processing motion events
US9413947B2 (en) 2014-07-31 2016-08-09 Google Technology Holdings LLC Capturing images of active subjects according to activity profiles
US9654700B2 (en) 2014-09-16 2017-05-16 Google Technology Holdings LLC Computational camera using fusion of image sensors
USD782495S1 (en) 2014-10-07 2017-03-28 Google Inc. Display screen or portion thereof with graphical user interface
US10187737B2 (en) 2015-01-16 2019-01-22 Samsung Electronics Co., Ltd. Method for processing sound on basis of image information, and corresponding device
US9361011B1 (en) 2015-06-14 2016-06-07 Google Inc. Methods and systems for presenting multiple live video feeds in a user interface
US10599631B2 (en) 2015-11-23 2020-03-24 Rohde & Schwarz Gmbh & Co. Kg Logging system and method for logging
US10097819B2 (en) 2015-11-23 2018-10-09 Rohde & Schwarz Gmbh & Co. Kg Testing system, testing method, computer program product, and non-transitory computer readable data carrier
US20170150140A1 (en) * 2015-11-23 2017-05-25 Rohde & Schwarz Gmbh & Co. Kg Measuring media stream switching based on barcode images
US10506237B1 (en) 2016-05-27 2019-12-10 Google Llc Methods and devices for dynamic adaptation of encoding bitrate for video streaming
US10380429B2 (en) 2016-07-11 2019-08-13 Google Llc Methods and systems for person detection in a video feed
US11783010B2 (en) 2017-05-30 2023-10-10 Google Llc Systems and methods of person recognition in video streams
US10664688B2 (en) 2017-09-20 2020-05-26 Google Llc Systems and methods of detecting and responding to a visitor to a smart home environment
EP3726842A1 (en) * 2019-04-16 2020-10-21 Nokia Technologies Oy Selecting a type of synchronization
KR102650734B1 (ko) * 2019-04-17 2024-03-22 엘지전자 주식회사 복수의 스피커들에 다채널 오디오 신호를 제공하기 위한 오디오 장치, 오디오 시스템 및 방법
GB2586985B (en) * 2019-09-10 2023-04-05 Hitomi Ltd Signal delay measurement
FR3111497A1 (fr) * 2020-06-12 2021-12-17 Orange Procédé de gestion de la restitution d’un contenu multimédia sur des dispositifs de restitution.
KR20220089273A (ko) * 2020-12-21 2022-06-28 삼성전자주식회사 전자 장치 및 그 제어 방법
EP4024878A1 (en) * 2020-12-30 2022-07-06 Advanced Digital Broadcast S.A. A method and a system for testing audio-video synchronization of an audio-video player
KR20240009076A (ko) * 2022-07-13 2024-01-22 삼성전자주식회사 오디오와 비디오의 출력을 동기화하는 전자 장치 및 그 제어 방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4963967A (en) * 1989-03-10 1990-10-16 Tektronix, Inc. Timing audio and video signals with coincidental markers
JPH05219459A (ja) * 1992-01-31 1993-08-27 Nippon Hoso Kyokai <Nhk> 映像と音声の同期方法
US5387943A (en) * 1992-12-21 1995-02-07 Tektronix, Inc. Semiautomatic lip sync recovery system
US6836295B1 (en) * 1995-12-07 2004-12-28 J. Carl Cooper Audio to video timing measurement for MPEG type television systems
JPH09205625A (ja) * 1996-01-25 1997-08-05 Hitachi Denshi Ltd 映像音声多重化伝送装置の同期方法
JPH1188847A (ja) * 1997-09-03 1999-03-30 Hitachi Denshi Ltd 映像・音声同期方式
WO2000005901A1 (en) * 1998-07-24 2000-02-03 Leeds Technologies Limited Video and audio synchronisation
JP4059597B2 (ja) * 1999-07-06 2008-03-12 三洋電機株式会社 映像音声送受信装置
DE19956913C2 (de) * 1999-11-26 2001-11-29 Grundig Ag Verfahren und Vorrichtung zur Anpassung der Laufzeitdifferenz von Video- und Audiosignal in einem Fernsehgerät
JP4801251B2 (ja) * 2000-11-27 2011-10-26 株式会社アサカ 映像/音声ずれ補正方法及び装置
JP2002290767A (ja) * 2001-03-27 2002-10-04 Toshiba Corp 映像及び音声の時間合わせ装置及び時間合わせ方法
US6912010B2 (en) * 2002-04-15 2005-06-28 Tektronix, Inc. Automated lip sync error correction
US7212248B2 (en) * 2002-09-09 2007-05-01 The Directv Group, Inc. Method and apparatus for lipsync measurement and correction
US7499104B2 (en) * 2003-05-16 2009-03-03 Pixel Instruments Corporation Method and apparatus for determining relative timing of image and associated information

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101802816B (zh) * 2007-09-18 2012-10-03 微软公司 同步幻灯片显示事件与音频
US8381086B2 (en) 2007-09-18 2013-02-19 Microsoft Corporation Synchronizing slide show events with audio
CN102244805A (zh) * 2009-10-25 2011-11-16 特克特朗尼克公司 借助签名曲线的av延迟测量和校正
CN104768050B (zh) * 2014-01-07 2018-05-11 三星电子株式会社 音视频装置及其控制方法
US9742964B2 (en) 2014-01-07 2017-08-22 Samsung Electronics Co., Ltd. Audio/visual device and control method thereof
CN104768050A (zh) * 2014-01-07 2015-07-08 三星电子株式会社 音视频装置及其控制方法
CN104902317A (zh) * 2015-05-27 2015-09-09 青岛海信电器股份有限公司 音视频同步方法及装置
CN108377406A (zh) * 2018-04-24 2018-08-07 青岛海信电器股份有限公司 一种调整音画同步的方法及装置
CN110753165A (zh) * 2019-11-07 2020-02-04 金华深联网络科技有限公司 一种推土机远程操控视频数据与音频数据同步的方法
CN110753166A (zh) * 2019-11-07 2020-02-04 金华深联网络科技有限公司 一种清淤机器人远程操控视频数据与音频数据同步的方法
CN110798591A (zh) * 2019-11-07 2020-02-14 金华深联网络科技有限公司 一种挖掘机远程操控视频数据与音频数据同步的方法
CN110830677A (zh) * 2019-11-07 2020-02-21 金华深联网络科技有限公司 一种凿岩机器人远程操控视频数据与音频数据同步的方法
CN111354235A (zh) * 2020-04-24 2020-06-30 刘纯 一种钢琴远程教学***

Also Published As

Publication number Publication date
EP1736000A1 (en) 2006-12-27
WO2005099251A1 (en) 2005-10-20
JP2007533189A (ja) 2007-11-15
KR20070034462A (ko) 2007-03-28
US20070223874A1 (en) 2007-09-27

Similar Documents

Publication Publication Date Title
CN1973536A (zh) 视频-音频同步
CN112400325B (zh) 数据驱动的音频增强
US10359991B2 (en) Apparatus, systems and methods for audio content diagnostics
US9998703B2 (en) Apparatus, systems and methods for synchronization of multiple headsets
TWI242376B (en) Method and related system for detecting advertising by integrating results based on different detecting rules
US10469907B2 (en) Signal processing method for determining audience rating of media, and additional information inserting apparatus, media reproducing apparatus and audience rating determining apparatus for performing the same method
US11445242B2 (en) Media content identification on mobile devices
WO2021118107A1 (en) Audio output apparatus and method of controlling thereof
CN110971783B (zh) 电视音画同步自整定方法、装置和存储介质
WO2021118106A1 (en) Electronic apparatus and controlling method thereof
US20140086320A1 (en) Multiple Decoding
CN111787464B (zh) 一种信息处理方法、装置、电子设备和存储介质
CN111354235A (zh) 一种钢琴远程教学***
KR20080011457A (ko) 음성 또는 영상신호의 딜레이 컨트롤 기능을 가지는노래반주기 및 그의 컨트롤 방법
CN113542785B (zh) 应用于直播的音频的输入输出的切换方法、直播设备
CN111601157B (zh) 一种音频输出方法及显示设备
WO2021118032A1 (ko) 전자장치 및 그 제어방법
US12073850B2 (en) Data driven audio enhancement
WO2021009298A1 (en) Lip sync management device
KR20080054475A (ko) 영상 오브젝트 화면을 이용한 예약 녹화 방법 및 그 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication