CN105900447B - 处理具有场景变化媒体内容的方法及设备 - Google Patents

处理具有场景变化媒体内容的方法及设备 Download PDF

Info

Publication number
CN105900447B
CN105900447B CN201480073362.1A CN201480073362A CN105900447B CN 105900447 B CN105900447 B CN 105900447B CN 201480073362 A CN201480073362 A CN 201480073362A CN 105900447 B CN105900447 B CN 105900447B
Authority
CN
China
Prior art keywords
scene
section
image
additional
interlaced field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480073362.1A
Other languages
English (en)
Other versions
CN105900447A (zh
Inventor
A.琼斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN105900447A publication Critical patent/CN105900447A/zh
Application granted granted Critical
Publication of CN105900447B publication Critical patent/CN105900447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6106Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
    • H04N21/6125Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving transmission via Internet
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/637Control signals issued by the client directed to the server or network components
    • H04N21/6377Control signals issued by the client directed to the server or network components directed to server
    • H04N21/6379Control signals issued by the client directed to the server or network components directed to server directed to encoder, e.g. for requesting a lower encoding rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

媒体内容包括视频。视频包括场景(包括图像)的序列。媒体内容包括段。一种确定(102)第一场景与第二后续场景之间的场景变化在对段之间的边界的预定接近度之内发生的时间的方法。当(103)场景变化在段的结束的预定接近度之内发生时,丢弃第二场景中的至少第一图像并且在第一场景中***附加图像。当(104)场景变化在段的开始的预定接近度之内发生时,丢弃第一场景中的至少一个图像并且在第二场景中***附加图像。附加图像能够是现有图像的重复(105)或副本(107),或者它能够基于第一场景中的至少一个现有图像,例如通过内插(106、108)。

Description

处理具有场景变化媒体内容的方法及设备
技术领域
本发明涉及处理包括视频的媒体内容。
背景技术
存在对通过网络向装置传递媒体内容的增加需求。自适应比特率(ABR)是一种传递技术。源内容(例如音频、视频)以多个不同比特率来编码。编码的内容形成为段。当装置请求内容时,通过发送编码的媒体段从服务器向装置流播内容。在传递期间,服务器能够在以较高比特率所编码的段或者以较低比特率所编码的段之间进行选择。这样,服务器能够改变发送给装置的数据量。这允许传递应对网络拥塞,并且降低装置处的缓冲。例如,在(例如传递网络中或者客户端装置处的)拥塞期期间,服务器可发送以较低比特率所编码的段。ABR还能够帮助应对不同的装置和网络能力。
当存在内容的显著变化,例如照相装置之间的剪切(cut)或者所记录视频内容之间的编辑时,视频内容包括场景变化。当压缩视频序列时,场景变化常常要求使用框内编码(intra-coded)图像,因为不存在从其中进行预测的先前编码图像。场景变化通常引起对要求大量比特的图像的需要。当场景变化在段的结束处或附近发生时,在段的结束处的(一个或多个)图像的压缩能够导致管理速率以确保在保留段的恒定持续时间的同时保持图像质量的困难。例如其能够引起段包含比预计更多的比特,或者能够使段中的其他图像采用更高量化来编码,从而引起降低的图像质量。
一些传递方案允许对段的长度的一些变化。然而,这是不期望的,因为它增加传递方案的复杂度。
发明内容
本发明的一方面提供一种处理包括视频的媒体内容的方法。视频包括场景(包括图像)的序列。媒体内容包括段。该方法包括确定第一场景与第二后续场景之间的场景变化在对段之间的边界的预定接近度之内发生的时间。该方法还包括当场景变化在段的结束的预定接近度之内发生时,丢弃第二场景中的至少第一图像并且在第一场景中***附加图像。作为补充或替代,该方法能够包括当场景变化在段的开始的预定接近度之内发生时,丢弃第一场景中的至少一个图像并且在第二场景中***附加图像。
虽然媒体内容包括段,但是内容在处理发生的点不必划分为独立段。例如,内容可包括指示段开始/结束的边界的某种形式的指示符。一种类型的指示符是边界点。边界点能够用来将内容划分为独立段,并且这个分段能够在分配网络的一部分(其是处理发生的地方的下游)发生。
当场景变化在段的结束的预定接近度之内发生时,***附加图像的步骤能够包括重复第一场景中的现有图像。
当场景变化在段的结束的预定接近度之内发生时,***附加图像的步骤能够包括基于第一场景中的至少一个现有图像来生成新图像。
第一场景能够包括一对隔行扫描场,其包括第一隔行扫描场和第二隔行扫描场。***附加图像的步骤能够包括***一对附加隔行扫描场,其包括附加第一隔行扫描场和附加第二隔行扫描场,其中附加第一隔行扫描场基于第一场景中的第一隔行扫描场和第二隔行扫描场来内插,以及第二附加隔行扫描场是第二隔行扫描场的重复。
当场景变化在段的开始的预定接近度之内发生时,***附加图像的步骤能够包括复制第二场景中的现有图像。
当场景变化在段的开始的预定接近度之内发生时,***附加图像的步骤能够包括基于第二场景中的至少一个现有图像来生成新图像。
第二场景能够包括一对隔行扫描场,其包括第一隔行扫描场和第二隔行扫描场。***附加图像的步骤能够包括***一对附加隔行扫描场,其包括附加第一隔行扫描场和附加第二隔行扫描场,其中附加第一隔行扫描场是第一隔行扫描场的重复,以及第二附加隔行扫描场基于第二场景中的第一隔行扫描场和第二隔行扫描场来内插。
段能够具有相同持续时间。
该方法还能够包括将媒体内容形成为固定持续时间的段。
段能够是自适应比特率段。
该方法还能够包括以多个不同比特率对媒体内容进行编码或转码,以形成媒体内容的多个不同比特率表示。
本发明的另一方面提供一种包括处理器和存储器的设备,存储器包含由所述处理器可执行的指令。该设备操作以确定第一场景与第二后续场景之间的场景变化在对段之间的边界的预定接近度之内发生的时间。该设备操作以当场景变化在段的结束的预定接近度之内发生时,丢弃第二场景中的至少第一图像并且在第一场景中***附加图像。作为补充或替代,该设备操作以当场景变化在段的开始的预定接近度之内发生时,丢弃第一场景中的至少一个图像并且在第二场景中***附加图像。
该设备能够布置成执行所描述或要求保护的方法的任何其他特征。
至少一个实施例的优点是以具有对内容的最小可见减损来帮助保存每段的特定段持续时间和/或比特预算。例如,能够避免对当场景变化靠近段之间的边界发生时对图像进行编码的大量比特的需要。这能够帮助降低对内容的苛刻量化的需要。(一个或多个)附加图像的可见性通过接近度场景剪切来掩蔽,并且因此是相对非侵入式的。附加图像能够例如通过现有图像的简单重复/副本来生成,或者能够从其他图像来预测,并且因此不要求在段的结束的大量比特。
按照ISO/IEC 14496-10,术语“图像”是场或帧的集合术语。
这里所描述的功能性能够通过硬件、由处理设备所运行的软件或者通过硬件和软件的组合来实现。处理设备能够包括计算机、处理器、状态机、逻辑阵列或者任何其他适当处理设备。处理设备能够是运行软件以使通用处理器执行所需任务的通用处理器,或者处理设备能够专用于执行所需功能。本发明的另一方面提供在由处理器运行时执行所描述方法的任一个的机器可读指令(软件)。机器可读指令可存储在电子存储器装置、硬盘、光盘或其他机器可读存储介质上。机器可读介质能够是非暂时机器可读介质。术语“非暂时机器可读介质”包括除了暂时、传播信号之外的全部机器可读媒体。机器可读指令能够经由网络连接下载到存储介质。
附图说明
将仅通过示例,参照附图来描述本发明的实施例,其中:
图1示出用于向装置传递媒体内容的***;
图2示出媒体内容的第一示例,其中场景变化接近度段边界(以及之前)发生;
图3示出处理之后的第一示例的内容;
图4示出媒体内容的第二示例,其中场景变化接近度段边界(以及之后)发生;
图5示出处理之后的第二示例的内容;
图6示出场景变化接近度段边界(以及之前)发生的隔行扫描内容的第一示例和处理之后的相同内容;
图7示出隔行扫描内容的第二示例,其中场景变化接近度段边界(以及之后)发生,以及处理之后的相同内容;
图8示意示出用于实现处理的设备的示例;
图9示出图8的设备的更多细节;
图10示意示出用于实现处理的设备的示例,其中修改在编码器之后发生;
图11示出处理媒体内容的方法;
图12示出用于基于计算机的实现的设备。
具体实施方式
图1示出用于向装置传递媒体内容的***。媒体内容在编码器/转码器10的输入5来接收。内容可按照基带格式或者按照编码格式来接收。如果内容已经编码,则转码器10将内容转码成所需输出格式。媒体内容能够包括视频内容,例如直播视频馈送或存储的内容。
编码器/转码器10将媒体内容编码为内容的多个不同比特率表示。能够存在两个表示或者大量表示。各表示在比特率方面不同。例如,能够存在以2 Mbit/s、4 Mbit/s、6Mbit/s或者任何其他比特率值的比特率表示。内容的一个或多个其他性质能够在表示之间改变,例如视频分辨率、帧速率。音频速率(或者音频通道的数量)也能够在表示之间改变。
表示也形成为段。段能够具有相对短的持续时间,例如2秒。按照使得对齐不同比特率表示中的内容的方式来执行分段。例如,比特率表示1中的段#10是与比特率表示2中的段#10相同的内容的部分。这允许服务装置在内容的传递期间在表示之间干净利落地切换,而不会干扰内容。段之间的边界点能够由编码器/转码器 10来标记。例如,携带编码的内容的分组的报头能够指示边界点。发信号通知边界点的示例在OpenCable Encoder BoundaryPoint Specification OC-SP-EBP-I01-130118中提供,其可在http://www.cablelabs.com/specification/encoder-boundary-point-specification/得到。
图1示出分段器20,其将编码的内容划分为单独段。分段器20能够随编码器/转码器10定位,或者它能够定位在传递网络的不同部分。媒体内容的段存储在服务器30。网络35将服务器30连接到装置40。网络能够是广域网、局域网、接入网(例如宽带接入网)或者这些的任何组合。装置40能够包括例如计算机、平板、移动电话(智能电话)、机顶盒、数字录像机、因特网配备电视机。
当装置40请求内容时,服务器30通过网络35将所请求内容作为段的流来传递。传递能够例如使用超文本传输协议(HTTP)或文件传输协议(FTP)作为文件传输来执行。文件传输能够使用单播或多播传递机制。
在传递期间,服务器30能够在以较高比特率所编码的段或者以较低比特率所编码的段之间进行选择。这样,服务器30能够改变发送给装置40的数据量。这允许传递应对网络拥塞,并且降低装置40处的缓冲。例如,在(例如传递网络35中或者客户端装置40处的)拥塞期期间,服务器30可发送以较低比特率所编码的段。这个***一般称作自适应比特率(ABR)。ABR的形式正在被标准化。相关参考包括:ISO/IEC 23009-1,Informationtechnology – Dynamic adaptive streaming over HTTP (DASH) and HTTP LiveStreaming,在因特网工程任务组(IETF)信息因特网草案:draft-pantos-http-live-streaming-12中描述,在http://tools.ietf.org/html/draft-pantos-http-live-streaming-12可得到。
若干语法存在,用于服务器30向装置40发信号通知序列中的表示和段的可用集合。
图2和图3示出处理媒体内容的第一示例。图2示出没有处理的内容的时间线,以及图3示出处理之后的时间线。
视频内容包括图像的序列。示出图像1-19的示例序列。在视频内容中,场景变化在各种时间点发生。例如,场景变化可归因于来自用来创建源视频的不同照相机的输入之间的剪切或者源视频内容中的编辑。图2中,场景变化在图像15与16之间的点51发生。图像15是第一场景X的最后一个图像。图像16是第二场景X+1的第一图像。第二场景X+1在第一场景X之后发生。
图2和图3的(更低的线)(lower line)(示意地)表示对各图像1-19进行编码所需的数据量。视频压缩通常形成图像组(GOP),其包括完整和连续视频图像的序列。图像组(GOP)开始于选择为主图像的图像,表示为那个序列的框内编码图像或“I”。这个I图像被编码而没有参考序列中的任何其他图像,并且仅利用I图像中的空间冗余度。由于I图像可被解码而没有参考任何其他图像中的图像信息,所以能够依靠I图像作为解码器的起始点。图像组(GOP)中的其他图像能够通过利用图像序列中的时间冗余度极有效地编码。这些图像被编码使得传送描述当前图像和时间上与其相邻的已经编码的参考图像之间的差异的信息。这类图像有两种类型:一种类型是预测或P图像类型,其仅从图像序列的一个方向,例如从图像序列中的更早图像来预测和编码。另一种类型是双向或B图像类型,其例如通过从视频序列中的更早和后来图像的内插从序列的前向和后向方向两者来预测。
压缩算法能够实现比特率方面的降低,因为P和B图像使用比I图像更小的数据量来对图像进行编码,并且在图像组(GOP)中更多。I图像使用更多数据对图像进行编码,并且因此这些在图像组(GOP)中相对稀少。当流被中断或者遭受偶然差错时,I图像是有用的,因为它采用单独图像来重置解码器。图像组(GOP)能够按照任意模式(例如IBBPBBP……)构造为I、P和B图像的序列,直到***下一个I图像。
编码器10的目标是产生(接近度)恒定比特率。虽然将存在某种细微变化,但是每段通常存在目标数量的比特。内容的复杂度将影响用来将内容编码到目标比特预算的量化。当场景变化在视频内容中发生时,存在对图像内容的显著变化。这将要求新场景的新I图像。这在可用来对段进行编码的比特的数量方面是代价高的。大量I图像在对段进行编码时要求更粗略量化(降低的分辨率),以便满足对段进行编码的总比特预算。
场景变化能够按照各种方式来检测,例如通过检测相邻图像之间的显著差异(例如运动向量一致性)。量度的组合能够用来可靠地检测场景变化。伴随视频内容的元数据可指示场景变化发生的时间。
如上所述,媒体内容形成为段。在实施例中,段有相等持续时间。例如,段在持续时间方面能够是2秒。示出段N-1、N和N+1。为了清楚起见而减少段中的图像的数量。点61示出段N的结束与段N+1的开始之间的边界。段的第一图像通常编码为I图像。在这个示例中,场景变化51在段之间的边界61之前的一个图像发生。场景X的最后图像是图像15。段N的最后图像是图像16。图像16是场景X+1中的第一图像,并且要求较大数据量以进行编码。在这个示例中,存在两个连续I图像:由于场景X+1中的第一图像的第一I图像以及由于新段中的第一图像的第二I图像。这在数据方面是低效的,因为图像16和17是同一场景中的连续图像,并且无需均编码为I图像。
在实施例中,内容的处理能够基于场景变化对段的结束/段的开始之间的边界的接近度而改变。图3示出按照实施例的处理之后的图像的序列。在这个示例中,如果场景变化在段的结束之前的一个图像发生,则修改场景。丢弃场景X+1的图像16。场景X+1的图像16由图像15*(其能够与场景X中的最后一个图像(图像15)相同)来替代。这使场景变化的位置被修改。场景变化的新位置52与段之间的边界61对齐。换句话说,延迟场景变化。通过比较图2和图3的更低的线,避免对图像16进行编码所需的大数据量。复制的图像15能够远更为有效地编码。段N的长度保持相同。这确保与依靠一致段持续时间的***的兼容性。
图4和图5示出其中场景变化在段的开始之后并且靠近段的开始发生的示例。图4中,场景变化在图像17与18之间的点53发生。图像17是第一场景X的最后图像。图像18是第二场景X+1的第一图像。第二场景X+1在第一场景X之后发生。图4和图5的更低的线(示意地)表示对各图像1-19进行编码所需的数据量。在这个示例中,场景变化53在段N与N+1之间的边界61之后的一个图像发生。场景X的最后图像是图像17。图像17也是段N+1中的第一图像,并且因此编码为I图像。图像18是场景X+1中的第一图像,并且要求较大数据量进行编码。因此,在这个示例中,存在两个连续I图像:由于段N+1中的第一图像的第一I图像以及由于新场景X+1中的第一图像的第二I图像。这在数据方面是低效的,因为段X+1的前两个图像均编码为I图像。
图5示出按照实施例的处理之后的图像的序列。在这个示例中,如果场景变化在段的开始之后的一个图像发生,则修改场景。丢弃场景X的图像17。场景X的图像17由图像18*替代。图像18*能够与场景X+1中的第一图像相同(即,其副本)。总之,图像18*能够与图像18相同。这使场景变化53的位置被修改。场景变化的新位置54与段之间的边界61对齐。场景变化被提前了。图5的更低的线表明,避免对图像17进行编码所需的大数据量。复制的图像18能够远更为有效地编码。段N的长度保持为相同。这确保与依靠一致段持续时间的***的兼容性。
在图3和图5中,新图像(图3中的图像15*、图5中的图像18*)能够与另一个现有图像、重复图像或副本图像是相同的。这是新图像的最简单选项,要求传送数据和编码方面的最小复杂度。另一个选项是使用诸如预测的技术,基于场景的另一个图像(或者多个其它图像)来生成新图像。例如,图3中所示的图像15*能够基于图像15或者图像15连同图像15前面的一个或多个图像一起来生成。类似地,图5中所示的图像18*能够基于图像18或者图像18连同图像18后面的一个或多个图像一起来生成。这能够通过避免明显运动失速(stall)来帮助使新图像看起来更自然。
图2至图5示出其中场景变化在离段之间的边界一个图像的距离发生的示例。该方法能够应用于在离段的结束/开始较大距离发生的场景变化。例如,2个、3个或更多图像。较大距离将有引起对内容的某种可见扰动的风险。一个选项是取决于诸如比特率/质量的因素来改变接近度阈值。较低比特率/较低质量服务可容许更侵入式处理,以便降低比特率。作为示例,场景变化对段边界的阈值接近度对于高比特率/高质量服务可设置在一个图像的值,并且阈值对较低比特率/较低质量服务可增加到更大数量的图像。
这里所描述的原理利用因靠近重复发生的场景变化而在生理视觉上掩蔽重复图像的人类视觉***。重复在视觉上比通过对完全框内图像进行编码的需要所引起的在现有技术方案中能够发生的图像的重的量化是更可接受的。
能够有选择地使用这里所描述的用于当场景变化靠近段之间的边界发生时处理内容的方法。例如,在某些条件下,可做出决定不按照这种新方式来处理内容,即使场景变化靠近段之间的边界发生。另一个选项是确定在段的开始/结束对(该方法会丢弃的)一个或多个图像进行编码所需的比特的数量。如果比特的数量小于特定阈值,则该方法能够保留图像。阈值可能是固定或可变的,例如取决于段中已经使用的比特的数量。
内容能够是非隔行扫描(即,循序扫描)的或者是隔行扫描的。隔行扫描帧包括一对隔行扫描场。场的对之一包含奇数编号线的图像内容,并且场的对的另一个包含偶数编号线的图像内容。以上已经描述了新图像如何能够与现有图像相同;例如,图3中的图像15*是图像15的重复,图像18*是后面图像18的副本。如果存在运动,则重复/复制整个隔行扫描帧可能不是期望的,因为重复的帧的第一场包括在时间上在第二场之前发生的内容。重复整个隔行扫描帧可给予如下表象:运动已经反向,这能够对观看者是可见的并且使观看者分心。现在将描述隔行扫描内容的一种方式。
图6示出与图2的示例(其中场景变化在段的结束之前发生)对应的示例。场景变化在场景X与场景X+1之间的点51发生。示出原始序列连同处理之后的修改序列。图6中,第一隔行扫描场表示为xx.1,以及第二隔行扫描场表示为xx.2。原始序列为:15.1, 15.2,16.1, 16.2.修改序列为:
● 15.1
● 15.2
● 15.1*是通过内插所创建的新的第一场
● 15.2*是15.2的重复
● 17.1
● 17.2等
新的第二隔行扫描场(15.2*)是第二隔行扫描场(15.2)的重复。新的第一隔行扫描场(15.1*)通过空间内插,例如通过15.1与15.2之间的内插来生成。实际上,存在定格场而不是定格帧。
图7示出与图4的示例(其中场景变化在段的开始发生)对应的示例。场景变化在场景X与场景X+1之间的点53发生。示出原始序列连同处理之后的修改序列。原始序列为:17.1, 17.2, 18.1, 18.2. 修改序列为:
● 18.1*是第一场18.1的先前显示
● 18.2*是通过内插所创建的新的第二场
● 18.1是原始时间位置中的原始场18.1
● 18.2是原始时间位置中的原始场18.2
● 19.1等
新的第一隔行扫描场(18.1*)是第一隔行扫描场(18.1)的副本。新的第二隔行扫描场(18.2*)通过空间内插,例如通过18.1(=18.1*)与18.2之间的内插来生成。存在第一场(18.1)的定格场。
对于循序扫描内容,不要求场操纵。被编码为隔行扫描的内容但是其内部实际上具有循序内容(例如电影内容),则优选的是重复两个场而不是只一个场。再次参照图6,新场(15.1*、15.2*)两者可能是先前场的重复。类似地,18.1*和18.2*均可能是现有场18.1、18.2的重复。
媒体内容能够包括视频和音频。有利地,在能够如上所述操纵视频的同时,音频能够保持不变。
上述方法能够在内容的处理/传递链中的各种位置来执行。一个选项是在基带执行处理,即,在对图像进行编码(压缩)之前来操纵图像数据。检测场景的现有图像的数据,并且添加附加图像的数据。能够通过复制现有图像的数据或者通过从现有图像内插附加图像的数据,来添加附加图像的数据。图像的修改序列应用于编码器。另一个选项是在编码器之前在基带执行场景变化检测,但是在编码器的输出执行图像的操纵。这可使用表示将被复制的图像的预编码比特流,并且能够在表示将被去除的图像的编码的数据与表示将被替换的图像的预编码的数据之间进行切换。在这种情况下,预编码比特流表示有效编码的替换图像。再次参照图2的示例,该方法可形成:
(i) 图像16的编码型式;以及
(ii) 相等于“从不具有变化的图像15进行预测”的编码的图像。
在编码器,做出或使用(i)或(ii)以及将其输出到编码比特流中的决定。当在段的结束之前的对场景变化进行处理时,这个选项最容易实现。
编码能够是任何种类的压缩编码,例如H.264/MPEG-4 Part 10 AVC(高级视频编码)。
图8示意地示出用于实现上述处理的处理设备的示例。该设备能够结合在图1的编码器/转码器10中,或者能够定位在编码器10之前。图8和更早附图没有示出图像重新排序,以改进解释的清晰性。图像重新排序是压缩编码器的已知功能,以将图像重新排序,使得任何参考图像在要求那些参考图像以进行计算的预测的图像之前传递。
内容经由输入5来接收。多个图像存储71连接到输入5。例如,存储能够是延迟线,其能够依次存储多个图像。场景变化检测器73也连接到输入5。场景变化检测器73检测场景变化在视频内容中发生的时间。作为补充或替代,经由输入5从源所接收的元数据能够指示场景变化发生的时间,并且能够补充或避免检测场景变化73的需要。发信号通知的接合点是这种元数据的示例。段边界块79发信号通知段边界应当发生的时间,即,当前段应当结束的时间以及下一段应当开始的时间。修改场景逻辑78从场景变化检测器73和段边界块79来接收输入。修改场景逻辑78使用输入来监测场景变化对段的结束/开始的接近度,并且决定场景应当按照先前已经描述方式来修改的时间。修改场景逻辑78向选择器72提供输出,以从存储71来选择数据。在逻辑78确定应当复制图像的情况下,将存储71中存储的特定图像的数据输出到编码器80,代替存储71中存储的另一个图像。多个图像存储71还可包括内插功能,以允许第一或第二场隔行扫描图像根据需要被内插,以便允许场定格被使用。场或帧定格的选择能够取决于确定源是基于场还是基于帧的内容。编码器80执行从选择器72所接收的视频内容的压缩编码。
图9示出如何能够实现图8的修改场景逻辑78的示例。逻辑78包括段图像/持续时间计数器74,其保持指示当前段的持续时间的段中的图像的计数。计数器74能够通过从段边界块79所接收的信号周期地重置。还存储至少一个阈值。能够存在针对在段的结束以及在段的开始的场景变化的独立阈值或者单个阈值。比较器76将计数器74的值与(一个或多个)阈值75进行比较,并且向修改场景决定逻辑77提供输出。例如,当计数器74输出小于段的开始阈值75A的值时,比较器76能够输出指示能够修改场景的信号。当计数器74输出大于段的开始阈值75A并且小于段的结束阈值75B的值时,比较器76能够输出指示不能修改场景的信号。当计数器74输出大于段的结束阈值75B的值时,比较器76能够输出指示能够修改场景的信号。当逻辑77从比较器76接收指示能够修改场景的输入以及从场景变化检测器接收指示场景变化已经发生的输入(和/或元数据)时,逻辑78能够提供指示应当修改场景的输出。如上所述,修改场景的决定可基于其他因素。逻辑77可接收一个或多个其他输入,以允许修改场景的决定基于另一个因素或其他因素。
图10示出对于数据在编码器80的输出来切换的情况的图8的修改形式。图10的操作与图8和图9相似,除了数据在编码器80下游的块82来修改。
图11示出处理包括视频的媒体内容的方法。视频包括场景的序列,其包括图像。媒体内容包括段。该方法包括确定第一场景与第二后续场景之间的场景变化在对段之间的边界的预定接近度之内发生的时间的步骤102。当场景变化在段的结束的预定接近度之内发生时,该方法能够进入步骤103。步骤103包括丢弃第二场景中的至少第一图像,并且在第一场景中***附加图像。当场景变化在段的开始的预定接近度之内发生时,该方法能够进入步骤104。步骤104包括丢弃第一场景中的至少一个图像,以及在第二场景中***附加图像。步骤103的另外的细节在步骤105和106中示出。步骤105包括重复(105)第一场景中的现有图像。步骤106包括基于第一场景中的至少一个现有图像来生成(106)新图像。步骤104的另外的细节在步骤107和108示出。步骤107包括复制第二场景中的现有图像。步骤108包括基于第二场景中的至少一个现有图像来生成新图像。步骤103能够丢弃第二场景中的一个以上图像,并且在第一场景中***一个以上附加图像。类似地,步骤104能够丢弃第一场景中的一个以上图像,并且在第二场景中***一个以上附加图像。
再次参照图1,***可使用服务器30与装置40之间的单播连接向装置40分配内容。服务器能够从适合于网络条件的表示中选择ABR段,并且将ABR段传递给装置40。在备选方案中,服务器可同时传送多个表示。各表示作为多播传送到装置。单独装置能够结合所要求的无论哪一个表示的多播。在传递过程期间,装置能够通过留下一个表示的多播并且结合另一个表示的多播在表示之间进行选择。
图12示出示范处理设备200,其可实现为任何形式的计算和/或电子装置,并且其中可实现上述***和方法的实施例。处理设备200能够作为编码器/转码器10的部分在编码器/转码器10的上游的位置来提供,或者功能能够分布在编码器/转码器10的下游和上游的位置之间。处理设备可如图3、图5、图6和图7中所示来修改媒体内容,或者可实现图11中所示的方法。处理设备200包括一个或多个处理器201,其可以是微处理器、控制器或者用于运行指令以控制装置的操作的任何其他适当类型的处理器。处理器201经由一个或多个总线206连接到装置的其他组件。处理器可执行指令203可使用任何计算机可读媒体,例如存储器202来提供。处理器可执行指令203能够包括用于实现所描述方法的功能性的指令。存储器202是任何适当类型,例如只读存储器(ROM)、随机存取存储器(RAM)、诸如磁或光存储装置的任何类型的存储装置。能够提供附加存储器204,以存储由处理器201所使用的数据205。处理设备200包括用于与其他网络实体进行对接的一个或多个网络接口208。
获益于以上描述及关联附图中所呈现的教导的本领域的技术人员将会想到所公开的发明的修改和其他实施例。因此要理解,本发明并不局限于所公开的具体实施例,并且修改和其他实施例旨在包含在本公开的范围之内。虽然本文中可采用具体术语,但是它们仅以一般性和描述性意义来使用,并且不是用于限制的目的。

Claims (20)

1.一种处理包括视频的媒体内容的方法,所述视频包括场景的序列,所述场景包括图像,所述媒体内容包括段,所述方法包括:
确定第一场景与第二后续场景之间的场景变化在对段之间的边界的预定接近度之内发生的时间,并且执行下列中的至少一个:
当场景变化在段的结束的预定接近度之内发生时,丢弃所述第二场景中的至少第一图像并且在所述第一场景中***附加图像;
当场景变化在段的开始的预定接近度之内发生时,丢弃所述第一场景中的至少一个图像并且在所述第二场景中***附加图像。
2.如权利要求1所述的方法,其中,当场景变化在段的结束的预定接近度之内发生时,***附加图像的步骤包括重复所述第一场景中的现有图像。
3.如权利要求1所述的方法,其中,当场景变化在段的结束的预定接近度之内发生时,***附加图像的步骤包括基于所述第一场景中的至少一个现有图像来生成新图像。
4.如权利要求3所述的方法,其中,所述第一场景包括一对隔行扫描场,其包括第一隔行扫描场和第二隔行扫描场,以及***附加图像的步骤包括***一对附加隔行扫描场,其包括附加第一隔行扫描场和附加第二隔行扫描场,其中所述附加第一隔行扫描场基于所述第一场景中的所述第一隔行扫描场和所述第二隔行扫描场来内插,并且所述附加第二隔行扫描场是所述第二隔行扫描场的重复。
5.如权利要求1所述的方法,其中,当场景变化在段的开始的预定接近度之内发生时,***附加图像的步骤包括复制所述第二场景中的现有图像。
6.如权利要求1所述的方法,其中,当场景变化在段的开始的预定接近度之内发生时,***附加图像的步骤包括基于所述第二场景中的至少一个现有图像来生成新图像。
7.如权利要求6所述的方法,其中,所述第二场景包括一对隔行扫描场,其包括第一隔行扫描场和第二隔行扫描场,以及***附加图像的步骤包括***一对附加隔行扫描场,其包括附加第一隔行扫描场和附加第二隔行扫描场,其中所述附加第一隔行扫描场是所述第一隔行扫描场的重复,并且所述附加第二隔行扫描场基于所述第二场景中的所述第一隔行扫描场和所述第二隔行扫描场来内插。
8.如权利要求1至6中的任一项所述的方法,其中,所述段具有相同持续时间。
9.如权利要求1至6中的任一项所述的方法,还包括将所述媒体内容形成为固定持续时间的段。
10.如权利要求1至6中的任一项所述的方法,其中,所述段是自适应比特率段。
11.如权利要求1至6中的任一项所述的方法,还包括以多个不同比特率对所述媒体内容进行编码或转码,以形成所述媒体内容的多个不同比特率表示。
12.一种包括处理器和存储器的设备,所述存储器包含由所述处理器可执行的指令,由此所述设备操作以执行下列操作:
确定第一场景与第二后续场景之间的场景变化在对段之间的边界的预定接近度之内发生的时间,并且执行下列中的至少一个:
当场景变化在段的结束的预定接近度之内发生时,丢弃所述第二场景中的至少第一图像并且在所述第一场景中***附加图像;
当场景变化在段的开始的预定接近度之内发生时,丢弃所述第一场景中的至少一个图像并且在所述第二场景中***附加图像。
13.如权利要求12所述的设备,其中,所述设备操作以:当场景变化在段的结束的预定接近度之内发生时,通过重复所述第一场景中的现有图像来***附加图像。
14.如权利要求12所述的设备,其中,所述设备操作以:当场景变化在段的结束的预定接近度之内发生时,通过基于所述第一场景中的至少一个现有图像生成新图像来***附加图像。
15.如权利要求12所述的设备,其中,所述设备操作以:当场景变化在段的开始的预定接近度之内发生时,通过复制所述第二场景中的现有图像来***附加图像。
16.如权利要求12所述的设备,其中,所述设备操作以:当场景变化在段的开始的预定接近度之内发生时,通过基于所述第二场景中的至少一个现有图像生成新图像来***附加图像。
17.如权利要求12至16中的任一项所述的设备,其中,所述段具有相同持续时间。
18.如权利要求12至16中的任一项所述的设备,其中,所述设备操作以将媒体内容形成为固定持续时间的段。
19.如权利要求12至16中的任一项所述的设备,其中,所述段是自适应比特率段。
20.一种机器可读介质,所述机器可读介质携带指令,所述指令在由处理器运行时使得所述处理器执行如权利要求1至11中的任一项所述的方法。
CN201480073362.1A 2014-01-17 2014-01-17 处理具有场景变化媒体内容的方法及设备 Active CN105900447B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2014/050960 WO2015106825A1 (en) 2014-01-17 2014-01-17 Processing media content with scene changes

Publications (2)

Publication Number Publication Date
CN105900447A CN105900447A (zh) 2016-08-24
CN105900447B true CN105900447B (zh) 2019-10-25

Family

ID=50033473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480073362.1A Active CN105900447B (zh) 2014-01-17 2014-01-17 处理具有场景变化媒体内容的方法及设备

Country Status (4)

Country Link
US (1) US10834470B2 (zh)
EP (1) EP3095249B1 (zh)
CN (1) CN105900447B (zh)
WO (1) WO2015106825A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11228817B2 (en) * 2016-03-01 2022-01-18 Comcast Cable Communications, Llc Crowd-sourced program boundaries
US11470327B2 (en) 2020-03-30 2022-10-11 Alibaba Group Holding Limited Scene aware video content encoding

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101189881A (zh) * 2005-04-13 2008-05-28 诺基亚公司 可分级视频编码中的帧号编码
CN103503454A (zh) * 2011-01-28 2014-01-08 艾艾欧有限公司 场景形式的视频流编码

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6342904B1 (en) * 1998-12-17 2002-01-29 Newstakes, Inc. Creating a slide presentation from full motion video
JP4683253B2 (ja) * 2000-07-14 2011-05-18 ソニー株式会社 Av信号処理装置および方法、プログラム、並びに記録媒体
US7095445B2 (en) * 2000-12-20 2006-08-22 Samsung Electronics Co., Ltd. Method of detecting motion in an interlaced video sequence based on logical operation on linearly scaled motion information and motion detection apparatus
US20050182503A1 (en) * 2004-02-12 2005-08-18 Yu-Ru Lin System and method for the automatic and semi-automatic media editing
WO2009141011A1 (en) * 2008-05-22 2009-11-26 Telefonaktiebolaget L M Ericsson (Publ) Content adaptive video encoder and coding method
US20120287987A1 (en) * 2011-05-13 2012-11-15 Madhukar Budagavi Coding of Scene Changes Using Picture Dropping
US20140133548A1 (en) * 2011-06-30 2014-05-15 Nokia Corporation Method, apparatus and computer program products for detecting boundaries of video segments

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101189881A (zh) * 2005-04-13 2008-05-28 诺基亚公司 可分级视频编码中的帧号编码
CN103503454A (zh) * 2011-01-28 2014-01-08 艾艾欧有限公司 场景形式的视频流编码

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Optimizing Video Encoding for Adaptive Streaming over HTTP;Velibor Adzic;《IEEE TRANSACTION ON CONSUMER ELECTRONICS》;20120501;第398-399页 *

Also Published As

Publication number Publication date
CN105900447A (zh) 2016-08-24
EP3095249B1 (en) 2018-07-25
US10834470B2 (en) 2020-11-10
US20160337705A1 (en) 2016-11-17
WO2015106825A1 (en) 2015-07-23
EP3095249A1 (en) 2016-11-23

Similar Documents

Publication Publication Date Title
US8250618B2 (en) Real-time network adaptive digital video encoding/decoding
US8320451B2 (en) Replacement of frame data in a video stream signal
US11159800B2 (en) Adaptive bit rate ratio control
US8873634B2 (en) Method and device for modification of an encoded data stream
CN101322413A (zh) 视频流中的自适应图片组结构
JP6239472B2 (ja) エンコード装置、デコード装置、ストリーミングシステム、および、ストリーミング方法
CN107113447A (zh) 高帧速率‑低帧速率传输技术
US11317124B2 (en) Apparatus and method for generating an image data stream
KR20060027779A (ko) 영상 블록의 시간상 및 공간상 상관관계를 이용한영상신호의 엔코딩 및 디코딩 방법과 장치
CN115398481A (zh) 对图像执行人工智能编码和人工智能解码的设备和方法
US10432946B2 (en) De-juddering techniques for coded video
CN105900447B (zh) 处理具有场景变化媒体内容的方法及设备
JP6541932B2 (ja) 画像データを表示するためのビデオシステム及び方法及びコンピュータプログラムならびに符号化装置
US20230300426A1 (en) Dual stream dynamic gop access based on viewport change
JP5509262B2 (ja) 映像処理装置、映像圧縮符号化装置、映像復号再生装置及び映像再生方法
Zare et al. Self-contained slices in H. 264 for partial video decoding targeting 3D light-field displays
KR100626419B1 (ko) 비디오 전송에서 비트 스트림들간의 교환
KR100780844B1 (ko) 다시점 화상 복호화기, 다시점 화상 데이터 처리 시스템,다시점 화상 데이터 처리 방법 및 이를 수행하는프로그램을 기록한 기록매체
KR20230027180A (ko) 픽처 출력 타이밍 정보를 시그널링하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 컴퓨터 판독가능한 기록매체
JP4239894B2 (ja) 画像符号化装置及び画像復号化装置
JP5367687B2 (ja) データ配信システム、データ配信装置、及びデータ配信方法
JP5359724B2 (ja) ストリーミング配信システム、サーバ装置、ストリーミング配信方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant