CN103283227A - 用于自适应视频编码的***和方法 - Google Patents

用于自适应视频编码的***和方法 Download PDF

Info

Publication number
CN103283227A
CN103283227A CN2011800628602A CN201180062860A CN103283227A CN 103283227 A CN103283227 A CN 103283227A CN 2011800628602 A CN2011800628602 A CN 2011800628602A CN 201180062860 A CN201180062860 A CN 201180062860A CN 103283227 A CN103283227 A CN 103283227A
Authority
CN
China
Prior art keywords
sampling
video
video data
value
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011800628602A
Other languages
English (en)
Inventor
S·杜肯
陈志峰
董洁
叶琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vid Scale Inc
Original Assignee
Vid Scale Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vid Scale Inc filed Critical Vid Scale Inc
Publication of CN103283227A publication Critical patent/CN103283227A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

描述了用于确定优化后的采样比率以用于编码视频数据从而减少由编码过程引入的整体失真的***和方法。这寻求均衡在下采样期间引入的信息丢失与在编码期间引入的信息丢失。采样比率通常通过降低或者在一些情况下使得在通过下采样过程和编码过程中引入的总体误差最小化的方式来确定,并且可以基于正在处理的视频数据的内容以及目标比特率而自适应。计算功率可以通过对下采样后的视频进行编码的方式来节省。该过程推导多个下采样比率并且选择下采样比率,所述下采样比率减少了在下采样和编码阶段期间引入的总失真量。假定可用的数据传输容量、输入视频信号统计和/或其它可操作的参数,下采样比率可以被选择并且可以优化地降低总体失真。

Description

用于自适应视频编码的***和方法
相关申请的交叉引用
本申请要求2010年10月27日提交的美国临时申请No.61/407,329的权益,所述申请的全部内容作为引用结合于此。
背景技术
数字视频能力能够结合到很大范围的设备中,包括数字电视、数字直接广播***、无线广播***、个人数字助理(PDA)、笔记本或者台式机计算机、数码相机、数码记录设备、视频游戏设备、视频游戏杆、蜂窝或者卫星无线电电话等等。许多数字视频设备实现了视频压缩技术,诸如在由MPEG-2、MPEG-4、ITU-T H.263或者ITU-T H.264/MPEG-4第10部分、高级视频编码(AVC)定义的标准以及这些标准的扩展中描述的,从而更为有效地传送和接收数字视频信息。尽管无线通信技术已经显著地增加了无线带宽并且改进了针对移动设备用户的服务质量,但是快速增长的视频内容需求诸如通过移动互联网的高清(HD)视频内容对移动视频内容提供商、分发商和载波服务提供商带来了新的挑战。
发明内容
根据一种实施方式,视频编码方法包括接收视频数据,并且在多个下采样比率中的每一个采样比率处确定采样误差值。视频编码方法还可以包括对于比特率,在多个下采样比率中的每一个采样比率处确定编码误差值并且将在多个下采样比率中的每一个采样比率处的所述采样误差值与所述编码误差值求和。所述视频编码方法还可以包括基于在选择的下采样比率处的采样误差值与编码误差值的和选择所述多个下采样比率中的一个采样比率,以选择的采样比率对视频数据进行下采样,以及对下采样后的视频数据进行编码。
根据另一实施方式,一种视频解码方法包括:接收压缩后的视频数据以及接收对选择后的采样比率的指示,其中所述采样比率是基于在多个采样比率上采样误差值和编码误差值的和。该视频解码方法还可以包括对压缩后的视频数据进行解码以形成重构后的视频数据,以选择的采样比率对所述重构后的视频数据进行上采样以增加所述重构后的视频数据的分辨率以及输出滤波后的视频数据。
根据另一实施方式,一种视频解码***包括视频解码器。该视频解码器可以被配置成接收压缩后的视频数据,并且接收对选择的采样比率的指示,其中所述采样比率是基于在多个采样比率上采样误差值和编码误差值的和。所述视频解码器还可以被配置成对压缩后的视频数据进行解码以形成重构后的视频数据,对所述重构后的视频数据进行上采样以增加所述重构后的视频数据的分辨率并且输出上采样后的视频数据。
附图说明
从以下描述中可以更详细地理解本发明,这些描述是以示例方式给出的,并且可以结合附图加以理解,其中:
图1为描述示例性视频编码和解码***的框图,所述示例性视频编码和解码***可以利用此处描述的自适应编码技术;
图2为描述视频编码器示例的框图,所述视频编码器可以实现用于视频信号自适应编码的技术;
图3为描述视频解码器示例的框图,所述视频解码器可以实现用于视频信号自适应解码的技术;
图4示出了直接将编解码器应用在输入视频上的编码方案;
图5示出了利用具有下采样和上采样阶段的编码的示例实施方式;
图6A和6B示出了将图5中描述的处理分别分解成采样部分和编码部分;
图7为根据一种非限制性实施方式用于α的查找表;
图8为根据一种非限制性实施方式用于β的查找表;
图9A、9B和9C描述了根据各种非限制性实施方式的搜索策略以找到采样比率Mi
图10A和10B为根据一种非限制性实施方式的流程图;
图11为根据一种非限制性实施方式具有下采样比率
Figure BDA00003411095700031
的水平下采样过程的框图;
图12描述了示例下采样过程;
图13描述了示例上采样过程;
图14描述了示例高斯窗口函数;
图15描述了在示例上采样过程期间的像素;
图16描述了根据一种非限制性实施方式的示例编码器架构;
图17描述了根据一种非限制性实施方式的示例解码器架构;
图18描述了有关转码器的视频数据预处理的示例性实施方式;
图19A为可以在其中实现一个或多个所公开的实施方式的示例通信***的***图;
图19B为示例无线发射/接收单元(WTRU)的***图,其中所述WTRU可以在如图19A所示的通信***中使用;以及
图19C、19D和19E为示例无线发射/接收单元(WTRU)的***图,其中所述WTRU可以在如图19A所示的通信***中使用。
具体实施方式
多媒体技术和移动通信两者在近些年已经经历了大量增长和商业成功。无线通信技术已经显著地增加了无线带宽并且改进了针对移动用户的服务质量。例如,第三代合作伙伴项目(3GPP)长期演进(LTE)标准与第二代(2G)和/或第三代(3G)相比已经改进了服务质量。尽管无线通信技术已经显著改进,但快速增长的视频内容需求诸如通过移动互联网的高清(HD)视频内容,对移动视频内容提供商、分发商和载波服务提供商带来了新的挑战。
在有线网页上存在的视频和多媒体内容已经驱使用户期望等同按需从移动设备访问该内容。更高百分比的世界移动数据业务正在变成视频内容。移动视频已经在此时具有在思科VNI预测的移动数据部分范围内衡量的任何应用类别的最高增长速率。
当视频内容需求增加,需要满足这些需求的数据量也增加。在当前压缩标准诸如H.264(AVC)标准下用于处理视频内容的块大小为16x16。因此,当前压缩标准有益于小分辨率视频内容,但不益于更高质量和/或更高分辨率视频内容,诸如HD视频内容。受高质量和/或高分辨率视频内容的需求以及更先进压缩技术的可用性的驱使,视频编码标准可以被创建,所述视频编码标准与当前标准诸如AVC相比可以进一步降低针对高质量视频编码所需的数据率。例如,由国际电信联盟的视频编码专家组(ITU-VCEG)和国际标准化组织的移动图像专家组形成的组诸如有关视频编码的联合协作小组的组(JCT-VC),正在被创建以开发视频编码标准从而改进视频编码标准。
然而,基于之前视频标准开发经验,新视频标准的预期长期研究、开发和部署周期不能满足大量出现的针对如需求所要求的一样快地通过移动互联网传送的高质量和/或分辨率视频内容的需求。因此,需要***和方法来满足通过移动互联网进行高质量和/或分辨率视频内容传送的增长需求。例如,***和方法可以被提供用于与当前标准兼容的高质量和/或分辨率视频内容,例如诸如与AVC视频压缩标准兼容的HD视频内容。
图1为描述示例性视频编码和解码***10的框图,所述示例性视频编码和解码***10可以利用此处描述的自适应编码技术。如图1中所示,***10包括源设备12,所述源设备12通过通信信道16传送编码后的视频至目的设备14。源设备12和目的设备14可以包括任意大范围的设备。在一些情况中,源设备12和目的设备14可以包括无线接收/发射单元(WRTU),诸如能够通过通信信道16传送视频信息的无线手持设备或者任意无线设备,其中在此情况中通信信道16是无线的。然而,此处描述的***和方法并不必须限于无线应用或者设置。例如,这些技术可以应用于空中电视广播、有线电视传输、***传输、因特网视频传输、编码到存储介质上的编码后的数字视频或者其它场景。相应地,通信信道16可以包括适于传输编码后的视频数据的无线或者有线媒体的任意组合。
在图1的示例中,源设备12包括视频源18、视频编码器20、调制器(通常称作调制解调器)22和发射机24。目的设备14包括接收机26、解调器(通常称作调制解调器)28、视频解码器30和显示设备32。根据本发明,源设备12的视频编码器20可以被配置成应用以下更为详细地描述的自适应编码技术。在其它示例中,源设备和目的设备可以包括其它组件或者排列。例如,源设备12可以从外部视频源18诸如外部摄像机中接收视频数据。同样地,目的设备14可以与外部显示设备连接而不包括集成的显示设备。在其它实施方式中,由视频编码器生成的数据流可以被传送至其它设备而无需将该数据调制到载波信号,例如通过直接数字传送,其中所述其它设备可以或者可以不调制用于传输的数据。
图1中所示的***10仅仅为一种示例。此处描述的技术可以由任何数字视频编码和/或解码设备来执行。尽管本发明的技术通常由视频编码设备执行,但该技术还可以由视频编码器/解码器来执行,典型地称作“编解码器(CODEC)”。此外,本发明的技术还可以由视频预处理器来执行。源设备12和目的设备14仅仅为该编码设备的示例,其中源设备12生成编码后的视频数据以用于传输至目的设备14。在一些示例中,设备12、14可以以大体对称的方式进行操作,由此设备12、14的每一个包括视频编码和解码组件。因此,***10可以在设备12和14之间支持单通或者双通视频传输,例如,用于视频流、视频回放、视频广播或者视频电话。在一些实施方式中,源设备可以为视频流服务器以用于生成针对一个或者多个目的设备的编码后的视频数据,其中目的设备可以通过有线和/或无线通信***与源设备进行通信。
源设备12的视频源18可以包括视频捕获设备,诸如视频摄像机、包含之前捕获的视频的视频归档和/或由视频内容提供商提供的视频。作为又一替换,视频源18可以生成基于计算机图形的数据作为源视频,或者现场视频、归档视频或者计算机生成的视频的组合。在一些情况中,如果视频源18为视频摄像机,源设备12和目的设备14可以形成所谓的摄像机电话或者视频电话。然而,如以上所提到的,本发明中描述的技术可以通常适用于视频编码并且可以适用于无线和/或有线应用。在每种情况中,捕获的、预先捕获的或者计算机生成的视频可以由视频编码器20进行编码。编码后的视频信息之后可以根据通信标准由调制解调器22进行调制并且通过发射机24传送至目的设备14。调制解调器22可以包括各种混合器、滤波器、放大器或者被设计用于信号调制的其它组件。发射机24可以包括被设计用于传送数据的电路,包括放大器、滤波器和一个或者多个天线。
目的设备14的接收机26通过信道16接收信息,并且调制解调器28对该信息进行解调。再次,视频解码过程可以实现此处描述的一种或者多种技术。通过信道16传送的信息可以包括由视频编码器20定义且由视频编码器30使用的语法信息,包括描述宏块和其它编码单元(例如,GOP)的特征和/或处理的语法元素。显示设备32向用户显示解码后的视频数据,并且包括任何多种显示设备的一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或者其它类型的显示设备。
在图1的示例中,通信信道16可以包括任意无线或者有线通信媒介,例如,射频(RF)频谱或者一种或者多种物理传输线或者无线和有线媒体的任意组合。通信信道16可以形成基于分组的网络的一部分,例如,局域网、广域网或者诸如因特网的全球网。通信信道16通常表示用于从源设备12传送视频数据至目的设备14的任何合适的通信媒介或者不同通信媒体的集合,包括有线或者无线媒体的任意合适的组合。通信信道16可以包括路由器、交换机、基站或者有益于便于从源设备12至目的设备14的通信的任何其它设备。
视频编码器20和视频解码器30可以根据视频压缩标准进行操作,诸如ITU-T H.264标准(可替换地称作MPEG-4第10部分),高级视频编码(AVC)。然而,本发明的技术不限于任何特定的编码标准。其它示例包括MPEG-2和ITU-T H.263。尽管未在图1中示出,但在一些方面视频编码器20和视频解码器30可以分别与音频编码器和解码器集成并且可以包括合适的MUX-DEMUX单元,或者其它硬件和软件从而以公共数据流或者独立数据流处理音频和视频的编码。如果适合的话,MUX-DEMUX单元可以符合ITUH.223复用器协议或者其它协议诸如用户数据报协议(UDP)。
ITU-T H.264/MPEG-4(AVC)标准可以被ITU-T视频编码专家组(VCEG)与ISO/IEC移动图像专家组(MPEG)一起规划为作为联合视频组(JVT)的共同伙伴关系的产品。在一些方面,本发明中描述的技术可以被适用于通常符合H.264标准的设备。H.264标准在2005年3月被ITU-T研究组在ITU-T推荐H.264,用于通用视听服务的高级视频编码中描述,所述ITU-T推荐H.264在此处被称作H.264标准或者H.264规范,或者H.264/AVC标准或者规范。联合视频组(JVT)继续从事对H.264/MPEG-4AVC的扩展。
视频编码器20和视频解码器30可以分别被实现为各种合适的编码器电路中的任一种,诸如一个或者多个微处理器,数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或者其任意组合。视频编码器20和视频解码器30可以分别被包括在一种或者多种编码器或者解码器中,所述编码器或者解码器的任何一者可以被集成为在各自的摄像机、计算机、移动设备、订户设备、广播设备、机顶盒、服务器、媒体感知网络元件等中的组合的编码器/解码器(CODEC)中的一部分。
视频序列典型地包括一系列的视频帧。图片组(GOP)通常包括一系列的一个或者多个视频帧。GOP可以包括在GOP的帧头、GOP的一个或者多个帧的帧头中的语法数据,或者否则描述包括在GOP中的多个帧。每个帧可以包括描述用于各自帧的编码模式的帧语法数据。视频编码器20典型地在单独视频帧范围内的视频块上进行操作以对视频数据进行编码。视频块可以对应于宏块、宏块的一部分,或者块或者宏块的集合。视频块可以具有固定或者变化的大小,并且根据指定编码标准在大小上而不同。每个视频帧可以包括多个片。每片可以包括多个宏块,所述宏块可以被排列成分区,也称作子块。
多个流行视频编码标准,诸如H.263、MPEG-2和MPEG-4、H.264/AVC(先进视频编码)、HEVC(高效视频编码)利用了运动补偿的预测技术。图像或者视频帧可以被分割成多个宏块并且每个宏块还可以进一步被分割。I帧中的宏块可以使用从空间邻居(也就是I帧的其它块)的预测进行编码。P或者B帧中的宏块可以使用从其空间邻居(空间预测或者模式内编码)或者其它帧(时间预测或者模式间编码)中的区域的预测进行编码。视频编码标准定义语法元素来表示编码信息。例如,对于每个宏块,H.264定义了mb_type值,其中mb_type值表示在其中宏块被分割的方式以及预测方法(空间或者时间的)。
视频编码器20可以提供用于宏块的每个分区的单独运动向量。例如,如果视频编码器20选择将全部宏块用作单个分区,视频编码器20可以提供一个用于宏块的运动向量。作为另一示例,如果视频编码器20选择将16x16像素的宏块分割成四个8x8的分区,视频编码器20可以提供四个运动向量,每个运动向量用于每个分区。对于每个分区(或者子宏块单元),视频编码器20可以提供mvd(运动向量差异)值和ref_idx值来表示运动向量信息。mvd值可以表示相对于运动预测器用于所述分区的编码后的运动向量。ref_idx(参考索引)值可以表示对于潜在参考图片列表即参考帧的索引。作为示例,H.264提供了参考图片的两个列表:列表0和列表1。ref_idx值可以标识在两个列表中的其中一个列表中的图片。视频编码器20还可以提供指示ref_idx值关联到的列表的信息。
作为示例,ITU-T H.264标准支持以各种块分区大小的内部预测,诸如16x16,8x8,或者4x4用于亮度分量,以及用于色度分量的8x8,以及以各种块大小的帧间预测,诸如用于亮度分量的16x16,16x18,8x16,8x8,8x4,4x8,和4x4以及用于色度分量的对应比例大小。在本发明中,“NxN”和“N乘N”可以被交替用来指在垂直和水平方位的块的像素尺寸,例如,16x16像素或者16乘16像素。通常,16x16的块在垂直方向上具有16个像素(y=16)以及在水平方向上具有16个像素(x=16)。同样地,NxN的块通常在垂直方向中具有N个像素并且在水平方向中具有N个像素,其中N表示非负整数值。块中的像素可以被排列成行和列。此外,块并不一定需要在水平方向中具有与垂直方向中相同的像素数。例如,块可以包括NxM像素,其中M不必要等于N。
小于16x16的块大小可以被称作16x16宏块的分区。视频块可以在像素域中包括像素数据块或者在变换域中包括变换系数块,例如,跟随变换应用,诸如离散余弦变换(DCT)、整数变换、小波变换或者在概念上类似变换成表示编码后的视频块和预测视频块之间的像素差异的残差视频块数据。在一些情况中,视频块可以包括在变换域中的量化后的变换系数块。
更小的视频块能够提供更好的预测以及更少的残差,并且可以被用于包括高细节等级的视频帧的定位。通常,宏块和各种分区(有时称作子块)可以被当作视频块。此外,片可以被当作多个视频块,诸如宏块和/或子块。每个片可以为视频帧的独立可解码单元。可替换地,帧自身可以为可解码单元,或者帧的其它部分可以被定义为可解码单元。术语“编码后的单元”或者“编码单元”可以指视频帧的任何独立可解码单元,诸如整个帧、帧的片、也称作序列的图片组(GOP)或者根据可应用的编码技术定义的另一独立可解码单元。
H.264标准支持具有四分之一像素精度的运动向量。也就是,支持H.264的编码器、解码器和编码器/解码器(CODEC)可以使用指向全像素位置或者十五分之一分数像素位置的运动向量。用于分数像素位置的值可以使用自适应插值滤波器或者固定插值滤波器来确定。在一些示例中,H.264兼容的设备可以使用滤波器来计算用于半像素位置的值,之后使用双线性滤波器来确定用于剩余四分之一像素位置的值。自适应插值滤波器可以在编码过程期间被用来自适应地定义插值滤波器系数并且由此滤波器系数可以在执行自适应插值滤波器时随时间而变化。
在预测内或者预测间编码来生成预测性数据和残差数据之后以及在任何变换(诸如用于H.264/AVC的4x4或者8x8整数变换或者离散余弦变换DCT)来生成变换系数之后,变换系数的量化可以被执行。量化通常指变换系数被量化成可能降低用来表示系数的数据量的过程。量化过程可以降低与一些或者所有系数相关联的比特深度。例如,n比特值可以在量化期间向下取整(round down)为m比特值,其中n大于m。
在量化之后,量化后数据的熵编码可以被执行,例如,根据内容自适应可变长度编码(CAVLC)、背景(context)自适应二进制算术编码(CABAC)或者另一熵编码方法。配置用于熵编码的处理单元或者另一处理单元可以执行其它处理功能,例如量化后的系数的零游程编码和/或生成语法信息,诸如编码块模式(CBP)值、宏块类型、编码模式、编码单元的最大宏块大小(例如,帧、片、宏块或者序列)等等。
视频编码器20还可以例如,在帧头、块头、片头或者GOP头中发送语法数据,诸如基于块的语法数据、基于帧的语法数据、基于片的语法数据和/或基于GOP的语法数据至视频解码器30。GOP语法数据可以描述在各自GOP中的多个帧,并且帧语法数据可以指示用来对对应帧进行编码的编码/预测模式。
视频解码器30可以接收包括根据本发明任一技术进行编码的运动向量的比特流。相应地,视频解码器30可以被配置成对编码后的运动向量进行解析。例如,视频解码器30可以首先分析序列参数集或者片参数集来确定编码后的运动向量是否使用将所有运动向量保持在一个运动分辨率的方法来进行编码或者是否使用运动预测器被量化成运动向量分辨率的方法来进行编码。视频解码器30之后可以通过确定运动预测器以及将用于编码后的运动向量值加到运动预测器的方式来对相对于运动预测器的运动向量进行解码。
视频编码器20和视频解码器30可以分别被实现各种合适的编码器或者解码器电路中的任一种,诸如可应用的一个或者多个微处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或者其任意组合。视频编码器20和视频解码器30可以分别被包括在一种或者多种编码器或者解码器中,所述编码器或者解码器的任何一者可以被集成为组合的编码器/解码器(CODEC)中的一部分。包括视频编码器20和/或视频解码器30的装置可以包括集成电路、微处理器和/或无线通信设备,诸如蜂窝电话。
图2为描述视频编码器200示例的框图,所述视频编码器200实现了用于视频信号自适应编码的技术。视频编码器200可以执行视频帧范围内块的帧内和帧间编码,包括宏块或者宏块的分区或者子分区。帧内编码依赖于空间预测来降低或者移除给定视频帧范围内的视频中的空间冗余。帧间编码依赖于时间预测来降低或者移除视频序列的相邻帧范围内的视频中的时间冗余。内部模式(I模式)可以指一些基于空间的压缩模式和帧间模式的任何一者,诸如单向预测(P模式)或者双向预测(B模式),可以指一些基于时间的压缩模式的任何一者。尽管图2中描述了针对帧间模式编码的组件,但应该理解的是视频编码器200还可以包括用于帧内模式编码的组件。然而,这些组件出于简洁和清晰考虑未被示出。
输入视频信号202被逐块处理。视频块单元可以为16像素乘以16像素(即,宏块(MB))。当前,ITU-T/SG16/Q.6/VCEG和ISO/IEC/MPEG的JCT-VC(视频编码方面的联合协作组)正在开发下一代称作高效视频编码(HEVC)的视频编码标准。在HEVC中,扩展的块大小(称作“编码单元”或者CU)被用来更为有效地压缩高分辨率(1080p及以上)视频信号。在HEVC中,CU能够高达64x64像素并且低至4x4像素。CU能够被进一步分割成可应用单独的预测方法的预测单元或者PU。每个输入视频块(MB、CU、PU等)可以使用空间预测单元260和/或时间预测单元262进行处理。
空间预测(即帧内预测)使用来自相同的视频图片/片中已经编码的相邻块中的像素来预测当前视频块。空间预测减少了在视频信号中固有的空间冗余。时间预测(即帧间预测或运动补偿预测)使用来自已经编码的视频图片的像素来预测当前的视频块。时间预测减少了视频信号中固有的时间冗余。针对给定视频块的时间预测通常由一个或多个运动矢量来表示,其中所述一个或者多个运动向量指示当前块和其一个或者多个其参考块之间的运动量和运动方向。
如果多个参考图片被支持(最新的视频编码标准,诸如H.264/AVC或HEVC就是这种情况),那么对于每个视频块,其参考图片索引也被发送。参考索引被用来识别时间预测信号来自参考图片库264中的哪一个参考图片。在空间和/或时间预测之后,编码器中的模式决策和编码器控制器280例如根据速率失真优化方法选择预测模式。预测块之后在加法器216处从当前视频块中被减去并且预测残差被变换单元204变换以及被量化单元206量化。量化后的残差系数在逆量化单元210处被逆量化并且在逆变换单元212处逆变换从而形成重构的残差。重构后的块之后在加法器226处回过来被添加到预测块从而形成重构后的视频块。此外在环滤波诸如去块效应滤波器和自适应环路滤波器266,可以在重构后的视频块被放置在参考图片库264之前被应用到重构后的视频块中并且被用来对未来视频块进行编码。为形成输出视频比特流220,编码模式(帧间或帧内),预测模式信息、运动信息以及量化后的残差系数被发送至熵编码单元208从而被进一步压缩并打包以形成比特流220。如在下面更详细地描述,此处所描述的***和方法可以至少部分地在空间预测单元260范围内实现。
图3为根据一个非限制性实施方式的基于块的视频解码器的框图。视频比特流302首先被解包并且在熵解码单元308处进行熵解码。编码模式和预测信息被发送至空间预测单元360(如果为帧内编码)或者时间预测单元362(如果为帧间编码)从而形成预测块。残差变换系数被发送至逆量化单元310和逆变换单元312以重构残差块。预测块和残差块之后在326处一起相加。重构后的块还可以在其被存储在参考图片库364之前通过环滤波单元366。重构后的视频320之后被向外发送以驱动显示设备,以及被用来预测未来的视频块。
根据一种实施方式,预处理和/或后处理***架构可以压缩原始视频数据和/或转码已编码的视频数据,诸如通过共同控制变换域量化和空间域下采样的进一步压缩的比特流而不改变视频流的标准格式。预处理和/或后处理的***架构可以以任何格式诸如H.263、MPEG-2、Flash、MPEG-4、H.264/AVC、HEVC或任何类似的多媒体格式对视频数据进行编码和/或解码。如以上所描述,这些以及类似的格式可以使用诸如离散余弦变换(DCT)、分形压缩方法、匹配追踪或离散小波变换(DWT)的视频压缩方法。
各种现有压缩标准的限制诸如H.264/AVC为指定宏块(MB)的大小,诸如16×16。在一个MB内,根据预测模式,像素可以被分割成一些块大小。任意块的最大大小可以为16×16,并且任意两个MB可以独立地变换和量化。这种技术可以对CIF/QCIF和其它类似分辨率内容提供非常高的效率。然而,其对于更高分辨率诸如720p、1080i/1080p和/或类似或甚至更高的分辨率的视频内容并不有效率。这可能因为在局部区域中的像素中存在更高的相关性。因此,指定的16×16MB大小会限制利用在相邻MB中的相关信息的进一步压缩。
由小MB大小进行编码的高分辨率内容可能会产生不必要的开销。例如,在H.264比特流中,编解码器元件可包括四种类型的信息:1)运动信息,诸如运动矢量和参考帧索引等;2)残差数据;3)MB的报头信息,诸如MB类型、编码块模式和/或量化参数(QP);4)序列层、图片层和/或片层的语法元素。尽管运动信息和残差数据可能是高度依赖于内容,但MB报头信息和/或语法元素可以是相对恒定的。由此MB的报头信息和/或语法元素可以表示比特流中的开销。假定内容和/或编码配置文件(profile),编码器的更高压缩比可以通过降低残差数据的比特率来实现。例如,H.264编码器的更高压缩比可以通过降低残差数据的比特率来实现。压缩比越高,存在开销的百分比越高。因此,在高分辨率和/或低比特率的应用中,开销可能消耗用于传输和存储的比特流的一大部分。由开销所消耗的所述比特流的一大部分会使编码器例如H.264编码器低效。
根据此处描述的***和方法,预处理和/或后处理可能引起更少的开销,对运动补偿精度和重构精度的调整(align),残差精度的增强,和/或较少的复杂度和/或较少的存储器需求。当MB的数量被降低至下采样比率时,由于在预处理中执行的下采样,会产生较少的开销。因此,接近恒定的MB报头和/或片层的语法元素会被精简。
运动补偿的精度和重构精度还可以在视频数据的预处理和/或后处理中调整。在下采样帧中,运动矢量差(MVD)的数量可以被减少。根据一种实施方式,MVD的减少可以节省用于编码运动信息的比特。在一种实施方式中,所节省的比特可被用来在低比特率的场景中对预测误差进行编码。因此,重构精度可以通过对运动补偿的精度和量化预测误差的精度进行调整的方式来改进。
视频数据的预处理和/或后处理还可以提升残差精度。例如,在下采样后的帧中,相同变换块大小可以对应到原始帧中的更高变换块大小。根据一种示例,8×8的变换块大小可以对应于1/4下采样比率的16×16的变化块大小。由于量化步长对于编码器诸如H.264编码器中的变换系数是相同的,编码器会失去高频和低频分量两者中的信息。因此,此处描述的视频数据的预处理和/或后处理可以保存比用于高分辨率和低比特率编码情况的传统编码器的更高的低频分量精度,这可以产生更好的主观质量。在解码器中的上采样过程可以被用来内插像素从而恢复原始的帧。
视频数据的预处理和/或后处理还会引起较低复杂度和/或存储器需求。由于在下采样后用于编码的像素数量被降低至下采样比率,编码(或者转码)的复杂度和/或存储器需求可以被降低至相同的等级。相应地,解码的复杂度和/或存储器需求也可以被降低至相同的等级。这些编码和/或解码过程,可以便于较低分辨率编码器和/或解码器的应用,诸如在移动电话和其它资源有限的设备中的编码。根据示范性实施方式,这些编码和/或解码处理可以便于移动电话中的H.264编码器和/或解码器的结合和/或应用。
为了解决在高分辨率和/或低比特率的应用中的传统编码器的限制,此处描述的***和方法可以独立地和/或共同地控制变换域的量化和空间域下采样从而实现进一步压缩。所述量化和下采样可以以可接受的主观质量来执行。图4示出了将编解码器(即H.264/AVC编解码器)直接应用在输入视频的编码方案。图5示出了利用具有下采样和上采样阶段的编码的示例性实施方式。与图4所示方法相比,图5中描述的方法能够分配更多的比特来在编码阶段中对帧内和帧间预测误差进行编码;因此其可以获得更好的具有更高视觉质量的重构。尽管下采样引入了信息丢失(特别是高频分量),当操作比特率由于网络限制而低,在编码阶段的更好重构会超过在下采样过程中的细节丢失;因此提供了更好的整体视觉质量。附加地,通过对较小(即下采样后的)视频进行编码,能够节省计算功率。然而,由于下采样在编码过程之前造成信息丢失,如果原始视频被过度下采样,在前面引入的信息丢失会超过在编码阶段中的更高保真度的益处。因此,此处描述的***和方法通常寻求平衡在下采样期间引入的信息丢失以及在编码期间引入的信息丢失。特定地,此处描述的过程可以推导多个下采样比率并且选择降低在下采样和编码阶段期间引入的总失真量的下采样比率。给定可用的数据传输容量、输入视频信号统计和/或其它可操作参数,所选择的下采样比率可以被选择。在一些实施方式中,所选择的下采样比率可以是最优减少整体失真的下采样比率。
由此处描述的滤波器提供的灵活性比其它滤波器诸如提供仅2x2下采样和上采样的抗锯齿滤波器更有益。以高比特率,诸如用于CIF的512kbits/s,下采样比率2x2太高以致高频分量被严重丢失并且即使使用无损编码也不能被补偿。因此,以高比特率,采样比率可以被调节成提供分辨率降低和细节保护之间的权衡。
现在参考图5,以M表示的下采样比率为变量,其中所述变量可以被确定为各种参数的函数,诸如,可用数据传输容量、与视频关联的承载的服务质量类别标识符(QCI)以及输入视频信号特征。例如,如果数据传输容量对于输入视频信号相对丰富,那么H.264/AVC编码器具有足够的比特来对预测误差进行编码;在该情况中,M值可以被设置接近1.0。反之,如果数据传输容量对于输入信号被认定为不充分,那么更大的M值会被选择(产生更多的下采样),因为由于下采样过程的信息丢失将可以通过因编码阶段较小的编码误差得到很好的补偿。由于数据传输容量通常由以精细粒度的比特率表示,在各种实施方式中,M值可以非常灵活。如以下更为详细地描述,所述***和方法可以被提供以基于至少部分基于可用数据传输容量和输入视频信号来确定选择的采样比率M。给定所选择的采样比率M,专用滤波器可以被考虑用于针对编码对视频进行下采样并且针对显示对解码后的视频进行上采样。参考图11-15,以下还更为详细地描述用于设计针对任意合理值采样比率的抗锯齿滤波器的各种技术。
再次参考图4和图5,视频输入被表示为f并且常规编解码器的输出被表示为f1以及根据所述***和方法示例编解码器的输出被表示为f2。图4中的编解码器的重构误差可以被定义为等式(1):
σ1 2=E[(f-f1)2]    (1)
图5中的编解码器的重构误差可以被定义为等式(2):
σ2 2=E[(f-f2)2]    (2)
因此,如果σ2 2小于σ1 2,图5中的编解码器比图4中的编解码器表现得更好。根据此处描述的***和方法,通过找到M的方式,σ2 2和σ1 2之间的差异会被增加(并且在一些情况中最大化),如等式(3)所示:
M=argmaxM1 22 2)    (3)
由于对于给定目的比特率σ1 2为常数,在一些实施方式中,等式(3)被简化并且被表示为等式(4)
M=argmaxMσ2 2    (4)
因此,根据此处描述的***和方法,对于给定比特率,采样比率M可以被确定,由此图5中所示的编解码器的重构误差(σ2 2)被减少。在一些实施方式中,采样比率M可以被确定,这将引起接近最小值(或者至少基本接近最小值)的重构误差。在一些实施方式中,采样比率M可以从预先确定的采样比率集中选择,其中所选择的比率M从预先确定的采样比率集中提供最小的重构误差。
在一些实施方式中,M为标量,由此水平和垂直方向具有相同的比率。给定视频W×H的分辨率,下采样后的视频分辨率为
Figure BDA00003411095700181
对于使用支持非均方采样(即采样纵横比(SAR)不等于1:1)并且能够将下采样后的视频插值到具有恰当图片纵横比(PAR)的全分辨率的解码器的一些实施方式,水平和垂直比率可以不同。在该情况中,M=[Mh,Mv]为一个向量,其中Mh和Mv分别表示针对水平和垂直方向的采样比率。因此,尽管在标量环境中描述了一些示例实施方式,但本发明并不限于此。相反,一些实施方式可以利用具有将不均衡比率应用于每个方向的编码过程。
出于简化说明,图5中描述的处理可以被分解成采样部分(图6A)和编码部分(图6B)。参考图6A中示出的采样部分,对于输入原始视频序列f,紧接着在以因子M602的下采样之后应用以因子M608的上采样从而生成f3;也就是,f和f3之间的误差仅由采样产生并且可以被称作“下采样误差”并且表示为σd 2,其中σd 2可以由等式(5)来定义:
σd 2=E[(f-f3)2]    (5)
参考图6B中所示的编码部分,输入为下采样视频d1,并且d1被编码器612编码以及被解码器614解码从而获得重构信号d2,其中d2为d1降级后的版本。d1和d2之间的误差仅由编码产生并且可以被称作“编码误差”并且表示为σc 2,其中σc 2可以由等式(6)来定义:
σc 2=E[(d1-d2)2]    (6)
σ2 2(等式2)和σd 2和σc 2之间的关系因而可以由等式(7)来定义:
σ2 2=μσd 2c 2    (7)
因此,在(4)中的优化问题可以以等式(8)重新表达:
M=argminM(μσd 2c 2)    (8)
在等式(6)和(7)中,μ为在[0,1]范围中的权重因子。出于简化目的但又不失一般性,对于此处描述的示例性实施方式,权重因子μ被设置为1。
采样误差估计
在采样期间,在f被下采样之前,f可以由抗锯齿滤波器滤波,其中所述抗锯齿滤波器为低通滤波器类型。有关示例滤波器的附加细节在以下关于图11-15处描述。以f3表示(图6A)的采样阶段的输出为f的模糊化版本,因为f3不再具有具有比应用到f的抗锯齿滤波器的截止频率还高的频率分量的能量组分。因此,在一些实施方式中,采样误差可以通过测量存在于f中但在f3中丢失的高频分量的能量在频域中被测量。根据各种实施方式,如以下更为详细的描述,f的能量分布可以基于真实功率频谱密度(PSD)或者估计的PSD来建模。可替换地,其它技术可以被用来评估对视频信号频率内容的采样比率的效果。
f的基于数据的PSD估计
给定具有自动相关的广义平稳(WSS)随机场R(τhv),PSDSxx1,ω2)可以通过等式(9)中的2-D离散时间傅立叶变换(DTFT)来计算:
S xx ( ω 1 , ω 2 ) = Σ τ h = - ∞ ∞ Σ τ v = - ∞ ∞ R ( τ h , τ v ) e - j ω 1 τ h - jω 2 τ v (9)
R(τhv)为基于视频信号集的估计。将2-D DTFT应用到估计的R(τhv)产生估计的PSD,其中所述估计的PSD不再为一致的。根据各种实施方式,PSD通过随机场的周期图来估计,由等式(10)给出:
S ^ xx ( ω 1 , ω 2 ) = 1 WH | X ( ω 1 , ω 2 ) | 2 = 1 WH | Σ w = 0 W - 1 Σ h = 0 H - 1 x [ w , h ] e - j ω 1 w - j ω 2 h | 2    (10)
其中W和H表示视频序列的宽度和高度。因子
Figure BDA00003411095700203
可以被用来保证频域中的总能量等于空间域中的总能量,如等式(11)所示:
∫ - π π ∫ - π π S ^ xx ( ω 1 , ω 2 ) dω 1 dω 2 = Σ w = 0 W - 1 Σ h = 0 H - 1 | x [ w , h ] | 2    (11)
根据此处描述的***和方法,当给定视频序列f,所述视频序列f意味着输入为确定性的2-D信号而不是WSS随机场,等式(10)中的
Figure BDA00003411095700205
也被当作能量频谱密度(ESD)。
在等式(10)中,x[w,h]为视频序列f中的一帧;
Figure BDA00003411095700206
为x[w,h]在频域中的表示。在一种实施方式中,视频序列f可以包括一致的内容,诸如单脉冲(single shot)。在该情况中,在f中基于一个典型的x[w,h]诸如第一帧所计算的
Figure BDA00003411095700207
可以表示整个序列f的能量分布。在另一实施方式中,其中f包含场景变化;在该情况中,
Figure BDA00003411095700208
能够为多个PSD的平均值:
Figure BDA00003411095700211
等,所述等分别基于多个帧x1[w,h]、x2[w,h]等而计算。此外,帧xi[w,h](i=1,2等)可以从场景#i中选择。
在一些实施方式中,用于估计整个序列的PSD的技术会变化。例如,在一种实施方式中,多个帧:x1[w,h]、x2[w,h]等可以以固定间隔诸如一秒从f中选出并且多个对应的PSD:
Figure BDA00003411095700213
等可以被计算并且被求平均以生成
Figure BDA00003411095700214
在一种实施方式中,视频序列f被细分成I段,其中每段由一组连续帧组成(例如,该段可以基于内容、运动、纹理和边界结构等)并且具有分派的wi权重。然后,整个PSD
Figure BDA00003411095700215
被设置为帧xi[w,h](i=0,i=1,2……I-1)的PSD的加权平均,所述每个帧从段#i中选出,如等式(12)中所示:
S ^ xx ( ω 1 , ω 2 ) = 1 WH Σ i = 0 l - 1 w i | X i ( ω 1 , ω 2 ) | 2 = 1 WH Σ i = 0 l - 1 w i | Σ w = 0 W - 1 Σ h = 0 H - 1 x i [ w , h ] e - j ω 1 w - j ω 2 h | 2    (12)
f的基于模型的PSD估计
在一些实施方式中,诸如与实时视频流关联的实施方式,没有表示序列的典型内容的帧可以得以预处理(即等式(10)中的x[w,h])来评估PSD。因此,在一些实施方式中,PSD可以使用如等式(13)、(14)和(15)中所示的公式来建模:
S ^ xx ( ω 1 , ω 2 ) = F ( ω 1 , ω 2 , b → )    (13)
其中
Figure BDA00003411095700219
为包含函数F(.)的自变量(argument)的向量。在一种实施方式中,被用来对
Figure BDA000034110957002110
建模的函数F(.)具有一个参数,如等式(14)中所示:
S ^ xx = K · e - ( 1 - ω 1 2 + ω 2 2 b 0 )    (14)
其中K为确保能量守恒的因子。由于空间域中的准确的总能量为未知(由于x[w,h]不可获得),在一些实施方式其可以被估计如等式(15)中所示:
∫ - π π ∫ - π π S ^ xx ( ω 1 , ω 2 ) d ω 1 dω 2 = Σ w = 0 W - 1 Σ h = 0 H - 1 | x [ w , h ] | 2 = W × H × 128 2    (15)
在等式(14)中,b0为由视频序列的分辨率和内容确定的自变量。在一种实施方式中,b0的内容被分类成三种类别:简单、中等和复杂。表1中示出了根据一种非限制性实施方式针对不同分辨率和背景(context)的b0的经验值。
表1
格式 简单 中等 复杂
CIF 0.1061 0.137 0.1410
WVGA 0.1020 0.124 0.1351
1280x720 0.0983 0.105 0.1261
1920x1080 0.0803 0.092 0.1198
f3的PSD估计
由于比率M为有理数,其可以表示为
Figure BDA00003411095700223
A≥B。由此,下采样后的视频具有分辨率
Figure BDA00003411095700224
。换而言之,降低的分辨率的比例等于
Figure BDA00003411095700225
。在频域中,丢失的频率分量的比例也等于
Figure BDA00003411095700226
并且如果应用到f的抗锯齿滤波器在
Figure BDA00003411095700227
处具有锐截止频率,所有这些丢失的分量位于高频域中。在理想情况中,(即下采样输出后跟随上采样),在频带
Figure BDA00003411095700232
中的图6A中的f3的所有高频分量被丢失。表示为
Figure BDA00003411095700233
的f3的PSD可以通过将 S ^ xx ( ω 1 , ω 2 ) , ( ω 1 , ω 2 ∈ [ - π , - B A π ] ∪ [ B A π , π ] ) 的值设置为等于零而从
Figure BDA00003411095700235
中估计,如等式(16)中所示:
Figure BDA00003411095700236
   (16)
值得注意的是(11)中的的估计并不完全真实,因为抗锯齿滤波器不具有理想的锐截止频率,但其非常接近f3的真实PSD。
此外,当水平和垂直方向分别具有不同的采样比率
Figure BDA00003411095700238
Figure BDA00003411095700239
Figure BDA000034110957002310
的估计可以以等式(17)重新表达:
   (17)
采样误差计算
在估计f和f3的PSD(即
Figure BDA000034110957002313
))之后,下采样误差
Figure BDA000034110957002314
可以通过等式(18)来计算:
σ d 2 = 1 WH ∫ - π π ∫ - π π [ S ^ xx ( ω 1 , ω 2 ) - S ^ yy ( ω 1 , ω 2 ) ] dω 1 dω 2    (18)
通常,由等式(18)提供的下采样误差提供了对在输入视频信号和以下采样比率采样的视频信号之间的高频能量内容差异的指示。其它技术可以被用来生成下采样误差。例如,在一些实施方式中,下采样误差
Figure BDA000034110957002318
可以通过确定下采样后和上采样后的视频信号f3和输入视频信号f之间的均方差(MSE)的方式来获得。举另一例子,在一些实施方式中,下采样误差
Figure BDA00003411095700241
可以通过将抗锯齿滤波器应用到输入视频信号f以及确定滤波后的f和原始输入视频f之间的MSE的方式来获得。举另一例子,在一些实施方式中,下采样误差
Figure BDA00003411095700242
可以通过将具有与之前提到的抗锯齿滤波器相同的截止频率的高通滤波器应用到输入视频信号f以及确定高通滤波后f的每个像素的平均能量的方式来获得。
估计编码误差
给定目标比特率R,编码误差可以通过模型来估计。在一些实施方式中,使用了以下由等式(19)示出的速率失真(R-D)模型:
σ c 2 = β γ α    (19)
其中γ为分配给每个像素的平均比特数,即每像素比特(bpp)。在一些实施方式中,γ可以通过等式(20)来计算:
γ = R × M h × M v fps × W × H    (20)
在等式(20)中,fps为帧速率,意味着在每秒中捕获的帧数,Mh和Mv分别为水平和垂直方向上的采样比率,W为水平分辨率,H为垂直分辨率以及R为比特率。
比特率R可以被获取,或者通过各种技术来推导。例如,比特率R可以由编码***的用户来提供。在一些实施方式中,与编码***关联的网络节点,诸如视频服务器或者媒体感知网络元件可以监视与各种视频流相关联的比特率。视频编码器之后可以查询网络节点以请求针对特定视频流的比特率指示。在一些实施方式中,比特率可以随时间改变,诸如在切换或者与用户设备接收视频关联的IP流移动性功能(IFOM)期间。编码器可以接收包含更新后的目标比特率的消息。在一些实施方式中,比特率R可以通过解码器从分配给视频流的服务质量等级指示符(QCI)中推导。例如,一至四的QCI当前提供了保证的比特率(GBR)。GBR可以被视频编码器利用来确定编码误差
Figure BDA00003411095700251
。在一些实施方式中,比特率R可以被确定或者由与解码器关联的用户设备提供。例如,用户设备可以通过恰当的信令向编码器提供总的聚合数据传输吞吐量的估计。在用户设备具有多无线电接入技术(RAT)通信能力的情况下,比特率R可以为通过两种或者更多种无线电接入技术诸如蜂窝RAT或者非蜂窝RAT的吞吐量的指示。在一些实施方式中,RTP/RTCP协议可以被用来确定比特率信息。例如,RTP/RTCP可以在WRTU和基站中运行从而收集应用层比特率。该比特率R之后可以在等式(20)中使用。
等式(19)中的R-D模型具有两个参数α和β,其中α和β的值根据包括但不限于序列内容、序列分辨率、编码器实现和配置等因素而变化。以下更为详细地描述了各种用于找到α和β合适值的各种实施方式。一旦使用各种合适的技术已经确定针对α和β的值,针对特定采样比率的编码误差
Figure BDA00003411095700252
之后可以被计算。对于采样比率Mh和Mv,使用等式(20)可以首先确定每个像素的平均比特r。之后,所确定的每个像素的平均比特r之后可以被用来计算编码误差
Figure BDA00003411095700253
,如等式(19)所描述。之后可以针对不同采样比率计算编码误差
Figure BDA00003411095700254
。首先,每个像素的新平均比特r可以使用等式(19)中的新采样比率值来计算。r的新值之后可以被用来解等式(19)。
α和β值—离线模式
在一些实施方式中,当采样比率被选择而无时间限制时,离线训练可以被用来找到非常准确地从编码过程对失真进行预测或者建模的α和β的值。因此,在一种实施方式中,视频可以被预处理以确定比特率和编码失真之间的关系。所确定的关系之后可以在确定采样比率时利用,因为可用比特率或者目标比特率在视频传输期间随时间变化。所述关系会受包括但不限于视频数据内容、视频数据分辨率、编码器实现和配置等因素影响。
选定之前提到的因素,在已知设置中配置的编码器可以以全分辨率对给定序列进行编码。该仿真可以在比特率{R0,R1,...,RN-1}的范围内执行,产生对应于每个比特率的失真集{D0,D1,...,DN-1}。所述比特率可以使用等式(21)被归一化为bpp{r0,r1,...,rN-1}:
r i = R i fps × W × H    (21)
对应失真可以被相应地被归一化为均方误差(MSE),以{d0,d1,...,dN-1}表示。归一化后的比特率和失真对[ri,di](0≤i≤N)可以被描绘为R-D曲线。数字的优化算法可以通过解等式(22)来找到期望的αopt和βopt值的方式被用来匹配R-D曲线。
[ α opt , β opt ] = arg mi n α , β Σ i = 0 N - 1 ( d i - β r i α ) 2    (22)
α和β的值—在线模式
对于一些实施方式,视频序列或者序列一部分可以用于预处理,但离线训练对于应用由于诸如高度复杂度而无法承担。在这些实施方式中,信号分析可以根据视频序列的可用部分来执行并且有用特征可以被提取,所述有用特征反映视频序列的特点,诸如运动、纹理和边界等。所提取的特征以及参数α和β的值具有高度相关性,因此所提取的特征可以被用来估计α和β值以减少编码引起的失真。
在一种实施方式中,基于PSD(以上详细描述的)的视频序列可以被分析并且两种特征可以从
Figure BDA00003411095700263
中提取。一种被利用的特征是DC分量的能量百分比FDC并且另一特征为截止频率±ωc,其中具有在±ωc范围之外的频率的分量的能量具有低于阈值T(例如,T=0.5%)的总能量。通常,截止频率±ωc表示指向高频段的PSD衰退速度,其中±ωc的绝对值位于[0,π]范围。因此,±ωc的值越小,指向高频段的PSD衰退速度越快。FDC和ωc可以分别通过等式(23)和(24)来计算:
F DC = S ^ xx ( 0,0 ) ∫ - π π ∫ - π π S ^ xx ( ω 1 , ω 2 ) d ω 1 d ω 2    (23)
ω c = min { ω | ∫ - ω ω ∫ - ω ω S ^ xx ( ω 1 , ω 2 ) d ω 1 d ω 2 ∫ - ω ω ∫ - π π S ^ xx ( ω 1 , ω 2 ) d ω 1 d ω 2 ≥ ( 1 - T ) }    (24)
在一种实施方式中,FDC被截断在[0.85,0.99]的范围并且被H阶均匀量化器量化。在一种实施方式中,ωc被截断在[0,0.9π]的范围并且被L阶的均匀量化器量化。这两种提取的特征即量化后的FDC和ωc,以
Figure BDA00003411095700273
Figure BDA00003411095700274
表示,可以被用作两个索引来查找两个2-D表中的项从而分别获得α和β的值。在一种实施方式中,FDC被具有位于{0.85,0.86,…,0.98,0.99}处的重构点的15阶均匀量化器量化并且ωc被具有位于{0.0π,0.1π,…,0.8π,0.9π}处的重构点的10阶均匀量化器量化。图7和图8分别示出了根据一种实施方式将
Figure BDA00003411095700275
Figure BDA00003411095700276
用作索引的针对α和β的查找表。值得注意的是在一些项中-1.0并不表示α和β的值;相反,进入具有值-1.0的项的
Figure BDA00003411095700277
Figure BDA00003411095700278
的组合在实际并不发生。
α和β的值—简化模式
在一些实施方式中,诸如实时视频流,没有表示序列的典型内容的帧可以得以预处理(例如等式(10)中的x[w,h])来评估PSD或者相应地从PSD中提取特征来分析视频序列。在这些情况下,模式(此处称作“简化模式”)可以被用来估计α和β。
给定输入视频f的分辨率和内容类别,α和β的值可以通过查找2-D表的方式来确定。预先定义的分辨率格式可以为常用的格式,诸如CIF、WVGA、VGA、720p、1080p等等。在输入f的实际分辨率不为预先定义的一种格式的情况下,最类似的预先定义分辨率可以被用于近似。视频序列的内容可以包括运动、纹理、边界结构等等。给定比特率,具有简单内容的视频可以在编码之后比复杂视频降级少。在一些实施方式中,视频序列的内容能够根据应用具有的粒度等级被分类成从“简单”到“复杂”的一些类别。内容类型例如可以由用户根据其对视频的先验知识来指示;或者当先验知识不存在时,内容类型可以被自动地设定成默认值。在一种实施方式中,表2可以被用作针对α和β值的2-D查找表。表2指示了根据各种实施方式针对不同分辨率和内容的α和β的值。
表2
Figure BDA00003411095700281
虽然预先定义的分辨率包括CIF、WVGA、720p和1080p以及使用了三种类别的内容(简单、中等、复杂),但本发明并不限于此。在一些实施方式中,附加的粒度等级可以被包括在表中。此外,在一些实施方式中,默认的内容类型可以被设置为“中等”。
根据各种实施方式,视频的复杂度可以通过各种技术来确定。例如,在一种实施方式中,指示复杂度的相对等级的用户输入被接收。该用户输入之后被用来确定用在等式(19)中的合适的α和β。在一些实施方式中,视频特征信息(例如,复杂度)可以从获得该信息的网络节点接收。基于该视频信息,合适的α和β值可以被确定(例如,经由查找表)并且随后在等式(19)中使用。在一些实施方式中,针对视频的复杂度值可以通过在下采样第一帧之前预先存储一些帧的方式从内容统计中计算或者估计。在此方面,各种计算可以被利用,诸如像素值梯度、柱状图、方差等。
搜索比率M
确定整个误差
Figure BDA00003411095700291
的最小值相当于找到如等式(8)中所定义的采样误差
Figure BDA00003411095700292
和编码误差
Figure BDA00003411095700293
的和的最小值。以上讨论了根据各种非限制性实施方式的
Figure BDA00003411095700294
Figure BDA00003411095700295
的估计。以下更为详细地描述了各种算法,所述各种算法被用来搜索M至M减少并且在一些情况下使整个误差最小化。
用于水平和垂直方向的均匀采样比率M
当下采样后的视频的像素纵横比(PAR)被要求与全分辨率视频的像素纵横比相同并且每个像素的形状被要求为方形,即存储纵横比(SAR)等于1,针对横向和纵向的采样比率
Figure BDA00003411095700296
必须相同。因此,在一些实施方式中,该要求可以充当第一限制。作为第二限制,对于很多应用,其优选的是下采样后的分辨率
Figure BDA00003411095700297
对于数字视频格式必须为整数。然而在一些应用中,一些剪裁和/或填充可以被用来获得在每个方向中的像素的整数值。在任何情况中,使用这两种限制,M的可能值被限制。将W和H的最大公约数(GCD)表示为G,可能的比率可以由等于(25)来表示。
M = G G - n , 0 ≤ n ≤ G - 1    (25)
有时,输出分辨率不仅被要求为整数,也被要求为K的倍数。例如,一些H.264编码器仅处理K等于16的情况,因为其不支持填充帧来获得整数个宏块(MB)。在该附加限制下,M的可能值被进一步减少并且(25)可以被重新表达为等式(26)。
M = G G - nK , 0 ≤ n ≤ G K - 1    (26)
在任何情况下,在一些实施方式中,“穷举”搜索方法可以被用于找到针对所有可能M的总体误差
Figure BDA00003411095700302
,其中所有可能M被表达为向量
Figure BDA00003411095700303
并且选择采样比率Mi,其中所述采样比率提供了最小总体误差。在其它实施方式中,利用了一种搜索方法,所述搜索方法找到合适的M值而不用确定针对所有可能的M值的总体误差。
图9A、9B和9C根据各种非限制性实施方式描述了搜索策略来找到采样比率Mi。图9A说明了穷举搜索策略,图9B说明了具有大步长的搜索,以及图9C说明了精细搜索。
首先参考图9A,在计算针对所有M值的总体误差
Figure BDA00003411095700304
之后,M13被选择为所描述的实施方式中的采样比率。为了节省时间而不丢失Mi(其减小编码失真),搜索可以以大步长执行,如图9B所示,以便达到期望的Mi位于的范围。随后,在该范围内以更精细步长进一步搜索,如图9C中。在图9中描述的示例中,M具有24个可能值,并且图9A中的穷举搜索计算总体误差
Figure BDA00003411095700305
24次以找到选择的Mi;作为比较,图9B和图9C中的粗略和精细搜索的组合减少一半的计算量。
在一些实施方式中,选择的采样比率可以从产生低于总体误差阈值的总体误差
Figure BDA00003411095700306
的任意合适比率中选择。换言之,相对于确定导致“绝对”最小总体误差值的单一采样比率,存在导致总体误差低于期望的整体误差阈值的多个采样比率。由此,根据各个实施方式,导致总体误差水平低于阈值的采样比率中的任何一者可以被选择作为用于编码的采样比率。在一些实施方式中,一旦采样比率被确定生成总体误差水平低于特定阈值量,编码可以继续以那一比率作为选择的采样比率。
对于水平和垂直方向不均匀采样比率Mh和Mv
在各个实施方式中,不强加对于两个方向比率相等的限制,水平垂直方向比率Mh和Mv可以更自由地选择。Mh和Mv的可能值分别在等式(27)和等式(28)中示出:
M h = W W - m , 0 ≤ m ≤ W - 1    (27)
M v = H H - n , 0 ≤ n ≤ H - 1    (28)
由此,(Mh,Mv)的联合事件可以具有W×H种可能性。穷举搜索完成所有这些可能性,而同时可能对于大多数应用太过浪费事件。作为快速搜索策略中的一种,W×H种可能性可以使用大步长来处理,如等式(29)和等式(30)所示,其中Δh和Δv分别是对于水平和垂直方向的整数步长大小:
M h = W W - m Δ h , 0 ≤ m ≤ W Δ h - 1    (29)
M v = H H - n Δ v , 0 ≤ n ≤ H Δ v - 1    (30)
由此,可能性的数量减少到
Figure BDA00003411095700315
在其中提供最小
Figure BDA00003411095700316
的近似范围
Figure BDA00003411095700317
可被找到。进一步的精细搜索可以随后在
Figure BDA00003411095700318
的附近执行。
然而,在一些实施方式中,当具有针对(Mh,Mv)的W×H种可能性的局部最小值时,由这一策略找到的所确定的采样比率可以是局部最小值中的一者而不是全局最优。在一实施方式中,若干比率
Figure BDA000034110957003110
Figure BDA000034110957003111
等等被确定,其提供了误差
Figure BDA00003411095700321
的相对较小值。然后,精细搜索在每个候选的附近执行以找到在给定的附件中产生局部最小误差的分别精细的比率
Figure BDA00003411095700324
等等。最终比率随后在
Figure BDA00003411095700325
Figure BDA00003411095700326
等等中被选择以作为产生最低
Figure BDA00003411095700327
的那个。
在另一实施方式中,首先在两个方向中均匀比率的限制下执行大步长搜索,类似于图9B。从这第一步骤中找到的比率被确立为Mi。注意由于强加了均匀比率的限制,Mi被施加用于水平和垂直方向。随后范围[Ma,Mb]被定义,其包括了期望的比率Mi,也就是Ma≤Mi≤Mb。对水平和垂直方向施加相同比率的限制随后被取消,并且后续搜索可以被执行以获得单独用于两个方向中的每一个的所选择的采样比率。水平和垂直比率Mh和Mv的搜索范围分别如等式(31)和等式(32)所示:
M h = W W - m , W M a ≤ m ≤ W M b    (31)
M v = H H - n , H M a ≤ n ≤ H M b    (32)
可以看出,搜索范围(Mh,Mv)从W×H减少到
Figure BDA000034110957003210
随后,粗略搜索之后跟随精细搜索的上述组合在这一搜索范围内被应用以找到用于水平和垂直方向的最终选择的子采样比率。
图10A描述了根据一种非限制实施方式的用于编码视频数据的进程流1000。在1002处,将被编码的视频数据被接收。在1004处,采样误差值在多个采样比率中的每一个处被确定。在一些实施方式中,采样误差值使用接收到的视频数据的功率谱密度(PSD)和下采样后的视频数据的PSD的估计来确定。如以上所述,在各个实施方式中,基于数据的技术可以被用于估计视频数据的PSD。在各个实施方式中,基于模型的技术可以被用于估计视频数据的PSD。在1006处,编码误差值在多个采样比率中的每一个处被确定。编码误差可以基于给定的比特率。在一些实施方式中,比特率可以从诸如视频服务器或者终端用户设备的网络节点接收。对于给定的比特率,编码误差模型可以被开发成提供针对多个采样比率中的每一个的编码误差值。编码误差模型可以包括第一参数和第二参数,每一个基于接收到的视频数据的特性独立地变化。第一和第二参数的值可以使用任何合适的技术来确定。例如,在一个实施方式中,第一和第二参数通过曲线匹配过程来确定。在另一实施方式中,第一和第二参数可以通过查询各个查找表来确定,如以上更详细描述。在一些实施方式中,在1006处的编码误差值可以在1004处的采样误差值之前确定。在1008处,每个采样比率处的采样误差值和编码误差值被相加以确定减少了总体误差值的采样比率。在1010处,采样比率被选择。在一些实施方式中,多个采样比率在整个视频编码过程持续时间期间被选择。例如,第一采样比率可以在接收到的视频数据的开始被选择,后续的一个或多个附加采样比率可以在编码事件持续时间期间被选择。在一些实施方式中,穷举搜索被执行以确定选择的采样比率。在其他实施方式中,非穷举搜索被执行以确定选择的采样比率。例如,仅与多个采样比率的次级集合(子集)相关联的误差可以被相加。采样比率可以从相加的采样误差和编码误差的子集中选择。在一些实施方式中,可以使用附加的搜索来进一步改善针对选择的采样比率的搜索。无论如何,在1014处,视频数据可以选择的采样比率被下采样,并且在1016处,下采样后的视频数据可以被编码。在一些实施方式中,如果比特率改变,编码过程可以被重新评估以确定更新后的采样比率。此外,在一些实施方式中,采样比率包括水平采样比率和垂直采样比率。这些水平和垂直采样比率可以是相同的或者不同的。
图10B描述了根据一个非限制实施方式的用于解码视频数据的进程流1050。在1052处,压缩后的视频数据被接收。视频数据可以从诸如现场视频流或先前存储的视频之类的任何适当的提供商接收。在1054处,选择的采样比率的指示被接收。采样比率可以基于例如多个采样比率上的采样误差值和编码误差值的和。在1056处,系数块被解码以形成重构的视频数据。在1058处,重构的视频数据以选择的采样比率被上采样到重构的视频数据的分辨率。在1060处,上采样后的视频数据被输出。
根据各个实施方式,对于具有分辨率W×H的输入视频,下采样过程(即在图16中通过下采样单元1606)可以分别对于水平和垂直方向通过因子a和b对其进行下采样,其中a和b是正有理数。然后,输出视频具有分辨率当a和b可以是任意正有理数,分别由
Figure BDA00003411095700342
Figure BDA00003411095700343
代表,其中Mh、Nh、Mv和Nv都是正整数,下采样过程的输出也是视频数据,其具有整数行和整数列像素。由此,在各个实施方式中,
Figure BDA00003411095700344
Figure BDA00003411095700349
(既
Figure BDA000034110957003410
Figure BDA000034110957003411
)是整数,其中Nh和Nv是用于满足输出分辨率需求的W和H的因子。
在一些实施方式中,上采样过程(即在图17中通过上采样单元1712)可以具有等于下采样过程的下采样比率的上采样比率,这导致处理后的视频与原始输入视频具有相同的分辨率。在其他实施方式中,上采样比率从下采样比率解耦,这允许更灵活的上采样比率。例如,假设将被上采样的视频具有分辨率W1×H1,上采样比率可以分别针对水平和垂直方向被设置成c和d,并且使得输出视频的分辨率等于cW1×dH1,其中c和d是正有理数。c和d的值可以在上采样之前基于各种标准来配置。例如,为了使得输出视频具有大于或等于输入分辨率的分辨率,因子c和d应当大于或等于1.0。此外,当c和d可以是任何正有理数时,分别由
Figure BDA00003411095700347
Figure BDA00003411095700348
表示,其中Kh、Lh、Kv和Lv均为正整数,在各个实施方式中,Lh和Lv分别是W1和H1的因子。作为用于选择c和d的附加标准,图片纵横比(PAR)可以被保持在
Figure BDA00003411095700351
图11是具有下采样比率
Figure BDA00003411095700352
的水平下采样过程的框图1100。框图1100包括在方框1102处上采样Mh倍,在方框1104处应用滤波器fd,h,并且在方框1106处下采样Nh倍。在由框图1100处理之后,输出视频的宽度为
图12描述了Mh=3和Nh=4的示例下采样过程。具有频谱F(图12(b))的原始行X(图12(a))首先通过***零值样本来上采样Mh倍。产生的行在图12(c)中示出为Xu。作为上采样的结果,频谱F如图12(d)所示被压缩Mh倍,表示为Fu。在Fu中,以
Figure BDA00003411095700354
整数倍为中心的频谱通过零***引入并且需要由滤波器fd,h移除(如图11中的方框1104所示)。由于Xu将后续在方框1406处由因子Nh下采样,fd,h的截止频率应当为
Figure BDA00003411095700355
(例如
Figure BDA00003411095700356
)而不是
Figure BDA00003411095700357
,如图12(f)所示。fd,h的滤波器增益为Mh,应为行X被上采样Mh倍,长度和能量也增加Mh倍。因此,fd,h可以通过对理想频率响应Hd应用逆傅里叶变换来计算,如图12(f)所描述,如等式(33)所示:
f d , h ( n ) = 1 2 π ∫ π N h π N h H d e jnω dω = 1 2 π ∫ - π N h π N h M h e jnω dω = M h N h Sinc ( π N h n )    (33)
其中
Sinc ( x ) = sin ( x ) x , x ≠ 0 1 , x = 0    (34)
通过将Fu(图12(d))与Hd(图12(f))相乘,剩余频谱Zf被确定,如图12(g)所示。在空间域中,Zf对应于滤波后的行,表示为Xf(见图12(e)的上面行)。Xf随后通过简单地从Xf中每Nh个像素选出而由因子Nh进行下采样(图14中的方框1406)。最后,下采样后的行Xd(图12(e))和其频谱Zd(图12(h))被确定。
类似地,垂直下采样滤波器fd,v可以使用公式(35)计算:
f d , v ( n ) = 1 2 π ∫ - π N v π N v M v e jnω dw = M v N v Sinc ( π N v n )    (35)
为了生成具有分辨率MhW×MvH的中间帧,可以使用两步策略:对原始视频相应应用水平和垂直滤波器(以任何顺序)。在一些实施方式中,二维非独立滤波器fd,2D可以被计算,其是fd,h和fd,v的二维卷积,并且将fd,2D直接应用到原始视频。
设计上采样滤波器类似于设计下采样滤波器。例如,水平方向可以首选被关注,随后扩展到垂直方向。在上采样之后具有宽度W1的输入视频的分辨率可将改变到如图13所示,上采样过程1300可以包括在方框1302处通过零***来上采样原始行Kh倍,在方框1304处施加滤波器fu,h,在方框1306处通过每Lh个像素选出一个像素来下采样Lh倍,其中滤波器fu,h可以由等式(36)计算:
f u , h ( n ) = 1 2 π ∫ - π K h π K h K h e jnω dω = Sinc ( π K h n )    (36)
类似地,垂直上采样滤波器fd,v可以由(37)计算:
f u , h ( n ) = 1 2 π ∫ - π K v π K v K v e jnω dω = Sinc ( π K v n )    (37)
在一些实施方式中,可以使用窗口函数来限制以上提及的滤波器的尺寸。适当类型的窗口函数包括但不限于例如汉宁、汉明、三角、高斯和布拉克曼窗。
在一种实施方式中,等式(38)中表达的高斯窗口函数被使用,其中N表示滤波器的长度,σ是高斯函数的标准差。图14描述了(N=71,σ=1.5)的窗口函数示例。
w ( n ) = e - 1 2 ( n - ( N - 1 ) / 2 σ ( N - 1 ) / 2 ) 2    (38)
为了生成具有分辨率W1Kh×H1KV的中间帧,可以使用两步策略:对原始视频相应应用水平和垂直滤波器(以任何顺序)。在一些实施方式中,二维非独立滤波器fu,2D可以被计算,其是fu,h和fu,v的二维卷积,并且将fu,2D直接应用到原始视频。
当帧***值为WMh×HMv和W1Kh×H1Kv作为用于下采样和上采样的中间值,许多插值像素不被使用。例如,在一些实施方式中,仅
Figure BDA00003411095700372
(或
Figure BDA00003411095700373
)个像素被选出以形成对于下采样具有分辨率
Figure BDA00003411095700374
的最终输出视频(或对于上采样为
Figure BDA00003411095700375
)。由此,大多数计算不被使用。根据这一结果,在一些实施方式中,仅将最终选出来形成输出视频的像素***值。
图15描述了其中上采样以Mh=3和Nh=4被执行的实施方式。在行1502,1504a,1504b,1504c等代表整数像素,白色的1506代表***的零。取代于对所有未知位置进行插值,形成最终下采样后的行的像素首先被选择,如图15的行1508所示。随后这些选择的位置基于其相位被分类成Mh个类别。在一实施方式中,像素的相位由其离邻近的整数像素的距离来确定。在图15的行1512中,存在三个不同相位,被描述为零相位1514,第一相位1516和第二相位1518。
在一些实施方式中,下采样和上采样滤波器(即fd,h,fd,v,fu,h和fu,v)中的每一者被分解为一组相位滤波器,每个相位滤波器被用于插值相关联的像素。在表3中,fd,h,fd,v,fu,h和fu,v的长度分别被表示为ND,H,ND,V,NU,H和NU,V。表3中提供了分解过程,其中i是非负整数,k是滤波器的索引。
表3
Figure BDA00003411095700381
图16和图17示出了架构的示例性实施方式,包括在根据此处描述的***和方法对视频数据进行编码、解码和/或转码之前、之后或同时可以使用的预处理和/或后处理步骤。预处理和/或后处理可以是包括例如对视频数据的量化,下采样,上采样,抗锯齿、低通内插滤波,和/或防模糊滤波的自适应过程。根据实施方式,对视频数据进行预处理和/或后处理可启用使用标准的编码器和/或解码器,如H.264编码器和/或解码器。
示例性编码器架构
图16示出了示例性编码器架构1600,该架构1600包括在对视频数据进行编码之前或同时执行的处理和预处理以便获取选择的采样比率。如上参照图2描述的变换1608变换,量化1610,熵编码1612,逆量化1614,逆变换1616,运动补偿1620,存储器1618和/或运动估计1624可以是用于视频数据的编码器处理的一部分。抗锯齿滤波器1604,下采样单元1606,编码器控制器1622可以是用于对视频数据进行编码的预处理步骤的一部分。这些预处理元件可以结合到编码器,独立于编码器工作,或者被配置为处于编码器之外。在任何情况下,来自输入1602的视频数据已被编码后,编码后的视频数据可以通过信道1626被发送和/或存储。
在一些实施方式中,可以提供输出缓冲器,以用于存储输出的编码后的视频数据。缓冲器饱满度被监视,或缓冲器的输入和输出率被比较,以确定其相对饱满度等级并可以向控制器指示该相对的饱满度等级。输出缓冲器可以例如使用从输出缓冲器提供给编码控制器1622的缓冲器饱满度信号来指示相对饱满度等级。编码器控制器1622可监视与信道1626、视频编码器***的计算能力、用户的需求等相关联的各种参数和/或约束,并可以建立目标参数以提供适于指定的约束和/或信道条件的伴随体验质量(QoE)。目标比特率可以根据指定的约束和/或信道条件不时地调整。典型的目标比特率包括例如64kbps,128kbps,256kbps,384kbps的,512kbps等等。
如图16所示,视频数据从输入1602(如视频源)被接收。被接收的视频数据可以包括原始的或解码的视频信号,视频序列,比特流,或代表图像或视频内容任何其他数据。根据本文描述的***和方法,接收到的视频数据可以由抗锯齿滤波器1604,下采样单元1606,和/或编码器控制器1622进行预处理。抗锯齿滤波器1604,下采样单元1606,和/或编码器控制器1622可以是彼此通信和/或与编码器的其他元件通信以对接收的视频数据进行编码以用于传输。在一些实施方式中,抗锯齿滤波器1604可以使用上面参照图11-15描述的技术来设计。对接收的视频数据的预处理可以在编码器的变换,量化,熵编码,逆量化,逆变换,运动补偿,和/或运动估计的其他元素所执行的处理之前或同时被执行。
如图16所示,原始和/或解码的视频数据可以被传送到抗锯齿滤波器1604以进行预处理。抗锯齿滤波器可用于限制视频数据的频率成分,以满足下采样单元1606的条件。根据一实施方式,针对2:1下采样的抗锯齿滤波器1604可以是11-抽头FIR,即[1,0,-5,0,20,32,20,0,-5,0,1]/64。根据一实施方式,抗锯齿滤波器可以自适应于正在接收的内容和/或与量化参数(QP)联合设计。编码器控制器1622可确定选定的采样比率,在视频数据的预处理期间与下采样单元1606通信以给下采样单元1606提供选定的采样比率。例如,编码器控制器1622可以基于视频数据的统计和/或信道的数据传输能力来自适应地在任何维度上选择滤波器类型(可分离或不可分离的),滤波器的系数,和/或滤波器长度。
如图16所示,对视频数据的预处理可以包括使用下采样单元1606对视频数据进行下采样。下采样单元1606可以采样比率M进行下采样,如上面详细描述的。视频数据可以从抗锯齿滤波器1604被传送到下采样单元1606。可替换地,原始和/或解码的视频数据可以被直接传送到下采样单元1606。在任何情况下,下采样单元1606可以对视频数据进行下采样,以减少视频数据的采样比率。对视频数据进行下采样可能会产生比由视频数据所表示的原始图像和/或视频更低分辨率的图像和/或视频。如上所述,下采样单元的1606采样比率M可以自适应于接收到的内容和/或与QP联合设计。例如,编码器控制器1622可以例如基于瞬时视频内容和/或信道的数据传输能力来自适应地选择下采样比率,例如1/3或合理分数。
由抗锯齿滤波器1604和/或下采样单元1606执行的预处理可以通过与编码器控制器1622的通信而被控制和/或辅助。编码器控制器1622可以附加地,或可替换地,控制视频数据处理中执行的量化。编码器控制器1622可以被配置来选择编码参数。例如,编码器控制器可以是依赖于内容的,可以利用来自视频数据中的运动信息,残差数据,以及其他统计来确定编码参数和/或预处理参数,例如采样比率M。
示例解码器架构
图17示出用于处理和后处理的示例解码器架构1700,所述处理和后处理被执行以解码视频数据。熵解码1704,逆量化1706,逆变换1708,和/或运动补偿1720可以是用于视频数据的解码器处理的一部分。上采样单元1712,低通滤波器1714,防模糊滤波器1016,和/或解码器控制器1710可以是用于解码该视频数据的后处理步骤的一部分。这些后处理的元件可合并到解码器1700中,独立于解码器工作,或者被配置为在解码器之外。在任何情况下,在来自信道1702的视频数据已经被解码并且后处理已经被执行后,解码后的视频数据可以经由输出1718传送到例如存储介质或输出装置。
如图17所示,视频数据通过信道1702诸如从编码器或存储介质中接收。被接收的视频数据可以包括编码后的视频信号,视频序列,比特流,或代表图像或视频内容的任何其他数据。所接收的视频数据可使用熵解码,逆量化,逆变换,和/或运动补偿处理来处理,如图3所示。对编码后的视频数据的处理可以在后处理之前或同时执行。编码后的视频数据可以由上采样单元1712,低通滤波器1714,防模糊滤波器1716和/或解码器控制器1710进行后处理。解码器控制器1710可以接收选定的采样比率的指示并将选定的采样比率传送到采样单元1712。上采样单元1712,低通滤波器1714,防模糊滤波器1716,和/或解码器控制器1718可以彼此通信和/或与解码器1700的其他元件通信以解码接收的视频数据从而进行存储和/或输出到显示器。在一些实施方式中,低通滤波器1714可以使用以上参照图14-18描述的技术来设计。
如图17所示,对视频数据的后处理可以包括上采样视频数据。上采样比率可以是所选择的速率Mi,如上面所述。视频数据在由解码器1700(如图所示)处理后被传送到上采样单元1712。上采样单元1712可以增加重构的视频的分辨率和/或质量。例如,对视频数据的上采样可以对应于在编码器预处理时对视频数据执行的下采样。类似于下采样单元1606(图16),上采样单元1712具有用于对视频数据进行上采样的动态采样比率。
根据一实施方式,对视频数据的后处理可以包括低通内插滤波器1714。低通内插滤波器可以实现抗锯齿,并且提高由视频数据表示的视频内容的质量和清晰度。根据一实施方式,用于1:2上采样的低通内插滤波器包括4抽头FIR,即[0.25,0.75,0.75,0.25]。低通内插滤波器1714可以自适应于内容和/或与QP联合设计。根据一实施方式,解码器控制器可以自适应地在任何维度上选择滤波器类型,滤波器系数和/或滤波器长度。由解码器控制器作出的选择可以基于编码的视频数据中的统计和/或语法,诸如之前帧的统计和当前帧的QP,如以上详细描述的。
如图17所示,在一些实施方式中,对视频数据的后处理包括防模糊(或锐化)滤波器1716。防模糊滤波器1716可以被用来补偿下采样和/或低通滤波所造成的模糊。根据一实施方式,防模糊滤波器可以包括二维拉普拉斯滤波器,即[0,0,0,0,1,0,0,0,0]+[-1,-1,-1,-1,8,-1,-1,-1,-1]/5。防模糊滤波器可以自适应于内容和/或与QP联合设计。根据一实施方式,解码器控制器1710可以自适应地在任何维度上选择滤波器类型,滤波器系数,和/或滤波器长度。选择可以基于在编码的视频比特流中的统计和/或语法,例如,之前帧的统计和当前帧的QP,如上面更详细地描述。
根据一实施方式,分别进行预处理和后处理的编码器和解码器可以彼此知道。例如,编码器和解码器可具有使得将对应于视频数据预处理的信息传输给解码器的通信链路(如在图1中的通信信道16)。类似地,解码器可以通过通信链路传送对应于视频数据后处理的信息给编码器。这样的通信链路可以使解码器基于在编码器中发生的预处理来调整后处理。类似地,通信链路可以使编码器基于在解码器处发生的后处理来调节预处理。如果预处理和后处理不分别在编码器和解码器处执行,则类似的通信链路也可以与执行视频数据的预处理和/或后处理的其他实体建立。
图18示出关于代码转换器的的视频数据预处理的示例实施方式。如图18所示,视频数据1804可被接收,诸如比特流,视频信号,视频序列,或代表图像或视频内容的任何其他数据。视频数据可以由由抗锯齿滤波器1808,下采样器1810,和/或编码器控制器1802进行预处理。抗锯齿滤波器1808,下采样器1810,和/或编码器控制器1802可以彼此通信和/或与编码器和/或解码器的其他元件通信。对接收的视频数据的预处理可以在由编码器和/或解码器执行的处理之前或同时进行。视频数据可以按以上针对图16中的视频数据预处理的讨论所描述的被预处理。
如以上针对图1描述的,例如,根据本文所描述的***和方法编码的视频可以通过通信网络经由通信信道16发送,通信信道16可以包括有线连接和/或无线连接。通信网络可以是任何适当类型的通信***,如在下面针对图图19A,19B,19C和19D更详细描述。
图19A是可以在其中实施一个或者多个所公开的实施方式的示例通信***1900的图例。通信***1900可以是将诸如语音、数据、视频、消息、广播等之类的内容提供给多个无线用户的多接入***。通信***1900可以通过***资源(包括无线带宽)的共享使得多个无线用户能够访问这些内容。例如,通信***1900可以使用一个或多个信道接入方法,例如码分多址(CDMA)、时分多址(TDMA)、频分多址(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)等等。
如图19A所示,通信***1900可以包括无线发射/接收单元(WTRU)1902a,1902b,1902c,1902d、无线电接入网(RAN)1904、核心网1906、公共交换电话网(PSTN)1908、因特网1910和其他网络1912,但可以理解的是所公开的实施方式可以涵盖任意数量的WTRU、基站、网络和/或网络元件。WTRU1902a,1902b,1902c,1902d中的每一个可以是被配置成在无线通信中操作和/或通信的任何类型的装置。作为示例,WTRU1902a,1902b,1902c,1902d可以被配置成发送和/或接收无线信号,并且可以包括用户设备(UE)、移动站、固定或移动用户单元、寻呼机、蜂窝电话、个人数字助理(PDA)、智能电话、便携式电脑、上网本、个人计算机、无线传感器、消费电子产品或者任何其它能够接收和处理压缩视频通信的终端。
通信***1900还可以包括基站1914a和基站1914b。基站1914a,1914b中的每一个可以是被配置成与WTRU1902a,1902b,1902c,1902d中的至少一者无线交互,以便于接入一个或多个通信网络(例如核心网1906、因特网1910和/或网络1912)的任何类型的装置。例如,基站1914a,1914b可以是基站收发信站(BTS)、节点B、e节点B、家用节点B、家用e节点B、站点控制器、接入点(AP)、无线路由器以及类似装置。尽管基站1914a,1914b每个均被描述为单个元件,但是可以理解的是基站1914a,1914b可以包括任何数量的互联基站和/或网络元件。
基站1914a可以是RAN1904的一部分,该RAN1904还可以包括诸如站点控制器(BSC)、无线电网络控制器(RNC)、中继节点之类的其他基站和/或网络元件(未示出)。基站1914a和/或基站1914b可以被配置成发送和/或接收特定地理区域内的无线信号,该特定地理区域可以被称作小区(未示出)。小区还可以被划分成小区扇区。例如与基站1914a相关联的小区可以被划分成三个扇区。由此,在一种实施方式中,基站1914a可以包括三个收发信机,即针对所述小区的每个扇区都有一个收发信机。在另一实施方式中,基站1914a可以使用多输入多输出(MIMO)技术,并且由此可以使用针对小区的每个扇区的多个收发信机。
基站1914a,1914b可以通过空中接口1916与WTRU1902a,1902b,1902c,1902d中的一者或多者通信,该空中接口1916可以是任何合适的无线通信链路(例如射频(RF)、微波、红外(IR)、紫外(UV)、可见光等)。空中接口1916可以使用任何合适的无线电接入技术(RAT)来建立。
更为具体地,如前所述,通信***1900可以是多接入***,并且可以使用一个或多个信道接入方案,例如CDMA、TDMA、FDMA、OFDMA、SC-FDMA以及类似的方案。例如,在RAN1904中的基站1914a和WTRU1902a,1902b,1902c可以实施诸如可以使用宽带CDMA(WCDMA)来建立空中接口1916的无线电技术,诸如通用移动电信***(UMTS)陆地无线电接入(UTRA)。WCDMA可以包括诸如高速分组接入(HSPA)和/或演进型HSPA(HSPA+)。HSPA可以包括高速下行链路分组接入(HSDPA)和/或高速上行链路分组接入(HSUPA)。
在另一实施方式中,基站1914a和WTRU1902a,1902b,1902c可以实施诸如演进型UMTS陆地无线电接入(E-UTRA)之类的无线电技术,其可以使用长期演进(LTE)和/或高级LTE(LTE-A)来建立空中接口1916。
在其它实施方式中,基站1914a和WTRU1902a,1902b,1902c可以实施诸如IEEE802.16(即全球微波互联接入(WiMAX))、CDMA2000、CDMA20001X、CDMA2000EV-DO、临时标准2000(IS-2000)、临时标准95(IS-95)、临时标准856(IS-856)、全球移动通信***(GSM)、增强型数据速率GSM演进(EDGE)、GSM EDGE(GERAN)之类的无线电技术。
举例来讲,图19A中的基站1914b可以是无线路由器、家用节点B、家用e节点B或者接入点,并且可以使用任何合适的RAT,以用于促进在诸如公司、家庭、车辆、校园之类的局部区域的通信连接。在一种实施方式中,基站1914b和WTRU1902c,1902d可以实施诸如IEEE802.11之类的无线电技术以建立无线局域网(WLAN)。在另一实施方式中,基站1914b和WTRU1902c,1902d可以实施诸如IEEE802.15之类的无线电技术以建立无线个域网(WPAN)。在又一实施方式中,基站1914b和WTRU1902c,1902d可以使用基于蜂窝的RAT(例如WCDMA、CDMA2000、GSM、LTE、LTE-A等)以建立微微(picocell)小区和毫微微小区(femtocell)。如图19A所示,基站1914b可以具有至因特网1910的直接连接。由此,基站1914b不必经由核心网1906来接入因特网1910。
RAN1904可以与核心网1906通信,该核心网1906可以是被配置成将语音、数据、应用程序和/或网际协议上的语音(VoIP)服务提供到WTRU1902a,1902b,1902c,1902d中的一者或多者的任何类型的网络。例如,核心网1906可以提供呼叫控制、账单服务、基于移动位置的服务、预付费呼叫、网际互联、视频分配等,和/或执行高级安全性功能,例如用户验证。尽管图19A中未示出,需要理解的是RAN1904和/或核心网1906可以直接或间接地与其他RAN进行通信,这些其他RAT可以使用与RAN1904相同的RAT或者不同的RAT。例如,除了连接到可以采用E-UTRA无线电技术的RAN1904,核心网1906也可以与使用GSM无线电技术的另一RAN(未显示)通信。
核心网1906也可以用作WTRU1902a,1902b,1902c,1902d接入PSTN1908、因特网1910和/或其他网络1912的网关。PSTN1908可以包括提供普通老式电话服务(POTS)的电路交换电话网络。因特网1910可以包括互联计算机网络的全球***以及使用公共通信协议的装置,所述公共通信协议例如传输控制协议(TCP)/网际协议(IP)因特网协议套件的中的TCP、用户数据报协议(UDP)和IP。网络1912可以包括由其他服务提供方拥有和/或操作的无线或有线通信网络。例如,网络1912可以包括连接到一个或多个RAN的另一核心网,这些RAN可以使用与RAN104相同的RAT或者不同的RAT。
通信***1900中的WTRU1902a,1902b,1902c,1902d中的一些或者全部可以包括多模式能力,即WTRU1902a,1902b,1902c,1902d可以包括用于通过多个通信链路与不同的无线网络进行通信的多个收发信机。例如,图19A中显示的WTRU1902c可以被配置成与使用基于蜂窝的无线电技术的基站1914a进行通信,并且与使用IEEE802无线电技术的基站1914b进行通信。
图19B是示例WTRU1902的***框图。如图19B所示,WTRU1902可以包括处理器1918、收发信机1920、发射/接收元件1922、扬声器/麦克风1924、键盘1926、显示器/触摸板1928、不可移除存储器1930、可移除存储器1932、电源1934、全球定位***芯片组1936和其他***设备1938。需要理解的是,在与以上实施方式一致的同时,WTRU1902可以包括上述元件的任何子集。
处理器1918可以是通用目的处理器、专用目的处理器、常规处理器、数字信号处理器(DSP)、图像处理单元(GPU)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、其他任何类型的集成电路(IC)、状态机等。处理器1918可以执行信号编码、数据处理、功率控制、输入/输出处理和/或使得WTRU1902能够操作在无线环境中的其他任何功能。处理器1918可以耦合到收发信机1920,该收发信机1920可以耦合到发射/接收元件1922。尽管图19B中将处理器1918和收发信机1920描述为独立的组件,但是可以理解的是处理器1918和收发信机1920可以被一起集成到电子封装或者芯片中。
发射/接收元件1922可以被配置成通过空中接口1916将信号发送到基站(例如基站1914a),或者从基站(例如基站1914a)接收信号。例如,在一种实施方式中,发射/接收元件1919可以是被配置成发送和/或接收RF信号的天线。在另一实施方式中,发射/接收元件1922可以是被配置成发送和/或接收例如IR、UV或者可见光信号的发射器/检测器。在又一实施方式中,发射/接收元件1922可以被配置成发送和接收RF信号和光信号两者。需要理解的是发射/接收元件1922可以被配置成发送和/或接收无线信号的任意组合。
此外,尽管发射/接收元件1922在图19B中被描述为单个元件,但是WTRU1902可以包括任何数量的发射/接收元件1922。更特别地,WTRU1902可以使用MIMO技术。由此,在一种实施方式中,WTRU1902可以包括两个或更多个发射/接收元件1922(例如多个天线)以用于通过空中接口1916发射和接收无线信号。
收发信机1920可以被配置成对将由发射/接收元件1922发送的信号进行调制,并且被配置成对由发射/接收元件1922接收的信号进行解调。如上所述,WTRU1902可以具有多模式能力。由此,收发信机1920可以包括多个收发信机以用于使得WTRU1902能够经由多RAT进行通信,例如UTRA和IEEE802.11。
WTRU1902的处理器1918可以被耦合到扬声器/麦克风1924、键盘1926和/或显示器/触摸板1928(例如,液晶显示(LCD)显示单元或者有机发光二极管(OLED)显示单元),并且可以从上述装置接收用户输入数据。处理器1918还可以向扬声器/麦克风1924、键盘1926和/或显示器/触摸板1928输出数据。此外,处理器1918可以访问来自任何类型的合适的存储器中的信息,以及向任何类型的合适的存储器中存储数据,所述存储器例如可以是不可移除存储器1930和/或可移除存储器1932。不可移除存储器1930可以包括随机接入存储器(RAM)、可读存储器(ROM)、硬盘或者任何其他类型的存储器存储装置。可移除存储器1932可以包括用户标识模块(SIM)卡、记忆棒、安全数字(SD)存储卡等类似装置。在其它实施方式中,处理器1918可以访问来自物理上未位于WTRU1902上例如位于服务器或者家用计算机(未示出)上的存储器的数据,以及向上述存储器中存储数据。
处理器1918可以从电源1934接收功率,并且可以被配置成将功率分配给WTRU1902中的其他组件和/或对至WTRU1902中的其他组件的功率进行控制。电源1934可以是任何适用于给WTRU1902加电的装置。例如,电源1934可以包括一个或多个干电池(镍镉(NiCd)、镍锌(NiZn)、镍氢(NiMH)、锂离子(Li-ion)等)、太阳能电池、燃料电池等。
处理器1918还可以耦合到GPS芯片组1936,该GPS芯片组1936可以被配置成提供关于WTRU1902的当前位置的位置信息(例如经度和纬度)。作为来自GPS芯片组1936的信息的补充或者替代,WTRU1902可以通过空中接口1916从基站(例如基站1914a,1914b)接收位置信息,和/或基于从两个或更多个相邻基站接收到的信号的定时来确定其位置。需要理解的是,在与实施方式一致的同时,WTRU1902可以通过任何合适的位置确定方法来获取位置信息。
处理器1918还可以耦合到其他***设备1938,该***设备1938可以包括提供附加特征、功能性和/或无线或有线连接的一个或多个软件和/或硬件模块。例如,***设备1938可以包括加速度计、电子指南针(e-compass)、卫星收发信机、数码相机(用于照片或者视频)、通用串行总线(USB)端口、震动装置、电视收发信机、免持耳机、蓝牙R○模块、调频(FM)无线电单元、数字音乐播放器、媒体播放器、视频游戏机模块、因特网浏览器等等。
图19C为根据一种实施方式的RAN1904和核心网1906的***框图。如上所述,RAN1904可以使用UTRA无线电技术通过空中接口1916与WTRU1902a、1902b和1902c通信。RAN1904还可以与核心网1906通信。如图19C所示,RAN1904可以包含节点B1940a、1940b、1940c,其中节点B1940a、1940b、1940c每个可以包含一个或多个收发信机,该收发信机通过空中接口1916来与WTRU1902a、1902b、1902c通信。节点B1490a、1940b、1940c中的每个可以与RAN1904范围内的特定单元(未示出)相关联。RAN1904还可以包括RNC1942a、1942b。应该理解的是RAN1904可以包含任意数量的节点B和RNC而仍然与实施方式保持一致。
如图19C所示,节点B1940a、1940b可以与RNC1942a进行通信。此外,节点B1940c可以与RNC1942b进行通信。节点B1940a、1940b、1940c可以通过Iub接口与对应的RNC1942a、1942b进行通信。RNC1942a、1942b可以通过Iur接口相互进行通信。RNC1942a、1942b可以分别被配置成控制与其连接的对应的节点B1940a、1940b、1940c。此外,RNC1942a、1942b可以分别被配置成实施或者支持其它功能,诸如外环功率控制、负载控制、准许控制、分组调度、切换控制、宏分集、安全性功能、数据加密等等。
图19C中所示的核心网1906可以包括媒体网关(MGW)1944、移动交换中心(MSC)1946、服务GPRS支持节点(SGSN)1948,和/或网关GPRS支持节点(GGSN)1950。尽管上述元件中的每个被描述为核心网1906的一部分,但是应该理解的是这些元件中的任何一个可以被除了核心网络运营商以外的实体拥有和/或运营。
RAN1904中的RNC1942a可以通过IuCS接口被连接至核心网1906中的MSC1946。MSC1946可以被连接至MGW1944。MSC1946和MGW1944可以向WTRU1902a、1902b、1902c提供至电路交换网(例如PSTN1908)的接入,从而便于WTRU1902a、1902b、1902c与传统陆线通信设备之间的通信。
RAN1904中的RNC1942a还可以通过IuPS接口被连接至核心网1906中的SGSN1948。SGSN1948可以被连接至GGSN1950中。SGSN1948和GGSN1950可以向WTRU1902a、1902b、1902c提供至分组交换网(例如因特网1910)的接入,从而便于WTRU1902a、1902b、1902c与IP使能设备之间的通信。
如以上所述,核心网1906还可以连接至其它网络1912,其中所述其它网络1912可以包含被其他服务提供商拥有和/或运营的其他有线或无线网络。
图19D是根据一种实施方式的RAN1904和核心网1906的***图。如上所述,RAN1904可以使用E-UTRA无线电技术通过空中接口1916与WTRU1902a、1902b和1902c进行通信。RAN1904还可以与核心网1906进行通信。
RAN1904可以包括e节点B1960a、1960b、1960c,尽管应该理解的是RAN1904可以包含任意数量的e节点B而仍然与实施方式保持一致。e节点B1960a、1960b、1960c每个可以包含一个或多个收发信机,该收发信机通过空中接口1916来与WTRU1902a、1902b、1902c通信。在一种实施方式中,e节点B1960a、1960b、1960c可以使用MIMO技术。由此,例如e节点B1960a可以使用多个天线来传送无线信号至WTRU1902a并且从WTRU1902a中接收无线信息。
e节点B1960a、1960b、1960c中的每个可以与特定小区(未示出)相关联并且可以被配置成在上行链路和/或下行链路中处理无线电资源管理决定、切换决定、用户调度。如图19D中所示,e节点B1960a、1960b、1960c可以通过X2接口彼此进行通信。
图19D中所示的核心网1906可以包括移动性管理网关(MME)1962、服务网关1964和分组数据网络(PDN)网关1966。尽管上述元件中的每个被描述为核心网络1906的一部分,但是应该理解的是这些元件中的任何一个可以被除了核心网运营商以外的实体拥有和/或运营。
MME1962可以通过S1接口被连接到RAN1904中的e节点B1960a、190b、1960c中的每个并且可以作为控制节点。例如,MME1962可以负责认证WTRU1902a、1902b、1902c的用户、承载激活/去激活、在WTRU1902a、1902b、1902c的初始连接期间选择特定服务网关,等等。MME1962也可以为RAN1904与使用其他无线电技术(例如GSM或WCDMA)的其它RAN(未示出)之间的交换提供控制平面功能。
服务网关1964可以通过S1接口被连接到RAN1904中的e节点B1960a、1960b、1960c的每个。服务网关1964通常可以路由和转发用户数据分组至WTRU1902a、1902b、1902c,或者路由和转发来自WTRU1902a、1902b、1902c的用户数据分组。服务网关1964也可以执行其他功能,例如在e节点B间切换期间锚定用户平面、当下行链路数据可用于WTRU1902a、1902b、1902c时触发寻呼、为WTRU1902a、1902b、1902c管理和存储上下文等等。
服务网关1964也可以被连接到PDN网关1966,该网关1966可以向WTRU1902a、1902b、1902c提供至分组交换网(例如因特网1910)的接入,从而便于WTRU1902a、1902b、1902c与IP使能设备之间的通信。
核心网1906可以促进与其他网络之间的通信。例如,核心网1906可以向WTRU1902a、1902b、1902c提供至电路交换网络(例如PSTN1908)的接入,从而便于WTRU1902a、1902b、1902c与传统陆线通信设备之间的通信。例如,核心网1906可以包括,或可以与下述通信:作为核心网1906和PSTN1908之间接口的IP网关(例如,IP多媒体子***(IMS)服务器)。另外,核心网1906可以向WTRU1902a、1902b、1902c提供至网络1912的接入,该网络1912可以包含被其他服务提供商拥有和/或运营的其他有线或无线网络。
图19E是根据一种实施方式的RAN1904和核心网1906的***图例。RAN1904可以是使用IEEE802.16无线电技术通过空中接口1916与WTRU1902a、1902b、1902c进行通信的接入服务网(ASN)。正如下文将继续讨论的,WTRU1902a、1902b、1902c、RAN1904和核心网1906的不同功能实体之间的通信线路可以被定义为参考点。
如图19E所示,RAN1904可以包括基站1970a、1970b、1970c和ASN网关1972,尽管应该理解的是RAN1904可以包含任意数量的基站和ASN网关而仍然与实施方式保持一致。基站1970a、1970b、1970c分别与RAN1904中的特定小区(未示出)相关联,并且可以分别包括一个或多个收发信机,该收发信机通过空中接口1916来与WTRU1902a、1902b、1902c通信。在一种实施方式中,基站1970a、1970b、1970c可以使用MIMO技术。由此,例如基站1970a可以使用多个天线来传送无线信号至WTRU1902a并且从WTRU1902a中接收无线信号。基站1970a、1970b、1970c还可以提供移动性管理功能,例如切换触发、隧道建立、无线电资源管理、业务分类、服务质量(QoS)策略执行,等等。ASN网关1972可以作为业务汇聚点且可以负责寻呼、用户配置文件的缓存、路由到核心网络1906,等等。
WTRU1902a、1902b、1902c与RAN1904之间的空中接口1916可以被定义为执行IEEE802.16规范的R1参考点。另外,WTRU1902a、1902b、1902c中的每个可以建立与核心网1906间的逻辑接口(未示出)。WTRU1902a、1902b、1902c与核心网1906间的逻辑接口可以被定义为R2参考点,可以被用来认证、授权、IP主机配置管理、和/或移动管理。
基站1970a、1970b、1970c中的每个之间的通信链路可以被定义为包括用于便于WTRU切换和基站之间的数据传输的协议的R8参考点。基站1970a、1970b、1970c和ASN网关1972之间的通信链路可以被定义为R6参考点。R6参考点可以包括用于便于基于与每个WTRU9102a、1902b、1900c相关的移动事件的移动管理的协议。
如图19E所示,RAN1904可以被连接到核心网1906。RAN1904和核心网1906之间的通信链路可以被定义为例如包括用于便于数据传输和移动管理能力的协议的R3参考点。核心网1906可以包括移动IP本地代理(MIP-HA)1974,验证、授权、记账(AAA)服务器1976和网关1978。尽管每个上述元件被描述为核心网1906的一部分,但是应该理解的是这些元件中的任意一个可以被核心网络运营商以外的实体拥有和/或运营。
MIP-HA1974可以负责IP地址管理,且可以使得WTRU1902a、1902b、1902c在不同的ASN和/或不同的核心网之间漫游。MIP-HA1974可以向WTRU1902a、1902b、1902c提供至分组交换网络(例如因特网1910)的接入,从而便于WTRU1902a、1902b、1902c和IP使能设备之间的通信。AAA服务器1976可以负责用户认证和支持用户服务。网关1978可以促进与其他网络之间的交互工作。例如,网关1978可以向WTRU1902a、1902b、1902c提供至电路交换网络(例如PSTN1908)的接入,从而便于WTRU1902a、1902b、1902c与传统陆线通信设备之间的通信。另外,网关1978可以向WTRU1902a、1902b、1902c提供至网络1912的接入,该网络1912可以包含被其他服务提供商拥有和/或运营的其他有线或无线网络。
虽然在图19E中未示出,应该理解的是RAN1904可以被连接到其他ASN且核心网1906可以被连接到其他核心网。RAN1904和其他ASN之间的通信链路可以被定义为R4参考点,该R4参考点可以包括用于协调RAN1904和其他ASN之间的WTRU1902a、1902b、1902c移动性的协议。核心网1906和其他核心网之间的通信链路可以被定义为R5参考点,该R5参考点可以包括用于便于本地核心网和受访核心网之间的交互工作的协议。
实施例
一种视频编码方法,该方法包括:接收视频数据;在多个采样比率中的每一个采样比率处,确定采样误差值;对于比特率,在多个采样比率中的每一个采样比率处确定编码误差值;将在多个采样比率中的每一个采样比率处的所述采样误差值与所述编码误差值相加;基于在选择的采样比率处的采样误差值与编码误差值的和选择所述多个采样比率中的一个采样比率;以选择的采样比率对视频数据进行下采样;以及对下采样后的视频数据进行编码。
根据前述实施例的方法,其中选择所述多个采样比率中的一个采样比率包括选择所述多个采样比率中导致采样误差值和编码误差值的和最小的一个采样比率。
根据前述实施例的任何一种方法,其中选择所述多个采样比率中的一个采样比率包括选择所述多个采样比率中导致采样误差值和编码误差值的和具有低于总体误差阈值的总体误差值的一个采用比率。
根据前述实施例的任何一种方法,其中所述采样误差值是基于所述视频数据的功率谱密度(PSD)和对下采样后的视频数据的PSD的估计。
根据前述实施例的任何一种方法,其中对下采样后的视频数据的PSD的估计是一函数,其中所述函数的至少一个参数由所述视频数据的至少一个特性确定。
根据前述实施例的任何一种方法,其中所述采样误差值是基于接收到的视频数据和抗锯齿滤波后的视频数据的差异。
根据前述实施例的任何一种方法,其中所述编码误差值是基于编码误差模型,其中所述编码误差模型是比特率和采样比率的函数。
根据前述实施例的任何一种方法,其中所述编码误差模型包括第一参数和第二参数,并且其中所述第一参数和所述第二参数每个都由所述视频数据的至少一个特性确定。
根据前述实施例的任何一种方法,该方法还包括:对于多个比特率中的每个比特率,确定每像素比特值;对于多个比特率中的每个比特率,确定失真值;对于多个比特率中的每个比特率,基于所述编码误差模型的第一参数的多个值和第二参数的多个值确定多个估计的失真值;以及确定所述编码误差模型的第一参数的选择值和第二参数的值,以便所述多个失真值与多个估计的失真值之间的差最小。
根据前述实施例的任何一种方法,该方法还包括:从第一查找表中选择所述第一参数的值;以及从第二查找表选择所述第二参数的值。
根据前述实施例的任何一种方法,该方法还包括:确定所述视频数据的功率谱密度,其中所述第一和第二参数的值是基于所述功率谱密度的DC分量。
根据前述实施例的任何一种方法,该方法还包括:确定所述视频数据的功率谱密度,其中所述第一和第二参数的值是基于向所述功率谱密度的高频段的衰退速度。
根据前述实施例的任何一种方法,其中所述至少一个特性是接收到的视频数据的复杂度值;以及其中所述复杂度值从用户输入和网络节点的一者中接收。
根据前述实施例的任何一种方法,该方法还包括:从网络节点接收所述比特率的指示。
根据前述实施例的任何一种方法,该方法还包括:在选择所述多个采样比率中的一个采样比率之后,接收第二比特率的指示;对于第二比特率,确定在所述多个采样比率中的一个采样比率处的更新后的编码误差值;基于所述采样误差值和更新后的编码误差值的和选择更新后的采样比率;以更新后的采样比率对所述输入视频进行下采样;以及对下采样后的视频序列进行编码。
根据前述实施例的任何一种方法,其中所述采样比率包括水平采样比率和垂直采样比率,所述水平采样比率与所述垂直采样比率不同。
根据前述实施例的任何一种方法,其中所述采样比率包括水平采样比率和垂直采样比率,所述水平采样比率与所述垂直采样比率相同。
根据前述实施例的任何一种方法,其中所述采样比率的第一选择在接收到的视频数据的开始处执行,所述采样比率的至少第二选择在接收到的视频数据的持续时间期间执行。
一种视频解码方法,该方法包括:接收压缩后的视频数据;接收对选择的采样比率的指示,其中所述采样比率是基于在多个采样比率中采样误差值和编码误差值的和;对压缩后的视频数据进行解码以形成重构后的视频数据;以选择的采样比率对所述重构后的视频数据进行上采样以增加上采样后的重构后的视频数据的分辨率;以及输出上采样后的视频数据。
一种视频解码***,该***包括:视频解码器,该视频解码器被配置成:接收压缩后的视频数据;接收对选择的采样比率的指示,其中所述采样比率是基于在多个采样比率中采样误差值和编码误差值的和;对压缩后的视频数据进行解码以形成重构后的视频数据;对所述重构后的视频数据进行上采样以增加所述重构后的视频数据的分辨率;以及输出过滤后的视频数据。
根据前述实施例的视频编码***,还包括:与通信***通信的无线接收/发射单元,其中所述无线接收/发射单元被配置成从所述通信***接收所述视频数据。
虽然本发明的特征和元素以特定的结合在以上进行了描述,但本领域普通技术人员可以理解的是,每个特征或元素可以在没有其它特征和元素的情况下单独使用,或在与本发明的任何其它特征和元素结合的各种情况下使用。此外,本发明提供的实施方式可以在由计算机或处理器执行的计算机程序、软件或固件中实施,其中所述计算机程序、软件或固件被包含在计算机可读存储介质中。计算机可读介质的实例包括电子信号(通过有线或者无线连接而传送)和计算机可读存储介质。关于计算机可读存储介质的实例包括但不局限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、缓冲存储器、半导体存储设备、磁介质(例如,内部硬盘或可移动磁盘)、磁光介质以及CD-ROM光盘和数字多功能光盘(DVD)之类的光介质。与软件有关的处理器可以被用于实施在WTRU、UE、终端、基站、RNC或者任何主计算机中使用的无线电频率收发信机。
对以上描述的方法、设备和***进行更改是可能的而无需偏离本发明的范围。鉴于可应用的实施方式的广泛不同性,应该理解的是描述的实施方式为示例性的,并且不应该当作限制以下权利要求的范围。
此外,在以上描述的实施方式中,提到了处理平台、计算***、控制器和包含处理器的其它设备。这些设备至少包含一个中央处理单元(“CPU”)和存储器。根据在计算机编码领域的技术人员的经验,各种CPU和存储器可以执行对动作和操作或指令的符号表示的参考。这些动作和操作或者指令可以被称作为被“执行的”、“计算机执行的”或者“CPU执行的”。
本领域技术人员应该注意到该动作和符号表示的操作或者指令包括由CPU对电气信号的操作。电气***表示数据比特,所述数据比特能够使得生成的变换或者电气信号的减少以及在存储***中的存储位置处的数据比特的维护重新配置或者否则改变CPU操作以及其它信号处理。数据比特被维护的存储位置为具有对应于数据比特或者表示数据比特的特定电气、磁、光或者有机属性。应该理解的是所述示例性实施方式不限于以上提到的平台或者CPU并且其它平台和CPU可以支持以上描述的方法。
所述数据比特还可以由CPU在包含磁盘、光盘以及任何其它易失性(例如,随机存取存储器(“RAM”))或者非易失性(例如,只读存储器(“ROM”))大容量存储***上维护。所述计算机可读介质包括协作的或者互联的计算机可读介质,其中所述协作的或者互联的计算机可读介质专门存在于处理***上或者分布在对于处理***为本地或者远程的多个互联处理***中。应该理解的是所述示例性实施方式不限于以上提到的存储器并且其它平台和存储器可以支持以上描述的方法。
在本发明描述中使用的元素、动作或者指令不应该解释为对本发明关联或者必不可少,除非专门描述成这样。此外,如此处使用的量词“a”意在包括一个或者多个事物。当意指仅一个事物时,术语“一(one)”或者类似的语言被使用。此外,如此处使用的术语“任何(any of)”后面跟着多个事物的列表和/或多个类别的事物被意在包括“任何(any of)”、“任何组合(anycombination of)”、“任何多个(any multiple of)”和/或"多个的任何组合(anycombination of multiples of)"事物和/或事物类别,单独地或者结合其它事物和/或其它事物类别。此外,如此处使用的术语“组(set)”意在包括任意数量的事物,包括零。此外,如此处使用的术语“数量(number)”意在包括任意数字,包括零。
此外,所述权利要求不应该被解读为限于以上描述的顺序或者元素除非针对该效果进行了阐述。此外,任何权利要求中术语“装置(means)”的使用意在引用
Figure BDA00003411095700591
并且无词语“装置(means)”的任何权利要求并不意指此。

Claims (21)

1.一种视频编码方法,该方法包括:
接收视频数据;
在多个采样比率中的每一个采样比率处,确定采样误差值;
针对比特率,在所述多个采样比率中的每一个采样比率处确定编码误差值;
将在所述多个采样比率中的每一个采样比率处的所述采样误差值与所述编码误差值相加;
基于在选择的采样比率处的所述采样误差值与所述编码误差值的和来选择所述多个采样比率中的一个采样比率;
以选择的采样比率对所述视频数据进行下采样;以及
对下采样后的视频数据进行编码。
2.根据权利要求1所述的方法,其中选择所述多个采样比率中的一个采样比率包括选择所述多个采样比率中导致所述采样误差值和所述编码误差值的和最小的一个采样比率。
3.根据权利要求1所述的方法,其中选择所述多个采样比率中的一个采样比率包括选择所述多个采样比率中导致所述采样误差值和所述编码误差值的和具有低于总体误差阈值的总体误差值的一个采样比率。
4.根据权利要求1所述的方法,其中所述采样误差值是基于所述视频数据的功率谱密度(PSD)和对下采样后的视频数据的PSD的估计。
5.根据权利要求4所述的方法,其中所述对下采样后的视频数据的PSD的估计是一函数,其中所述函数的至少一个参数由所述视频数据的至少一个特性确定。
6.根据权利要求1所述的方法,其中所述采样误差值是基于接收到的视频数据和抗锯齿滤波后的视频数据之间的差异。
7.根据权利要求1所述的方法,其中所述编码误差值是基于编码误差模型,其中所述编码误差模型是所述比特率和采样比率的函数。
8.根据权利要求7所述的方法,其中所述编码误差模型包括第一参数和第二参数,并且其中所述第一参数和所述第二参数的每一者由所述视频数据的至少一个特性确定。
9.根据权利要求8所述的方法,该方法还包括:
针对多个比特率中的每个比特率,确定每像素比特值;
针对所述多个比特率中的每个比特率,确定失真值;
针对所述多个比特率中的每个比特率,基于所述编码误差模型的第一参数的多个值和第二参数的多个值确定多个估计的失真值;以及
确定所述编码误差模型的第一参数的选择值和第二参数的值,使得所述多个失真值与所述多个估计的失真值之间的差最小。
10.根据权利要求8所述的方法,该方法还包括:
从第一查找表中选择所述第一参数的值;以及
从第二查找表中选择所述第二参数的值。
11.根据权利要求8所述的方法,该方法还包括:
确定所述视频数据的功率谱密度,其中所述第一参数的值和第二参数的值是基于所述功率谱密度的DC分量。
12.根据权利要求8所述的方法,该方法还包括:
确定所述视频数据的功率谱密度,其中所述第一参数的值和第二参数的值是基于向所述功率谱密度的高频段的衰退速度。
13.根据权利要求8所述的方法,该方法还包括:
其中所述至少一个特性是接收到的视频数据的复杂度值;以及
其中所述复杂度值从用户输入和网络节点的一者中被接收。
14.根据权利要求1所述的方法,该方法还包括:
从网络节点接收所述比特率的指示。
15.根据权利要求14所述的方法,该方法还包括:
在选择所述多个采样比率中的一个采样比率之后,接收第二比特率的指示;
针对第二比特率,确定在所述多个采样比率中的每一个采样比率处的更新后的编码误差值;
基于所述采样误差值和更新后的编码误差值的和选择更新后的采样比率;
以所述更新后的采样比率对所述输入视频进行下采样;以及
对下采样后的视频序列进行编码。
16.根据权利要求1所述的方法,其中所述采样比率包括水平采样比率和垂直采样比率,以及所述水平采样比率与所述垂直采样比率不同。
17.根据权利要求1所述的方法,其中所述采样比率包括水平采样比率和垂直采样比率,以及所述水平采样比率与所述垂直采样比率相同。
18.根据权利要求1所述的方法,其中所述采样比率的第一选择在接收到的视频数据的开始处被执行,所述采样比率的至少第二选择在接收到的视频数据的持续时间期间被执行。
19.一种视频解码方法,该方法包括:
接收压缩后的视频数据;
接收对选择的采样比率的指示,其中所述采样比率是基于在多个采样比率的采样误差值和编码误差值的和;
对压缩后的视频数据进行解码以形成重构后的视频数据;
以选择的采样比率对所述重构后的视频数据进行上采样以增加所述重构后的视频数据的分辨率;以及
输出滤波后的视频数据。
20.一种视频解码***,该***包括:
视频解码器,该视频解码器被配置成:
接收压缩后的视频数据;
接收对选择的采样比率的指示,其中所述采样比率是基于在多个采样比率的采样误差值和编码误差值的和;
对压缩后的视频数据进行解码以形成重构后的视频数据;
对所述重构后的视频数据进行上采样以增加所述重构后的视频的分辨率;以及
输出上采样后的视频数据。
21.根据权利要求20所述的视频解码***,该***还包括:
与通信***通信的无线接收/发射单元,其中所述无线接收/发射单元被配置成从所述通信***接收所述视频数据。
CN2011800628602A 2010-10-27 2011-10-27 用于自适应视频编码的***和方法 Pending CN103283227A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US40732910P 2010-10-27 2010-10-27
US61/407,329 2010-10-27
PCT/US2011/058027 WO2012058394A1 (en) 2010-10-27 2011-10-27 Systems and methods for adaptive video coding

Publications (1)

Publication Number Publication Date
CN103283227A true CN103283227A (zh) 2013-09-04

Family

ID=44906484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011800628602A Pending CN103283227A (zh) 2010-10-27 2011-10-27 用于自适应视频编码的***和方法

Country Status (5)

Country Link
EP (1) EP2633685A1 (zh)
KR (1) KR20130105870A (zh)
CN (1) CN103283227A (zh)
AU (1) AU2011319844A1 (zh)
WO (1) WO2012058394A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105874793A (zh) * 2013-10-07 2016-08-17 Vid拓展公司 用于多层视频编码的组合可分级性处理
CN112367147A (zh) * 2020-09-27 2021-02-12 苏州宣怀智能科技有限公司 数据显示方法、装置、电子设备和计算机可读介质

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11381816B2 (en) 2013-03-15 2022-07-05 Crunch Mediaworks, Llc Method and system for real-time content-adaptive transcoding of video content on mobile devices to save network bandwidth during video sharing
WO2014143008A1 (en) 2013-03-15 2014-09-18 Icelero Inc Method and system for improved video codec rate-distortion performance by pre and post-processing
CN103475880B (zh) * 2013-09-11 2016-08-24 浙江大学 一种基于统计分析的由h.264到hevc低复杂度视频转码方法
US9600494B2 (en) * 2014-01-24 2017-03-21 Cisco Technology, Inc. Line rate visual analytics on edge devices
CN103945222B (zh) * 2014-04-21 2017-01-25 福州大学 一种基于hevc视频编码标准的码率控制模型更新方法
CN105430395B (zh) * 2015-12-03 2018-04-27 北京航空航天大学 一种基于最佳比特分配的hevc ctu级码率控制方法
WO2018018445A1 (zh) * 2016-07-27 2018-02-01 王晓光 基于视频容量的视频广告发送方法及***
KR102119300B1 (ko) 2017-09-15 2020-06-04 서울과학기술대학교 산학협력단 360도 영상 부호화 장치 및 방법, 이를 수행하기 위한 기록 매체
EP3804331A4 (en) * 2018-06-15 2021-08-11 Huawei Technologies Co., Ltd. INTRA PREDICTION PROCESS AND APPARATUS
CN110876060B (zh) * 2018-08-31 2022-07-15 网宿科技股份有限公司 一种编码过程中的码率调整方法及装置
WO2020080665A1 (en) * 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image
WO2020080765A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image
WO2020080873A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Method and apparatus for streaming data
KR102436512B1 (ko) 2019-10-29 2022-08-25 삼성전자주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
KR20220003812A (ko) * 2020-07-02 2022-01-11 삼성전자주식회사 호 채널의 상태에 기반하여 필터를 사용하여 전처리된 컨텐츠를 전송하는 전자 장치 및 전자 장치의 동작 방법
US11184638B1 (en) * 2020-07-16 2021-11-23 Facebook, Inc. Systems and methods for selecting resolutions for content optimized encoding of video data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1366779A (zh) * 2000-04-18 2002-08-28 皇家菲利浦电子有限公司 联合比特率转码中的比特率分配
US20060165166A1 (en) * 2004-12-10 2006-07-27 Microsoft Corporation System and process for controlling the coding bit rate of streaming media data employing a limited number of supported coding bit rates
CN101389021A (zh) * 2007-09-14 2009-03-18 华为技术有限公司 视频编解码方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3466032B2 (ja) * 1996-10-24 2003-11-10 富士通株式会社 動画像符号化装置および復号化装置
EP2210237B1 (en) * 2007-11-02 2018-09-05 Ecole de Technologie Supérieure System and method for quality-aware selection of parameters in transcoding of digital images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1366779A (zh) * 2000-04-18 2002-08-28 皇家菲利浦电子有限公司 联合比特率转码中的比特率分配
US20060165166A1 (en) * 2004-12-10 2006-07-27 Microsoft Corporation System and process for controlling the coding bit rate of streaming media data employing a limited number of supported coding bit rates
CN101389021A (zh) * 2007-09-14 2009-03-18 华为技术有限公司 视频编解码方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALFRED M. BRUCKSTEIN, MICHAEL ELAD, AND RON KIMMEL: "Down-Scaling for Better Transform Compression", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, vol. 12, no. 9, 30 September 2003 (2003-09-30), XP011099900, DOI: doi:10.1109/TIP.2003.816023 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105874793A (zh) * 2013-10-07 2016-08-17 Vid拓展公司 用于多层视频编码的组合可分级性处理
CN105874793B (zh) * 2013-10-07 2019-10-11 Vid拓展公司 用于多层视频编码的组合可分级性处理的方法和设备
US10986370B2 (en) 2013-10-07 2021-04-20 Vid Scale, Inc. Combined scalability processing for multi-layer video coding
CN112367147A (zh) * 2020-09-27 2021-02-12 苏州宣怀智能科技有限公司 数据显示方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
WO2012058394A1 (en) 2012-05-03
AU2011319844A1 (en) 2013-06-13
KR20130105870A (ko) 2013-09-26
EP2633685A1 (en) 2013-09-04

Similar Documents

Publication Publication Date Title
CN103283227A (zh) 用于自适应视频编码的***和方法
CN104604241B (zh) 用于功率感知视频解码的方法和移动设备
US10237555B2 (en) System and method of video coding quantization and dynamic range control
KR101774675B1 (ko) 다층 비디오 코딩을 위한 적응적 업샘플링
CN104429071B (zh) 用于多层视频编码的编解码器架构
CN110855994B (zh) 针对多层视频编码的层间参考图片增强的设备
TWI660621B (zh) 視訊解碼及編碼方法
CN110087091B (zh) 多层视频编码中用于空间层的采样栅格信息
CN104396240B (zh) 用于可缩放的高效视频编码(hevc)的参考图片集(rps)信令
CN104067621B (zh) 使用偶数‑奇数整数变换后台的视频和数据处理的设备和方法
CN105765979B (zh) 用于可缩放视频编码的层间预测
CN106233726A (zh) 用于rgb视频编码增强的***和方法
CN104641651A (zh) 用于编码和交付视频内容的分布式体系结构
CN103797792A (zh) 用于空间预测的***和方法
WO2017020021A1 (en) Scalable high efficiency video coding to high efficiency video coding transcoding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130904