CN107105255B

CN107105255B - 视频文件中添加标签的方法和装置

Info

Publication number: CN107105255B
Application number: CN201610099403.5A
Authority: CN
Inventors: 杨江
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-02-23
Filing date: 2016-02-23
Publication date: 2020-03-03
Anticipated expiration: 2036-02-23
Also published as: CN107105255A

Abstract

本申请提出一种视频文件中添加标签的方法和装置，该视频文件中添加标签的方法包括：解码添加标签前的视频文件，得到视频数据；存储视频数据中的宏块信息；获取标签数据，并合并视频数据和标签数据，得到新的视频数据；对所述新的视频数据进行编码，得到添加标签后的视频文件，其中，所述编码包括预测编码，所述预测编码包括：当标签在被添加到的视频帧内的占用比例小于预设值或者当前编码的宏块是标签未占用的宏块时，采用存储的宏块信息进行预测编码。该方法能够提升处理速度。

Description

视频文件中添加标签的方法和装置

技术领域

本申请涉及视频编辑技术领域，尤其涉及一种视频文件中添加标签的方法和装置。

背景技术

通常情况下，为了在采用H264编码的视频文件中添加标签，需要首先对视频文件进行解码得到每一帧数据(ARGB像素数据或者YUV像素)，再通过中央处理器(CentralProcessing Unit，CPU)或者图形处理器(Graphics Processing Unit，GPU)运算得到标签的每一帧数据，将视频文件的每一帧数据和标签的每一帧数据进行合并得到新的帧数据，最后对得到的所有新的帧数据进行编码得到新的视频文件。

其中，相关技术中，在编码时会存在帧内/帧间宏块信息搜索的过程，而这一过程的计算量较大，耗费时间较长，因此，相关技术会存在处理时间较长的问题，影响用户体验。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种视频文件中添加标签的方法，该方法可以提升处理速度，进而提升用户体验。

本申请的另一个目的在于提出一种视频文件中添加标签的装置。

为达到上述目的，本申请第一方面实施例提出的视频文件中添加标签的方法，包括：解码添加标签前的视频文件，得到视频数据；存储视频数据中的宏块信息；获取标签数据，并合并视频数据和标签数据，得到新的视频数据；对所述新的视频数据进行编码，得到添加标签后的视频文件，其中，所述编码包括预测编码，所述预测编码包括：当标签在被添加到的视频帧内的占用比例小于预设值或者当前编码的宏块是标签未占用的宏块时，采用存储的宏块信息进行预测编码。

本申请第一方面实施例提出的视频文件中添加标签的方法，通过在解码视频文件时存储宏块信息，并在一些情况下的预测编码时，采用存储的宏块信息进行预测编码，由于宏块信息的搜索过程的计算量较大，会耗费很长时间，本实施例中不进行宏块信息搜索而直接采用存储的宏块信息，可以显著降低处理时间，从而提升用户体验。

为达到上述目的，本申请第二方面实施例提出的视频文件中添加标签的装置，包括：解码模块，用于解码添加标签前的视频文件，得到视频数据；存储模块，用于存储视频数据中的宏块信息；合并模块，用于获取标签数据，并合并视频数据和标签数据，得到新的视频数据；编码模块，用于对所述新的视频数据进行编码，得到添加标签后的视频文件，其中，所述编码包括预测编码，所述预测编码包括：当标签在被添加到的视频帧内的占用比例小于预设值或者当前编码的宏块是标签未占用的宏块时，采用存储的宏块信息进行预测编码。

本申请第二方面实施例提出的视频文件中添加标签的装置，通过在解码视频文件时存储宏块信息，并在一些情况下的预测编码时，采用存储的宏块信息进行预测编码，由于宏块信息的搜索过程的计算量较大，会耗费很长时间，本实施例中不进行宏块信息搜索而直接采用存储的宏块信息，可以显著降低处理时间，从而提升用户体验。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一实施例提出的视频文件中添加标签的方法的流程示意图；

图2是本申请另一实施例提出的视频文件中添加标签的方法的流程示意图；

图3是H264编解码的流程示意图；

图4是H264编码后得到的NAL单元的示意图；

图5是标签在视频帧内占用区域的示意图；

图6是本申请另一实施例提出的视频文件中添加标签的装置的结构示意图；

图7是本申请另一实施例提出的视频文件中添加标签的装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一实施例提出的视频文件中添加标签的方法的流程示意图。

参见图1，该方法包括：

S11：解码添加标签前的视频文件，得到视频数据。

本申请实施例中，以H264编解码为例，因此，添加标签前的视频文件可以具体是指采用H264编码的视频文件，需要在该视频文件中添加标签。

对视频文件进行解码后，可以得到视频文件的每一帧数据，为了与后续的标签的每一帧数据区分，对视频文件进行解码后得到的每一帧数据可以称为视频数据。

S12：存储视频数据中的宏块信息。

每一帧数据可以包括多个宏块信息，在存储时，可以根据不同场景存储相应的宏块信息。例如，可以存储所有的宏块信息，或者，可以仅存储未被标签占用的宏块信息。具体内容可以参见后续实施例。

S13：获取标签数据，并合并视频数据和标签数据，得到新的视频数据。

其中，可以由用户设置需要添加到视频文件中的标签内容，再通过CPU或GPU运算得到标签的每一帧数据，该标签的每一帧数据可以称为标签数据。

在得到视频数据和标签数据后，可以合并视频数据和标签数据，以对应每一帧，合并视频文件的每一帧数据和标签的每一帧数据，得到新的帧数据，该新的帧数据可以称为新的视频数据。

S14：对所述新的视频数据进行编码，得到添加标签后的视频文件，其中，所述编码包括预测编码，所述预测编码包括：当标签在被添加到的视频帧内的占用比例小于预设值或者当前编码的宏块是标签未占用的宏块时，采用存储的宏块信息进行预测编码。

在得到新的视频数据后可以对其进行编码，从而得到新的视频文件，该新的视频文件就是添加标签后的视频文件。

在编码时通常会包括：预测编码、变换编码、量化和熵编码等。

相关技术中，在预测编码时通常采用帧内/帧间宏块信息搜索的过程，以根据搜索得到的帧内预测信息或帧间预测信息进行预测编码。

而本实施例中，在一些情况下，直接采用存储的宏块信息进行预测编码，不需要再进行宏块信息的搜索。其中，一些情况包括：标签在被添加到的视频帧内的占用比例小于预设值时，或者，当前编码的宏块是标签未占用的宏块。其中，所述预测编码可以包括对不同宏块依次进行编码的宏块循环编码，以判断当前编码的宏块是否是标签未占用的宏块。

本实施例中，通过在解码视频文件时存储宏块信息，并在一些情况下的预测编码时，采用存储的宏块信息进行预测编码，由于宏块信息的搜索过程的计算量较大，会耗费很长时间，本实施例中不进行宏块信息搜索而直接采用存储的宏块信息，可以显著降低处理时间，从而提升用户体验。

图2是本申请另一实施例提出的视频文件中添加标签的方法的流程示意图。

为了更好的理解本申请，先对H264编解码相关内容进行描述。

H264的编解码流程如图3所示。对于编码过程，首先进行预测编码，而预测编码分为帧内预测和帧间预测，对于帧内编码，需要在多种预测模式中搜寻最优的预测模式，然后比较预测值和真实像素之间的差值传给后续环节；对于帧间编码，基于参考帧进行当前帧与参考帧之间的运动估计求得运动向量，利用运动估计和运动补偿得到相对于参考帧运动向量，比较预测值和真实像素之间的差值传递给后续环节；然后会进行变换编码，去除预测差值中的高频信号，然后通过量化进一步减小差值信号的能量；最后进行重排序和熵编码得到最终的网络抽象层(Network Abstraction Layer，NAL)单元，存储到视频文件中。

对于解码过程，则是编码的逆过程。

参见图4，每个NAL单元(NAL unit)包含一个或多个片(slice)，每个片包含片头和片内数据。片内数据由一系列连续的编码宏块(MB)构成，根据宏块类型的不同，分为帧内预测宏块及帧间预测宏块或者不进行预测的宏块(Skip MB)，从图中可以看出，帧内预测宏块和帧间预测宏块具有不同类型的预测信息，帧内预测信息为预测模式(Intra modes)，而帧间预测信息为参考帧(Reference frames)和运动向量(Motion Vectors)。

一般场景下，被添加到视频文件中的标签并不会占用帧图像所有空间，更多的情况是，标签只在视频文件的帧中占用较小的区域，类似图5所示。将视频帧分割为4x4个区域，其中为填充部分表示标签没有占用的区域，填充部分表示标签占用的区域。此时，被标签占用的区域为整个视频帧的3/16。基于这种特点，本申请实施例在新的帧数据编码的过程中，有效利用解码得到的信息，减少编码过程中某些操作。

参见图2，该方法包括：

S201：根据标签的坐标信息确定标签在视频帧中的占用比例。

其中，标签可以由用户设置，因此，可以从设置信息中获取标签的坐标信息。

占用比例是指标签占用的宏块个数与视频帧的总的宏块个数的比值。

宏块大小通常是16x16个像素点，根据标签的坐标信息和每个宏块大小可以计算出标签占用的宏块个数，再根据每个视频帧的总的宏块个数，可以确定标签在视频帧中的占用比例。

S202：判断该占用比例是否大于预设值，若是，执行S203-S211，否则，执行S212-S218。

预设值例如是25％。

在获取到占用比例和预设值后，可以比较这两个值，以得到判断结果。

S203：解码添加标签前的视频文件，得到视频数据，并存储视频数据中未被标签占用的宏块信息。

其中，可以根据标签的坐标信息确定标签占用的宏块，进而获取到未被标签占用的宏块信息。

宏块信息可以包括：帧内预测信息和帧间预测信息。

帧内预测信息具体是预测模式(Intra Modes)。

帧间预测信息具体包括：参考帧(Reference frames)和运动向量(MotionVectors)。

S204：获取标签数据，并合并视频数据和标签数据，得到新的视频数据。

得到新的视频数据后可以进行后续的编码等流程。

S205：在宏块循环编码开始后，确定当前编码的宏块。

例如，采用遍历的方式，依次将每个宏块作为当前编码的宏块。

S206：判断当前编码的宏块是否被标签占用，若是，执行S207，否则，执行S208。

S207：通过帧内和帧间搜索过程计算新的宏块信息，并采用新的宏块信息，对新的视频数据进行预测编码。之后执行S209。

当宏块被标签占用后，可以重新进行宏块信息的搜索，以提高准确度。

例如，通过帧内宏块信息的搜索，可以得到新的预测模式，并采用新的预测模式进行帧内预测编码，通过帧间宏块信息的搜索，可以得到新的参考帧和运动向量，采用新的参考帧和运行向量进行帧间预测编码。

S208：采用存储的宏块信息，对新的视频数据进行预测编码。

例如，存储的宏块信息包括：帧内预测信息(预测模式)和帧间预测信息(参考帧和运动向量)，则可以分别根据帧内预测信息进行帧内预测编码，根据帧间预测信息进行帧间预测编码。

S209：对预测编码后的数据进行变换编码、量化以及熵编码等。

S210：判断是否结束宏块循环编码，若是，执行S211，否则，重复执行S205及其后续步骤。

例如，当所有宏块都编码完成后，确定结束宏块循环编码，否则继续宏块循环编码。

S211：宏块循环编码结束。

S212：解码添加标签前的视频文件，得到视频数据，并存储视频数据中所有宏块信息。

宏块信息可以包括：帧内预测信息和帧间预测信息。

帧内预测信息具体是预测模式(Intra Modes)。

S213：获取标签数据，并合并视频数据和标签数据，得到新的视频数据。

得到新的视频数据后可以进行后续的编码等流程。

S214：在宏块循环编码开始后，确定当前编码的宏块。

S215：采用存储的宏块信息，对新的视频数据进行预测编码。

S216：对预测编码后的数据进行变换编码、量化以及熵编码等。

S217：判断是否结束宏块循环编码，若是，执行S218，否则，重复执行S214及其后续步骤。

S218：宏块循环编码结束。

上述的S208或S215中，通过省去帧内/帧间宏块信息搜索的过程，可以显著减少编码的时间。实验表明，视频的编码时间大约为解码时间2倍以上，而在编码过程中，预测编码的时间占据了整个编码时间的70％左右，预测编码的时间主要集中在宏块信息的搜索。对于标签占据宏块比例小于预设值的情况，所有的宏块信息搜索过程被省略，粗略估计可以给整个标签添加过程带来50％左右的性能提升。当然，此时忽略标签信息给宏块信息带来的影响，会增加预测编码的残差，给最终编码生成的码流带来一定的增加，然而在预设值范围内，增加的范围将会有限，相对于最终带来的性能提升而言这种增加是值得的。对于标签占用宏块比例大于预设值的情况，根据宏块占用的情况分别进行预测编码，对于未被标签占用的宏块，利用解码存储的宏块信息，可以有效降低编码时间，对于被标签占用的宏块，重新搜索宏块信息能保证最终预测编码的残差最优，相对于常规的编码流程而言不带来编码信息的增加。

本实施例中，通过在解码视频文件时存储宏块信息，并在一些情况下的预测编码时，采用存储的宏块信息进行预测编码，由于宏块信息的搜索过程的计算量较大，会耗费很长时间，本实施例中不进行宏块信息搜索而直接采用存储的宏块信息，可以显著降低处理时间。进一步的，分情况采用存储的宏块信息进行预测编码或重新搜索计算新的宏块信息，可以兼顾运算量和准确度，满足不同场景的需要。

图6是本申请另一实施例提出的视频文件中添加标签的装置的结构示意图。参见图6，该装置60包括：解码模块61、存储模块62、合并模块63和编码模块64。

解码模块61，用于解码添加标签前的视频文件，得到视频数据。

存储模块62，用于存储视频数据中的宏块信息。

每一帧数据可以包括多个宏块信息，在存储时，可以根据不同场景存储相应的宏块信息。例如，可以存储所有的宏块信息，或者，可以仅存储未被标签占用的宏块信息。

合并模块63，用于获取标签数据，并合并视频数据和标签数据，得到新的视频数据。

编码模块64，用于对所述新的视频数据进行编码，得到添加标签后的视频文件，其中，所述编码包括预测编码，所述预测编码包括：当标签在被添加到的视频帧内的占用比例小于预设值时，采用存储的宏块信息进行预测编码；或者，所述预测编码包括对不同宏块依次进行编码的宏块循环编码，在当前编码的宏块是标签未占用的宏块时，采用存储的宏块信息进行预测编码。

一些实施例中，参见图7，该装置60还包括：

确定模块65，用于根据标签的坐标信息确定标签在视频帧中的占用比例。

宏块大小通常是16x16，根据标签的坐标信息和每个宏块大小可以计算出标签占用的宏块个数，再根据每个视频帧的总的宏块个数，可以确定标签在视频帧中的占用比例。

相应的，所述存储模块62具体用于：

如果所述占用比例大于预设值，则存储视频数据中未被标签占用的宏块信息；

如果所述占用比例小于或等于预设值，则存储视频数据中所有宏块信息。

预设值例如是25％。

在得到判断结果后，根据判断结果存储未被占用的宏块信息或者存储所有宏块信息。

一些实施例中，所述编码模块64执行的预测编码包括：

如果所述占用比例大于预设值，在宏块循环编码开始后，判断当前编码的宏块是否被标签占用；如果当前编码的宏块未被标签占用，采用存储的宏块信息，对新的视频数据进行预测编码。

另一方面，如果当前编码的宏块被标签占用，通过帧内和帧间搜索过程计算新的宏块信息，并采用新的宏块信息，对新的视频数据进行预测编码。

一些实施例中，所述编码模块64执行的预测编码包括：

如果所述占用比例小于或等于预设值，在宏块循环编码开始后，采用存储的宏块信息，对新的视频数据进行预测编码。

本实施例中各模块的具体内容可以参见上述实施例中的相关描述，在此不再详细描述。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种视频文件中添加标签的方法，其特征在于，包括：

解码添加标签前的视频文件，得到视频数据；

根据标签的坐标信息确定标签在视频帧中的占用比例；

存储视频数据中的宏块信息，其中，所述宏块信息包括帧内预测信息和帧间预测信息，如果所述占用比例大于预设值，则存储视频数据中未被标签占用的宏块信息，如果所述占用比例小于或等于预设值，则存储视频数据中所有宏块信息；

获取标签数据，并合并视频数据和标签数据，得到新的视频数据；

对所述新的视频数据进行编码，得到添加标签后的视频文件，其中，所述编码包括预测编码，所述预测编码包括：当标签在被添加到的视频帧内的占用比例小于或等于预设值，或者当前编码的宏块是标签未占用的宏块时，采用存储的宏块信息进行预测编码。

2.根据权利要求1所述的方法，其特征在于，如果所述占用比例大于预设值，所述预测编码，包括：

在宏块循环编码开始后，判断当前编码的宏块是否被标签占用；

如果当前编码的宏块未被标签占用，采用存储的宏块信息，对新的视频数据进行预测编码。

3.根据权利要求2所述的方法，其特征在于，还包括：

如果当前编码的宏块被标签占用，通过帧内和帧间搜索过程计算新的宏块信息，并采用新的宏块信息，对新的视频数据进行预测编码。

4.根据权利要求1所述的方法，其特征在于，如果所述占用比例小于或等于预设值，所述预测编码，包括：

在宏块循环编码开始后，采用存储的宏块信息，对新的视频数据进行预测编码。

5.一种视频文件中添加标签的装置，其特征在于，包括：

解码模块，用于解码添加标签前的视频文件，得到视频数据；

确定模块，用于根据标签的坐标信息确定标签在视频帧中的占用比例；

存储模块，用于存储视频数据中的宏块信息，其中，所述宏块信息包括帧内预测信息和帧间预测信息，所述存储模块具体用于：如果所述占用比例大于预设值，则存储视频数据中未被标签占用的宏块信息，如果所述占用比例小于或等于预设值，则存储视频数据中所有宏块信息；

合并模块，用于获取标签数据，并合并视频数据和标签数据，得到新的视频数据；

编码模块，用于对所述新的视频数据进行编码，得到添加标签后的视频文件，其中，所述编码包括预测编码，所述预测编码包括：当标签在被添加到的视频帧内的占用比例小于或等于预设值，或者当前编码的宏块是标签未占用的宏块时，采用存储的宏块信息进行预测编码。

6.根据权利要求5所述的装置，其特征在于，所述编码模块执行的预测编码包括：

如果所述占用比例大于预设值，在宏块循环编码开始后，判断当前编码的宏块是否被标签占用；如果当前编码的宏块未被标签占用，采用存储的宏块信息，对新的视频数据进行预测编码；