CN109168032B

CN109168032B - 视频数据的处理方法、终端、服务器及存储介质

Info

Publication number: CN109168032B
Application number: CN201811337105.0A
Authority: CN
Inventors: 黄书敏
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2021-08-27
Anticipated expiration: 2038-11-12
Also published as: CN109168032A

Abstract

本发明公开了一种视频数据的处理方法、终端、服务器及存储介质，属于数据处理技术领域。本发明实施例通过第一设备获取至少一帧原始视频图像的目标区域信息，并在第一设备生成视频数据流的过程中，使生成的视频数据流携带对应的目标区域信息，以便第二设备接收到该视频数据流后，可以直接从该视频数据流中提取所需的目标区域信息，避免了第二设备再次基于相关的视频图像获取目标区域信息这一复杂的过程，大大节省了数据处理时间，降低了***负担。

Description

视频数据的处理方法、终端、服务器及存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种视频数据的处理方法、终端、服务器及存储介质。

背景技术

随着数据处理技术的不断发展，对视频数据的处理方法越来越多，例如，为了适应不同的网络带宽，或者不同终端的处理能力，需要对相应的视频数据进行转码处理，对于不同的用户需求，还可能需要对相应的视频数据进行混流处理。在对视频数据进行处理过程中，可以根据需求，对相应的视频图像的目标区域进行识别，例如，可以对感兴趣区域进行识别，使得在视频编码的过程中，可以对该感兴趣区域分配更多的码率，提高视频编码的质量。

目前，常用的视频数据的处理方法为：根据设定的识别规则，对至少一帧原始视频图像进行目标区域识别，并基于识别到的目标区域对该至少一帧原始视频图像进行编码，使得编码过程中对该目标区域分配更多的码率，以得到相应的视频数据流。进而当对该视频数据流进行转码处理时，先对该视频数据流进行解码，得到对应的视频图像，然后根据识别规则，再次对该视频图像进行目标区域识别，基于该再次识别到的目标区域，根据不同的目标码率，对该视频图像进行重编码，最终得到与目标码率对应的目标视频数据流。

基于上述视频数据的处理方法，在对至少一帧原始视频图像进行编码以及重编码的过程中，需要多次对视频图像进行目标区域识别，该目标区域识别的过程较为复杂且耗时较长，因此，多次进行目标区域的识别大大增加了***负担。

发明内容

本发明实施例提供了一种视频数据的处理方法、终端、服务器及存储介质，能够解决需要多次对视频图像进行目标区域识别的问题。所述技术方案如下：

一方面，提供了一种视频数据的处理方法，所述方法包括：

获取至少一帧原始视频图像；

基于所述至少一帧原始视频图像，获取所述至少一帧原始视频图像的目标区域信息；

基于所述至少一帧原始视频图像的目标区域信息，对所述至少一帧原始视频图像进行编码，生成视频数据流，所述视频数据流携带所述至少一帧原始视频图像的目标区域信息；

向第二设备发送所述视频数据流。

在一种可能实现方式中，所述基于所述至少一帧原始视频图像的目标区域信息，对所述至少一帧原始视频图像进行编码，生成视频数据流，所述视频数据流携带所述至少一帧原始视频图像的目标区域信息包括：

对所述至少一帧原始视频图像的目标区域信息和所述至少一帧原始视频图像进行编码，生成携带至少一个目标区域标识的至少一个第一数据包，所述至少一个目标区域标识由所述至少一帧原始视频图像编码得到；

基于所述携带至少一个目标区域标识的至少一个第一数据包，生成所述视频数据流。

对所述至少一帧原始视频图像的目标区域信息进行编码，生成至少一个第二数据包；

对所述至少一个原始视频图像进行编码，生成至少一个第一数据包；

每隔预设数目个第一数据包，***一个第二数据包，生成所述视频数据流。

一方面，提供了一种视频数据的处理方法，所述方法包括：

接收视频数据流，所述视频数据流携带至少一帧原始视频图像的目标区域信息；

从所述视频数据流中，提取所述至少一帧原始视频图像的目标区域信息；

对所述视频数据流进行解码，生成所述视频数据流对应的视频图像；

基于所述视频数据流对应的目标区域信息，对所述视频数据流对应的视频图像进行重编码，生成目标视频数据流。

在一种可能实现方式中，所述基于所述视频数据流，提取所述至少一帧原始视频图像的目标区域信息包括：

基于所述视频数据流中至少一个第一数据包的至少一个字段，提取至少一个目标区域标识；

对所述至少一个目标区域标识进行解码，生成所述至少一帧原始视频图像的目标区域信息。

基于所述视频数据流中的至少一个第一数据包和至少一个第二数据包，每隔预设数目个第一数据包，对所述预设数目个第一数据包之后的第二数据包进行解码，生成所述至少一帧原始视频图像的目标区域信息。

一方面，提供了一种视频数据的处理方法，所述方法包括：

接收至少两路视频数据流，每路视频数据流携带至少一帧原始视频图像的目标区域信息；

从所述至少两路视频数据流中，提取每路视频数据流对应的至少一帧原始视频图像的目标区域信息；

对所述每路视频数据流进行解码，生成所述至少两路视频数据流对应的视频图像；

将所述至少两路视频数据流对应的视频图像进行合并，生成目标视频图像；

基于所述至少两路视频数据流对应的目标区域信息，对所述目标视频图像进行重编码，生成目标视频数据流。

在一种可能实现方式中，所述基于所述至少两路视频数据流，提取每路视频数据流对应的至少一帧原始视频图像的目标区域信息包括：

基于所述每路视频数据流中至少一个第一数据包的至少一个字段，提取所述至少两路视频数据流对应的至少一个目标区域标识；

对所述每路视频数据流对应的至少一个目标区域标识进行解码，生成所述至少两路视频数据流对应的至少一帧原始视频图像的目标区域信息。

基于所述每路视频数据流中的至少一个第一数据包和至少一个第二数据包，每隔预设数目个第一数据包，对所述预设数目个第一数据包之后的第二数据包进行解码，生成所述至少两路视频数据流中的至少一帧原始视频图像的目标区域信息。

一方面，提供了一种视频数据的处理装置，所述装置包括：

获取模块，用于获取至少一帧原始视频图像；

所述获取模块，还用于基于所述至少一帧原始视频图像，获取所述至少一帧原始视频图像的目标区域信息；

生成模块，用于基于所述至少一帧原始视频图像的目标区域信息，对所述至少一帧原始视频图像进行编码，生成视频数据流，所述视频数据流携带所述至少一帧原始视频图像的目标区域信息；

发送模块，用于向第二设备发送所述视频数据流。

在一种可能实现方式中，所述生成模块用于：

对所述至少一帧原始视频图像进行编码，生成至少一个第一数据包；

一方面，提供了一种视频数据的处理装置，所述装置包括：

接收模块，用于接收视频数据流，所述视频数据流携带至少一帧原始视频图像的目标区域信息；

提取模块，用于基于所述视频数据流，提取所述至少一帧原始视频图像的目标区域信息；

解码模块，用于对所述视频数据流进行解码，生成所述视频数据流对应的视频图像；

重编码模块，用于基于所述至少一帧原始视频图像的目标区域信息，对所述视频数据流对应的视频图像进行重编码，生成目标视频数据流。

在一种可能实现方式中，所述提取模块用于：

一方面，提供了一种视频数据的处理装置，所述装置包括：

接收模块，用于接收至少两路视频数据流，每路视频数据流携带至少一帧原始视频图像的目标区域信息；

提取模块，用于基于所述至少两路视频数据流，提取每路视频数据流对应的至少一帧原始视频图像的目标区域信息；

解码模块，用于对所述每路视频数据流进行解码，生成所述至少两路视频数据流对应的视频图像；

合并模块，用于将所述至少两路视频数据流对应的视频图像进行合并，生成目标视频图像；

重编码模块，用于基于所述至少两路视频数据流对应的目标区域信息，对所述目标视频图像进行重编码，生成目标视频数据流。

在一种可能实现方式中，所述提取模块用于：

一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述视频数据的处理方法所执行的操作。

一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述视频数据的处理方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述视频数据的处理方法所执行的操作。

本发明实施例通过第一设备获取至少一帧原始视频图像的目标区域信息，并在第一设备生成视频数据流的过程中，使生成的视频数据流携带对应的目标区域信息，以便第二设备接收到该视频数据流后，可以直接从该视频数据流中提取所需的目标区域信息，避免了第二设备再次基于相关的视频图像获取目标区域信息这一复杂的过程，大大节省了数据处理时间，降低了***负担。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频数据的处理方法的流程图；

图2是本发明实施例提供的一种视频数据的处理方法的流程图；

图3是本发明实施例提供的一种视频数据的处理方法的流程图；

图4是本发明实施例提供的一种视频数据的处理方法的流程图；

图5是本发明实施例提供的一种对视频图像编码并转码的流程图；

图6是本发明实施例提供的一种视频数据的处理方法的流程图；

图7是本发明实施例提供的一种对视频图像编码并混流的流程图；

图8是本发明实施例提供的一种视频数据的处理装置的结构示意图；

图9是本发明实施例提供的一种视频数据的处理装置的结构示意图；

图10是本发明实施例提供的一种视频数据的处理装置的结构示意图；

图11是本发明实施例提供的一种终端的结构框图；

图12是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种视频数据的处理方法的流程图，该视频数据的处理方法可以应用于第一设备中。参见图1，该实施例包括：

101、获取至少一帧原始视频图像。

102、基于该至少一帧原始视频图像，获取该至少一帧原始视频图像的目标区域信息。

103、基于该至少一帧原始视频图像的目标区域信息，对该至少一帧原始视频图像进行编码，生成视频数据流，该视频数据流携带该至少一帧原始视频图像的目标区域信息。

104、向第二设备发送该视频数据流。

在一些实施例中，该基于该至少一帧原始视频图像的目标区域信息，对该至少一帧原始视频图像进行编码，生成视频数据流，该视频数据流携带该至少一帧原始视频图像的目标区域信息包括：

对该至少一帧原始视频图像的目标区域信息和该至少一帧原始视频图像进行编码，生成携带至少一个目标区域标识的至少一个第一数据包，该至少一个目标区域标识由该至少一帧原始视频图像编码得到；

基于该携带至少一个目标区域标识的至少一个第一数据包，生成该视频数据流。

对该至少一帧原始视频图像的目标区域信息进行编码，生成至少一个第二数据包；

对该至少一帧原始视频图像进行编码，生成至少一个第一数据包；

每隔预设数目个第一数据包，***一个第二数据包，生成该视频数据流。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种视频数据的处理方法的流程图，该视频数据的处理方法可以应用于第二设备中。参见图2，该实施例包括：

201、接收视频数据流，该视频数据流携带至少一帧原始视频图像的目标区域信息。

202、从该视频数据流中，提取该至少一帧原始视频图像的目标区域信息。

203、对该视频数据流进行解码，生成该视频数据流对应的视频图像。

204、基于该视频数据流携带的目标区域信息，对该视频数据流对应的视频图像进行重编码，生成目标视频数据流。

在一些实施例中，该基于该视频数据流，提取该至少一帧原始视频图像的目标区域信息包括：

基于该视频数据流中至少一个第一数据包的至少一个字段，提取至少一个目标区域标识；

对该至少一个目标区域标识进行解码，得到该至少一帧原始视频图像的目标区域信息。

基于该视频数据流中的至少一个第一数据包和至少一个第二数据包，每隔预设数目个第一数据包，对该预设数目个第一数据包之后的第二数据包进行解码，生成该至少一帧原始视频图像的目标区域信息。

图3是本发明实施例提供的一种视频数据的处理方法的流程图，该视频数据的处理方法可以应用于第二设备中。参见图3，该实施例包括：

301、接收至少两路视频数据流，每路视频数据流携带至少一帧原始视频图像的目标区域信息。

302、从该至少两路视频数据流中，提取每路视频数据流对应的至少一帧原始视频图像的目标区域信息。

303、对该每路视频数据流进行解码，生成该至少两路视频数据流对应的视频图像。

304、将该至少两路视频数据流对应的视频图像进行合并，生成目标视频图像。

305、基于该至少两路视频数据流对应的目标区域信息，对该目标视频图像进行重编码，生成目标视频数据流。

在一些实施例中，该基于该至少两路视频数据流，提取每路视频数据流对应的至少一帧原始视频图像的目标区域信息包括：

基于该每路视频数据流中至少一个第一数据包的至少一个字段，提取该至少两路视频数据流对应的至少一个目标区域标识；

对该每路视频数据流对应的至少一个目标区域标识进行解码，得到该至少两路视频数据流对应的至少一帧原始视频图像的目标区域信息。

基于该每路视频数据流中的至少一个第一数据包和至少一个第二数据包，每隔预设数目个第一数据包，对该预设数目个第一数据包之后的第二数据包进行解码，生成该至少两路视频数据流中的至少一帧原始视频图像的目标区域信息。

图4是本发明实施例提供的一种视频数据的处理方法的流程图，该视频数据的处理方法是以第一设备和第二设备进行交互为例进行说明的，其中，第一设备具有编码功能，第二设备具有转码功能。参见图4，该实施例包括：

401、第一设备获取至少一帧原始视频图像。

在本发明实施例中，该第一设备具有视频图像获取功能和编码功能，该第一设备可以通过该视频图像获取功能，获取至少一帧原始视频图像。其中，该至少一帧原始视频图像即是未经编码等处理，第一设备最初获取到的视频图像。

以该第一设备是终端为例，该终端上可以安装有多媒体客户端，例如直播客户端，该多媒体客户端可以通过终端上的摄像头实时采集至少一帧原始视频图像。其中，终端可以先获取到该至少一帧原始视频图像，然后再对该至少一帧原始视频图像进行编码。当然，终端也可以每获取到一个原始视频图像，就对通过相应的编码功能，对该一个原始视频图像进行编码。

当然，该第一设备也可以是服务器，该服务器可以接收任意终端发送的至少一帧原始视频图像，并基于服务器上的编码功能对接收到的至少一帧原始视频图像实时进行编码。当然，该服务器也可以先获取到至少一帧原始视频图像，然后再对该至少一帧原始视频图像进行编码。本发明实施例在此对该第一设备的具体形式以及获取至少一帧原始视频图像的具体过程不做限定。

402、第一设备基于该至少一帧原始视频图像，获取该至少一帧原始视频图像的目标区域信息。

在本发明实施例中，目标区域指的是每个原始视频图像上需要重点处理的图像区域，基于该目标区域，第一设备在对每个原始视频图像进行编码时，可以重点对该目标区域进行分析，并对该目标区域分配更多的码率，以增加该目标区域的编码精度，提高整体编码质量。目标区域信息即是有关该目标区域的信息，该目标区域信息可以用于表示每个原始视频图像上的对应宏块是否属于目标区域，该目标区域信息也可以用于表示每个原始视频图像上的对应宏块的重要性或者对应宏块的偏置值。当然，该目标区域信息也可以为其他有关该目标区域的信息，本发明实施例在此对该目标区域信息的具体内容不做限定。

具体地，该目标区域可以为感兴趣区域，该感兴趣区域可以为用户所需求的重点关注的区域，也可以为对应图像上的主体部分，例如，该感兴趣区域可以为人脸，当然，该目标区域还可以为其他设定区域，本发明实施例在此不做限定。如图5所示，在图像处理的过程中，第一设备可以通过相应的目标区域识别算法，对上述至少一帧原始视频图像进行识别，以识别出每个原始视频图像中的目标区域。其中，第一设备可以通过方框、圆或者不规则多边形等方式对识别到的每个原始视频图像中的目标区域进行勾勒。进而，第一设备可以基于识别到的每个原始视频图像中的目标区域，提取与每个目标区域相对应的目标区域信息。

以选择性搜索(Selective Search)算法为例，对目标区域信息的提取过程进行说明:第一设备可以对上述至少一帧原始视频图像运行Selective Search算法，以对每个原始视频图像进行初始图像分割，以将每个原始视频图像分割成至少一个较小的候选区域，然后对该每个原始视频图像对应的至少一个候选区域进行筛选和归并，以将不符合目标区域要求的候选区域删除，将符合目标区域要求的候选区域进行归并。

例如，可以基于上述至少一个候选区域的颜色、纹理、尺寸以及空间交叠等参数对该至少一个候选区域之间的相似度进行计算，也可以计算每个候选区域与数据库中的目标区域之间的相似度，例如，可以计算每个候选区域与数据库中存储的人脸区域的相似度，以确定该候选区域是否为所需的人脸区域。最终可以基于相似度较高的候选区域，得到每个原始视频图像对应的目标区域。进而，可以基于每个目标区域，得到与每个目标区域对应的目标区域信息，例如，一个目标区域与数据库中存储的目标区域之间的相似度较高，则可以将该一个目标区域确定为较为重要的目标区域，与该一个目标区域对应的目标区域信息则可以用于表示该一个目标区域为重要区域。

当然，在其他实施例中，第一设备还可以通过其他目标区域识别算法来识别上述至少一帧原始视频图像中的目标区域并得到相应的目标区域信息，该目标区域信息也可以为其他信息，本发明实施例在此对该目标区域识别的具体算法以及上述目标区域信息的具体内容和具体形式不做限定。

需要说明的是，该第一设备可以每获取到一个原始视频图像，则通过相应的目标区域识别算法，来获取上述一个原始视频图像的目标区域信息。当然，该第一设备也可以先获取到部分或者所有的待处理的原始视频图像，再通过相应的目标区域识别算法，获取上述部分或者所有的待处理的原始视频图像的目标区域信息，本发明实施例在此不做限定。

403、第一设备对该至少一帧原始视频图像的目标区域信息进行编码，生成至少一个目标区域标识。

在本发明实施例中，基于步骤402中获取到的至少一个原始视频图像的目标区域信息，第一设备在对该至少一帧原始视频图像进行编码后，该编码生成的视频数据流携带有与每个原始视频图像相对应的目标区域信息，以使对相关视频数据流的后续处理过程中，相关设备需要对应的目标区域信息时，可以直接从上述视频数据流中提取所需的目标区域信息，避免了再次对相关视频图像运行目标区域识别算法这一复杂的过程，大大减少了视频数据的处理时间，降低了***的处理负担。

在一种实施例中，第一设备可以通过对至少一帧原始视频图像对应的目标区域信息进行编码，以将生成的至少一个目标区域标识编入最终生成的视频数据流中，来实现视频数据流携带至少一帧原始视频图像的目标区域信息的目的。

具体地，第一设备可以对每个原始视频图像对应的目标区域信息进行压缩，以将上述目标区域信息转换成对应的二进制数字，其中，该对应的二进制数字即为每个原始视频图像的目标区域信息对应的目标区域标识。该目标区域标识可以用于表示对应目标区域的重要程度，例如，当该目标区域信息表示对应的目标区域为最重要的区域时，则对该目标区域信息进行编码后生成的目标区域标识可以为数字“1”，当该目标区域信息表示对应的目标区域为普通区域时，则对该目标区域信息进行编码后生成的目标区域标识可以为数字“0”。

当然，在其他实施例中，上述目标区域标识还可以用于表示对应的目标区域的其他目标区域信息，且，还可以通过其他方式来标识对应的目标区域信息，本发明实施例对该目标区域标识的具体表示内容及具体标识方式不做限定。

404、第一设备对该至少一帧原始视频图像进行编码，生成至少一个第一数据包。

在本发明实施例中，基于步骤401获取到的至少一帧原始视频图像，第一设备可以对每个原始视频图像进行编码，以将数据量巨大的该至少一帧原始视频图像压缩成数据量较小的视频数据流，便于传输***进行传输，节约传输时间。

具体地，第一设备可以通过编码功能去除上述至少一帧原始视频图像的冗余信息，例如，第一设备可以去除每个原始视频图像的空间冗余信息、时间冗余信息、视觉冗余信息等，以对至少一帧原始视频图像进行压缩，该压缩过程具体可以包括：预测、变换、量化以及熵编码等过程，通过上述过程，第一设备可以得到与每个原始视频图像对应的至少一个代码。

基于得到的至少一个代码，第一设备可以根据相应的规则，将设定数量的代码排列在一起，并进行打包，例如，对上述代码进行NAL(Network AbstractLayer，网络抽象层)打包，形成一个第一数据包，对于上述由至少一帧原始视频图像。编码生成的至少一个代码，可以得到至少一个对应的第一数据包。其中，每个第一数据包中可以包括至少一个代码，本发明实施例在此对每个第一数据包中的代码的数量不做限定。

405、第一设备在该至少一个第一数据包中，对应***该至少一个目标区域标识，生成该视频数据流。

在本发明实施例中，基于上述步骤403得到的至少一个目标区域标识和步骤404得到的至少一个第一数据包，第一设备可以将该至少一个目标区域标识对应填充在相应的第一数据包中，使得相应的第一数据包携带对应的目标区域标识，并基于该至少一个目标区域标识和至少一个第一数据包，生成视频数据流，实现了视频数据流中携带至少一帧原始视频图像的目标区域信息的目的。

具体地，第一设备生成的至少一个第一数据包中包括基于目标区域生成的至少一个第一数据包和非目标区域生成的至少一个第一数据包，第一设备可以在上述基于目标区域生成的至少一个第一数据包中对应***至少一个目标区域标识。例如，第一设备可以将每个目标区域标识编入与该每个目标区域标识对应的第一数据包中，当然，第一设备还可以将每个目标区域标识插在与该每个目标区域标识对应的第一数据包的最后位置，使得基于目标区域生成的每个第一数据包都携带一个对应的目标区域标识。

基于上述过程，第一设备将生成的至少一个目标区域标识依次都***对应第一数据包的相应位置之后，第一设备可以基于该至少一个目标区域标识和至少一个第一数据包，进行拼接以及打包等一系列过程，最终生成对应的视频数据流，则该视频数据流中携带了相应的目标区域标识。其中，在编码过程中，第一设备可以对至少一帧原始视频图像中的目标区域分配更多的码率，使得第一设备对目标区域的编码质量更高。

上述步骤403至步骤405即是第一设备基于至少一帧原始视频图像的目标区域信息生成对应的至少一个目标区域标识，基于至少一帧原始视频图像生成对应的至少一个第一数据包，并将该至少一个目标区域标识对应***该至少一个第一数据包中，最终使得生成视频数据流携带对应的目标区域信息的过程。

除步骤403至步骤405所涉及的过程，以下介绍另一种可以使生成的视频数据流携带对应的目标区域信息的过程：

(1)第一设备对基于步骤402得到的该至少一帧原始视频图像的目标区域信息进行编码，生成至少一个第二数据包。其中，每个第二数据包由至少一个相应的代码组成，该代码即为通过第一设备的编码功能对每个原始视频图像进行压缩得到的数据。具体地，第一设备可以通过对至少一帧原始视频图像的目标区域信息进行预测、变换、量化以及熵编码等过程，以去除上述目标区域信息中的相关冗余信息，得到与每个目标区域信息对应的至少一个代码，进而第一设备可以将每个目标区域信息对应的至少一个代码以设定的规则排列在一起，并进行打包，得到至少一个目标区域信息对应的至少一个第二数据包。其中，本发明对上述至少一个字符的具体排列规则不做限定；

(2)第一设备对基于步骤401获取到的该至少一帧原始视频图像进行编码，生成至少一个第一数据包。该具体过程与上述步骤404同理，本发明在此不做赘述；

(3)第一设备基于该至少一个第一数据包，每隔预设数目个第一数据包，***一个第二数据包，生成该视频数据流。具体地，基于步骤(1)中得到的至少一个第二数据包和步骤(2)中得到的至少一个第一数据包，第一设备可以在每预设数目个第一数据包的最后位置，***一个第二数据包，使得每预设数目个第一数据包携带一个第二数据包，其中，预设数目可以为第一设备设定的任意正整数。当然，也可以设定部分第一数据包不携带第二数据包。本发明实施例在此对预设数目的具体数值不做限定，且对携带第二数据包的具体第一数据包不做限定。

基于上述过程，第一设备将生成的至少一个第二数据包依次***每预设数目个第一数据包的相应位置之后，第一设备可以基于该至少一个第二数据包和至少一个第一数据包，进行拼接以及打包等一系列过程，最终生成对应的视频数据流，则该视频数据流中国携带了相应的第二数据包。其中，在编码过程中，第一设备可以对至少一帧原始视频图像中的目标区域分配更多的码率，使得第一设备对目标区域的编码质量更高。

上述步骤(1)至步骤(3)即是第一设备基于至少一帧原始视频图像的目标区域信息生成对应的至少一个第二数据包，并将该至少一个第二数据包***基于至少一帧原始视频图像生成的至少一个第一数据包中，最终使得生成的视频数据流携带对应的目标区域信息的过程。

在其他实施例中，除上述两种方法可以使得生成的视频数据流携带对应的目标区域信息之外，还可以采用其他方式使得上述视频数据流携带对应的目标区域信息，本发明实施例在此不做一一赘述。

需要说明的是，上述步骤403至步骤405所涉及的过程即是对至少一帧原始视频图像的目标区域信息和该至少一帧原始视频图像进行编码，生成携带至少一个目标区域标识至少一个第一数据包的过程。在该过程中，第一设备可以基于上述至少一帧原始视频图像及其对应的目标区域信息，同时生成至少一个第一数据包，也即是，第一设备可以在上述至少一帧原始视频图像对应的至少一个代码中***至少一个目标区域标识，使得第一设备可以对上述至少一个代码和至少一个目标区域标识同时打包，以生成至少一个第一数据包。本发明实施例在此对该至少一个第一数据包的具体生成方式不做限定。

406、第一设备向第二设备发送该视频数据流。

在本发明实施例中，如图5所示，基于步骤405得到的视频数据流，第一设备可以将该视频数据流发送至其他任何第二设备。其中，第一设备可以基于相应的传输***将该视频数据流传输至相应的第二设备中，该传输***可以为互联网、地面无线广播以及卫星等。基于视频数据流的形式传输数据，使得数据在传输过程中更加快捷，且存储更加方便，减轻了传输***的负担。

需要说明的是，该第二设备可以具有存储功能、解码功能和重编码功能，该第二设备可以是终端，该终端可以通过具有解码功能和重编码功能的应用程序，对视频数据流进行解码和重编码的处理。该第二设备也可以为服务器，该服务器可以实时获取相应的视频数据流，并通过服务器上的解码和重编码过程，对获取到的视频数据流实时进行处理。本发明实施例在此对该第二设备的具体形式不做限定。

407、第二设备接收视频数据流，该视频数据流携带至少一帧原始视频图像的目标区域信息。

在本发明实施例中，基于步骤401至步骤405可知，第一设备在基于至少一帧原始视频图像进行编码的过程中，将从该至少一帧原始视频图像中提取出的目标区域信息也编入了对应的视频数据流中，使得生成的视频数据流携带至少一帧原始视频图像的目标区域信息，因此，第二设备接收的来自第一设备的视频数据流的同时，也就接收到了编入视频数据流中的至少一帧原始视频图像的目标区域信息。

需要说明的是，该第二设备可以实时接收视频数据流，也即是，该第二设备可以一边接收视频数据流，一边同步对接收到的视频数据流进行处理。当然，该第二设备也可以先接收完第一设备发送的所有视频数据流，再对接收到的视频数据流进行相应的处理，本发明实施例在此不做限定。

408、第二设备对该视频数据流中的至少一个目标区域标识进行解码，得到该至少一帧原始视频图像的目标区域信息。

在本发明实施例中，如图5所示，该第二设备可以基于解码功能和重编码功能，对接收到的视频数据流进行转码，其中，转码指的是基于上述第一设备生成的视频数据流，将该视频数据流转换成另一种视频数据流，以适应不同的网络带宽、不同的终端处理能力和不同的用户需求等。例如，第二设备可以将上述视频数据流转码成不同视频格式的视频数据流，比如第二设备可以将MPEG-2(Moving Picture Experts Group，运动图像专家组)格式的视频数据流转为H.264格式的视频数据流，第二设备还可以改变从第一设备接收到的视频数据流的比特率，以满足不同设备的播放的需求，此外，该第二设备还可以对接收到的视频数据流进行转码，使得转码前后的视频数据流对应的视频图像的分辨率发生改变，比如可以将高清视频转为标清视频等。本发明实施例在此对该转码过程的具体用途不做限定。

上述转码过程的实质是基于接收到的视频数据流先解码，再对解码得到的数据进行重编码的过程。其中，对于第二设备接收到的该视频数据流，由上述步骤403至步骤405可知，该视频数据流中既包括由至少一帧原始视频图像编码得到的数据，也包括由至少一帧原始视频图像对应的目标区域信息编码得到的数据。因此，该第二设备可以基于该视频数据流，提取到对应的目标区域信息，其中，该提取目标区域信息的过程即为对上述视频数据流解码的过程，该解码过程即为对视频数据流中的相关数据进行解压缩的过程。

与步骤405对应地，在一种实施例中，第二设备接收到的该视频数据流中可以包括至少一个目标区域标识，该至少一个目标区域标识是基于对应的至少一帧原始视频图像中的目标区域信息压缩而得到的。因此，当该第二设备需要对应的目标区域信息时，可以基于该视频数据流中的至少一个目标区域标识进行解码，以提取到所需的目标区域信息。

具体地，上述视频数据流中的每个第一数据包包括至少一个字段，该至少一个字段包括数据头和数据主体部分，其中，该数据头可以为对应的目标区域标识，该第二设备在基于上述视频数据流，提取至少一帧原始视频图像的目标区域信息的过程中，可以先提取上述至少一个字段中的数据头对应的目标区域标识，然后对该目标区域标识进行解码，以提取出该每个目标区域对应的目标区域信息，本发明实施例在此对该第二设备对上述视频数据流中的至少一个目标区域标识进行解码的具体过程不做限定。

上述过程是以对视频数据流中的至少一个目标区域标识进行解码，以提取到对应的至少一帧原始视频图像的目标区域信息为例进行说明的，下面介绍另一种从视频数据流中提取该至少一帧原始视频图像的目标区域信息的方法：

与步骤405中的步骤(1)至步骤(3)对应地，在一种实施例中，第二设备可以基于该视频数据流中的至少一个第一数据包和至少一个第二数据包，每隔预设数目个第一数据包，对该预设数目个第一数据包之后的第二数据包进行解码，生成该至少一帧原始视频图像的目标区域信息。具体地，该视频数据流中可以包括至少一个第一数据包和至少一个第二数据包，该至少一个第二数据包即为基于至少一帧原始视频图像的目标区域信息编码得到的，第二设备可以对该至少一个第二数据包进行解码，即可得到所需的目标区域信息。

其中，第二设备可以对上述视频数据流进行检测，第二设备可能每隔预设数目个第一数据包，可以检测到一个对应的第二数据包，具体地，第二设备可以每隔N个第一数据包，检测到第N+1个数据包为第二数据包，其中，N可以为任意正整数。当然，上述对应的第二数据包也可能位于每预设数目个第一数据包的其他位置，且，第二设备检测到的每两个第二数据包之间的第一数据包也可以为其他任意数量，本发明实施例在此不做限定。第二设备可以基于具有的解码功能，对该第二数据包进行解压缩，以将该第二数据包还原为对应的目标区域信息，达到提取至少一帧原始视频图像的目标区域信息的目的。

基于上述过程，第二设备可以较快捷地提取到视频数据流中携带的目标区域信息，避免了在后续处理中，第二设备再次对视频图像进行目标区域识别算法，以获取所需的目标区域信息，大大减少了数据处理时间，降低了第二设备的运行负担。

需要说明的是，除上述介绍的两种第二设备基于接收到的视频数据流提取对应目标区域信息的方法，第二设备还可以通过其他方法提取对应的目标区域信息，本发明实施例在此对该第二设备提取目标区域信息的具体方法不做限定。

409、第二设备对该视频数据流中的至少一个第一数据包进行解码，得到该至少一个第一数据包对应的视频图像。

在本发明实施例中，该至少一个第一数据包是由第一设备对获取到的至少一帧原始视频图像编码得到的。第二设备在对接收到的视频数据流进行转码的过程中，需要基于该视频数据流进行解码，以将该视频数据流中的至少一个第一数据包还原为对应的视频图像，进而基于第二设备设定的分辨率或者格式等参数，对相应的视频图像进行处理，得到符合需求的视频图像。

具体地，与步骤404对应地，第二设备可以通过相应的解码算法对上述视频数据流中的至少一个第一数据包进行解码，例如，第二设备可以通过H.264解码算法对该视频数据流中的至少一个第一数据包进行解码。该第二设备可以调用该解码算法中的相关函数，获取该视频数据流中的封装信息，以读取并分析该视频数据流中的至少一个第一数据包，寻找到每个第一数据包的头标识，然后对每两个头标识之间的数据进行解码，最终得到每个数据对应的每个视频图像。基于上述过程，第二设备可以将视频数据流中的至少一个第一数据包依次还原为对应的至少一帧视频图像，实现视频数据流解码的目的。

上述步骤408至步骤409为第二设备对接收到的视频数据流进行解码，生成该视频数据流对应的视频图像的过程，该过程包括对视频数据流解码以得到对应的目标区域信息的过程，还包括对视频数据流中的数据库解码以得到对应的视频图像的过程。当然，在其他实施例中，第二设备还可以通过其他解码算法，对视频数据流进行解码，本发明实施例在此对视频数据流解码的具体过程不做限定。

需要说明的是，在上述步骤408至步骤409所涉及的第一设备对至少一个第一数据包进行解码的过程中，该第一设备可以同时得到该至少一个第一数据包对应的视频图像以及对应的目标区域信息。本发明实施例在此对第一设备得到上述视频图像及其对应的目标区域信息的顺序不做限定。

410、第二设备基于该至少一帧原始视频图像的目标区域信息，对该视频数据流对应的视频图像进行重编码，生成目标视频数据流。

在本发明实施例中，基于步骤408中得到的至少一帧原始视频图像的目标区域信息和步骤409中对视频数据流解码得到的对应的视频图像，第二设备可以对该对应的视频图像进行重编码，该重编码为ROI(Region Of Interest，感兴趣区域)编码，并根据上述目标区域信息，在重编码的过程中，对视频图像中与该目标区域信息对应的目标区域分配更多的码率，以生成质量更高的目标视频数据流。

具体地，与步骤404中编码的过程类似地，第二设备可以根据设定的目标格式或者目标分辨率等参数，对上述视频数据流对应的视频图像进行预测、变换、量化以及熵编码等过程，以去除该视频图像的冗余信息，最终第二设备可以将上述视频数据流对应的视频图像压缩为与设定的目标格式或者目标分辨率等参数相对应的至少一个目标代码。

基于上述得到的至少一个目标代码，第二设备可以根据相应的规则，将该至少一个目标代码进行排列，并进行打包等过程，最终生成与设定的目标格式或者目标分辨率等参数相对应的目标视频数据流，实现对至少一帧原始视频图像对应的视频数据流进行转码的过程。

需要说明的是，第二设备在对上述视频图像进行重编码的过程中，也可以基于其他参数进行重编码，本发明实施例在此对第二设备重编码的参数以及重编码的具体过程不做限定。

上述步骤407至步骤410即为第二设备对接收到的视频数据流进行转码的过程，如图5所示，在该转码的过程中，第二设备可以直接从视频数据流中提取到相应的目标区域信息，避免了重新运行目标区域识别算法的过程，大大提升了***性能。当然，除上述所提的转码过程之外，第二设备还可以通过其他方法来实现转码，只要第二设备可以直接从视频数据流中提取相应的目标区域信息即可，本发明实施例在此不做限定。

上述实施例可以应用于视频直播场景中，具体地，在视频直播中，直播客户端可以通过终端的摄像头实时获取至少一帧原始视频图像，终端可以对该至少一帧原始视频图像进行目标区域识别，并基于得到的目标区域信息对至少一帧原始视频图像进行编码。终端可以将上述编码生成的视频数据流发送至服务器，服务器可以基于视频数据流中携带的目标区域信息对视频数据流进行解码，得到对应的视频图像及其携带目标区域信息，并对上述视频图像进行重编码，实现对视频数据流转码的目的，使得转码生成的目标视频数据流对应的视频分辨率或者视频格式等发生改变，以适应用户的不同需求。且，服务器也可以将变换格式后的目标视频数据流发送至其他终端，以适应不同终端的视频播放及处理能力。除上述视频直播场景之外，该转码处理过程还可以应用于其他场景，本发明实施例在此对该转码处理的具体用途不做限定。

图6是本发明实施例提供的一种视频数据的处理方法的流程图，该视频数据的处理方法是以第一设备和第二设备进行交互进行说明的，其中，第一设备具有编码功能，第二设备具有混流功能。参见图6，该实施例包括：

601、第一设备获取至少一帧原始视频图像。

602、第一设备基于该至少一帧原始视频图像，获取该至少一帧原始视频图像的目标区域信息。

603、第一设备对该至少一帧原始视频图像的目标区域信息进行编码，生成至少一个目标区域标识。

604、第一设备对该至少一帧原始视频图像进行编码，生成至少一个第一数据包。

605、第一设备在该至少一个第一数据包中，对应***该至少一个目标区域标识，生成该视频数据流。

606、第一设备向第二设备发送该视频数据流。

在本发明实施例中，如图7所示，上述步骤601至步骤606，与步骤401至步骤406同理，本发明实施例在此不再赘述。

607、第二设备接收至少两路视频数据流，每路视频数据流携带至少一帧原始视频图像的目标区域信息。

在本发明实施例中，如图7所示，该第二设备可以具有存储功能、解码功能、合并功能和重编码功能，该第二设备可以接收来自至少一个第一设备的至少两路视频数据流，以对接收到的该至少两路视频数据流进行混流处理，其中，混流处理指的是将上述来源不同的至少两路视频数据流对应的视频图像进行合并，最终将上述至少两路视频数据流合并为同一路视频数据流，以满足用户的需求，也即是，混流处理的本质是对至少两路视频数据流进行解码、合并以及重编码的过程。

该第二设备可以是服务器，该服务器可以具有混流功能，该服务器可以接收来自不同多媒体客户端的至少两路视频数据流，并对该至少两路视频数据流进行解码、合并及重编码，以将该至少两路视频数据流混流成一路目标视频数据流。当然，该第二设备还可以为终端，该终端可以接收其他任意设备发送的至少两路视频数据流，并将该至少两路视频数据流合并为同一路目标视频数据流。本发明实施例在此对该第二设备的具体形式不做限定。

上述第二设备可以实时接收来自不同第一设备的至少两路视频数据流，并同步对该至少两路视频数据流进行混流处理，也即是，该第二设备可以一边接收来源不同的视频数据流，一边对已经接收到的视频数据流进行混流处理。当然，该第二设备也可以先接收完来源不同的所有视频数据流，再基于接收到的所有视频数据流，进行混流处理，本发明实施例在此对该第二设备对接收视频数据流与进行混流处理的顺序不做限定。

需要说明的是，同一个第二设备上可以既具有混流功能也具有转码功能，例如，同一个第二设备上可以具有混流***和转码***，其中，该混流***可以对接收到的至少两路视频数据流进行混流处理，该转码***可以对接收到的每路视频数据流进行转码处理。当然，该混流***和转码***也可以分别位于不同的第二设备上，其中，具有混流***的第二设备可以对接收到的至少两路视频数据流进行混流处理，具有转码***的第二设备可以对接收到的每路视频数据流进行转码处理，本发明实施例在此对该第二设备上是否同时具有混流功能和转码功能不做限定。

608、第二设备对该每个视频数据流中的至少一个目标区域标识进行解码，得到该至少两路视频数据流中的至少一帧原始视频图像的目标区域信息。

609、第二设备对该每路视频数据流中的至少一个第一数据包进行解码，得到该至少两路视频数据流中的至少一个第一数据包对应的视频图像。

上述步骤608至步骤609需要对第二设备接收到的所有视频数据流都进行相应的处理，如图7所示，其中，对每路视频数据流的处理过程都与步骤408至步骤409的处理过程同理，本发明实施例在此不再赘述。

610、第二设备将该至少两路视频数据流对应的视频图像进行合并，生成目标视频图像。

在本发明实施例中，如图7所示，基于步骤609得到的至少两路视频数据流中的每路视频数据流对应的视频图像，第二设备可以通过相应的合并功能，将该至少两路视频数据流分别对应的视频图像合并起来，使得至少两路视频数据流的视频图像合为一个整体，也即是基于至少一帧视频图像生成对应的目标视频图像。

具体地，基于上述至少两路视频数据流对应的至少一帧视频图像，第二设备可以从每路视频数据流的第一个视频图像开始，将该至少两路视频数据流中相同位置的每个视频图像对应合并在一起。此外，第二设备也可以将上述至少两路视频数据流中分别对应的每N个视频图像对应合并在一起，其中，N为正整数。进一步地，第二设备可以将上述至少两对视频数据流对应的至少一帧视频图像进行左后合并或者上下合并，第二设备也可以对上述至少一帧视频图像进行“大图框小图”的合并方式，使得生成的目标视频图像为“画中画”的形式。当然，除上述视频图像的合并方法之外，第二设备还可以采用其他方式合并至少两路视频数据流对应的视频图像，以生成目标视频图像，本分明实施例在此对第二设备生成目标视频图像的具体方式不做限定。

611、第二设备基于该至少两路视频数据流对应的目标区域信息，对该目标视频图像进行重编码，生成目标视频数据流。

在本发明实施例中，如图7所示，步骤611与上述步骤410同理，本发明实施例在此不再赘述。

上述实施例可以应用于视频直播场景中，具体地，在直播过程中，混流处理可以应用于主播与其他用户之间的视频互动等过程，在此过程中，服务器可以接收到来自不同多媒体客户端发送的视频数据流，服务器可以对接收到的来源不同的视频数据流进行上述混流处理，使得上述不同来源的视频数据流合并为同一路目标视频数据流。除上述视频直播场景之外，该混流处理过程还可以应用于其他场景，本发明实施例在此对该混流处理的具体用途不做限定。

图8是本发明实施例提供的一种视频数据的处理装置的结构示意图。参见图8，该装置包括：获取模块801、生成模块802、发送模块803。

获取模块801，用于获取至少一帧原始视频图像；

该获取模块801，还用于基于该至少一帧原始视频图像，获取该至少一帧原始视频图像的目标区域信息；

生成模块802，用于基于该至少一帧原始视频图像的目标区域信息，对该至少一帧原始视频图像进行编码，生成视频数据流，该视频数据流携带该至少一帧原始视频图像的目标区域信息；

发送模块803，用于向第二设备发送该视频数据流。

在一些实施例中，该生成模块802用于：

需要说明的是：上述实施例提供的视频数据的处理装置在视频数据的处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频数据的处理装置与视频数据的处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本发明实施例提供的一种视频数据的处理装置的结构示意图。参见图9，该装置包括：接收模块901、提取模块902、解码模块903、重编码模块904。

接收模块901，用于接收视频数据流，该视频数据流携带至少一帧原始视频图像的目标区域信息；

提取模块902，用于基于该视频数据流，提取该至少一帧原始视频图像的目标区域信息；

解码模块903，用于对该视频数据流进行解码，生成该视频数据流对应的视频图像；

重编码模块904，用于基于该至少一帧原始视频图像的目标区域信息和目标码率，对该视频数据流对应的视频图像进行重编码，生成目标视频数据流。

在一些实施例中，该提取模块902用于：

图10是本发明实施例提供的一种视频数据的处理装置的结构示意图。参见图10，该装置包括：接收模块1001、提取模块1002、解码模块1003、合并模块1004、重编码模块1005。

接收模块1001，用于接收至少两路视频数据流，每路视频数据流携带至少一帧原始视频图像的目标区域信息；

提取模块1002，用于基于该至少两路视频数据流，提取每路视频数据流对应的至少一帧原始视频图像的目标区域信息；

解码模块1003，用于对该每路视频数据流进行解码，生成该至少两路视频数据流对应的视频图像；

合并模块1004，用于将该至少两路视频数据流对应的视频图像进行合并，生成目标视频图像；

重编码模块1005，用于基于该至少两路视频数据流对应的目标区域信息，对该目标视频图像进行重编码，生成目标视频数据流。

在一些实施例中，该提取模块1002用于：

图11是本发明实施例提供的一种终端1100的结构框图。该终端1100可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1100包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本发明中方法实施例提供的视频数据的处理方法。

在一些实施例中，终端1100还可选包括有：***设备接口1103和至少一个***设备。处理器1101、存储器1102和***设备接口1103之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1103相连。具体地，***设备包括：射频电路1104、触摸显示屏1105、摄像头1106、音频电路1107、定位组件1108和电源1109中的至少一种。

***设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和***设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和***设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置终端1100的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在终端1100的不同表面或呈折叠设计；在再一些实施例中，显示屏1105可以是柔性显示屏，设置在终端1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

定位组件1108用于定位终端1100的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1108可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制触摸显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测终端1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在终端1100的侧边框和/或触摸显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时，可以检测用户对终端1100的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在触摸显示屏1105的下层时，由处理器1101根据用户对触摸显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1114用于采集用户的指纹，由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份，或者，由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1101授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商Logo时，指纹传感器1114可以与物理按键或厂商Logo集成在一起。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制触摸显示屏1105的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1105的显示亮度；当环境光强度较低时，调低触摸显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时，由处理器1101控制触摸显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时，由处理器1101控制触摸显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对终端1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图12是本发明实施例提供的一种服务器的结构示意图，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1201和一个或一个以上的存储器1202，其中，该存储器1202中存储有至少一条指令，该至少一条指令由该处理器1201加载并执行以实现上述各个方法实施例提供的视频数据的处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中视频数据的处理方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频数据的处理方法，其特征在于，应用于第一设备，所述方法包括：

获取至少一帧原始视频图像；

基于所述至少一帧原始视频图像的目标区域信息，对所述至少一帧原始视频图像进行编码，生成视频数据流，所述视频数据流携带所述至少一帧原始视频图像的目标区域信息，包括：对所述至少一帧原始视频图像的目标区域信息进行编码，生成至少一个目标区域标识；对所述至少一帧原始视频图像进行编码，生成至少一个第一数据包，所述至少一个第一数据包包括基于目标区域生成的至少一个第一数据包和非目标区域生成的至少一个第一数据包；在基于所述目标区域生成的至少一个第一数据包中对应***所述至少一个目标区域标识，生成所述视频数据流；

向第二设备发送所述视频数据流；

其中，所述对所述至少一帧原始视频图像的目标区域信息进行编码，生成至少一个目标区域标识，包括：对每个原始视频图像对应的目标区域信息进行压缩，将所述目标区域信息转换成对应的二进制数字，将所述对应的二进制数字确定为每个原始视频图像的目标区域信息对应的目标区域标识。

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少一帧原始视频图像的目标区域信息，对所述至少一帧原始视频图像进行编码，生成视频数据流，所述视频数据流携带所述至少一帧原始视频图像的目标区域信息，还包括：

3.一种视频数据的处理方法，其特征在于，应用于第二设备，所述方法包括：

接收视频数据流，所述视频数据流携带至少一帧原始视频图像的目标区域信息，其中，所述视频数据流的生成过程包括：第一设备对所述至少一帧原始视频图像的目标区域信息进行编码，生成至少一个目标区域标识；对所述至少一帧原始视频图像进行编码，生成至少一个第一数据包，所述至少一个第一数据包包括基于目标区域生成的至少一个第一数据包和非目标区域生成的至少一个第一数据包；在基于所述目标区域生成的至少一个第一数据包中对应***所述至少一个目标区域标识，生成所述视频数据流，其中，所述对所述至少一帧原始视频图像的目标区域信息进行编码，生成至少一个目标区域标识，包括：对每个原始视频图像对应的目标区域信息进行压缩，将所述目标区域信息转换成对应的二进制数字，将所述对应的二进制数字确定为每个原始视频图像的目标区域信息对应的目标区域标识；

基于所述视频数据流，提取所述至少一帧原始视频图像的目标区域信息；

基于所述至少一帧原始视频图像的目标区域信息，对所述视频数据流对应的视频图像进行重编码，生成目标视频数据流。

4.根据权利要求3所述的方法，其特征在于，所述基于所述视频数据流，提取所述至少一帧原始视频图像的目标区域信息包括：

对所述至少一个目标区域标识进行解码，得到所述至少一帧原始视频图像的目标区域信息。

5.根据权利要求3所述的方法，其特征在于，所述基于所述视频数据流，提取所述至少一帧原始视频图像的目标区域信息包括：

6.一种视频数据的处理方法，其特征在于，应用于第二设备，所述方法包括：

接收至少两路视频数据流，每路视频数据流携带至少一帧原始视频图像的目标区域信息，其中，所述视频数据流的生成过程包括：第一设备对所述至少一帧原始视频图像的目标区域信息进行编码，生成至少一个目标区域标识；对所述至少一帧原始视频图像进行编码，生成至少一个第一数据包，所述至少一个第一数据包包括基于目标区域生成的至少一个第一数据包和非目标区域生成的至少一个第一数据包；在基于所述目标区域生成的至少一个第一数据包中对应***所述至少一个目标区域标识，生成所述视频数据流，其中，所述对所述至少一帧原始视频图像的目标区域信息进行编码，生成至少一个目标区域标识，包括：对每个原始视频图像对应的目标区域信息进行压缩，将所述目标区域信息转换成对应的二进制数字，将所述对应的二进制数字确定为每个原始视频图像的目标区域信息对应的目标区域标识；

基于所述至少两路视频数据流，提取每路视频数据流对应的至少一帧原始视频图像的目标区域信息；

对所述每路视频数据流进行解码，得到所述至少两路视频数据流对应的视频图像；

7.根据权利要求6所述的方法，其特征在于，所述基于所述至少两路视频数据流，提取每路视频数据流对应的至少一帧原始视频图像的目标区域信息包括：

对所述每路视频数据流对应的至少一个目标区域标识进行解码，得到所述至少两路视频数据流对应的至少一帧原始视频图像的目标区域信息。

8.根据权利要求6所述的方法，其特征在于，所述基于所述至少两路视频数据流，提取每路视频数据流对应的至少一帧原始视频图像的目标区域信息包括：

9.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求8任一项所述的视频数据的处理方法所执行的操作。

10.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求8任一项所述的视频数据的处理方法所执行的操作。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求8任一项所述的视频数据的处理方法所执行的操作。