CN111010605B

CN111010605B - 一种视频画中画窗口的显示方法

Info

Publication number: CN111010605B
Application number: CN201911170087.6A
Authority: CN
Inventors: 黄琪东; 莫佳骏; 王礼鹤; 李金玉; 崔晓琼; 宋磊
Original assignee: EB INFORMATION TECHNOLOGY Ltd
Current assignee: Xinxun Digital Technology Hangzhou Co ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-08-17
Anticipated expiration: 2039-11-26
Also published as: CN111010605A

Abstract

一种视频画中画窗口的显示方法，包括：将视频数据转化成图像流；构建全景分割图层模型，工作过程如下：先将待分割图像的数据矩阵同时传入模型的多个卷积神经网络中，并由每个卷积神经网络将图像分割成多个图层，然后输出分割后的所有图层；将图像流中的每帧图像逐一输入至全景分割图层模型，获得每帧图像分割后的所有图层，计算并保存每帧图像分割后的每个图层的评价参数；构建基于Actor模型的画中画图层选择模型，将图像流当前帧图像分割后的所有图层的评价参数输入至画中画图层选择模型，并根据输出图层来调整下一帧图像中画中画窗口的位置、大小和形状。本发明属于信息技术领域，能根据视频画面的变化来动态调整画中画窗口。

Description

一种视频画中画窗口的显示方法

技术领域

本发明涉及一种视频画中画窗口的显示方法，属于信息技术领域。

背景技术

随着视频技术逐步发展，用户体验是影响到视频质量的重要因素，在普通场景中，画中画以及logo一般叠加在固定位置，在画面的变化过程中可能会将重要部分遮挡，从而造成用户体验不佳。因此有必要根据视频画面的变化来动态调整画中画窗口的位置、大小与形状。

专利CN 201010118034.2(专利名称：视频画中画窗口的显示方法、***及视频处理设备，申请日：2010-03-04，申请人：腾讯科技(深圳)有限公司)提供了一种视频画中画窗口的显示方法、***及视频处理设备。所述方法包括以下步骤:获取视频画中画的当前大窗口需要显示的视频画面中人脸的位置和大小信息；根据所述人脸的位置和大小信息,计算出遮挡所述人脸最少的小窗口在视频画中画的大窗口中的显示位置；将所述小窗口显示在所述显示位置上。本发明避免了由于视频画中画的小窗口遮挡大窗口显示的主要信息,造成获取大窗口显示的主要信息不全面的问题。该技术方案基于人脸位置来调整画中画窗口，但如果画面中没有人脸时，该方案则无法对画中画窗口进行动态调整。

因此，如何根据视频画面的变化来动态调整画中画窗口的位置、大小与形状，已经成为技术人员普遍关注的技术问题。

发明内容

有鉴于此，本发明的目的是提供一种视频画中画窗口的显示方法，能根据视频画面的变化来动态调整画中画窗口的位置、大小与形状。

为了达到上述目的，本发明提供了一种视频画中画窗口的显示方法，包括有：

步骤一、将视频数据转化成rgb或yuv格式的图像流；

步骤二、构建全景分割图层模型，所述全景分割图层模型由多个用于全景分割的卷积神经网络组成，当输入待分割图像的数据矩阵时，其工作过程如下：先将待分割图像的数据矩阵同时传入全景分割图层模型的多个卷积神经网络中，并由每个卷积神经网络各自将待分割图像分割成多个图层，然后输出所有卷积神经网络各自分割后的所有图层；

步骤三、将图像流中的每帧图像逐一输入至全景分割图层模型中，并获得每帧图像分割后的所有图层，计算、并保存每帧图像分割后的每个图层的评价参数；

步骤四、构建基于Actor模型的画中画图层选择模型，所述画中画图层选择模型以图像分割后的所有图层的评价参数为输入、并从所有图层中选择一个图层作为输出，将图像流的当前帧图像分割后的所有图层的评价参数输入至画中画图层选择模型，然后根据输出图层，调整下一帧图像中画中画窗口的位置、大小和形状，

步骤三中，每帧图像分割后的每个图层的评价参数包括有：连续度、色彩复杂度、形状复杂度、形状面积，

计算每帧图像分割后的每个图层的评价参数的具体过程如下；

步骤A1、计算每个图层的连续度，其计算公式如下：

其中，p_ijk是图像流中第k帧图像由第i个卷积神经网络分割后的第j个图层的连续度，t_ijk是第k帧图像由第i个卷积神经网络分割后的第j个图层的特征值，

是图像流中第k帧图像之前的若干帧图像由第i个卷积神经网络分割后的第j个图层的特征值平均值，t_ijk、

的值从第i个卷积神经网络对第k帧图像、第k帧图像之前的若干帧图像进行分割后的输出值中获取；

步骤A2、计算每个图层的色彩复杂度，其计算公式如下：

其中，c_ijk是图像流中第k帧图像由第i个卷积神经网络分割后的第j个图层的色彩复杂度，xs_rgb_ijkz是第k帧图像由第i个卷积神经网络分割后的第j个图层的第z个有效像素点的RGB参数，Z_ijk是第k帧图像由第i个卷积神经网络分割后的第j个图层的所有有效像素点数，

是第k帧图像由第i个卷积神经网络分割后的第j个图层的所有有效像素点的RGB参数的平均值，P_xs_k是第k帧图像的像素点数；

步骤A3、将每个图层进行平滑处理，然后计算每个图层的形状复杂度，所述形状复杂度的值是图层边缘像素点数与图层总像素点数的比值；

步骤A4、计算每个图层的形状面积，所述形状面积的值是过滤每个图层的有效像素个数。

与现有技术相比，本发明的有益效果是：本发明对视频的原始画面进行分析，识别出画面的主体内容，采用多种卷积神经网络将画面划分成多个图层，然后根据每个图层各自的评价参数，从所有图层中选取最合适的图层来作为画中画的嵌入区域，从而能根据视频画面的变化来动态调整画中画窗口的位置、大小与形状，改善用户体验。

附图说明

图1是本发明一种视频画中画窗口的显示方法的流程图。

图2是采用快速取值法来计算每帧图像分割后的每个图层的评价参数的具体过程流程图。

图3是采用反矢量图法来计算每帧图像分割后的每个图层的评价参数的具体过程流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种视频画中画窗口的显示方法，包括有：

步骤一、将视频数据转化成rgb或yuv格式的图像流；

步骤四、构建基于Actor模型的画中画图层选择模型，所述画中画图层选择模型以图像分割后的所有图层的评价参数为输入、并从所有图层中选择一个图层作为输出，将图像流的当前帧图像分割后的所有图层的评价参数输入至画中画图层选择模型，然后根据输出图层，调整下一帧图像中画中画窗口的位置、大小和形状。

步骤二中，全景分割图层模型可以由AUNet、TASCNet、或UPSNet等卷积神经网络来组成。其中，AUNet由PAM(Proposal Attention Module)与MAM(Mask Attention Module)模块组成，分别基于RPN阶段的特征图与object instance segmentation输出的前景分割区域，优化语义分割的结果。TASCNet首先将object instance segmentation子分支得到的instance的Mask，映射到原图大小的特征图中，得到全图尺寸下的instances mask，并与stuff segmentation预测的mask进行对比，使用L2损失函数最小化difference。UPSNe分别完成两个任务，最后采用实例的结果把maskrcnn和seg branch的结果合并输出，stuff采用semantic的结果。

由于采用不同卷积神经网络对图像进行分割的结果不尽一致，本发明采用不同的卷积神经网络将视频中的每一帧图像分割成了多个图层，图层与图层之间可能存在重复部分，再通过强化学习Actor模型从中选择最具有代表性的图层作为最适合的画中画窗口。

步骤三中，图像流中每帧图像分割后的每个图层的评价参数可以包括有：连续度、色彩复杂度、形状复杂度、形状面积。本发明可以采用快速取值法和反矢量图法两种方法来计算每个图层的评价参数，其中：

(1)快速取值法，该方法具有计算量小、且取值速度快的特点。如图2所示，采用快速取值法来计算每帧图像分割后的每个图层的评价参数的具体过程如下：

步骤A1、计算每个图层的连续度，其计算公式如下：

的值可从第i个卷积神经网络对第k帧图像、第k帧图像之前的若干帧图像进行分割后的输出值中获取；

步骤A2、计算每个图层的色彩复杂度，其计算公式如下：

当图层的色彩复杂度越大，则表示该图层的色彩越复杂，该图层越不适合于作为画中画窗口；

形状复杂度越大表示图层的形状越复杂，画中画的填入难度也越大；

(2)反矢量图法，该方法具有计算精度高的特点。如图3所示，采用反矢量图法来计算每帧图像分割后的每个图层的评价参数的具体过程如下：

步骤B1、采用边缘检测技术，分别检测出每个图层的边缘区域，然后随机从每个图层的边缘区域上选取一个顶点，再使用二分法，通过若干次迭代从该边缘区域上获取一定数量的顶点，将从每个图层的边缘区域上获取的所有顶点坐标构成每个图层的顶点矢量图；

步骤B2、计算每个图层的连续度，其计算公式如下：

其中，p_ijk是图像流中第k帧图像由第i个卷积神经网络分割后的第j个图层的连续度，N_ijk是第k帧图像由第i个卷积神经网络分割后的第j个图层上获取的顶点总数，

是第k帧图像由第i个卷积神经网络分割后的第j个图层的第n个顶点坐标，

是第k-1帧图像由第i个卷积神经网络分割后的第j个图层的第n个顶点坐标；

步骤B3、计算每个图层的色彩复杂度，其计算公式如下：

步骤B4、计算每个图层的形状复杂度：先计算每个图层的顶点矢量图中的每个顶点和其相邻顶点之间的斜率差均方：

其中，

是顶点矢量图中的第v个顶点和其相邻顶点之间的斜率差均方，x_v、y_v分别是第v个顶点的横、纵坐标，x_v+1、x_v-1分别是和第v个顶点相邻的两个顶点的横坐标，y_v+1、y_v-1分别是和第v个顶点相邻的两个顶点的纵坐标，然后计算每个图层的顶点矢量图中的所有顶点和其相邻顶点之间的斜率差均方的平均值，所述平均值即是每个图层的形状复杂度，形状复杂度越小表示形状越规则；

步骤B5、计算每个图层的形状面积，所述形状面积的值是过滤每个图层的有效像素个数，其值越大表示面积越大。

步骤四在训练基于Actor模型的画中画图层选择模型时，还可以进一步构建基于Critic模型的用户体验模型，包括有：

构建基于Critic模型的用户体验模型，所述用户体验模型的输入是画中画图层选择模型所输出的画中画窗口的位置、大小与形状，输出是预估用户体验值，然后将画中画图层选择模型每次输出的画中画窗口的位置、大小与形状输入至用户体验模型，以获得对应的预估用户体验值，计算预估用户体验值与实际的用户打分之间的差值，最后根据差值来反向调整画中画图层选择模型的参数。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种视频画中画窗口的显示方法，其特征在于，包括有：

步骤一、将视频数据转化成rgb或yuv格式的图像流；

步骤A1、计算每个图层的连续度，其计算公式如下：

步骤A2、计算每个图层的色彩复杂度，其计算公式如下：

2.根据权利要求1所述的方法，其特征在于，步骤二中，全景分割图层模型由AUNet、TASCNet、或UPSNet卷积神经网络来组成。

3.根据权利要求1所述的方法，其特征在于，计算每帧图像分割后的每个图层的评价参数的具体过程如下；

步骤B2、计算每个图层的连续度，其计算公式如下：

步骤B3、计算每个图层的色彩复杂度，其计算公式如下：

其中，

是顶点矢量图中的第v个顶点和其相邻顶点之间的斜率差均方，x_v、y_v分别是第v个顶点的横、纵坐标，x_v+1、x_v-1分别是和第v个顶点相邻的两个顶点的横坐标，y_v+1、y_v-1分别是和第v个顶点相邻的两个顶点的纵坐标，然后计算每个图层的顶点矢量图中的所有顶点和其相邻顶点之间的斜率差均方的平均值，所述平均值即是每个图层的形状复杂度；

步骤B5、计算每个图层的形状面积，所述形状面积的值是过滤每个图层的有效像素个数。

4.根据权利要求1所述的方法，其特征在于，步骤四在训练基于Actor模型的画中画图层选择模型时，还包括有：