CN111010605B - 一种视频画中画窗口的显示方法 - Google Patents

一种视频画中画窗口的显示方法 Download PDF

Info

Publication number
CN111010605B
CN111010605B CN201911170087.6A CN201911170087A CN111010605B CN 111010605 B CN111010605 B CN 111010605B CN 201911170087 A CN201911170087 A CN 201911170087A CN 111010605 B CN111010605 B CN 111010605B
Authority
CN
China
Prior art keywords
layer
image
picture
segmented
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911170087.6A
Other languages
English (en)
Other versions
CN111010605A (zh
Inventor
黄琪东
莫佳骏
王礼鹤
李金玉
崔晓琼
宋磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinxun Digital Technology Hangzhou Co ltd
Original Assignee
EB INFORMATION TECHNOLOGY Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EB INFORMATION TECHNOLOGY Ltd filed Critical EB INFORMATION TECHNOLOGY Ltd
Priority to CN201911170087.6A priority Critical patent/CN111010605B/zh
Publication of CN111010605A publication Critical patent/CN111010605A/zh
Application granted granted Critical
Publication of CN111010605B publication Critical patent/CN111010605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

一种视频画中画窗口的显示方法,包括:将视频数据转化成图像流;构建全景分割图层模型,工作过程如下:先将待分割图像的数据矩阵同时传入模型的多个卷积神经网络中,并由每个卷积神经网络将图像分割成多个图层,然后输出分割后的所有图层;将图像流中的每帧图像逐一输入至全景分割图层模型,获得每帧图像分割后的所有图层,计算并保存每帧图像分割后的每个图层的评价参数;构建基于Actor模型的画中画图层选择模型,将图像流当前帧图像分割后的所有图层的评价参数输入至画中画图层选择模型,并根据输出图层来调整下一帧图像中画中画窗口的位置、大小和形状。本发明属于信息技术领域,能根据视频画面的变化来动态调整画中画窗口。

Description

一种视频画中画窗口的显示方法
技术领域
本发明涉及一种视频画中画窗口的显示方法,属于信息技术领域。
背景技术
随着视频技术逐步发展,用户体验是影响到视频质量的重要因素,在普通场景中,画中画以及logo一般叠加在固定位置,在画面的变化过程中可能会将重要部分遮挡,从而造成用户体验不佳。因此有必要根据视频画面的变化来动态调整画中画窗口的位置、大小与形状。
专利CN 201010118034.2(专利名称:视频画中画窗口的显示方法、***及视频处理设备,申请日:2010-03-04,申请人:腾讯科技(深圳)有限公司)提供了一种视频画中画窗口的显示方法、***及视频处理设备。所述方法包括以下步骤:获取视频画中画的当前大窗口需要显示的视频画面中人脸的位置和大小信息;根据所述人脸的位置和大小信息,计算出遮挡所述人脸最少的小窗口在视频画中画的大窗口中的显示位置;将所述小窗口显示在所述显示位置上。本发明避免了由于视频画中画的小窗口遮挡大窗口显示的主要信息,造成获取大窗口显示的主要信息不全面的问题。该技术方案基于人脸位置来调整画中画窗口,但如果画面中没有人脸时,该方案则无法对画中画窗口进行动态调整。
因此,如何根据视频画面的变化来动态调整画中画窗口的位置、大小与形状,已经成为技术人员普遍关注的技术问题。
发明内容
有鉴于此,本发明的目的是提供一种视频画中画窗口的显示方法,能根据视频画面的变化来动态调整画中画窗口的位置、大小与形状。
为了达到上述目的,本发明提供了一种视频画中画窗口的显示方法,包括有:
步骤一、将视频数据转化成rgb或yuv格式的图像流;
步骤二、构建全景分割图层模型,所述全景分割图层模型由多个用于全景分割的卷积神经网络组成,当输入待分割图像的数据矩阵时,其工作过程如下:先将待分割图像的数据矩阵同时传入全景分割图层模型的多个卷积神经网络中,并由每个卷积神经网络各自将待分割图像分割成多个图层,然后输出所有卷积神经网络各自分割后的所有图层;
步骤三、将图像流中的每帧图像逐一输入至全景分割图层模型中,并获得每帧图像分割后的所有图层,计算、并保存每帧图像分割后的每个图层的评价参数;
步骤四、构建基于Actor模型的画中画图层选择模型,所述画中画图层选择模型以图像分割后的所有图层的评价参数为输入、并从所有图层中选择一个图层作为输出,将图像流的当前帧图像分割后的所有图层的评价参数输入至画中画图层选择模型,然后根据输出图层,调整下一帧图像中画中画窗口的位置、大小和形状,
步骤三中,每帧图像分割后的每个图层的评价参数包括有:连续度、色彩复杂度、形状复杂度、形状面积,
计算每帧图像分割后的每个图层的评价参数的具体过程如下;
步骤A1、计算每个图层的连续度,其计算公式如下:
Figure GDA0003119537550000021
其中,pijk是图像流中第k帧图像由第i个卷积神经网络分割后的第j个图层的连续度,tijk是第k帧图像由第i个卷积神经网络分割后的第j个图层的特征值,
Figure GDA0003119537550000022
是图像流中第k帧图像之前的若干帧图像由第i个卷积神经网络分割后的第j个图层的特征值平均值,tijk
Figure GDA0003119537550000023
的值从第i个卷积神经网络对第k帧图像、第k帧图像之前的若干帧图像进行分割后的输出值中获取;
步骤A2、计算每个图层的色彩复杂度,其计算公式如下:
Figure GDA0003119537550000024
其中,cijk是图像流中第k帧图像由第i个卷积神经网络分割后的第j个图层的色彩复杂度,xs_rgbijkz是第k帧图像由第i个卷积神经网络分割后的第j个图层的第z个有效像素点的RGB参数,Zijk是第k帧图像由第i个卷积神经网络分割后的第j个图层的所有有效像素点数,
Figure GDA0003119537550000025
是第k帧图像由第i个卷积神经网络分割后的第j个图层的所有有效像素点的RGB参数的平均值,P_xsk是第k帧图像的像素点数;
步骤A3、将每个图层进行平滑处理,然后计算每个图层的形状复杂度,所述形状复杂度的值是图层边缘像素点数与图层总像素点数的比值;
步骤A4、计算每个图层的形状面积,所述形状面积的值是过滤每个图层的有效像素个数。
与现有技术相比,本发明的有益效果是:本发明对视频的原始画面进行分析,识别出画面的主体内容,采用多种卷积神经网络将画面划分成多个图层,然后根据每个图层各自的评价参数,从所有图层中选取最合适的图层来作为画中画的嵌入区域,从而能根据视频画面的变化来动态调整画中画窗口的位置、大小与形状,改善用户体验。
附图说明
图1是本发明一种视频画中画窗口的显示方法的流程图。
图2是采用快速取值法来计算每帧图像分割后的每个图层的评价参数的具体过程流程图。
图3是采用反矢量图法来计算每帧图像分割后的每个图层的评价参数的具体过程流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
如图1所示,本发明一种视频画中画窗口的显示方法,包括有:
步骤一、将视频数据转化成rgb或yuv格式的图像流;
步骤二、构建全景分割图层模型,所述全景分割图层模型由多个用于全景分割的卷积神经网络组成,当输入待分割图像的数据矩阵时,其工作过程如下:先将待分割图像的数据矩阵同时传入全景分割图层模型的多个卷积神经网络中,并由每个卷积神经网络各自将待分割图像分割成多个图层,然后输出所有卷积神经网络各自分割后的所有图层;
步骤三、将图像流中的每帧图像逐一输入至全景分割图层模型中,并获得每帧图像分割后的所有图层,计算、并保存每帧图像分割后的每个图层的评价参数;
步骤四、构建基于Actor模型的画中画图层选择模型,所述画中画图层选择模型以图像分割后的所有图层的评价参数为输入、并从所有图层中选择一个图层作为输出,将图像流的当前帧图像分割后的所有图层的评价参数输入至画中画图层选择模型,然后根据输出图层,调整下一帧图像中画中画窗口的位置、大小和形状。
步骤二中,全景分割图层模型可以由AUNet、TASCNet、或UPSNet等卷积神经网络来组成。其中,AUNet由PAM(Proposal Attention Module)与MAM(Mask Attention Module)模块组成,分别基于RPN阶段的特征图与object instance segmentation输出的前景分割区域,优化语义分割的结果。TASCNet首先将object instance segmentation子分支得到的instance的Mask,映射到原图大小的特征图中,得到全图尺寸下的instances mask,并与stuff segmentation预测的mask进行对比,使用L2损失函数最小化difference。UPSNe分别完成两个任务,最后采用实例的结果把maskrcnn和seg branch的结果合并输出,stuff采用semantic的结果。
由于采用不同卷积神经网络对图像进行分割的结果不尽一致,本发明采用不同的卷积神经网络将视频中的每一帧图像分割成了多个图层,图层与图层之间可能存在重复部分,再通过强化学习Actor模型从中选择最具有代表性的图层作为最适合的画中画窗口。
步骤三中,图像流中每帧图像分割后的每个图层的评价参数可以包括有:连续度、色彩复杂度、形状复杂度、形状面积。本发明可以采用快速取值法和反矢量图法两种方法来计算每个图层的评价参数,其中:
(1)快速取值法,该方法具有计算量小、且取值速度快的特点。如图2所示,采用快速取值法来计算每帧图像分割后的每个图层的评价参数的具体过程如下:
步骤A1、计算每个图层的连续度,其计算公式如下:
Figure GDA0003119537550000041
其中,pijk是图像流中第k帧图像由第i个卷积神经网络分割后的第j个图层的连续度,tijk是第k帧图像由第i个卷积神经网络分割后的第j个图层的特征值,
Figure GDA0003119537550000042
是图像流中第k帧图像之前的若干帧图像由第i个卷积神经网络分割后的第j个图层的特征值平均值,tijk
Figure GDA0003119537550000043
的值可从第i个卷积神经网络对第k帧图像、第k帧图像之前的若干帧图像进行分割后的输出值中获取;
步骤A2、计算每个图层的色彩复杂度,其计算公式如下:
Figure GDA0003119537550000044
其中,cijk是图像流中第k帧图像由第i个卷积神经网络分割后的第j个图层的色彩复杂度,xs_rgbijkz是第k帧图像由第i个卷积神经网络分割后的第j个图层的第z个有效像素点的RGB参数,Zijk是第k帧图像由第i个卷积神经网络分割后的第j个图层的所有有效像素点数,
Figure GDA0003119537550000045
是第k帧图像由第i个卷积神经网络分割后的第j个图层的所有有效像素点的RGB参数的平均值,P_xsk是第k帧图像的像素点数;
当图层的色彩复杂度越大,则表示该图层的色彩越复杂,该图层越不适合于作为画中画窗口;
步骤A3、将每个图层进行平滑处理,然后计算每个图层的形状复杂度,所述形状复杂度的值是图层边缘像素点数与图层总像素点数的比值;
形状复杂度越大表示图层的形状越复杂,画中画的填入难度也越大;
步骤A4、计算每个图层的形状面积,所述形状面积的值是过滤每个图层的有效像素个数。
(2)反矢量图法,该方法具有计算精度高的特点。如图3所示,采用反矢量图法来计算每帧图像分割后的每个图层的评价参数的具体过程如下:
步骤B1、采用边缘检测技术,分别检测出每个图层的边缘区域,然后随机从每个图层的边缘区域上选取一个顶点,再使用二分法,通过若干次迭代从该边缘区域上获取一定数量的顶点,将从每个图层的边缘区域上获取的所有顶点坐标构成每个图层的顶点矢量图;
步骤B2、计算每个图层的连续度,其计算公式如下:
Figure GDA0003119537550000051
其中,pijk是图像流中第k帧图像由第i个卷积神经网络分割后的第j个图层的连续度,Nijk是第k帧图像由第i个卷积神经网络分割后的第j个图层上获取的顶点总数,
Figure GDA0003119537550000052
是第k帧图像由第i个卷积神经网络分割后的第j个图层的第n个顶点坐标,
Figure GDA0003119537550000053
是第k-1帧图像由第i个卷积神经网络分割后的第j个图层的第n个顶点坐标;
步骤B3、计算每个图层的色彩复杂度,其计算公式如下:
Figure GDA0003119537550000054
其中,cijk是图像流中第k帧图像由第i个卷积神经网络分割后的第j个图层的色彩复杂度,xs_rgbijkz是第k帧图像由第i个卷积神经网络分割后的第j个图层的第z个有效像素点的RGB参数,Zijk是第k帧图像由第i个卷积神经网络分割后的第j个图层的所有有效像素点数,
Figure GDA0003119537550000055
是第k帧图像由第i个卷积神经网络分割后的第j个图层的所有有效像素点的RGB参数的平均值,P_xsk是第k帧图像的像素点数;
步骤B4、计算每个图层的形状复杂度:先计算每个图层的顶点矢量图中的每个顶点和其相邻顶点之间的斜率差均方:
Figure GDA0003119537550000056
其中,
Figure GDA0003119537550000057
是顶点矢量图中的第v个顶点和其相邻顶点之间的斜率差均方,xv、yv分别是第v个顶点的横、纵坐标,xv+1、xv-1分别是和第v个顶点相邻的两个顶点的横坐标,yv+1、yv-1分别是和第v个顶点相邻的两个顶点的纵坐标,然后计算每个图层的顶点矢量图中的所有顶点和其相邻顶点之间的斜率差均方的平均值,所述平均值即是每个图层的形状复杂度,形状复杂度越小表示形状越规则;
步骤B5、计算每个图层的形状面积,所述形状面积的值是过滤每个图层的有效像素个数,其值越大表示面积越大。
步骤四在训练基于Actor模型的画中画图层选择模型时,还可以进一步构建基于Critic模型的用户体验模型,包括有:
构建基于Critic模型的用户体验模型,所述用户体验模型的输入是画中画图层选择模型所输出的画中画窗口的位置、大小与形状,输出是预估用户体验值,然后将画中画图层选择模型每次输出的画中画窗口的位置、大小与形状输入至用户体验模型,以获得对应的预估用户体验值,计算预估用户体验值与实际的用户打分之间的差值,最后根据差值来反向调整画中画图层选择模型的参数。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (4)

1.一种视频画中画窗口的显示方法,其特征在于,包括有:
步骤一、将视频数据转化成rgb或yuv格式的图像流;
步骤二、构建全景分割图层模型,所述全景分割图层模型由多个用于全景分割的卷积神经网络组成,当输入待分割图像的数据矩阵时,其工作过程如下:先将待分割图像的数据矩阵同时传入全景分割图层模型的多个卷积神经网络中,并由每个卷积神经网络各自将待分割图像分割成多个图层,然后输出所有卷积神经网络各自分割后的所有图层;
步骤三、将图像流中的每帧图像逐一输入至全景分割图层模型中,并获得每帧图像分割后的所有图层,计算、并保存每帧图像分割后的每个图层的评价参数;
步骤四、构建基于Actor模型的画中画图层选择模型,所述画中画图层选择模型以图像分割后的所有图层的评价参数为输入、并从所有图层中选择一个图层作为输出,将图像流的当前帧图像分割后的所有图层的评价参数输入至画中画图层选择模型,然后根据输出图层,调整下一帧图像中画中画窗口的位置、大小和形状,
步骤三中,每帧图像分割后的每个图层的评价参数包括有:连续度、色彩复杂度、形状复杂度、形状面积,
计算每帧图像分割后的每个图层的评价参数的具体过程如下;
步骤A1、计算每个图层的连续度,其计算公式如下:
Figure FDA0003119537540000011
其中,pijk是图像流中第k帧图像由第i个卷积神经网络分割后的第j个图层的连续度,tijk是第k帧图像由第i个卷积神经网络分割后的第j个图层的特征值,
Figure FDA0003119537540000012
是图像流中第k帧图像之前的若干帧图像由第i个卷积神经网络分割后的第j个图层的特征值平均值,tijk
Figure FDA0003119537540000013
的值从第i个卷积神经网络对第k帧图像、第k帧图像之前的若干帧图像进行分割后的输出值中获取;
步骤A2、计算每个图层的色彩复杂度,其计算公式如下:
Figure FDA0003119537540000014
其中,cijk是图像流中第k帧图像由第i个卷积神经网络分割后的第j个图层的色彩复杂度,xs_rgbijkz是第k帧图像由第i个卷积神经网络分割后的第j个图层的第z个有效像素点的RGB参数,Zijk是第k帧图像由第i个卷积神经网络分割后的第j个图层的所有有效像素点数,
Figure FDA0003119537540000015
是第k帧图像由第i个卷积神经网络分割后的第j个图层的所有有效像素点的RGB参数的平均值,P_xsk是第k帧图像的像素点数;
步骤A3、将每个图层进行平滑处理,然后计算每个图层的形状复杂度,所述形状复杂度的值是图层边缘像素点数与图层总像素点数的比值;
步骤A4、计算每个图层的形状面积,所述形状面积的值是过滤每个图层的有效像素个数。
2.根据权利要求1所述的方法,其特征在于,步骤二中,全景分割图层模型由AUNet、TASCNet、或UPSNet卷积神经网络来组成。
3.根据权利要求1所述的方法,其特征在于,计算每帧图像分割后的每个图层的评价参数的具体过程如下;
步骤B1、采用边缘检测技术,分别检测出每个图层的边缘区域,然后随机从每个图层的边缘区域上选取一个顶点,再使用二分法,通过若干次迭代从该边缘区域上获取一定数量的顶点,将从每个图层的边缘区域上获取的所有顶点坐标构成每个图层的顶点矢量图;
步骤B2、计算每个图层的连续度,其计算公式如下:
Figure FDA0003119537540000021
其中,pijk是图像流中第k帧图像由第i个卷积神经网络分割后的第j个图层的连续度,Nijk是第k帧图像由第i个卷积神经网络分割后的第j个图层上获取的顶点总数,
Figure FDA0003119537540000022
是第k帧图像由第i个卷积神经网络分割后的第j个图层的第n个顶点坐标,
Figure FDA0003119537540000023
是第k-1帧图像由第i个卷积神经网络分割后的第j个图层的第n个顶点坐标;
步骤B3、计算每个图层的色彩复杂度,其计算公式如下:
Figure FDA0003119537540000024
其中,cijk是图像流中第k帧图像由第i个卷积神经网络分割后的第j个图层的色彩复杂度,xs_rgbijkz是第k帧图像由第i个卷积神经网络分割后的第j个图层的第z个有效像素点的RGB参数,Zijk是第k帧图像由第i个卷积神经网络分割后的第j个图层的所有有效像素点数,
Figure FDA0003119537540000025
是第k帧图像由第i个卷积神经网络分割后的第j个图层的所有有效像素点的RGB参数的平均值,P_xsk是第k帧图像的像素点数;
步骤B4、计算每个图层的形状复杂度:先计算每个图层的顶点矢量图中的每个顶点和其相邻顶点之间的斜率差均方:
Figure FDA0003119537540000031
其中,
Figure FDA0003119537540000032
是顶点矢量图中的第v个顶点和其相邻顶点之间的斜率差均方,xv、yv分别是第v个顶点的横、纵坐标,xv+1、xv-1分别是和第v个顶点相邻的两个顶点的横坐标,yv+1、yv-1分别是和第v个顶点相邻的两个顶点的纵坐标,然后计算每个图层的顶点矢量图中的所有顶点和其相邻顶点之间的斜率差均方的平均值,所述平均值即是每个图层的形状复杂度;
步骤B5、计算每个图层的形状面积,所述形状面积的值是过滤每个图层的有效像素个数。
4.根据权利要求1所述的方法,其特征在于,步骤四在训练基于Actor模型的画中画图层选择模型时,还包括有:
构建基于Critic模型的用户体验模型,所述用户体验模型的输入是画中画图层选择模型所输出的画中画窗口的位置、大小与形状,输出是预估用户体验值,然后将画中画图层选择模型每次输出的画中画窗口的位置、大小与形状输入至用户体验模型,以获得对应的预估用户体验值,计算预估用户体验值与实际的用户打分之间的差值,最后根据差值来反向调整画中画图层选择模型的参数。
CN201911170087.6A 2019-11-26 2019-11-26 一种视频画中画窗口的显示方法 Active CN111010605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911170087.6A CN111010605B (zh) 2019-11-26 2019-11-26 一种视频画中画窗口的显示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911170087.6A CN111010605B (zh) 2019-11-26 2019-11-26 一种视频画中画窗口的显示方法

Publications (2)

Publication Number Publication Date
CN111010605A CN111010605A (zh) 2020-04-14
CN111010605B true CN111010605B (zh) 2021-08-17

Family

ID=70113281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911170087.6A Active CN111010605B (zh) 2019-11-26 2019-11-26 一种视频画中画窗口的显示方法

Country Status (1)

Country Link
CN (1) CN111010605B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113905175A (zh) * 2021-09-27 2022-01-07 维沃移动通信有限公司 视频生成方法、装置、电子设备及可读存储介质
CN114500871B (zh) * 2021-12-15 2023-11-14 山东信通电子股份有限公司 一种多路视频分析方法、设备及介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268729A (zh) * 2013-05-22 2013-08-28 北京工业大学 基于混合特征的移动机器人级联式地图创建方法
CN103914862A (zh) * 2014-03-10 2014-07-09 上海大学 基于边缘正切流的模拟铅笔素描画方法
CN104318151A (zh) * 2014-10-13 2015-01-28 宁波公众信息产业有限公司 一种基于视觉暂停现象的验证码图片显示方法
CN104933695A (zh) * 2014-03-19 2015-09-23 联想(北京)有限公司 一种信息处理方法和电子设备
CN105069455A (zh) * 2015-07-15 2015-11-18 广州敦和信息技术有限公司 一种***公章过滤的方法及装置
CN107493488A (zh) * 2017-08-07 2017-12-19 上海交通大学 基于Faster R‑CNN模型的视频内容物智能植入的方法
CN107766798A (zh) * 2017-09-28 2018-03-06 辽宁工程技术大学 一种基于云计算存储和深度学习的遥感图像目标检测方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
KR20190018798A (ko) * 2017-08-16 2019-02-26 강병수 차량 소음의 컨벌루션 뉴럴 네트워크에 의한 소음 분류 방법
CN110197511A (zh) * 2019-03-07 2019-09-03 上海数城网络信息有限公司 基于深度学习的城市建筑色彩获取方法
WO2019212654A1 (en) * 2018-05-04 2019-11-07 Apple Inc. Splitting of input data for processing in neural network processor

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11529072B2 (en) * 2012-06-18 2022-12-20 AireHealth Inc. Method and apparatus for performing dynamic respiratory classification and tracking of wheeze and crackle
US11315687B2 (en) * 2012-06-18 2022-04-26 AireHealth Inc. Method and apparatus for training and evaluating artificial neural networks used to determine lung pathology
US11304624B2 (en) * 2012-06-18 2022-04-19 AireHealth Inc. Method and apparatus for performing dynamic respiratory classification and analysis for detecting wheeze particles and sources
US10802164B2 (en) * 2018-02-05 2020-10-13 Rhombus Holdings Llc Method and apparatus for performing pattern recognition for a tunable sensor system to detect neutron and gamma particles

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268729A (zh) * 2013-05-22 2013-08-28 北京工业大学 基于混合特征的移动机器人级联式地图创建方法
CN103914862A (zh) * 2014-03-10 2014-07-09 上海大学 基于边缘正切流的模拟铅笔素描画方法
CN104933695A (zh) * 2014-03-19 2015-09-23 联想(北京)有限公司 一种信息处理方法和电子设备
CN104318151A (zh) * 2014-10-13 2015-01-28 宁波公众信息产业有限公司 一种基于视觉暂停现象的验证码图片显示方法
CN105069455A (zh) * 2015-07-15 2015-11-18 广州敦和信息技术有限公司 一种***公章过滤的方法及装置
CN107493488A (zh) * 2017-08-07 2017-12-19 上海交通大学 基于Faster R‑CNN模型的视频内容物智能植入的方法
KR20190018798A (ko) * 2017-08-16 2019-02-26 강병수 차량 소음의 컨벌루션 뉴럴 네트워크에 의한 소음 분류 방법
CN107766798A (zh) * 2017-09-28 2018-03-06 辽宁工程技术大学 一种基于云计算存储和深度学习的遥感图像目标检测方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
WO2019212654A1 (en) * 2018-05-04 2019-11-07 Apple Inc. Splitting of input data for processing in neural network processor
CN110197511A (zh) * 2019-03-07 2019-09-03 上海数城网络信息有限公司 基于深度学习的城市建筑色彩获取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《A Study on visual interpretation of network in network》;Satoshi Suzuki;《2017 International Joint Conference on Neural Networks(UCNN)》;20170519;全文 *
《基于深度学习的岩心图像压缩方法研究》;常子鹏;《中国优秀硕士学位论文全文数据库》;20190615;全文 *

Also Published As

Publication number Publication date
CN111010605A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
US11610082B2 (en) Method and apparatus for training neural network model used for image processing, and storage medium
US11595737B2 (en) Method for embedding advertisement in video and computer device
CN110650368B (zh) 视频处理方法、装置和电子设备
CN109525901B (zh) 视频处理方法、装置、电子设备及计算机可读介质
US11042990B2 (en) Automatic object replacement in an image
CN110634147B (zh) 基于双边引导上采样的图像抠图方法
JP5645842B2 (ja) スケールスペースを使用した画像処理装置及び方法
CN105046657B (zh) 一种图像拉伸畸变自适应校正方法
CN109712165B (zh) 一种基于卷积神经网络的同类前景图像集分割方法
CN104252700B (zh) 一种红外图像的直方图均衡化方法
CN108022223B (zh) 一种基于对数映射函数分块处理融合的色调映射方法
WO2011031331A1 (en) Interactive tone mapping for high dynamic range video
CN111489322B (zh) 给静态图片加天空滤镜的方法及装置
CN111010605B (zh) 一种视频画中画窗口的显示方法
Yee et al. Segmentation and adaptive assimilation for detail-preserving display of high-dynamic range images
CN109684973B (zh) 基于对称一致性的卷积神经网络的人脸图像填充***
CN111145135A (zh) 一种图像去扰处理方法、装置、设备及存储介质
DE112019007550T5 (de) Automatisches segmentieren und anpassen von bildern
CN114298900A (zh) 图像超分方法和电子设备
CN110443252A (zh) 一种文字检测方法、装置及设备
CN108596992B (zh) 一种快速实时的唇彩化妆方法
CN116342519A (zh) 一种基于机器学习的图像处理方法
CN113240573B (zh) 局部和全局并行学习的高分辨率图像风格变换方法及***
CN116977190A (zh) 图像处理方法、装置、设备、存储介质及程序产品
CN108389208B (zh) 一种基于语义分割的图像智能适配显示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 310013 4th floor, No.398 Wensan Road, Xihu District, Hangzhou City, Zhejiang Province

Patentee after: Xinxun Digital Technology (Hangzhou) Co.,Ltd.

Address before: 310013 4th floor, No.398 Wensan Road, Xihu District, Hangzhou City, Zhejiang Province

Patentee before: EB Information Technology Ltd.