CN110069664B - 动漫作品封面图提取方法及其*** - Google Patents

动漫作品封面图提取方法及其*** Download PDF

Info

Publication number
CN110069664B
CN110069664B CN201910334040.2A CN201910334040A CN110069664B CN 110069664 B CN110069664 B CN 110069664B CN 201910334040 A CN201910334040 A CN 201910334040A CN 110069664 B CN110069664 B CN 110069664B
Authority
CN
China
Prior art keywords
frame
head
picture
sliding window
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910334040.2A
Other languages
English (en)
Other versions
CN110069664A (zh
Inventor
王再励
胡晓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Boshi Future Technology Co ltd
Original Assignee
Beijing Boshi Future Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Boshi Future Technology Co ltd filed Critical Beijing Boshi Future Technology Co ltd
Priority to CN201910334040.2A priority Critical patent/CN110069664B/zh
Publication of CN110069664A publication Critical patent/CN110069664A/zh
Application granted granted Critical
Publication of CN110069664B publication Critical patent/CN110069664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种动漫作品封面图提取方法及其***,提取方法包括以固定间隔对动漫视频进行抽帧得到若干图片帧;采用存储的深度神经网络检测并输出每帧图片帧中指定角色的头部和身体所在矩形框的置信度大于设定阈值的置信度;根据图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色,若检测到,则保留相应图片帧进入角色检测置信度步骤,否则删除相应图片帧;采用更正系数乘以头部置信度得到每帧图片帧的角色检测置信度;采用像素空间域的二维滑动窗口算法提取每帧图片帧中最小代价值的滑窗框;采用滑窗算法计算每帧图片帧的信任度;选取设定数量信任度最高的图片帧,并截取图片帧中最小代价值对应的滑窗框作为封面备选图。

Description

动漫作品封面图提取方法及其***
技术领域
本发明涉及图像处理方法,具体涉及一种动漫作品封面图提取方法及其***。
背景技术
动漫产业作为文化和科技相结合的创意产业,是21世纪最具希望的朝阳产业。而动漫影视作品作为动漫产业的主要载体,在全球范围内近几十年来得到蓬勃发展,优秀的影视作品及动漫IP不断涌现。在如此多的IP形象中,如何快速地自动检测及识别动漫人物并根据识别的结果生成适合的封面图,成为动漫影视作品及周边文化推广的重要课题,目前常见的封面提取方法在提取封面时主要是通过遍历抽出的所有图片帧,之后通过像素数量、像素饱和度与像素亮度等质量评价参数进行综合评判,以找出最优的图片帧,这种方法在进行封面提取时,存在计算量大及图片会失真的问题。
发明内容
针对现有技术中的上述不足,本发明提供的动漫作品封面图提取方法及其***能够解决提取的指定动漫人物作为封面图失真的问题。
为了达到上述发明目的,本发明采用的技术方案为:
第一方面,提供一种动漫作品封面图提取方法,其包括:
S1、获取待提取的指定角色作为封面图的动漫视频,并以固定间隔对所述动漫视频进行抽帧,得到若干图片帧;
S2、根据指定角色对应的动漫作品,在存储的已训练的动漫人物识别模型库中查找并读入该动漫作品人物的深度神经网络模型;
S3、采用深度神经网络检测并输出每帧图片帧中指定角色的头部和身体所在矩形框的置信度大于设定阈值的置信度;
S4、根据图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色,若检测到,则保留相应图片帧并进入步骤S5,否则删除相应图片帧;
S5、根据图片帧中角色的头部和身体检测情况,采用对应的更正系数乘以头部置信度得到每帧图片帧的角色检测置信度;
S6、采用像素空间域的二维滑动窗口算法提取每帧图片帧中最小代价值的滑窗框;
S7、根据角色检测置信度,采用滑窗算法计算每帧图片帧的信任度;以及
S8、选取设定数量信任度最高的图片帧,并截取图片帧中最小代价值对应的滑窗框作为封面备选图。
进一步地,采用空域滑动窗口遍历图片帧中多种位置、多种大小的滑窗框,并采用代价函数计算每个滑窗框的代价值,输出每帧图片帧中最小代价值对应的滑窗框进一步包括:
S61、初始化滑窗框的初始行中点索引r=s/2+1,初始列中点索引c=s/2+1,行、列索引的滑动步长为dr=dc=s;
S62、根据基准步长s、行中点索引r及列中点索引c框出图片帧上的当前滑窗框,当前滑窗框左上角坐标xhead为((c-s*ω/2),(r-s/2)),宽whead为(s*ω),高为 s,ω为输出封面图的宽高比;
S63、根据当前滑窗框的坐标、宽和高,计算当前滑窗框与角色头部框的重合面积,并判断重合面积是否大于头部框总面积的90%,若大于,则进入步骤 S64,否则进入步骤S66;
S64、采用代价函数计算当前滑窗框的代价值;
S65、当当前滑窗框的代价值大于当前图片帧存储的最小代价值时,存储当前滑窗框,采用该代价值更新当前图片帧存储的最小代价值,之后进入步骤S66;
S66、判断c-s*ω/2是否大于等于图片帧总宽度,若是,进入步骤S67,否则更新c=c+dc,返回步骤S62;
S67、判断r-s/2是否大于等于图片帧总高度,若是,则进入步骤S68,否则更新r=r+dr,c=s/2+1,返回步骤S62;
S68、判断s是否大于图片帧的高或sω是否大于图片帧的宽,若其中任一大于,则输出当前图片帧存储的最小代价值对应的滑窗框,否则更新s=s*β,β为步长拓展因子,返回步骤S61。
进一步地,采用代价函数计算当前滑窗框的代价值包括:
计算角色头部左右居中的代价值costwidth
costwidth=abs(c-(xhead+whead/2))/s/ω
其中,xhead为角色头部框的左上角横坐标,whead为角色头部框的宽度;
计算角色头部上下位置接近1/3位置的代价值costheight
costheight=abs(r-(yhead+hhead/2)/s-0.33)
其中,yhead为角色头部框的左上角纵坐标,hhead为角色头部框的高度;
计算角色头部大小适中的代价值costsize
costsize=abs(Shead/Swindow-0.5)
其中,Shead和Swindow分别为角色头部框与当前滑窗的面积;
根据角色头部的三个代价值,计算当前滑窗框的代价值:
cost=costwidth+costheight+costsize
进一步地,采用图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色进一步包括:
当一帧图片帧中同时检测出指定角色的头部和完整的身体(包括头部、躯干和四肢),且两者的重合区域大于头部框面积的90%,则图片帧中检测到指定角色;
当一帧图片帧中仅检测出指定角色的头部,且头部置信度大于0.95,则图片帧中检测到指定角色;
当一帧图片帧中仅检测出指定角色的身体,则图片帧中未检测到指定角色。
进一步地,指定角色的头部和完整的身体重合区域的计算公式为:
xoverlap=min(xhead+whead,xbody+wbody)-max(xhead,xbody)
yoverlap=min(yhead+hhead,ybody+hbody)-max(yhead,ybody)
Figure RE-GDA0002077287480000041
其中,xoverlap为水平方向头部框与身体框的重合像素数量;(xhead,yhead)为头部框左上角坐标;whead为头部框宽,hhead为头部框高;yoverlap为竖直方向头部框与身体框的重合像素数量;AREAoverlap为重合区域面积;(xbody,ybody)为完整身体框的左上角坐标,wbody为身体框宽;hbody为身体框高。
进一步地,在步骤S5和步骤S6中还包括剔除场景重复的图片帧:
根据图片帧的角色检测置信度,采用时域滑窗检测均衡公式计算图片帧的均衡置信度;
采用均衡置信度大于预设门限且连续的图片帧作为帧组,并保留每个帧组中均衡置信度最高的图片帧,同时更新图片帧的角色检测置信度为均衡置信度。
进一步地,所述时域滑窗检测均衡公式为:
Figure RE-GDA0002077287480000042
其中,N为抽取的总帧数,n为当前图片帧的帧号,Mn为第n帧检出指定角色的原始角色检测置信度,k为时域滑窗窗口大小,α为滑动窗口内邻近帧的衰减因子;Mn_filtered为均衡置信度。
进一步地,所述图片帧中角色的头部和身体检测情况包括同时检测出指定角色的头部和身体及仅检测出指定角色的头部;
当一帧图片帧中同时检测出指定角色的头部和身体时,更正系数为1;
当一帧图片帧中仅检测出指定角色的头部时,更正系数为0.9。
进一步地,采用滑窗算法计算每帧图片帧的信任度W的算公式为:
Figure RE-GDA0002077287480000051
其中,Mi为人物识别模型图片帧i的角色检测置信度,
Figure RE-GDA0002077287480000052
为第i帧图片帧存储的最小代价值。
第二方面,提供一种动漫作品封面图提取***,其包括:
抽帧模块,用于获取待提取的指定角色作为封面图的动漫视频,并以固定间隔对所述动漫视频进行抽帧,得到若干图片帧;
搜索模块,用于根据指定角色对应的动漫作品,查找存储的该动漫作品已训练的深度神经网络;
置信度生成模块,用于采用深度神经网络检测并输出每帧图片帧中指定角色的头部和身体所在矩形框的置信度大于设定阈值的置信度;
第一判断模块,用于根据图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色,若检测到,则保留相应图片帧,否则删除相应图片帧;
置信度更正模块,用于检测到指定角色后,根据图片帧中角色的头部和身体检测情况,采用对应的更正系数乘以头部置信度得到每帧图片帧的角色检测置信度;
滑窗框生成模块,用于采用像素空间域的二维滑动窗口算法提取每帧图片帧中最小代价值的滑窗框;
信任度计算模块,用于根据角色检测置信度,采用滑窗算法计算每帧图片帧的信任度;以及
封面备选图生成模块,用于选取设定数量信任度最高的图片帧,并截取图片帧中最小代价值对应的滑窗框作为封面备选图。
本发明的有益效果为:本方案采用已对相应动漫作品进行训练的深度神经网络能够准确地识别抽取出的帧中是否存在指定角色,之后采用具有指定角色的图片帧
本发明所提出的方案相比于现存方案的优势为,一是基于深度学习算法模型,能够针对不同的动漫角色进行识别,选出视频帧中出现指定角色的帧图,再通过像素空间域的二维滑动窗口算法选择在图片帧中截取指定宽高比、角色头部在图中位置最佳的部分的滑窗框,之后在根据图片帧的信任度,选择设定数量信任度最高的图片帧中的最小代价值对应的滑窗框作为封面备选图,保证输出的封面图无失真,并且观感为最佳。
另外,本方案在多张连续的图片帧构成的帧组中选择一帧质量最优的图片帧,通过该种方式可以剔除同一场景下重复的图片帧,保证最终生成封面的多样性。
附图说明
图1为动漫作品封面图提取方法的流程图。
图2为5幅从动漫视频(犬夜叉)中提取出指定角色(犬夜叉)的封面备选图。
图3为5幅从动漫视频(网球王子)中提取出指定角色(越前龙马)的封面备选图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
参考图1,图1示出了动漫作品封面图提取方法的流程图;如图1所示,该方法S包括步骤S1至步骤S8。
在步骤S1中,获取待提取的指定角色作为封面图的动漫视频,并以固定间隔对所述动漫视频进行抽帧,得到若干图片帧;
在进行动漫视频提取时,获取并调用的是端发送的http请求,请求中包含待进行封面图提取的动漫视频源文件地址,与指定的提取的动漫人物名字(角色),***解析这两项后,通过文件地址将动漫视频下载到服务器上。
在步骤S2中,根据指定角色对应的动漫作品,在存储的已训练的动漫人物识别模型库中查找并读入该动漫作品人物的深度神经网络模型。在进行封面提取前,本方案会针对若干部需要进行封面图提取的动漫作品,对动漫作品中数名常驻主要角色,每个角色收集数百张作品中的不同姿态、角度、表情的截图,并进行标注。标注方式为用矩形框,框出他们的头部位置,与整个身体的位置。
标注完成后,通过深度学习目标检测算法,对每部动漫作品中的标注人物训练两个模型,分别用来进行角色头部与整个身体的检测。在训练完成后,生成的深度神经网络能够对一张包含角色人物的输入图片,分别输出模型检测到的人物的头部,与整个身体在图片中的位置坐标及对应的置信度(为[0,1]之间的概率值)。
在步骤S3中,采用深度神经网络检测并输出每帧图片帧中指定角色的头部和身体所在矩形框的置信度大于设定阈值的置信度;具体地,深度神经网络将对每帧图片帧,返回包含指定角色头部、身体的矩形框坐标与置信度,若置信度小于50%则不返回。
在步骤S4中,根据图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色,若检测到,则保留相应图片帧并进入步骤S5,否则删除相应图片帧;
实施时,本方案优选采用图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色进一步包括:
当一帧图片帧中同时检测出指定角色的头部和完整的身体(包括头部、躯干和四肢),且两者的重合区域大于头部框面积的90%,则图片帧中检测到指定角色;
当一帧图片帧中仅检测出指定角色的头部,且头部置信度大于0.95,则图片帧中检测到指定角色;
当一帧图片帧中仅检测出指定角色的身体,则图片帧中未检测到指定角色。
实施时,本方案优选指定角色的头部和完整的身体重合区域的计算公式为:
xoverlap=min(xhead+whead,xbody+wbody)-max(xhead,xbody)
yoverlap=min(yhead+hhead,ybody+hbody)-max(yhead,ybody)
Figure RE-GDA0002077287480000081
其中,xoverlap为水平方向头部框与身体框的重合像素数量;(xhead,yhead)为头部框左上角坐标;whead为头部框宽,hhead为头部框高;yoverlap为竖直方向头部框与身体框的重合像素数量;AREAoverlap为重合区域面积;(xbody,ybody)为完整身体框的左上角坐标,wbody为身体框宽;hbody为身体框高。
在步骤S5中,根据图片帧中角色的头部和身体检测情况,采用对应的更正系数乘以头部置信度得到每帧图片帧的角色检测置信度;
其中,图片帧中角色的头部和身体检测情况包括同时检测出指定角色的头部和身体及仅检测出指定角色的头部;当一帧图片帧中同时检测出指定角色的头部和身体时,更正系数为1;当一帧图片帧中仅检测出指定角色的头部时,更正系数为0.9。
在步骤S6中,采用像素空间域的二维滑动窗口算法提取每帧图片帧中最小代价值的滑窗框。
在本发明的一个实施例中,采用像素空间域的二维滑动窗口算法选择每帧图片帧中最小代价值的滑窗框输出进一步包括步骤S61至步骤S67。
在步骤S61中,初始化滑窗框的初始行中点索引r=s/2+1,初始列中点索引 c=s/2+1,行、列索引的滑动步长为dr=dc=s。
在步骤S62中,根据基准步长s、行中点索引r及列中点索引c框出图片帧上的当前滑窗框,当前滑窗框左上角坐标xhead为((c-s*ω/2),(r-s/2)),宽whead为 (s*ω),高为s,ω为输出封面图的宽高比;
在步骤S63中,根据当前滑窗框的坐标、宽和高,计算当前滑窗框与角色头部框的重合面积,并判断重合面积是否大于头部框总面积的90%,若大于,则进入步骤S64,否则进入步骤S66。
在步骤S64中,采用代价函数计算当前滑窗框的代价值;实施时,本方案优先采用代价函数计算当前滑窗框的代价值包括:
计算角色头部左右居中的代价值costwidth
costwidth=abs(c-(xhead+whead/2))/s/ω
其中,xhead为角色头部框的左上角横坐标,whead为角色头部框的宽度;
计算角色头部上下位置接近1/3位置的代价值costheight
costheight=abs(r-(yhead+hhead/2)/s-0.33)
其中,yhead为角色头部框的左上角纵坐标,hhead为角色头部框的高度;
计算角色头部大小适中的代价值costsize
costsize=abs(Shead/Swindow-0.5)
其中,Shead和Swindow分别为角色头部框与当前滑窗的面积;
根据角色头部的三个代价值,计算当前滑窗框的代价值:
cost=costwidth+costheight+costsize
在步骤S65中,当当前滑窗框的代价值大于当前图片帧存储的最小代价值时,存储当前滑窗框,采用该代价值更新当前图片帧存储的最小代价值,之后进入步骤S66。
在步骤S66中,判断c-s*ω/2是否大于等于图片帧总宽度,若是,进入步骤S67,否则更新c=c+dc,返回步骤S62;
在步骤S67中,判断r-s/2是否大于等于图片帧总高度,若是,则进入步骤 S68,否则更新r=r+dr,c=s/2+1,返回步骤S62;
在步骤S67中,判断s是否大于图片帧的高或sω是否大于图片帧的宽,若其中任一大于,则输出当前图片帧存储的最小代价值对应的滑窗框,否则更新 s=s*β,β为步长拓展因子,返回步骤S61。
在本发明的一个实施例中,在步骤S5和步骤S6中还包括剔除场景重复的图片帧:
根据图片帧的角色检测置信度,采用时域滑窗检测均衡公式计算图片帧的均衡置信度;所述时域滑窗检测均衡公式为:
Figure RE-GDA0002077287480000101
其中,N为抽取的总帧数,n为当前图片帧的帧号,Mn为第n帧检出指定角色的原始角色检测置信度,k为时域滑窗窗口大小,α为滑动窗口内邻近帧的衰减因子;Mn_filtered为均衡置信度。
采用均衡置信度大于预设门限且连续的图片帧作为帧组,并保留每个帧组中均衡置信度最高的图片帧,同时更新图片帧的角色检测置信度为均衡置信度。
遍历所有图片帧组成的序列,取得置信度高于预设门限(如0.7)的片段(假设有10帧图片,其均衡置信度分别为0.8、0.95、0.90、0.6、0.85、0.93、0.69、 0.87、0.97),即从置信度序列中检测指定角色置信度大于门限的连续帧组(其中,0.8、0.95、0.90为一个帧组,0.85、0.93、0.69、0.87、0.97为一个帧组),从每个片段中选择1个置信度最高的图片帧,并删除其他图片帧。
在每个连续帧组中仅选择一帧的原因是,很多情况下,多个连续帧中以高置信度检出指定角色,意味着在这个片段中,镜头一直以近景特写的方式跟随着角色,这些帧中角色的姿态基本相近,因此仅选取其中一帧,可增强最终封面图结果的多样性。
在步骤S7中,根据角色检测置信度,采用滑窗算法计算每帧图片帧的信任度W:
Figure RE-GDA0002077287480000111
其中,Mi为人物识别模型图片帧i的角色检测置信度,
Figure RE-GDA0002077287480000112
为第i帧图片帧存储的最小代价值。
在步骤S8中,选取设定数量信任度最高的图片帧,并截取图片帧中最小代价值对应的滑窗框作为封面备选图。
具体地,对各图片帧根据其最终信任度W进行降序排序,若备选帧数多于 5,选择其中W值最高的5帧,分别从中截取其最小代价值对应的滑窗框作为封面备选图。
得到封面备选图之后,保存生成的封面备选图在服务器的ftp服务目录下,并将对应的文件名通过http响应回传至调用端。调用端根据接收到的http响应中的文件名,向服务器发起ftp请求,获得生成的至多5张封面图。
另外,本申请还提供了一种动漫作品封面图提取***,其包括:
抽帧模块,用于获取待提取的指定角色作为封面图的动漫视频,并以固定间隔对所述动漫视频进行抽帧,得到若干图片帧;
搜索模块,用于根据指定角色对应的动漫作品,查找存储的该动漫作品已训练的深度神经网络;
置信度生成模块,用于采用深度神经网络检测并输出每帧图片帧中指定角色的头部和身体所在矩形框的置信度大于设定阈值的置信度;
第一判断模块,用于根据图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色,若检测到,则保留相应图片帧,否则删除相应图片帧;
置信度更正模块,用于检测到指定角色后,根据图片帧中角色的头部和身体检测情况,采用对应的更正系数乘以头部置信度得到每帧图片帧的角色检测置信度;
滑窗框生成模块,用于采用像素空间域的二维滑动窗口算法提取每帧图片帧中最小代价值的滑窗框;
信任度计算模块,用于根据角色检测置信度,采用滑窗算法计算每帧图片帧的信任度;以及
封面备选图生成模块,用于选取设定数量信任度最高的图片帧,并截取图片帧中最小代价值对应的滑窗框作为封面备选图。
下面以视频时长为10分钟,提取动漫作品为犬夜叉和网球王子中指定角色犬夜叉和越前龙马为例,对本申请的动漫作品封面图提取方法及***提取出的封面图效果进行说明:
如图2和图3所示,可以看出提取出的封面备选图中指定角色的封面图区域有指定宽高比ω=width/height,角色头部位置左右居中,头部中心在封面图中从上至下约1/3的位置,角色头部在封面图中大小应适中,提取的封面图不存在失真的情况;提出的5幅封面备选图中指定角色的状态完全不相同,保证了最终提取的封面备选图的多样性。

Claims (7)

1.动漫作品封面图提取方法,其特征在于,包括:
S1、获取待提取的指定角色作为封面图的动漫视频,并以固定间隔对所述动漫视频进行抽帧,得到若干图片帧;
S2、根据指定角色对应的动漫作品,在存储的已训练的动漫人物识别模型库中查找并读入该动漫作品中人物的深度神经网络模型;
S3、采用深度神经网络检测并输出每帧图片帧中指定角色的头部和身体所在矩形框的置信度大于设定阈值的置信度;
S4、根据图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色,若检测到,则保留相应图片帧并进入步骤S5,否则删除相应图片帧;
S5、根据图片帧中角色的头部和身体检测情况,采用对应的更正系数乘以头部置信度得到每帧图片帧的角色检测置信度;
S6、采用像素空间域的二维滑动窗口算法提取每帧图片帧中最小代价值的滑窗框;
S7、根据角色检测置信度,采用滑窗算法计算每帧图片帧的信任度;以及
S8、选取设定数量信任度最高的图片帧,并截取图片帧中最小代价值对应的滑窗框作为封面备选图;
采用像素空间域的二维滑动窗口算法选择每帧图片帧中最小代价值的滑窗框输出进一步包括:
S61、初始化滑窗框的初始行中点索引r=s/2+1,初始列中点索引c=s/2+1,行、列索引的滑动步长为dr=dc=s,其中,s为基准步长;
S62、根据基准步长s、行中点索引r及列中点索引c框出图片帧上的当前滑窗框,当前滑窗框左上角坐标xhead为((c-s*ω/2),(r-s/2)),宽whead为(s*ω),高为s,ω为输出封面图的宽高比;
S63、根据当前滑窗框的坐标、宽和高,计算当前滑窗框与角色头部框的重合面积,并判断重合面积是否大于头部框总面积的90%,若大于,则进入步骤S64,否则进入步骤S66;
S64、采用代价函数计算当前滑窗框的代价值;
S65、当当前滑窗框的代价值大于当前图片帧存储的最小代价值时,存储当前滑窗框,采用该代价值更新当前图片帧存储的最小代价值,之后进入步骤S66;
S66、判断c-s*ω/2是否大于等于图片帧总宽度,若是,进入步骤S67,否则更新c=c+dc,返回步骤S62;
S67、判断r-s/2是否大于等于图片帧总高度,若是,则进入步骤S68,否则更新r=r+dr,c=s/2+1,返回步骤S62;
S68、判断s是否大于图片帧的高或s*ω是否大于图片帧的宽,若其中任一大于,则输出当前图片帧存储的最小代价值对应的滑窗框,否则更新s=s*β,β为步长拓展因子,返回步骤S61;
采用代价函数计算当前滑窗框的代价值包括:
计算角色头部左右居中的代价值costwidth
costwidth=abs(c-(xhead+whead/2))/s/ω
其中,xhead为角色头部框的左上角横坐标,whead为角色头部框的宽度;
计算角色头部上下位置接近1/3位置的代价值costheight
costheight=abs(r-(yhead+hhead/2)/s-0.33)
其中,yhead为角色头部框的左上角纵坐标,hhead为角色头部框的高度;
计算角色头部大小适中的代价值costsize
costsize=abs(Shead/Swindow-0.5)
其中,Shead和Swindow分别为角色头部框与当前滑窗的面积;
根据角色头部的三个代价值,计算当前滑窗框的代价值:
cost=costwidth+costheight+costsize
2.根据权利要求1所述的动漫作品封面图提取方法,其特征在于,采用图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色进一步包括:
当一帧图片帧中同时检测出指定角色的头部和完整的身体,且两者的重合区域大于头部框面积的90%,则图片帧中检测到指定角色;
当一帧图片帧中仅检测出指定角色的头部,且头部置信度大于0.95,则图片帧中检测到指定角色;
当一帧图片帧中仅检测出指定角色的身体,则图片帧中未检测到指定角色。
3.根据权利要求2所述的动漫作品封面图提取方法,其特征在于,指定角色的头部和完整的身体重合区域的计算公式为:
xoverlap=min(xhead+whead,xbody+wbody)-max(xhead,xbody)
yoverlap=min(yhead+hhead,ybody+hbody)-max(yhead,ybody)
Figure FDA0002840644000000031
其中,xoverlap为水平方向头部框与身体框的重合像素数量;(xhead,yhead)为头部框左上角坐标;whead为头部框宽,hhead为头部框高;yoverlap为竖直方向头部框与身体框的重合像素数量;AREAoverlap为重合区域面积;(xbody,ybody)为完整身体框的左上角坐标,wbody为身体框宽;hbody为身体框高。
4.根据权利要求2所述的动漫作品封面图提取方法,其特征在于,在步骤S5和步骤S6中还包括剔除场景重复的图片帧:
根据图片帧的角色检测置信度,采用时域滑窗检测均衡公式计算图片帧的均衡置信度;
采用均衡置信度大于预设门限且连续的图片帧作为帧组,并保留每个帧组中均衡置信度最高的图片帧,同时更新图片帧的角色检测置信度为均衡置信度。
5.根据权利要求4所述的动漫作品封面图提取方法,其特征在于,所述时域滑窗检测均衡公式为:
Figure FDA0002840644000000041
其中,N为抽取的总帧数,n为当前图片帧的帧号,Mn+i为第n+i帧检出指定角色的原始角色检测置信度,k为时域滑窗窗口大小,α为滑动窗口内邻近帧的衰减因子;Mn_filtered为均衡置信度。
6.根据权利要求1-5任一所述的动漫作品封面图提取方法,其特征在于,所述图片帧中角色的头部和身体检测情况包括同时检测出指定角色的头部和身体及仅检测出指定角色的头部;
当一帧图片帧中同时检测出指定角色的头部和身体时,更正系数为1;
当一帧图片帧中仅检测出指定角色的头部时,更正系数为0.9。
7.根据权利要求6所述的动漫作品封面图提取方法,其特征在于,采用滑窗算法计算每帧图片帧的信任度W的算公式为:
Figure FDA0002840644000000042
其中,Mi为人物识别模型图片帧i的角色检测置信度,
Figure FDA0002840644000000043
为第i帧图片帧存储的最小代价值。
CN201910334040.2A 2019-04-24 2019-04-24 动漫作品封面图提取方法及其*** Active CN110069664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910334040.2A CN110069664B (zh) 2019-04-24 2019-04-24 动漫作品封面图提取方法及其***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910334040.2A CN110069664B (zh) 2019-04-24 2019-04-24 动漫作品封面图提取方法及其***

Publications (2)

Publication Number Publication Date
CN110069664A CN110069664A (zh) 2019-07-30
CN110069664B true CN110069664B (zh) 2021-04-06

Family

ID=67368598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910334040.2A Active CN110069664B (zh) 2019-04-24 2019-04-24 动漫作品封面图提取方法及其***

Country Status (1)

Country Link
CN (1) CN110069664B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444806B (zh) * 2020-03-19 2023-06-20 成都云盯科技有限公司 基于监控视频的商品触碰信息聚类方法、装置和设备
CN113849088B (zh) * 2020-11-16 2022-09-27 阿里巴巴集团控股有限公司 目标图片确定方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445939A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及***
CN107808139A (zh) * 2017-11-01 2018-03-16 电子科技大学 一种基于深度学习的实时监控威胁分析方法及***
CN107918656A (zh) * 2017-11-17 2018-04-17 北京奇虎科技有限公司 基于视频标题的视频封面提取方法及装置
CN107977645A (zh) * 2017-12-19 2018-05-01 北京奇艺世纪科技有限公司 一种视频新闻海报图的生成方法及装置
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
CN108650524A (zh) * 2018-05-23 2018-10-12 腾讯科技(深圳)有限公司 视频封面生成方法、装置、计算机设备及存储介质
CN108833942A (zh) * 2018-06-28 2018-11-16 北京达佳互联信息技术有限公司 视频封面选取方法、装置、计算机设备及存储介质
CN108875517A (zh) * 2017-12-15 2018-11-23 北京旷视科技有限公司 视频处理方法、装置和***及存储介质
CN109146989A (zh) * 2018-07-10 2019-01-04 华南理工大学 一种通过搭建神经网络生成花鸟艺术字图像的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10469768B2 (en) * 2017-10-13 2019-11-05 Fyusion, Inc. Skeleton-based effects and background replacement
CN107995536B (zh) * 2017-11-28 2020-01-21 百度在线网络技术(北京)有限公司 一种提取视频预览的方法、装置、设备和计算机存储介质
CN109002812A (zh) * 2018-08-08 2018-12-14 北京未来媒体科技股份有限公司 一种智能识别视频封面的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
CN106445939A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及***
CN107808139A (zh) * 2017-11-01 2018-03-16 电子科技大学 一种基于深度学习的实时监控威胁分析方法及***
CN107918656A (zh) * 2017-11-17 2018-04-17 北京奇虎科技有限公司 基于视频标题的视频封面提取方法及装置
CN108875517A (zh) * 2017-12-15 2018-11-23 北京旷视科技有限公司 视频处理方法、装置和***及存储介质
CN107977645A (zh) * 2017-12-19 2018-05-01 北京奇艺世纪科技有限公司 一种视频新闻海报图的生成方法及装置
CN108650524A (zh) * 2018-05-23 2018-10-12 腾讯科技(深圳)有限公司 视频封面生成方法、装置、计算机设备及存储介质
CN108833942A (zh) * 2018-06-28 2018-11-16 北京达佳互联信息技术有限公司 视频封面选取方法、装置、计算机设备及存储介质
CN109146989A (zh) * 2018-07-10 2019-01-04 华南理工大学 一种通过搭建神经网络生成花鸟艺术字图像的方法

Also Published As

Publication number Publication date
CN110069664A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN107133969B (zh) 一种基于背景反投影的移动平台运动目标检测方法
CN111724439A (zh) 一种动态场景下的视觉定位方法及装置
CN103093198B (zh) 一种人群密度监测方法及装置
CN110069664B (zh) 动漫作品封面图提取方法及其***
CN112487964B (zh) 姿态检测识别方法、设备及计算机可读存储介质
CN111383252B (zh) 多相机目标追踪方法、***、装置及存储介质
CN111798373A (zh) 一种基于局部平面假设及六自由度位姿优化的快速无人机图像拼接方法
CN112487978B (zh) 一种视频中说话人定位的方法、装置及计算机存储介质
CN106407978B (zh) 一种结合似物度的无约束视频中显著物体检测方法
KR20190080388A (ko) Cnn을 이용한 영상 수평 보정 방법 및 레지듀얼 네트워크 구조
CN111652140A (zh) 基于深度学习的题目精准分割方法、装置、设备和介质
CN110147724B (zh) 用于检测视频中的文本区域的方法、装置、设备以及介质
CN115965934A (zh) 一种停车位检测方法及装置
CN116308530A (zh) 一种广告植入方法、装置、设备和可读存储介质
CN111222514A (zh) 一种基于视觉定位的局部地图优化方法
CN112132750B (zh) 一种视频处理方法与装置
CN110852172B (zh) 一种基于Cycle Gan图片拼贴并增强的扩充人群计数数据集的方法
CN113011409A (zh) 一种图像识别方法、装置、电子设备及存储介质
CN112686247A (zh) 一种身份证号码检测方法、装置、可读存储介质和终端
CN111160147A (zh) 一种书法作品图像的裁剪和识别方法
CN116883897A (zh) 一种低分辨率目标识别方法
CN111612802A (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
CN106934818B (zh) 一种手部运动跟踪方法及***
CN112699714B (zh) 一种针对图像的致盲场景检测方法及车载终端
CN110910418A (zh) 基于旋转不变性图像特征描述子的目标跟踪算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant