CN110069664B

CN110069664B - 动漫作品封面图提取方法及其***

Info

Publication number: CN110069664B
Application number: CN201910334040.2A
Authority: CN
Inventors: 王再励; 胡晓军
Original assignee: Beijing Boshi Future Technology Co ltd
Current assignee: Beijing Boshi Future Technology Co ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2021-04-06
Anticipated expiration: 2039-04-24
Also published as: CN110069664A

Abstract

本发明公开了一种动漫作品封面图提取方法及其***，提取方法包括以固定间隔对动漫视频进行抽帧得到若干图片帧；采用存储的深度神经网络检测并输出每帧图片帧中指定角色的头部和身体所在矩形框的置信度大于设定阈值的置信度；根据图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色，若检测到，则保留相应图片帧进入角色检测置信度步骤，否则删除相应图片帧；采用更正系数乘以头部置信度得到每帧图片帧的角色检测置信度；采用像素空间域的二维滑动窗口算法提取每帧图片帧中最小代价值的滑窗框；采用滑窗算法计算每帧图片帧的信任度；选取设定数量信任度最高的图片帧，并截取图片帧中最小代价值对应的滑窗框作为封面备选图。

Description

动漫作品封面图提取方法及其***

技术领域

本发明涉及图像处理方法，具体涉及一种动漫作品封面图提取方法及其***。

背景技术

动漫产业作为文化和科技相结合的创意产业，是21世纪最具希望的朝阳产业。而动漫影视作品作为动漫产业的主要载体，在全球范围内近几十年来得到蓬勃发展，优秀的影视作品及动漫IP不断涌现。在如此多的IP形象中，如何快速地自动检测及识别动漫人物并根据识别的结果生成适合的封面图，成为动漫影视作品及周边文化推广的重要课题，目前常见的封面提取方法在提取封面时主要是通过遍历抽出的所有图片帧，之后通过像素数量、像素饱和度与像素亮度等质量评价参数进行综合评判，以找出最优的图片帧，这种方法在进行封面提取时，存在计算量大及图片会失真的问题。

发明内容

针对现有技术中的上述不足，本发明提供的动漫作品封面图提取方法及其***能够解决提取的指定动漫人物作为封面图失真的问题。

为了达到上述发明目的，本发明采用的技术方案为：

第一方面，提供一种动漫作品封面图提取方法，其包括：

S1、获取待提取的指定角色作为封面图的动漫视频，并以固定间隔对所述动漫视频进行抽帧，得到若干图片帧；

S2、根据指定角色对应的动漫作品，在存储的已训练的动漫人物识别模型库中查找并读入该动漫作品人物的深度神经网络模型；

S3、采用深度神经网络检测并输出每帧图片帧中指定角色的头部和身体所在矩形框的置信度大于设定阈值的置信度；

S4、根据图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色，若检测到，则保留相应图片帧并进入步骤S5，否则删除相应图片帧；

S5、根据图片帧中角色的头部和身体检测情况，采用对应的更正系数乘以头部置信度得到每帧图片帧的角色检测置信度；

S6、采用像素空间域的二维滑动窗口算法提取每帧图片帧中最小代价值的滑窗框；

S7、根据角色检测置信度，采用滑窗算法计算每帧图片帧的信任度；以及

S8、选取设定数量信任度最高的图片帧，并截取图片帧中最小代价值对应的滑窗框作为封面备选图。

进一步地，采用空域滑动窗口遍历图片帧中多种位置、多种大小的滑窗框，并采用代价函数计算每个滑窗框的代价值，输出每帧图片帧中最小代价值对应的滑窗框进一步包括：

S61、初始化滑窗框的初始行中点索引r＝s/2+1，初始列中点索引c＝s/2+1，行、列索引的滑动步长为dr＝dc＝s；

S62、根据基准步长s、行中点索引r及列中点索引c框出图片帧上的当前滑窗框，当前滑窗框左上角坐标x_head为((c-s*ω/2),(r-s/2))，宽w_head为(s*ω)，高为 s，ω为输出封面图的宽高比；

S63、根据当前滑窗框的坐标、宽和高，计算当前滑窗框与角色头部框的重合面积，并判断重合面积是否大于头部框总面积的90％，若大于，则进入步骤 S64，否则进入步骤S66；

S64、采用代价函数计算当前滑窗框的代价值；

S65、当当前滑窗框的代价值大于当前图片帧存储的最小代价值时，存储当前滑窗框，采用该代价值更新当前图片帧存储的最小代价值，之后进入步骤S66；

S66、判断c-s*ω/2是否大于等于图片帧总宽度，若是，进入步骤S67，否则更新c＝c+dc，返回步骤S62；

S67、判断r-s/2是否大于等于图片帧总高度，若是，则进入步骤S68，否则更新r＝r+dr，c＝s/2+1，返回步骤S62；

S68、判断s是否大于图片帧的高或sω是否大于图片帧的宽，若其中任一大于，则输出当前图片帧存储的最小代价值对应的滑窗框，否则更新s＝s*β，β为步长拓展因子，返回步骤S61。

进一步地，采用代价函数计算当前滑窗框的代价值包括：

计算角色头部左右居中的代价值cost_width：

cost_width＝abs(c-(x_head+w_head/2))/s/ω

其中，x_head为角色头部框的左上角横坐标，w_head为角色头部框的宽度；

计算角色头部上下位置接近1/3位置的代价值cost_height：

cost_height＝abs(r-(y_head+h_head/2)/s-0.33)

其中，y_head为角色头部框的左上角纵坐标，h_head为角色头部框的高度；

计算角色头部大小适中的代价值cost_size：

cost_size＝abs(S_head/S_window-0.5)

其中，S_head和S_window分别为角色头部框与当前滑窗的面积；

根据角色头部的三个代价值，计算当前滑窗框的代价值：

cost＝cost_width+cost_height+cost_size。

进一步地，采用图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色进一步包括：

当一帧图片帧中同时检测出指定角色的头部和完整的身体(包括头部、躯干和四肢)，且两者的重合区域大于头部框面积的90％，则图片帧中检测到指定角色；

当一帧图片帧中仅检测出指定角色的头部，且头部置信度大于0.95，则图片帧中检测到指定角色；

当一帧图片帧中仅检测出指定角色的身体，则图片帧中未检测到指定角色。

进一步地，指定角色的头部和完整的身体重合区域的计算公式为：

x_overlap＝min(x_head+w_head,x_body+w_body)-max(x_head,x_body)

y_overlap＝min(y_head+h_head,y_body+h_body)-max(y_head,y_body)

其中，x_overlap为水平方向头部框与身体框的重合像素数量；(x_head,y_head)为头部框左上角坐标；w_head为头部框宽，h_head为头部框高；y_overlap为竖直方向头部框与身体框的重合像素数量；AREA_overlap为重合区域面积；(x_body,y_body)为完整身体框的左上角坐标，w_body为身体框宽；h_body为身体框高。

进一步地，在步骤S5和步骤S6中还包括剔除场景重复的图片帧：

根据图片帧的角色检测置信度，采用时域滑窗检测均衡公式计算图片帧的均衡置信度；

采用均衡置信度大于预设门限且连续的图片帧作为帧组，并保留每个帧组中均衡置信度最高的图片帧，同时更新图片帧的角色检测置信度为均衡置信度。

进一步地，所述时域滑窗检测均衡公式为：

其中，N为抽取的总帧数，n为当前图片帧的帧号，M_n为第n帧检出指定角色的原始角色检测置信度，k为时域滑窗窗口大小，α为滑动窗口内邻近帧的衰减因子；M_{n_filtered}为均衡置信度。

进一步地，所述图片帧中角色的头部和身体检测情况包括同时检测出指定角色的头部和身体及仅检测出指定角色的头部；

当一帧图片帧中同时检测出指定角色的头部和身体时，更正系数为1；

当一帧图片帧中仅检测出指定角色的头部时，更正系数为0.9。

进一步地，采用滑窗算法计算每帧图片帧的信任度W的算公式为：

其中，Mⁱ为人物识别模型图片帧i的角色检测置信度，

为第i帧图片帧存储的最小代价值。

第二方面，提供一种动漫作品封面图提取***，其包括：

抽帧模块，用于获取待提取的指定角色作为封面图的动漫视频，并以固定间隔对所述动漫视频进行抽帧，得到若干图片帧；

搜索模块，用于根据指定角色对应的动漫作品，查找存储的该动漫作品已训练的深度神经网络；

置信度生成模块，用于采用深度神经网络检测并输出每帧图片帧中指定角色的头部和身体所在矩形框的置信度大于设定阈值的置信度；

第一判断模块，用于根据图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色，若检测到，则保留相应图片帧，否则删除相应图片帧；

置信度更正模块，用于检测到指定角色后，根据图片帧中角色的头部和身体检测情况，采用对应的更正系数乘以头部置信度得到每帧图片帧的角色检测置信度；

滑窗框生成模块，用于采用像素空间域的二维滑动窗口算法提取每帧图片帧中最小代价值的滑窗框；

信任度计算模块，用于根据角色检测置信度，采用滑窗算法计算每帧图片帧的信任度；以及

封面备选图生成模块，用于选取设定数量信任度最高的图片帧，并截取图片帧中最小代价值对应的滑窗框作为封面备选图。

本发明的有益效果为：本方案采用已对相应动漫作品进行训练的深度神经网络能够准确地识别抽取出的帧中是否存在指定角色，之后采用具有指定角色的图片帧

本发明所提出的方案相比于现存方案的优势为，一是基于深度学习算法模型，能够针对不同的动漫角色进行识别，选出视频帧中出现指定角色的帧图，再通过像素空间域的二维滑动窗口算法选择在图片帧中截取指定宽高比、角色头部在图中位置最佳的部分的滑窗框，之后在根据图片帧的信任度，选择设定数量信任度最高的图片帧中的最小代价值对应的滑窗框作为封面备选图，保证输出的封面图无失真，并且观感为最佳。

另外，本方案在多张连续的图片帧构成的帧组中选择一帧质量最优的图片帧，通过该种方式可以剔除同一场景下重复的图片帧，保证最终生成封面的多样性。

附图说明

图1为动漫作品封面图提取方法的流程图。

图2为5幅从动漫视频(犬夜叉)中提取出指定角色(犬夜叉)的封面备选图。

图3为5幅从动漫视频(网球王子)中提取出指定角色(越前龙马)的封面备选图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

参考图1，图1示出了动漫作品封面图提取方法的流程图；如图1所示，该方法S包括步骤S1至步骤S8。

在步骤S1中，获取待提取的指定角色作为封面图的动漫视频，并以固定间隔对所述动漫视频进行抽帧，得到若干图片帧；

在进行动漫视频提取时，获取并调用的是端发送的http请求，请求中包含待进行封面图提取的动漫视频源文件地址，与指定的提取的动漫人物名字(角色)，***解析这两项后，通过文件地址将动漫视频下载到服务器上。

在步骤S2中，根据指定角色对应的动漫作品，在存储的已训练的动漫人物识别模型库中查找并读入该动漫作品人物的深度神经网络模型。在进行封面提取前，本方案会针对若干部需要进行封面图提取的动漫作品，对动漫作品中数名常驻主要角色，每个角色收集数百张作品中的不同姿态、角度、表情的截图，并进行标注。标注方式为用矩形框，框出他们的头部位置，与整个身体的位置。

标注完成后，通过深度学习目标检测算法，对每部动漫作品中的标注人物训练两个模型，分别用来进行角色头部与整个身体的检测。在训练完成后，生成的深度神经网络能够对一张包含角色人物的输入图片，分别输出模型检测到的人物的头部，与整个身体在图片中的位置坐标及对应的置信度(为[0,1]之间的概率值)。

在步骤S3中，采用深度神经网络检测并输出每帧图片帧中指定角色的头部和身体所在矩形框的置信度大于设定阈值的置信度；具体地，深度神经网络将对每帧图片帧，返回包含指定角色头部、身体的矩形框坐标与置信度，若置信度小于50％则不返回。

在步骤S4中，根据图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色，若检测到，则保留相应图片帧并进入步骤S5，否则删除相应图片帧；

实施时，本方案优选采用图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色进一步包括：

实施时，本方案优选指定角色的头部和完整的身体重合区域的计算公式为：

x_overlap＝min(x_head+w_head,x_body+w_body)-max(x_head,x_body)

y_overlap＝min(y_head+h_head,y_body+h_body)-max(y_head,y_body)

在步骤S5中，根据图片帧中角色的头部和身体检测情况，采用对应的更正系数乘以头部置信度得到每帧图片帧的角色检测置信度；

其中，图片帧中角色的头部和身体检测情况包括同时检测出指定角色的头部和身体及仅检测出指定角色的头部；当一帧图片帧中同时检测出指定角色的头部和身体时，更正系数为1；当一帧图片帧中仅检测出指定角色的头部时，更正系数为0.9。

在步骤S6中，采用像素空间域的二维滑动窗口算法提取每帧图片帧中最小代价值的滑窗框。

在本发明的一个实施例中，采用像素空间域的二维滑动窗口算法选择每帧图片帧中最小代价值的滑窗框输出进一步包括步骤S61至步骤S67。

在步骤S61中，初始化滑窗框的初始行中点索引r＝s/2+1，初始列中点索引 c＝s/2+1，行、列索引的滑动步长为dr＝dc＝s。

在步骤S62中，根据基准步长s、行中点索引r及列中点索引c框出图片帧上的当前滑窗框，当前滑窗框左上角坐标x_head为((c-s*ω/2),(r-s/2))，宽w_head为 (s*ω)，高为s，ω为输出封面图的宽高比；

在步骤S63中，根据当前滑窗框的坐标、宽和高，计算当前滑窗框与角色头部框的重合面积，并判断重合面积是否大于头部框总面积的90％，若大于，则进入步骤S64，否则进入步骤S66。

在步骤S64中，采用代价函数计算当前滑窗框的代价值；实施时，本方案优先采用代价函数计算当前滑窗框的代价值包括：

计算角色头部左右居中的代价值cost_width：

cost_width＝abs(c-(x_head+w_head/2))/s/ω

计算角色头部上下位置接近1/3位置的代价值cost_height：

cost_height＝abs(r-(y_head+h_head/2)/s-0.33)

计算角色头部大小适中的代价值cost_size：

cost_size＝abs(S_head/S_window-0.5)

其中，S_head和S_window分别为角色头部框与当前滑窗的面积；

根据角色头部的三个代价值，计算当前滑窗框的代价值：

cost＝cost_width+cost_height+cost_size。

在步骤S65中，当当前滑窗框的代价值大于当前图片帧存储的最小代价值时，存储当前滑窗框，采用该代价值更新当前图片帧存储的最小代价值，之后进入步骤S66。

在步骤S66中，判断c-s*ω/2是否大于等于图片帧总宽度，若是，进入步骤S67，否则更新c＝c+dc，返回步骤S62；

在步骤S67中，判断r-s/2是否大于等于图片帧总高度，若是，则进入步骤 S68，否则更新r＝r+dr，c＝s/2+1，返回步骤S62；

在步骤S67中，判断s是否大于图片帧的高或sω是否大于图片帧的宽，若其中任一大于，则输出当前图片帧存储的最小代价值对应的滑窗框，否则更新 s＝s*β，β为步长拓展因子，返回步骤S61。

在本发明的一个实施例中，在步骤S5和步骤S6中还包括剔除场景重复的图片帧：

根据图片帧的角色检测置信度，采用时域滑窗检测均衡公式计算图片帧的均衡置信度；所述时域滑窗检测均衡公式为：

遍历所有图片帧组成的序列，取得置信度高于预设门限(如0.7)的片段(假设有10帧图片，其均衡置信度分别为0.8、0.95、0.90、0.6、0.85、0.93、0.69、 0.87、0.97)，即从置信度序列中检测指定角色置信度大于门限的连续帧组(其中，0.8、0.95、0.90为一个帧组，0.85、0.93、0.69、0.87、0.97为一个帧组)，从每个片段中选择1个置信度最高的图片帧，并删除其他图片帧。

在每个连续帧组中仅选择一帧的原因是，很多情况下，多个连续帧中以高置信度检出指定角色，意味着在这个片段中，镜头一直以近景特写的方式跟随着角色，这些帧中角色的姿态基本相近，因此仅选取其中一帧，可增强最终封面图结果的多样性。

在步骤S7中，根据角色检测置信度，采用滑窗算法计算每帧图片帧的信任度W：

其中，Mⁱ为人物识别模型图片帧i的角色检测置信度，

为第i帧图片帧存储的最小代价值。

在步骤S8中，选取设定数量信任度最高的图片帧，并截取图片帧中最小代价值对应的滑窗框作为封面备选图。

具体地，对各图片帧根据其最终信任度W进行降序排序，若备选帧数多于 5，选择其中W值最高的5帧，分别从中截取其最小代价值对应的滑窗框作为封面备选图。

得到封面备选图之后，保存生成的封面备选图在服务器的ftp服务目录下，并将对应的文件名通过http响应回传至调用端。调用端根据接收到的http响应中的文件名，向服务器发起ftp请求，获得生成的至多5张封面图。

另外，本申请还提供了一种动漫作品封面图提取***，其包括：

下面以视频时长为10分钟，提取动漫作品为犬夜叉和网球王子中指定角色犬夜叉和越前龙马为例，对本申请的动漫作品封面图提取方法及***提取出的封面图效果进行说明：

如图2和图3所示，可以看出提取出的封面备选图中指定角色的封面图区域有指定宽高比ω＝width/height，角色头部位置左右居中，头部中心在封面图中从上至下约1/3的位置，角色头部在封面图中大小应适中，提取的封面图不存在失真的情况；提出的5幅封面备选图中指定角色的状态完全不相同，保证了最终提取的封面备选图的多样性。

Claims

1.动漫作品封面图提取方法，其特征在于，包括：

S2、根据指定角色对应的动漫作品，在存储的已训练的动漫人物识别模型库中查找并读入该动漫作品中人物的深度神经网络模型；

S8、选取设定数量信任度最高的图片帧，并截取图片帧中最小代价值对应的滑窗框作为封面备选图；

采用像素空间域的二维滑动窗口算法选择每帧图片帧中最小代价值的滑窗框输出进一步包括：

S61、初始化滑窗框的初始行中点索引r＝s/2+1，初始列中点索引c＝s/2+1，行、列索引的滑动步长为dr＝dc＝s，其中，s为基准步长；

S62、根据基准步长s、行中点索引r及列中点索引c框出图片帧上的当前滑窗框，当前滑窗框左上角坐标x_head为((c-s*ω/2),(r-s/2))，宽w_head为(s*ω)，高为s，ω为输出封面图的宽高比；

S63、根据当前滑窗框的坐标、宽和高，计算当前滑窗框与角色头部框的重合面积，并判断重合面积是否大于头部框总面积的90％，若大于，则进入步骤S64，否则进入步骤S66；

S64、采用代价函数计算当前滑窗框的代价值；

S68、判断s是否大于图片帧的高或s*ω是否大于图片帧的宽，若其中任一大于，则输出当前图片帧存储的最小代价值对应的滑窗框，否则更新s＝s*β，β为步长拓展因子，返回步骤S61；

采用代价函数计算当前滑窗框的代价值包括：

计算角色头部左右居中的代价值cost_width：

cost_width＝abs(c-(x_head+w_head/2))/s/ω

计算角色头部上下位置接近1/3位置的代价值cost_height：

cost_height＝abs(r-(y_head+h_head/2)/s-0.33)

计算角色头部大小适中的代价值cost_size：

cost_size＝abs(S_head/S_window-0.5)

其中，S_head和S_window分别为角色头部框与当前滑窗的面积；

根据角色头部的三个代价值，计算当前滑窗框的代价值：

cost＝cost_width+cost_height+cost_size。

2.根据权利要求1所述的动漫作品封面图提取方法，其特征在于，采用图片帧中头部、身体的置信度判断图片帧中是否检测到指定角色进一步包括：

当一帧图片帧中同时检测出指定角色的头部和完整的身体，且两者的重合区域大于头部框面积的90％，则图片帧中检测到指定角色；

3.根据权利要求2所述的动漫作品封面图提取方法，其特征在于，指定角色的头部和完整的身体重合区域的计算公式为：

x_overlap＝min(x_head+w_head,x_body+w_body)-max(x_head,x_body)

y_overlap＝min(y_head+h_head,y_body+h_body)-max(y_head,y_body)

4.根据权利要求2所述的动漫作品封面图提取方法，其特征在于，在步骤S5和步骤S6中还包括剔除场景重复的图片帧：

5.根据权利要求4所述的动漫作品封面图提取方法，其特征在于，所述时域滑窗检测均衡公式为：

其中，N为抽取的总帧数，n为当前图片帧的帧号，M_n+i为第n+i帧检出指定角色的原始角色检测置信度，k为时域滑窗窗口大小，α为滑动窗口内邻近帧的衰减因子；M_{n_filtered}为均衡置信度。

6.根据权利要求1-5任一所述的动漫作品封面图提取方法，其特征在于，所述图片帧中角色的头部和身体检测情况包括同时检测出指定角色的头部和身体及仅检测出指定角色的头部；

7.根据权利要求6所述的动漫作品封面图提取方法，其特征在于，采用滑窗算法计算每帧图片帧的信任度W的算公式为：

其中，Mⁱ为人物识别模型图片帧i的角色检测置信度，

为第i帧图片帧存储的最小代价值。