CN111325699A - 图像修复方法和图像修复模型的训练方法 - Google Patents
图像修复方法和图像修复模型的训练方法 Download PDFInfo
- Publication number
- CN111325699A CN111325699A CN202010199775.1A CN202010199775A CN111325699A CN 111325699 A CN111325699 A CN 111325699A CN 202010199775 A CN202010199775 A CN 202010199775A CN 111325699 A CN111325699 A CN 111325699A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- model
- initial
- candidate region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 318
- 238000000034 method Methods 0.000 title claims abstract description 167
- 238000000605 extraction Methods 0.000 claims description 246
- 230000008439 repair process Effects 0.000 claims description 83
- 238000012545 processing Methods 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 84
- 230000000694 effects Effects 0.000 abstract description 17
- 230000006870 function Effects 0.000 description 132
- 238000005516 engineering process Methods 0.000 description 21
- 230000015654 memory Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 14
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了图像修复方法和图像修复模型的训练方法。方法包括:获取待修复的第一目标图像;提取第一目标图像的目标图像特征;基于目标图像特征,获取目标候选区域信息和目标基准图,目标基准图携带第一目标图像的模式信息;基于目标候选区域信息和目标基准图,对第一目标图像进行修复,得到第一目标图像对应的目标修复图像。在图像修复的过程中,增加对图像的模式信息的考虑,考虑的方面较全面,有利于提高图像修复的修复效果,修复后的图像更加自然。
Description
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种图像修复方法和图像修复模型的训练方法。
背景技术
作为图像处理技术的一种,图像修复技术旨在根据图像上下文对图像丢失或遮挡部分进行修复,图像修复任务要求修复后的图像整体尽可能自然并与原图尽可能地接近。通过图像修复技术,可以去除图像中的一些噪声、划痕、缺失以及遮挡,提高图像质量。
随着人工智能技术的不断发展,图像修复任务已经成为计算机视觉领域的研究重点之一。通常的图像修复过程为:利用待修复的样本图像和标准修复图像训练一个端到端的神经网络模型,该神经网络模型先提取图像的待修复区域周围的信息,然后根据待修复区域周围的信息对图像的待修复区域中的前景物体和背景同时进行修复。在上述图像修复过程中,仅仅考虑待修复区域周围的信息,考虑的方面较局限,修复效果不佳,修复后的图像质量较差。
发明内容
本申请实施例提供了一种图像修复方法和图像修复模型的训练方法,可用于提高图像修复的修复效果。所述技术方案如下:
一方面,本申请实施例提供了一种图像修复方法,所述方法包括:
获取待修复的第一目标图像;
提取所述第一目标图像的目标图像特征;
基于所述目标图像特征,获取目标候选区域信息和目标基准图,所述目标基准图携带所述第一目标图像的模式信息;
基于所述目标候选区域信息和所述目标基准图,对所述第一目标图像进行修复,得到所述第一目标图像对应的目标修复图像。
还提供一种图像修复模型的训练方法,所述方法包括:
获取第一训练集和第二训练集,所述第一训练集包括无需修复的第一样本图像、所述第一样本图像的第一分类标签和第一边界框标签,所述第二训练集包括待修复的第二样本图像和所述第二样本图像对应的标准修复图像;
利用所述第一训练集中的第一样本图像、第一分类标签和第一边界框标签,对初始特征提取模型进行训练,得到目标特征提取模型;
利用所述第二训练集中的第二样本图像、标准修复图像和所述目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型和初始修复模型进行训练,得到目标候选区域提取模型、目标基准图获取模型和目标修复模型;所述目标候选区域提取模型用于提取候选区域信息,所述目标基准图获取模型用于获取携带图像的模式信息的基准图,所述目标修复模型用于基于模式信息修复图像。
另一方面,提供了一种图像修复装置,所述装置包括:
第一获取单元,用于获取待修复的第一目标图像;
提取单元,用于提取所述第一目标图像的目标图像特征;
第二获取单元,用于基于所述目标图像特征,获取目标候选区域信息和目标基准图,所述目标基准图携带所述第一目标图像的模式信息;
修复单元,用于基于所述目标候选区域信息和所述目标基准图,对所述第一目标图像进行修复,得到所述第一目标图像对应的目标修复图像。
在一种可能实现方式中,所述修复单元,用于基于所述目标候选区域信息和所述目标基准图,获取目标分类结果和目标边界框信息;基于类别和通用特征的目标对应关系,获取所述目标分类结果中的目标类别对应的目标通用特征,所述目标分类结果中的目标类别为所述第一目标图像的待修复区域中的前景物体对应的类别;基于所述目标基准图和所述目标通用特征,获取第一修复图像;基于所述第一目标图像和所述目标边界框信息,获取第二修复图像;将所述第一修复图像和所述第二修复图像进行拼接处理,得到所述第一目标图像对应的目标修复图像。
在一种可能实现方式中,所述提取单元,用于将所述第一目标图像输入目标特征提取模型,得到目标图像特征;
所述第二获取单元,用于将所述目标图像特征输入目标候选区域提取模型,得到目标候选区域信息;将所述目标图像特征输入目标基准图获取模型,得到目标基准图;
所述修复单元,用于将所述目标候选区域信息和所述目标基准图输入目标修复模型,得到所述第一目标图像对应的目标修复图像。
还提供了一种图像修复模型的训练装置,所述装置包括:
获取单元,用于获取第一训练集和第二训练集,所述第一训练集包括无需修复的第一样本图像、所述第一样本图像的第一分类标签和第一边界框标签,所述第二训练集包括待修复的第二样本图像和所述第二样本图像对应的标准修复图像;
第一训练单元,用于利用所述第一训练集中的第一样本图像、第一分类标签和第一边界框标签,对初始特征提取模型进行训练,得到目标特征提取模型;
第二训练单元,用于利用所述第二训练集中的第二样本图像、标准修复图像和所述目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型和初始修复模型进行训练,得到目标候选区域提取模型、目标基准图获取模型和目标修复模型;所述目标候选区域提取模型用于提取候选区域信息,所述目标基准图获取模型用于获取携带图像的模式信息的基准图,所述目标修复模型用于基于模式信息修复图像。
在一种可能实现方式中,所述初始修复模型包括初始分类预测模型、初始边界框预测模型、初始生成式对抗网络模型和初始背景修复模型;
所述第二训练单元,用于利用所述第二训练集中的第二样本图像、标准修复图像和所述目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型、初始分类预测模型、初始边界框预测模型、初始生成式对抗网络模型和初始背景修复模型进行训练,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型、目标边界框预测模型、目标生成式对抗网络模型和目标背景修复模型,所述目标生成式对抗网络模型用于根据图像的模式信息修复图像的待修复区域中的前景物体,所述目标背景修复模型用于修复图像的待修复区域中的背景。
在一种可能实现方式中,所述第一训练单元,用于将所述第一训练集中的第一样本图像输入所述初始特征提取模型,得到第一图像特征;将所述第一图像特征输入第一候选区域提取模型,得到第一候选区域信息;将所述第一候选区域信息输入第一分类预测模型,得到第一分类结果;将所述第一候选区域信息输入第一边界框预测模型,得到第一边界框信息;利用所述第一边界框信息和所述第一图像特征,获取所述第一分类结果中的类别对应的通用特征,记录所述第一分类结果中的类别和通用特征的临时对应关系;基于所述第一分类结果和所述第一分类标签计算第一分类损失函数;基于所述第一边界框信息和所述第一边界框标签计算第一回归损失函数;利用所述第一分类损失函数和所述第一回归损失函数更新所述初始特征提取模型、所述第一候选区域提取模型、所述第一分类预测模型和所述第一边界框预测模型的参数;迭代执行上述步骤,直至满足第一终止条件,得到目标特征提取模型、第二候选区域提取模型、第二分类预测模型、第二边界框预测模型,以及类别和通用特征的目标对应关系,所述类别和通用特征的目标对应关系基于所述第一分类结果中的类别和通用特征的临时对应关系得到。
在一种可能实现方式中,所述第一训练单元,还用于基于所述第一边界框信息指示的类别所在位置,在所述第一图像特征中提取所述第一分类结果中的类别对应的图像特征;对所述第一分类结果中的类别对应的图像特征进行全局平均池化处理,得到所述第一分类结果中的类别对应的通用特征。
在一种可能实现方式中,所述装置还包括:
确定单元,用于将所述第二候选区域提取模型作为初始候选区域提取模型,将所述第二分类预测模型作为初始分类预测模型,将所述第二边界框预测模型作为初始边界框预测模型。
在一种可能实现方式中,所述第二训练单元,包括:
划分子单元,用于从第二训练集中划分出第一训练子集和第二训练子集,将所述第一训练子集中的第二样本图像作为第三样本图像,将所述第二训练子集中的第二样本图像作为第四样本图像;获取所述第一训练子集中的第三样本图像对应的标准修复图像的第二分类标签和第二边界框标签;
第一训练子单元,用于利用所述第一训练子集中的第三样本图像、标准修复图像的第二分类标签、第二边界框标签和所述目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型、初始分类预测模型和初始边界框预测模型进行训练,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型;
第二训练子单元,用于利用所述第二训练子集中的第四样本图像、标准修复图像、所述目标特征提取模型、所述目标候选区域提取模型、所述目标基准图获取模型、所述目标分类预测模型和所述目标边界框预测模型,对初始生成式对抗网络模型和初始背景修复模型进行训练,得到目标生成式对抗网络模型和目标背景修复模型。
在一种可能实现方式中,所述第一训练子单元,用于将所述第一训练子集中的第三样本图像输入所述目标特征提取模型,得到第二图像特征;将所述第二图像特征输入所述初始候选区域提取模型,得到第二候选区域信息;将所述第二图像特征输入所述初始基准图获取模型,得到第一基准图,所述第一基准图携带所述第三样本图像的模式信息;将所述第二候选区域信息和所述第一基准图输入所述初始分类预测模型,得到第二分类结果;将所述第二候选区域信息和所述第一基准图输入所述初始边界框预测模型,得到第二边界框信息;基于所述第二分类结果和所述第二分类标签计算第二分类损失函数;基于所述第二边界框信息和所述第二边界框标签计算第二回归损失函数;利用所述第二分类损失函数和所述第二回归损失函数更新所述初始候选区域提取模型、所述初始基准图获取模型、所述初始分类预测模型和所述初始边界框预测模型的参数;迭代执行上述步骤,直至满足第二终止条件,得到所述目标候选区域提取模型、所述目标基准图获取模型、所述目标分类预测模型和所述目标边界框预测模型。
在一种可能实现方式中,所述第二训练子单元,用于将所述第二训练子集中的第四样本图像输入所述目标特征提取模型,得到第三图像特征;将所述第三图像特征输入所述目标候选区域提取模型,得到第三候选区域信息;将所述第三图像特征输入所述目标基准图获取模型,得到第二基准图,所述第二基准图携带所述第四样本图像的模式信息;将所述第三候选区域信息和所述第二基准图输入所述目标分类预测模型,得到第三分类结果;将所述第三候选区域信息和所述第二基准图输入所述目标边界框预测模型,得到第三边界框信息;基于类别和通用特征的目标对应关系,获取所述第三分类结果中的目标类别对应的目标通用特征,所述第三分类结果中的目标类别为所述第四样本图像的待修复区域中的前景物体对应的类别;将所述第二基准图和所述目标通用特征输入所述初始生成式对抗网络模型,基于所述初始生成式对抗网络模型输出的图像和所述第三边界框信息,确定第一修复图像;利用初始背景修复模型对基于所述第四样本图像和所述第三边界框信息确定的图像进行修复处理,得到第二修复图像;将所述第一修复图像和所述第二修复图像进行拼接处理,得到所述第四样本图像对应的预测修复图像;利用所述预测修复图像和所述标准修复图像计算修复损失函数;利用所述第一修复图像和所述标准修复图像计算判别器损失函数;利用所述修复损失函数更新所述初始背景修复模型的参数;利用所述修复损失函数和所述判别器损失函数更新所述初始生成式对抗网络模型的参数;迭代执行上述步骤,直至满足第三终止条件,得到目标生成式对抗网络模型和目标背景修复模型。
在一种可能实现方式中,所述第二训练子单元,还用于在所述第三边界框信息中确定与所述第三分类结果中的目标类别对应的第四边界框信息;将所述初始生成式对抗网络模型输出的图像限制在所述第四边界框信息指示的位置处,得到第一修复图像。
在一种可能实现方式中,所述第二训练子单元,还用于在所述第三边界框信息中确定与所述第三分类结果中的目标类别对应的第四边界框信息;将所述第四样本图像中除所述第四边界框信息指示的位置外的其他位置的图像作为待修复图像;利用初始背景修复模型对所述待修复图像进行修复处理,得到第二修复图像。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现上述任一所述的图像修复方法,或者上述任一所述的图像修复模型的训练方法。
另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一所述的图像修复方法,或者上述任一所述的图像修复模型的训练方法。
本申请实施例提供的技术方案至少带来如下有益效果:
在图像修复模型的训练过程中,增加对基准图获取模型的训练,该基准图获取模型用于获取携带图像的模式信息的基准图,在此基础上,训练用于修复图像的修复模型,训练得到的模型的修复效果较好。在图像修复的过程中,增加对图像的模式信息的考虑,考虑的方面较全面,有利于提高图像修复的修复效果,修复后的图像更加自然。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种图像修复模型的训练方法的流程图;
图3是本申请实施例提供的一种利用第一训练集进行模型训练的方法的流程图;
图4是本申请实施例提供的一种利用第一训练集进行模型训练的过程示意图;
图5是本申请实施例提供的一种利用第一训练子集进行模型训练的方法的流程图;
图6是本申请实施例提供的一种利用第一训练子集进行模型训练的过程示意图;
图7是本申请实施例提供的一种利用第二训练子集进行模型训练的方法的流程图;
图8是本申请实施例提供的一种利用第二训练子集进行模型训练的过程示意图;
图9是本申请实施例提供的一种整个图像修复模型训练过程的示意图;
图10是本申请实施例提供的一种图像修复方法的流程图;
图11是本申请实施例提供的一种第一目标图像和目标修复图像的示意图;
图12是本申请实施例提供的一种第一目标图像和目标修复图像的示意图;
图13是本申请实施例提供的一种图像修复模型的训练装置的示意图;
图14是本申请实施例提供的一种图像修复模型的训练装置的示意图;
图15是本申请实施例提供的一种第二训练单元的结构示意图;
图16是本申请实施例提供的一种图像修复装置的示意图;
图17是本申请实施例提供的一种服务器的结构示意图;
图18是本申请实施例提供的一种终端的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案涉及人工智能的计算机视觉技术。计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像修复、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3-Dimension,三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
作为图像处理技术的一种,图像修复技术旨在根据图像上下文对图像丢失或遮挡部分进行修复,图像修复任务要求修复后的图像整体尽可能自然并与原图尽可能地接近。通过图像修复技术,可以去除图像中的一些噪声、划痕、缺失以及遮挡,提高图像质量。
对此,本申请实施例提供了一种图像修复模型的训练方法和一种图像修复方法,请参考图1,其示出了本申请实施例提供的方法实施环境的示意图。该实施环境可以包括:终端11和服务器12。
其中,终端11和服务器12均可以利用本申请实施例提供的方法训练用于图像修复的模型,本申请实施例对此不加以限定。终端11可以获取待修复的第一目标图像,然后利用终端11或者服务器12训练得到的模型对第一目标图像进行修复,得到第一目标图像对应的目标修复图像。当然,终端11也可以将获取的第一目标图像发送至服务器12,服务器12利用终端11或者服务器12训练得到的模型对第一目标图像进行修复,得到第一目标图像对应的目标修复图像,然后服务器12可以将目标修复图像发送至终端11。
在一种可能实现方式中,终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、PPC(Pocket PC,掌上电脑)、平板电脑、智能车机、智能电视、智能音箱等。服务器12可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。
本领域技术人员应能理解上述终端11和服务器12仅为举例,其他现有的或今后可能出现的终端或服务器如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
基于上述图1所示的实施环境,本申请实施例提供一种图像修复模型的训练方法,以该方法应用于服务器为例。如图2所示,本申请实施例提供的方法可以包括如下步骤:
在步骤201中,获取第一训练集和第二训练集。
其中,第一训练集包括无需修复的第一样本图像、第一样本图像的第一分类标签和第一边界框标签,第二训练集包括待修复的第二样本图像和第二样本图像对应的标准修复图像。
第一训练集由无需修复的样本图像构成,服务器可以从无需修复的图像中随机选择第一参考数量的图像作为第一样本图像,从而构成第一训练集。第一参考数量可以根据经验设置,也可以根据应用场景灵活调整,本申请实施例对此不加以限定。
第一训练集中的每张第一样本图像均具有第一分类标签和第一边界框标签,以便于监督训练。第一分类标签是指第一样本图像的真实的分类结果,用于指示第一样本图像中的前景物体的真实类别;第一边界框标签是指第一样本图像的真实的边界框的信息,用于指示各个类别的前景物体在第一样本图像中所处的真实位置。在一种可能实现方式中,第一边界框标签可以用四个数值(x1,y1,a1,b1)表示,其中(x1,y1)表示边界框的某一特定点的坐标,a1和b1分别表示边界框的长度和宽度。需要说明的是,特定点可以根据经验设定,例如,特定点可以是指边界框的左上角,也可以是指边界框的中心点等。
第二训练集由待修复的样本图像构成。待修复的样本图像是指需要进行修复的图像。本申请实施例对图像需要进行修复的情况不加以限定。在一种可能实现方式中,图像需要进行修复的情况包括但不限于:图像中存在缺失、图像中存在遮挡物、图像中存在噪声等。
在第二训练集中,除包括待修复的第二样本图像外,还包括每个待修复的第二样本图像对应的标准修复图像。根据图像需要进行修复的情况,第二样本图像对应的标准修复图像也有所不同。示例性地,当图像需要进行修复的情况为图像中存在缺失时,第二样本图像对应的标准修复图像为将缺失补全后的图像;当图像需要进行修复的情况为图像中存在遮挡物时,第二样本图像对应的标准修复图像为去掉遮挡物后的图像;当图像需要进行修复的情况为图像中存在噪声时,第二样本图像对应的标准修复图像为去掉噪声后的图像。
在一种可能实现方式中,在构建第二训练集的过程中,可以先获取标准修复图像,然后在标准修复图像的基础上得到待修复的第二样本图像,以保证标准修复图像的有效性。示例性地,随机选取第二参考数量的无需修复的图像作为标准修复图像,对标准修复图像进行处理,得到待修复的第二样本图像。第二参考数量可以根据经验设置,也可以根据应用场景灵活调整,本申请实施例对此不加以限定。第二参考数量可以与第一参考数量相同,也可以不同。
在一种可能实现方式中,服务器对标准修复图像进行处理的方式可以包括在标准修复图像中添加遮挡物、在标准修复图像中添加空白缺失、在标准修复图像中添加噪声中的一种或多种,本申请实施例对此不加以限定。
在本申请实施例中,第一训练集主要用于提高模型的特征提取能力并且获取各个类别对应的通用特征;第二训练集主要用于提高模型的修复能力。需要说明的是,本申请实施例中可以同时获取第一训练集和第二训练集,也可以先获取第一训练集,在需要利用第二训练集进行训练之前,再获取第二训练集,本申请实施例对此不加以限定。
在步骤202中,利用第一训练集中的第一样本图像、第一分类标签和第一边界框标签,对初始特征提取模型进行训练,得到目标特征提取模型。
初始特征提取模型为待训练的特征提取模型,本申请实施例对特征提取模型的结构不加以限定,只要能够提取图像的特征即可。在一种可能实现方式中,特征提取模型可以由ResNet(Residual Network,残差网络)和FPN(Feature Pyramid Network,特征金字塔网络)构成。目标特征提取模型为训练得到的特征提取模型,具有较好的特征提取能力。类别是指图像中前景物体的类别,通用特征是指相同类别的物体共同具有的特征,类别和通用特征的目标对应关系为在训练得到目标特征提取模型的过程中最终得到的类别和通用特征之间的对应关系。
步骤202的训练过程为监督训练过程,在一种可能实现方式中,参见图3,步骤202的实现过程(即,利用第一训练集进行模型训练的方法)可以包括步骤2021至步骤2027:
步骤2021:将第一训练集中的第一样本图像输入初始特征提取模型,得到第一图像特征。
特征提取模型用于提取图像特征,将第一训练集中的第一样本图像输入初始特征提取模型后,初始特征提取模型可以输出第一样本图像对应的第一图像特征。
需要说明的是,一次训练过程中同时输入初始特征提取模型的第一样本图像的数量可以为一个,也可以为多个,本申请实施例对此不加以限定。当同时输入初始特征提取模型的第一样本图像的数量为多个时,初始特征提取模型可以输出每个第一样本图像对应的第一图像特征。
步骤2022:将第一图像特征输入第一候选区域提取模型,得到第一候选区域信息。
第一候选区域提取模型是指在利用第一训练集进行训练的过程中待训练的候选区域提取模型,候选区域提取模型用于提取图像中的候选区域信息,候选区域信息用于指示需要重点关注的候选区域。本申请实施例对候选区域提取模型的结构不加以限定,只要能够在图像特征中提取出候选区域信息即可。在一种可能实现方式中,第一候选区域提取模型可以为RPN(RegionProposalNetwork,区域候选网络)。
将第一图像特征输入第一候选区域提取模型后,第一候选区域提取模型输出第一样本图像对应的第一候选区域信息。该第一候选区域信息用于指示第一样本图像中需要重点关注的候选区域。在一种可能实现方式中,第一候选区域信息可以用一个或多个带有标记的候选框表示,候选框的标记可以指示该候选框中的物体是某类别的概率。
需要说明的是,当一次训练过程中的第一样本图像的数量为多个时,第一候选区域提取模型可以输出每个第一样本图像对应的第一候选区域信息。
步骤2023:将第一候选区域信息输入第一分类预测模型,得到第一分类结果;将第一候选区域信息输入第一边界框预测模型,得到第一边界框信息。
第一分类预测模型是指在利用第一训练集进行训练的过程中待训练的分类预测模型,第一边界框预测模型是指在利用第一训练集进行训练的过程中待训练的边界框预测模型。本申请实施例对第一分类预测模型和第一边界框预测模型的结构不加以限定,只要能够根据候选区域信息得到分类结果和边界框信息即可。
将第一候选区域信息输入第一分类预测模型,第一分类预测模型输出第一样本图像对应的第一分类结果。该第一分类结果为对第一候选区域信息进行类别分析后得到的用于指示候选区域中的物体对应的类别的结果。
将第一候选区域信息输入第一边界框预测模型,第一边界框预测模型输出第一样本图像对应的第一边界框信息。该第一边界框信息为对第一候选区域信息进行回归分析后得到的用于指示各个类别对应的边界框的信息。第一边界框信息中可以用包括四个数值的数组表示边界框,每个包括四个数值的数组均唯一定位一个边界框。在一个包括四个数值的数组(x2,y2,a2,b2)中,(x2,y2)表示边界框的某一特定点(左上角、中间点等)的坐标,a2和b2分别表示边界框的长度和宽度。
第一分类结果和第一边界框信息结合起开即为第一样本图像中的前景物体的检测结果,该检测结果既包括前景物体的类别,又包括前景物体的位置。
需要说明的是,当一次训练过程中的第一样本图像的数量为多个时,经过步骤2023可以得到每个第一样本图像对应的第一分类结果和第一边界框信息。
步骤2024:利用第一边界框信息和第一图像特征,获取第一分类结果中的类别对应的通用特征,记录第一分类结果中的类别和通用特征的临时对应关系。
第一边界框信息用于限制第一分类结果中的各个类别在第一图像特征中的位置。可以根据第一图像特征中与第一边界框信息对应的各个位置处的图像特征获取各个类别对应的通用特征。在一种可能实现方式中,利用第一边界框信息和第一图像特征,获取第一分类结果中的类别对应的通用特征的过程可以包括以下步骤a和步骤b:
步骤a:基于第一边界框信息指示的类别所在位置,在第一图像特征中提取第一分类结果中的类别对应的图像特征。
在第一图像特征中提取第一分类结果中的类别对应的图像特征可以是指在第一图像特征中截取出第一分类结果中的类别对应的图像特征。需要说明的是,对于第一分类结果中的类别为多个的情况,第一边界框信息中包括与每个类别对应的边界框信息。根据第一边界框信息,可以在第一图像特征中截取出每个类别对应的图像特征。每个类别对应的图像特征均为第一图像特征中的部分图像特征。
步骤b:对第一分类结果中的类别对应的图像特征进行全局平均池化处理,得到第一分类结果中的类别对应的通用特征。
对第一分类结果中的类别对应的图像特征进行全局平均池化处理可以将各个类别对应的图像特征的尺寸进行统一,例如,可以将各个类别对应的图像特征的尺寸统一为1×1×C,C为通道数。此种方式可以保证各个类别对应的通用特征具有相同的尺寸,便于存储和调用。
在得到第一分类结果中的类别对应的通用特征后,可以记录第一分类结果中的类别和通用特征的临时对应关系。需要说明的是,此处的记录的为临时对应关系,该临时对应关系可以随着训练过程的进行不断更新。
当一次训练过程中的第一样本图像的数量为多个时,经过步骤2024可以记录每个第一样本图像对应的第一分类结果中的类别和通用特征的临时对应关系。
步骤2025:基于第一分类结果和第一分类标签计算第一分类损失函数;基于第一边界框信息和第一边界框标签计算第一回归损失函数。
第一分类结果为预测的分类结果,第一分类标签为真实的分类结果,根据第一分类结果和第一分类标签之间的差距可以计算得到第一分类损失函数。第一边界框信息为预测的边界框的信息,第一边界框标签为真实的边界框的信息,根据第一边界框信息和第一边界框标签之间的差距可以计算得到第一回归损失函数。本申请实施例对损失函数的计算方式不加以限定,例如,可以计算交叉熵损失函数等。
需要说明的是,当一次训练过程中的第一样本图像的数量为多个时,经过步骤2025可以计算每个第一样本图像对应的第一分类损失函数和第一回归损失函数。
步骤2026:利用第一分类损失函数和第一回归损失函数更新初始特征提取模型、第一候选区域提取模型、第一分类预测模型和第一边界框预测模型的参数。
在得到第一分类损失函数和第一回归损失函数后,进行反向传播,更新初始特征提取模型、第一候选区域提取模型、第一分类预测模型和第一边界框预测模型的参数。
需要说明的是,当一次训练过程中的第一样本图像的数量为多个时,可以根据各个第一样本图像对应的第一分类损失函数计算平均分类损失函数,根据各个第一样本图像对应的第一回归损失函数计算平均回归损失函数,然后根据平均分类损失函数和平均回归损失函数更新初始特征提取模型、第一候选区域提取模型、第一分类预测模型和第一边界框预测模型的参数。
步骤2027:迭代执行上述步骤2021至步骤2026,直至满足第一终止条件,得到目标特征提取模型、第二候选区域提取模型、第二分类预测模型、第二边界框预测模型,以及类别和通用特征的目标对应关系。
其中,类别和通用特征的目标对应关系基于第一分类结果中的类别和通用特征的临时对应关系得到。
目标特征提取模型、第二候选区域提取模型、第二分类预测模型和第二边界框预测模型分别为利用第一训练集训练得到的具有良好性能的特征提取模型、候选区域提取模型、分类预测模型和边界框预测模型。类别和通用特征的目标对应关系为利用第一训练集训练得到的最终对应关系。接下来,分别介绍得到目标特征提取模型、第二候选区域提取模型、第二分类预测模型和第二边界框预测模型的过程,以及得到类别和通用特征的目标对应关系的过程。
首先介绍得到目标特征提取模型、第二候选区域提取模型、第二分类预测模型和第二边界框预测模型的过程:
根据第一分类损失函数和第一回归损失函数更新模型参数的过程为迭代过程,每训练一次,判断是否满足第一终止条件。若不满足第一终止条件,则迭代执行上述步骤2021至步骤2026,直至满足第一终止条件,得到目标特征提取模型、第二候选区域提取模型、第二分类预测模型和第二边界框预测模型。
然后介绍得到类别和通用特征的目标对应关系的过程:
在记录第一分类结果中的类别和通用特征的临时对应关系后,随着训练过程的进行,服务器可以对第一分类结果中的类别和通用特征的临时对应关系进行更新,直至满足第一终止条件,得到类别和通用特征的目标对应关系。在一种可能实现方式中,服务器对第一分类结果中的类别和通用特征的临时对应关系进行更新的方式包括但不限于以下两种:
方式一:当第一样本图像对应的第一分类损失函数和第一回归损失函数不满足参考条件时,将该第一样本图像对应的第一分类结果中的类别和通用特征的临时对应关系删除;当第一样本图像对应的第一分类损失函数和第一回归损失函数满足参考条件时,保留该第一样本图像对应的第一分类结果中的类别和通用特征的临时对应关系,若后续迭代过程出现相同的类别对应的通用特征,则用后出现的通用特征替换之前的通用特征,得到类别和通用特征的更新对应关系。
满足参考条件可以是指第一分类损失函数和第一回归损失函数中的至少一个损失函数小于第一损失阈值。需要说明的是,不同的损失函数可以对应不同的第一损失阈值,本申请实施例对此不加以限定。
此种方式一,当训练达到一定精度时,再保留类别和通用特征的临时对应关系。此外,用后出现的通用特征直接替换之前的相同类别对应的通用特征,有利于减少计算量,节省存储空间。
方式二:无论第一分类损失函数和第一回归损失函数是否满足参考条件,均保留类别和通用特征的临时对应关系,当后续迭代过程出现相同的类别对应的通用特征时,计算后出现的通用特征和之前的通用特征的加权通用特征,用加权通用特征替换之前的通用特征,得到类别和通用特征的更新对应关系。
需要说明的是,在利用方式二计算后出现的通用特征和之前的通用特征的加权通用特征的过程中,为后出现的通用特征设置较大的权重,为之前的通用特征设置较小的权重。
在利用方式二对类别和通用特征的临时对应关系进行更新的过程中,融合某一类别对应的多个通用特征得到该类别最终对应的通用特征,通用特征的可靠性较高,有利于提高类别和通用特征的目标对应关系的可靠性。
在一种可能实现方式中,可以将类别和通用特征的目标对应关系存储在LUT(LookUp Table,查阅表格)中,以便于后续的访问和调用。
在一种可能实现方式中,满足第一终止条件包括但不限于以下三种情况:
情况1、迭代训练次数达到第一次数阈值。
第一次数阈值可以根据经验设置,也可以根据应用场景灵活调整,本申请实施例对此不加以限定。
情况2、第一分类损失函数和第一回归损失函数均小于第二损失阈值。
需要说明的是,不同的损失函数可以对应相同的第二损失阈值,也可对应不同的第二损失阈值,本申请实施例对此不加以限定。也就是说,第一分类损失函数和第一回归损失函数可以对应相同的第二损失阈值,也可以对应不同的第二损失阈值。
情况3、第一分类损失函数和第一回归损失函数均收敛。
损失函数收敛是指随着迭代训练次数的增加,在参考次数的训练结果中,损失函数的波动范围在参考范围内。例如,假设参考范围为-10-3~10-3,假设参考次数为10次。若损失函数在10次的迭代训练结果中波动范围均在-10-3~10-3内,则认为损失函数收敛。
需要说明的是,不同的损失函数可以对应相同的参考范围,也可对应不同的参考范围,本申请实施例对此不加以限定。也就是说,第一分类损失函数和第一回归损失函数可以对应相同的参考范围,也可以对应不同的参考范围。
当满足上述任一种情况时,说明满足第一终止条件,得到目标特征提取模型、第二候选区域提取模型、第二分类预测模型、第二边界框预测模型以及类别和通用特征的目标对应关系。
利用第一训练集进行模型训练的过程可以如图4所示,将无需修复的第一样本图像401输入初始特征提取模型402,得到第一图像特征;将第一图像特征输入第一候选区域提取模型403,得到第一候选区域信息;将第一候选区域信息分别输入第一分类预测模型404和第一边界框预测模型405,得到第一分类结果和第一边界框信息;根据第一分类结果和第一分类标签之间的第一分类损失函数,以及第一边界框信息和第一边界框标签之间的第一回归损失函数反向更新模型参数,直至得到目标特征提取模型、第二候选区域提取模型、第二分类预测模型和第二边界框预测模型。此外,将训练过程中根据第一边界框信息、第一分类结果和第一图像特征得到的类别和通用特征的目标对应关系存储在LUT406中。
经过步骤202的训练过程后,可以得到具有较好的特征提取能力的目标特征提取模型,并且得到具有一定分类和定位能力的第二候选区域提取模型、第二分类预测模型和第二边界框预测模型。此外,还得到类别和通用特征的目标对应关系,便于在后续训练过程中的访问和调用。
在一种可能实现方式中,在得到目标特征提取模型、第二候选区域提取模型、第二分类预测模型、第二边界框预测模型,以及类别和通用特征的目标对应关系之后,还包括:将第二候选区域提取模型作为初始候选区域提取模型,将第二分类预测模型作为初始分类预测模型,将第二边界框预测模型作为初始边界框预测模型。然后将得到的初始候选区域提取模型、初始分类预测模型和初始边界框预测模型应用在后续的训练过程中。
在步骤203中,利用第二训练集中的第二样本图像、标准修复图像和目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型和初始修复模型进行训练,得到目标候选区域提取模型、目标基准图获取模型和目标修复模型。
其中,目标候选区域提取模型用于提取候选区域信息,目标基准图获取模型用于获取携带图像的模式信息的基准图,目标修复模型用于基于模式信息修复图像。
目标特征提取模型为步骤202中训练得到的具有良好特征提取能力的模型,在步骤203的模型训练过程中,直接利用目标特征提取模型对其他模型进行训练,目标特征提取模型的参数保持不变,一方面可以减少需要更新的参数的数量,另一方面可以便于直接调用目标特征提取模型的训练过程中得到的类别和通用特征的目标对应关系。
初始候选区域提取模型、初始基准图获取模型和初始修复模型为需要利用由待修复的第二样本图像构成的第二训练集进行训练的模型。
在一种可能实现方式中,初始修复模型包括初始分类预测模型、初始边界框预测模型、初始生成式对抗网络模型和初始背景修复模型。此种情况下,步骤203的实现过程为:利用第二训练集中的第二样本图像、标准修复图像和目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型、初始分类预测模型、初始边界框预测模型、初始生成式对抗网络模型和初始背景修复模型进行训练,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型、目标边界框预测模型、目标生成式对抗网络模型和目标背景修复模型,目标生成式对抗网络模型用于根据图像的模式信息修复图像的待修复区域中的前景物体,目标背景修复模型用于修复图像的待修复区域中的背景。
在一种可能实现方式中,初始候选区域提取模型为步骤202中训练得到的第二候选区域提取模型,初始分类预测模型为步骤202中训练得到的第二分类预测模型,初始边界框预测模型为步骤202中训练得到的第二边界框预测模型。在此种情况下,利用第二训练集对初始候选区域提取模型、初始分类预测模型和初始边界框预测模型进行训练的过程,相当于是对步骤202中得到的第二候选区域提取模型、第二分类预测模型和第二边界框预测模型进行fine tune(微调)的过程,有利于较少训练次数。在对第二候选区域提取模型、第二分类预测模型和第二边界框预测模型进行fine tune的过程中,可以利用损失函数更新全部的参数,也可以仅更新部分参数,本申请实施例对此不加以限定。
当然,初始候选区域提取模型、初始分类预测模型和初始边界框预测模型也可以为需要重新训练的模型,本申请实施例对此不加以限定。
需要说明的是,由于利用第一训练集进行训练的过程中未涉及对基准图获取模型、生成式对抗网络模型和背景修复模型的训练,所以初始基准图获取模型、初始生成式对抗网络模型和初始背景修复模型均为需要利用第二训练集重新训练的模型。
在一种可能实现方式中,步骤203的实现过程可以包括步骤203A至步骤203C:
步骤203A:从第二训练集中划分出第一训练子集和第二训练子集,将第一训练子集中的第二样本图像作为第三样本图像,将第二训练子集中的第二样本图像作为第四样本图像;获取第一训练子集中的第三样本图像对应的标准修复图像的第二分类标签和第二边界框标签。
第二训练集为待修复的图像构成的训练集,可以从第二训练集中划分出多个训练子集,用于不同的训练过程。在本申请实施例中,从第二训练集中划分出第一训练子集和第二训练子集。需要说明的是,本申请实施例对划分方式不加以限定,第一训练子集和第二训练子集中可以包括完全不同的第二样本图像,也可以包括部分相同或完全相同的第二样本图像。
将第一训练子集中的第二样本图像作为第三样本图像,将第二训练子集中的第二样本图像作为第四样本图像。由于第一训练子集和第二训练子集均是从第二训练集中划分出来的,所以第一训练子集中包括第三样本图像对应的标准修复图像,第二训练子集中包括第四样本图像对应的标准修复图像。
在划分得到第一训练子集后,可以获取第一训练子集中的第三样本图像对应的标准修复图像的第二分类标签和第二边界框标签。该第二分类标签和第二边界框标签可以由专业人员进行标注得到,用于表示标准修复图像中的前景物体的分类结果和边界框信息。
步骤203B:利用第一训练子集中的第三样本图像、标准修复图像的第二分类标签、第二边界框标签和目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型、初始分类预测模型和初始边界框预测模型进行训练,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型。
基准图获取模型用于获取携带图像的模式信息的基准图,图像的模式信息用于指示前景物体在图像中出现的规律。基准图获取模型可以对输入的图像特征进行分析,输出图像特征对应的基准图,在基准图中显示无需修复区域的各个像素点对应的概率值,任一像素点对应的概率值用于指示该像素点的特征应该出现在待修复区域的概率。通过考虑图像的模式信息,有利于提高候选图像修复的修复效果。
在一种可能实现方式中,参见图5,步骤203B的实现过程(即,利用第一训练子集进行模型训练的方法)可以包括以下步骤203B1至步骤203B6:
步骤203B1:将第一训练子集中的第三样本图像输入目标特征提取模型,得到第二图像特征。
目标特征提取模型具有良好的特征提取能力,将第三样本图像输入目标特征提取模型,目标提取模型可以输出第三样本图像对应的第二图像特征。
需要说明的是,由于第三样本图像为待修复的图像,所以第二图像特征为待修复图像的图像特征。
步骤203B2:将第二图像特征输入初始候选区域提取模型,得到第二候选区域信息;将第二图像特征输入初始基准图获取模型,得到第一基准图,第一基准图携带第三样本图像的模式信息。
第二候选区域信息用于指示第二图像特征中需要关注的候选区域。初始基准图获取模型为待训练的基准图获取模型,用于激励模式信息的学习,本申请实施例对初始基准图获取模型的结构不加以限定,只要能够从图像特征中获取携带模式信息的基准图即可。
将第二图像特征输入初始基准图获取模型,初始基准图输出第一基准图,第一基准图携带第三样本图像的模式信息。模式信息是指第三样本图像中各个前景物体存在的规律。例如,一张带有窗户的楼房的图像,模式信息可以是指图像中窗户存在的规律。
步骤203B3:将第二候选区域信息和第一基准图输入初始分类预测模型,得到第二分类结果;将第二候选区域信息和第一基准图输入初始边界框预测模型,得到第二边界框信息。
第二分类结果和第二边界框预测模型均为在考虑第一基准图携带模式信息的基础上得到的,有利于提高预测待修复区域中的前景物体的类别和边界框信息的能力。
步骤203B4:基于第二分类结果和第二分类标签计算第二分类损失函数;基于第二边界框信息和第二边界框标签计算第二回归损失函数。
第二分类结果和第二边界框信息为预测的修复图像中的前景物体的分类结果和边界框信息;第二分类标签和第二边界框标签为标准修复图像中的前景物体的分类结果和边界框信息。根据第二分类结果和第二分类标签之间的差距可以计算得到第二分类损失函数,根据第二边界框信息和第二边界框标签之间的差距可以计算得到第二回归损失函数。本申请实施例对损失函数的计算方式不加以限定,例如,可以计算交叉熵损失函数等。
步骤203B5:利用第二分类损失函数和第二回归损失函数更新初始候选区域提取模型、初始基准图获取模型、初始分类预测模型和初始边界框预测模型的参数。
在得到第二分类损失函数和第二回归损失函数后,进行反向传播,更新初始候选区域提取模型、初始基准图获取模型、初始分类预测模型和初始边界框预测模型的参数。
步骤203B6:迭代执行上述步骤203B1至步骤203B5,直至满足第二终止条件,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型。
目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型分别为利用第一训练子集训练得到的具有良好性能的候选区域提取模型、基准图获取模型、分类预测模型和边界框预测模型。
根据第二分类损失函数和第二回归损失函数更新模型参数的过程为迭代过程,每训练一次,判断是否满足第二终止条件。若不满足第二终止条件,则迭代执行上述步骤203B1至步骤203B5,直至满足第二终止条件,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型。
在一种可能实现方式中,满足第二终止条件包括但不限于以下三种情况:1、迭代训练次数达到第二次数阈值;2、第二分类损失函数和第二回归损失函数均小于第三损失阈值;3、第二分类损失函数和第二回归损失函数均收敛。第二次数阈值和第三损失阈值均可以根据经验设置,第二分类损失函数和第二回归损失函数可以对应相同的第三损失阈值,也可以对应不同的第三损失阈值。当满足上述任一种情况时,说明满足第二终止条件。
利用第一训练子集进行模型训练的过程可以如图6所示,将待修复的第三样本图像601输入参数保持不变的目标特征提取模型602,得到第二图像特征;将第二图像特征输入初始候选区域提取模型603,得到第二候选区域信息;将第二图像特征输入初始基准图获取模型604,得到第一基准图;将第二候选区域信息和第一基准图输入初始分类预测模型605,得到第二分类结果;将第二候选区域信息和第一基准图输入初始边界框预测模型606,得到第二边界框信息;根据第二分类结果和第二分类标签之间的第二分类损失函数,以及第二边界框信息和第二边界框标签之间的第二回归损失函数反向更新模型参数,直至得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型。
经过步骤203B的训练过程,可以得到能够通过考虑待修复图像的模式信息,较为准确地预测出待修复区域的前景物体的类别和位置的目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型。
步骤203C:利用第二训练子集中的第四样本图像、标准修复图像、目标特征提取模型、目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型,对初始生成式对抗网络模型和初始背景修复模型进行训练,得到目标生成式对抗网络模型和目标背景修复模型。
经过步骤202和步骤203B的训练过程后,得到的模型具有不错的特征提取能力、不错的前景物体预测能力和分类定位能力。在步骤203C中,利用之前已经训练好的目标特征提取模型、目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型,训练真正意义上进行图像修复的生成式对抗网络模型和背景修复模型。
初始生成式对抗网络模型为待训练的生成式对抗网络模型,生成式对抗网络模型用于根据图像的模式信息修复图像的待修复区域中的前景物体。本申请实施例对初始生成式对抗网络模型的结构不加以限定,示例性地,初始生成式对抗网络模型可以为GAN(Generative Adversarial Networks,生成式对抗网络),也可以为WGAN(WassersteinGAN,沃瑟斯坦生成式对抗网络),还可以为WGAN-GP(improved WGAN,提升的沃瑟斯坦生成式对抗网络)。
初始背景修复模型为待训练的背景修复模型,背景修复模型用于修复图像的待修复区域中的背景。本申请实施例对初始背景修复模型的结构不加以限定,示例性地,初始背景修复模型的结构可以为传统的编码器-解码器结构。
在一种可能实现方式中,参见图7,步骤203C的实现过程(即,利用第二训练子集进行模型训练的方法)可以包括以下步骤203C1至步骤203C9:
步骤203C1:将第二训练子集中的第四样本图像输入目标特征提取模型,得到第三图像特征。
该步骤203C1的实现过程可以参见步骤203B1,此处不再赘述。
步骤203C2:将第三图像特征输入目标候选区域提取模型,得到第三候选区域信息;将第三图像特征输入目标基准图获取模型,得到第二基准图,第二基准图携带第四样本图像的模式信息。
目标候选提取模型和目标基准图获取模型为利用第一训练子集训练得到的模型,将第三图像特征分别输入目标候选提取模型和目标基准提获取模型,得到的第三候选区域信息和第二基准图为准确性较高的候选区域信息和基准图。
步骤203C3:将第三候选区域信息和第二基准图输入目标分类预测模型,得到第三分类结果;将第三候选区域信息和第二基准图输入目标边界框预测模型,得到第三边界框信息。
目标分类预测模型和目标边界框预测模型为利用第一训练子集训练得到的模型,利用目标分类预测模型和目标边界框预测模型可以通过综合考虑第三候选区域信息和第二基准图,较为准确的预测出第四样本图像对应的修复图像的第三分类结果和第三边界框信息。
步骤203C4:基于类别和通用特征的目标对应关系,获取第三分类结果中的目标类别对应的目标通用特征,第三分类结果中的目标类别为第四样本图像的待修复区域中的前景物体对应的类别。
在得到第三分类结果和第三边界框信息后,服务器可以根据第三分类结果和第三边界框信息判断各个前景物体在第四样本图像中所处的位置,将处在第四样本图像的待修复区域中的前景物体对应的类别作为目标类别。
根据第三分类结果中的目标类别,从类别和通用特征的目标对应关系中,可以查询到第三分类结果中的目标类别对应的目标通用特征。需要说明的是,此步骤203C4中的类别和通用特征的目标对应关系可以为步骤2021至步骤2027的训练过程中得到的类别和通用特征的目标对应关系。当第三分类结果中具有多个目标类别时,根据类别和通用特征的目标对应关系,分别获取每个目标类别对应的目标通用特征。
步骤203C5:将第二基准图和目标通用特征输入初始生成式对抗网络模型,基于初始生成式对抗网络模型输出的图像和第三边界框信息,确定第一修复图像。
第二基准图携带第四样本图像的模式信息,该第二基准图中携带的模式信息可以指示待修复区域中的前景物体可能具有的特征,目标通用特征为根据分类结果确定的待修复区域中的前景物体应该具有的特征,将第二基准图和目标通用特征输入初始生成式对应网络模型,初始生成式对抗网络模型通过对第二基准图和目标通用特征的融合信息进行处理,生成一张图像并输出,该生成的图像为第四样本图像的待修复区域中的前景物体的图像。
初始生成式对抗网络模型输出的图像仅为待修复区域中的前景物体的图像,并未限制位置。第三边界框信息中包括限制目标类别的前景物体在第四样本图像中的位置的信息。在一种可能实现方式中,基于初始生成式对抗网络模型输出的图像和第三边界框信息,确定第一修复图像的过程包括:在第三边界框信息中确定与第三分类结果中的目标类别对应的第四边界框信息;将初始生成式对抗网络模型输出的图像限制在第四边界框信息指示的位置处,得到第一修复图像。
由于目标类别为第四样本图像的待修复区域中的前景物体对应的类别,所以目标类别对应的第四边界框信息用于指示待修复区域中的前景物体在待修复区域中所处的位置。将初始生成式对抗网络模型输出的图像限制在第四边界框信息指示的位置处,即可得到对第四样本图像的待修复区域中的前景物体进行修复后的图像,将该图像称为第一修复图像。需要说明的是,第一修复图像中仅包括对待修复区域中的前景物体进行修复后的图像,不包括无需修复的区域中的前景物体的图像和任何背景图像。
步骤203C6:利用初始背景修复模型对基于第四样本图像和第三边界框信息确定的图像进行修复处理,得到第二修复图像。
此步骤203C6用于对第四样本图像的待修复区域中的背景进行修复。在一种可能实现方式中,利用初始背景修复模型对基于第四样本图像和第三边界框信息确定的图像进行修复处理,得到第二修复图像的过程包括以下三个步骤:
步骤1:在第三边界框信息中确定与第三分类结果中的目标类别对应的第四边界框信息。
由于目标类别为第四样本图像的待修复区域中的前景物体对应的类别,所以目标类别对应的第四边界框信息用于指示待修复区域中的前景物体在待修复区域中所处的位置。
步骤2:将第四样本图像中除第四边界框信息指示的位置外的其他位置的图像作为待修复图像。
由于第四边界框信息指示的位置为待修复区域中的前景物体在待修复区域中所处的位置,所以待修复图像为在第四样本图像中去掉待修复区域中的前景物体所处位置的图像后的剩余图像。也就是说,待修复图像中包括无需修复的区域中的前景物体的图像和全部背景图像。全部背景图像既包括无需修复区域中的背景图像,又包括待修复区域中的背景图像。
步骤3:利用初始背景修复模型对待修复图像进行修复处理,得到第二修复图像。
待修复图像中包括无需修复的区域中的前景物体的图像、无需修复区域中的背景图像和待修复区域中的背景图像,将待修复图像输入初始背景修复图像后,初始背景修复图像可以对待修复图像进行修复处理,以对待修复区域中的背景进行修复,得到第二修复图像。需要说明的是,第二修复图像中包括无需修复的区域中的前景物体的图像、无需修复区域中的背景图像和对待修复区域中的背景进行修复后的图像,不包括对待修复区域中的前景物体进行修复后的图像。
步骤203C7:将第一修复图像和第二修复图像进行拼接处理,得到第四样本图像对应的预测修复图像。
第一修复图像中仅包括对待修复区域中的前景物体进行修复后的图像,不包括无需修复的区域中的前景物体的图像和任何背景图像;第二修复图像中包括无需修复的区域中的前景物体的图像、无需修复区域中的背景图像和对待修复区域中的背景进行修复后的图像,不包括对待修复区域中的前景物体进行修复后的图像。将第一修复图像和第二修复图像进行拼接处理后,可以得到第四样本图像对应的预测修复图像,该预测修复图像为预测的修复后的完整图像。
步骤203C8:利用预测修复图像和标准修复图像计算修复损失函数;利用第一修复图像和标准修复图像计算判别器损失函数;利用修复损失函数更新初始背景修复模型的参数;利用修复损失函数和判别器损失函数更新初始生成式对抗网络模型的参数。
预测修复图像为预测的修复后的图像,标准修复图像为标准的修复后的图像,根据预测修复图像和标准修复图像之间的差距可以计算修复损失函数。本申请实施例对修复损失函数的形式不加以限定,例如,修复损失函数可以是指均方差损失函数。
第一修复图像为生成式对抗网络模型生成的对待修复区域中的前景物体进行修复后的图像,根据第一修复图像和标准修复图像中对待修复区域中的前景物体进行修复后的标准图像之间的差距可以计算判别器损失函数。
在得到修复损失函数和判别器损失函数后,利用修复损失函数更新初始背景修复模型的参数;利用修复损失函数和判别器损失函数更新初始生成式对抗网络模型的参数。
步骤203C9:迭代执行上述步骤203C1至步骤203C8,直至满足第三终止条件,得到目标生成式对抗网络模型和目标背景修复模型。
目标生成式对抗网络模型和目标背景修复模型分别为利用第二训练子集训练得到的具有良好修复性能的生成式对抗网络模型和背景修复模型。根据修复损失函数和判别器损失函数更新模型参数的过程为迭代过程,每训练一次,判断是否满足第三终止条件。若不满足第三终止条件,则迭代执行上述步骤203C1至步骤203C8,直至满足第三终止条件,得到目标生成式对抗网络模型和目标背景修复模型。
在一种可能实现方式中,满足第三终止条件包括但不限于以下三种情况:1、迭代训练次数达到第三次数阈值;2、修复损失函数和判别器损失函数均小于第四损失阈值;3、修复损失函数和判别器损失函数均收敛。第三次数阈值和第四损失阈值均可以根据经验设置,修复损失函数和判别器损失函数可以对应相同的第四损失阈值,也可以对应不同的第四损失阈值。当满足上述任一种情况时,说明满足第三终止条件。
利用第二训练子集进行模型训练的过程可以如图8所示,将待修复的第四样本图像801输入参数保持不变的目标特征提取模型802,得到第三图像特征;将第三图像特征分别输入参数保持不变的目标候选区域提取模型803和参数保持不变的目标基准图获取模型804,得到第三候选区域信息和第二基准图;将第三候选区域信息和第二基准图输入参数保持不变的目标分类预测模型805,得到第三分类结果;将第三候选区域信息和第二基准图输入参数保持不变的目标边界框预测模型806,得到第三边界框信息。
基于LUT中存储的类别和通用特征的目标对应关系获取目标通用特征;将第二基准图和目标通用特征输入初始生成式对抗网络模型807,基于初始生成式对抗网络模型807输出的图像和第三边界框信息,确定第一修复图像808;基于第四样本图像801和第三边界框信息,确定待修复图像809;利用初始背景修复模型810对待修复图像809进行修复处理,得到第二修复图像;利用第一修复图像808和第二修复图像拼接后得到的预测修复图像和标准修复图像之间的修复损失函数,以及第一修复图像808和标准修复图像之间的判别器损失函数反向更新模型参数,直至得到目标生成式对抗网络模型和目标背景修复模型。
在上述步骤203A至步骤203C中,将利用第二训练集进行模型训练的过程划分成两个训练过程,先利用从第二训练集中划分出的第一训练子集训练得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型;然后再利用从第二训练集中划分出的第二训练子集训练得到目标生成式对抗网络模型和目标背景修复模型。此种训练过程可以有效减少训练次数,减少待训练的参数数量,提高模型训练效果。
示例性地,整个图像修复模型训练过程可以如图9所示。获取第一训练集、第一训练子集和第二训练子集;先利用第一训练集进行训练,得到目标特征提取模型以及类别和通用特征的目标对应关系,将类别和通用特征的目标对应关系存储在LUT中;然后利用第一训练子集进行训练,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型;最后利用第二训练子集进行训练,得到目标生成式对抗网络模型和目标背景修复模型,在利用第二训练子集进行训练的过程中,调用LUT中存储的类别和通用特征的目标对应关系。
需要说明的是,上述步骤203A至步骤203C仅为步骤203的一种示例性实现过程。在一种可能实现方式中,可以直接利用第二训练集中的第二样本图像、标准修复图像和目标特征提取模型整体训练各个模型。此种训练过程可以包括以下步骤1至步骤9:
步骤1:将第二训练集中的第二样本图像输入目标特征提取模型,得到第四图像特征。
步骤2:将第四图像特征输入初始候选区域提取模型,得到第四候选区域信息;将第四图像特征输入初始基准图获取模型,得到第三基准图,第三基准图携带第二样本图像的模式信息。
步骤3:将第四候选区域信息和第三基准图输入初始分类预测模型,得到第四分类结果;将第四候选区域信息和第三基准图输入初始边界框预测模型,得到第四边界框信息。
步骤4:基于类别和通用特征的目标对应关系,获取第四分类结果中的目标类别对应的通用特征,第四分类结果中的目标类别为第二样本图像的待修复区域中的前景物体对应的类别。
步骤5:将第三基准图和第四分类结果中的目标类别对应的通用特征输入初始生成式对抗网络模型,基于初始生成式对抗网络模型输出的图像和第四边界框信息,确定第三修复图像。
步骤6:利用初始背景修复模型对基于第二样本图像和第四边界框信息确定的图像进行修复处理,得到第四修复图像。
步骤7:将第三修复图像和第四修复图像进行拼接处理,得到第二样本图像对应的预测修复图像。
步骤8:利用预测修复图像和标准修复图像计算修复损失函数;利用第三修复图像和标准修复图像计算判别器损失函数;利用修复损失函数更新初始候选区域提取模型、初始基准图获取模型、初始分类预测模型、初始边界框预测模型和初始背景修复模型的参数;利用修复损失函数和判别器损失函数更新初始生成式对抗网络模型的参数。
步骤9:迭代执行上述步骤,直至满足第四终止条件,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型、目标边界框预测模型、目标生成式对抗网络模型和目标背景修复模型。
上述步骤1至步骤9的实现方式可以参见步骤203C1至步骤203C9,此处不再赘述。步骤1至步骤9与步骤203C1至步骤203C9中的不同之处在于:步骤203C1至步骤203C9中利用的是训练好的目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型,训练过程中无需更新目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型的参数;而步骤1至步骤9中利用的是待训练的初始候选区域提取模型、初始基准图获取模型、初始分类预测模型和初始边界框预测模型,训练过程中需要根据损失函数反向更新初始候选区域提取模型、初始基准图获取模型、初始分类预测模型和初始边界框预测模型的参数。
经过上述步骤201至步骤203后,完成图像修复模型的训练过程,得到用于修复图像的图像修复模型以及用于调用的类别和通用特征的目标对应关系。需要说明的是,本申请实施例中的图像修复模型可以由目标特征提取模型、目标候选区域提取模型、目标基准图获取模型、目标分类预测模型、目标边界框预测模型、目标生成式对抗网络模型和目标背景修复模型构成。
在本申请实施例中,在图像修复模型的训练过程中,增加对基准图获取模型的训练,该基准图获取模型用于获取携带图像的模式信息的基准图,在此基础上,训练用于修复图像的修复模型,训练得到的模型的修复效果较好。
此外,在增加对基准图获取模型的训练的基础上,训练分别用于修复待修复区域中的前景物体和背景的生成式对抗网络模型和背景修复模型,有利于提高训练得到的模型的修复效果。
基于图1所示的实施环境,本申请实施例提供一种图像修复方法,以该方法应用于服务器为例。如图10所示,本申请实施例提供的方法可以包括如下步骤:
在步骤1001中,获取待修复的第一目标图像。
待修复的第一目标图像为需要修复的任一图像。本申请实施例对图像需要进行修复的情况不加以限定,在一种可能实现方式中,图像需要进行修复的情况包括但不限于:图像中存在缺失、图像中存在遮挡物、图像中存在噪声等。因此,本申请实施例对第一目标图像的类型不加以限定。示例性地,第一目标图像可以为存在缺失的图像,如图11中的相机拍摄的图像1101;第一目标图像也可以为存在遮挡物的图像,如图12中的相机拍摄的图像1201(遮挡物为树);第一目标图像还可以为存在噪声或分辨率低的图像。
在步骤1002中,提取第一目标图像的目标图像特征。
目标图像特征用于表征第一目标图像的特征。
在一种可能实现方式中,服务器提取第一目标图像的目标图像特征的方式可以为:将第一目标图像输入目标特征提取模型,得到目标图像特征。
需要说明的是,服务器还可以基于其他方式提取第一目标图像的目标图像特征,本申请实施例对此不加以限定。例如,通过算法提取第一目标图像的目标图像特征。
在步骤1003中,基于目标图像特征,获取目标候选区域信息和目标基准图,目标基准图携带第一目标图像的模式信息。
在一种可能实现方式中,基于目标图像特征,获取目标候选区域信息和目标基准图的过程为:将目标图像特征输入目标候选区域提取模型,得到目标候选区域信息;将目标图像特征输入目标基准图获取模型,得到目标基准图。
在步骤1004中,基于目标候选区域信息和目标基准图,对第一目标图像进行修复,得到第一目标图像对应的目标修复图像。
由于目标基准图携带第一目标图像的模式信息,所以基于目标候选区域信息和目标基准图,对第一目标图像进行修复的过程考虑了第一目标图像的模式信息,有利于提高图像修复的效果。
在一种可能实现方式中,基于目标候选区域信息和目标基准图,对第一目标图像进行修复,得到第一目标图像对应的目标修复图像的过程包括以下步骤A至步骤E:
步骤A:基于目标候选区域信息和目标基准图,获取目标分类结果和目标边界框信息。
步骤B:基于类别和通用特征的目标对应关系,获取目标分类结果中的目标类别对应的目标通用特征,目标分类结果中的目标类别为第一目标图像的待修复区域中的前景物体对应的类别。
步骤C:基于目标基准图和目标通用特征,获取第一修复图像。
步骤D:基于第一目标图像和目标边界框信息,获取第二修复图像。
步骤E:将第一修复图像和第二修复图像进行拼接处理,得到第一目标图像对应的目标修复图像。
在一种可能实现方式中,基于目标候选区域信息和目标基准图,对第一目标图像进行修复,得到第一目标图像对应的目标修复图像的实现方式为:将目标候选区域信息和目标基准图输入目标修复模型,得到第一目标图像对应的目标修复图像。目标修复模型用于基于模式信息修复图像。
在一种可能实现方式中,目标修复模型包括目标分类预测模型、目标边界框预测模型、目标生成式对抗网络模型和目标背景修复模型。在此基础上,上述步骤A至步骤E的实现方式可以为下述步骤a至步骤e:
步骤a:将目标候选区域信息和目标基准图输入目标分类预测模型,得到目标分类结果;将目标候选区域信息和目标基准图输入目标边界框预测模型,得到目标边界框信息。
步骤b:基于类别和通用特征的目标对应关系,获取目标分类结果中的目标类别对应的目标通用特征,目标分类结果中的目标类别为第一目标图像的待修复区域中的前景物体对应的类别。
步骤c:将目标基准图和目标通用特征输入目标生成式对抗网络模型,基于目标生成式对抗模型输出的图像和目标边界框信息,确定第一修复图像。
步骤d:利用目标背景修复模型对基于第一目标图像和目标边界框信息确定的图像进行修复处理,得到第二修复图像。
步骤e:将第一修复图像和第二修复图像进行拼接处理,得到第一目标图像对应的目标修复图像。
需要说明的是,步骤1002至步骤1004中的目标特征提取模型、目标候选区域提取模型、目标基准图获取模型、目标修复模型可以基于图2所示的实施例提供的方法训练得到。此外,类别和通用特征的目标对应关系也可以基于图2所示的实施例提供的方法训练得到。
上述步骤1002至步骤1004的实现过程可以参见图2所示的实施例中的训练过程,此处不再赘述。经过步骤1002至步骤1004的修复过程后,可以得到第一目标图像对应的目标修复图像。示例性地,当第一目标图像为存在缺失的图像时,目标修复图像可以为补全缺失后的图像,如图11中的图像1102;当第一目标图像为存在遮挡物的图像时,目标修复图像可以为去掉遮挡物后的图像,如图12中的图像1202(去掉遮挡物树);当第一目标图像为存在噪声或分辨率低的图像时,目标修复图像可以为高清化且去除噪声的图像。
本申请实施例的应用场景包括但不限于以下三种:
应用场景1:自动去除图像中的大量噪声,提高图像分辨率。
老式手机或拍照设备拍摄出来的图像通常有非常低的分辨率,还可能伴随着无规则的噪声。根据本申请实施例提供的方法可以将这种图像为输入,输出一张高清化且去除噪声的图像,从而使得老式设备或故障设备也能派上用场。
应用场景2:自动补全图像中的缺失部分,修复受损图像,如图11所示。
应用场景3:自动去除图像中的遮挡物(树等),如图12所示。
拍摄的图像中往往会有很多不希望出现的遮挡(如风景照中来来往往的行人,或者建筑墙面前面的树木)。根据本申请实施例提供的方法可以这种图像为输入,输出一张去遮挡物的图像(去掉行人和树木等),并使得背景重构具有语义意义。此技术可为个体用户提供旅游照去遮挡、关键照片修复等服务。
在基于本申请实施例提供的方式进行图像修复的过程中,能够在修复图像背景的前提下,根据图像的模式信息来预测和修复前景物体。也就是说,通过获取图像的模式信息,使得待修复的前景物体也能在一定程度上被修复,而不只是单纯的背景修复,图像修复的效果较高。
在本申请实施例中,在图像修复的过程中,增加对图像的模式信息的考虑,考虑的方面较全面,有利于提高图像修复的修复效果,修复后的图像更加自然。此外,利用不同的模型分别修复待修复区域中的前景物体和背景,有利于进一步提高图像修复的效果。
参见图13,本申请实施例提供了一种图像修复模型的训练装置,该装置包括:
获取单元1301,用于获取第一训练集和第二训练集,第一训练集包括无需修复的第一样本图像、第一样本图像的第一分类标签和第一边界框标签,第二训练集包括待修复的第二样本图像和第二样本图像对应的标准修复图像;
第一训练单元1302,用于利用第一训练集中的第一样本图像、第一分类标签和第一边界框标签,对初始特征提取模型进行训练,得到目标特征提取模型;
第二训练单元1303,用于利用第二训练集中的第二样本图像、标准修复图像和目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型和初始修复模型进行训练,得到目标候选区域提取模型、目标基准图获取模型和目标修复模型;目标候选区域提取模型用于提取候选区域信息,目标基准图获取模型用于获取携带图像的模式信息的基准图,目标修复模型用于基于模式信息修复图像。
在一种可能实现方式中,初始修复模型包括初始分类预测模型、初始边界框预测模型、初始生成式对抗网络模型和初始背景修复模型;
第二训练单元1303,用于利用第二训练集中的第二样本图像、标准修复图像和目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型、初始分类预测模型、初始边界框预测模型、初始生成式对抗网络模型和初始背景修复模型进行训练,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型、目标边界框预测模型、目标生成式对抗网络模型和目标背景修复模型,目标生成式对抗网络模型用于根据图像的模式信息修复图像的待修复区域中的前景物体,目标背景修复模型用于修复图像的待修复区域中的背景。
在一种可能实现方式中,第一训练单元1302,用于将第一训练集中的第一样本图像输入初始特征提取模型,得到第一图像特征;将第一图像特征输入第一候选区域提取模型,得到第一候选区域信息;将第一候选区域信息输入第一分类预测模型,得到第一分类结果;将第一候选区域信息输入第一边界框预测模型,得到第一边界框信息;利用第一边界框信息和第一图像特征,获取第一分类结果中的类别对应的通用特征,记录第一分类结果中的类别和通用特征的临时对应关系;基于第一分类结果和第一分类标签计算第一分类损失函数;基于第一边界框信息和第一边界框标签计算第一回归损失函数;利用第一分类损失函数和第一回归损失函数更新初始特征提取模型、第一候选区域提取模型、第一分类预测模型和第一边界框预测模型的参数;迭代执行上述步骤,直至满足第一终止条件,得到目标特征提取模型、第二候选区域提取模型、第二分类预测模型、第二边界框预测模型,以及类别和通用特征的目标对应关系,类别和通用特征的目标对应关系基于第一分类结果中的类别和通用特征的临时对应关系得到。
在一种可能实现方式中,第一训练单元1302,还用于基于第一边界框信息指示的类别所在位置,在第一图像特征中提取第一分类结果中的类别对应的图像特征;对第一分类结果中的类别对应的图像特征进行全局平均池化处理,得到第一分类结果中的类别对应的通用特征。
在一种可能实现方式中,参见图14,该装置还包括:
确定单元1304,用于将第二候选区域提取模型作为初始候选区域提取模型,将第二分类预测模型作为初始分类预测模型,将第二边界框预测模型作为初始边界框预测模型。
在一种可能实现方式中,参见图15,第二训练单元1303,包括:
划分子单元13031,用于从第二训练集中划分出第一训练子集和第二训练子集,将第一训练子集中的第二样本图像作为第三样本图像,将第二训练子集中的第二样本图像作为第四样本图像;获取第一训练子集中的第三样本图像对应的标准修复图像的第二分类标签和第二边界框标签;
第一训练子单元13032,用于利用第一训练子集中的第三样本图像、标准修复图像的第二分类标签、第二边界框标签和目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型、初始分类预测模型和初始边界框预测模型进行训练,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型;
第二训练子单元13033,用于利用第二训练子集中的第四样本图像、标准修复图像、目标特征提取模型、目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型,对初始生成式对抗网络模型和初始背景修复模型进行训练,得到目标生成式对抗网络模型和目标背景修复模型。
在一种可能实现方式中,第一训练子单元13032,用于将第一训练子集中的第三样本图像输入目标特征提取模型,得到第二图像特征;将第二图像特征输入初始候选区域提取模型,得到第二候选区域信息;将第二图像特征输入初始基准图获取模型,得到第一基准图,第一基准图携带第三样本图像的模式信息;将第二候选区域信息和第一基准图输入初始分类预测模型,得到第二分类结果;将第二候选区域信息和第一基准图输入初始边界框预测模型,得到第二边界框信息;基于第二分类结果和第二分类标签计算第二分类损失函数;基于第二边界框信息和第二边界框标签计算第二回归损失函数;利用第二分类损失函数和第二回归损失函数更新初始候选区域提取模型、初始基准图获取模型、初始分类预测模型和初始边界框预测模型的参数;迭代执行上述步骤,直至满足第二终止条件,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型。
在一种可能实现方式中,第二训练子单元13033,用于将第二训练子集中的第四样本图像输入目标特征提取模型,得到第三图像特征;将第三图像特征输入目标候选区域提取模型,得到第三候选区域信息;将第三图像特征输入目标基准图获取模型,得到第二基准图,第二基准图携带第四样本图像的模式信息;将第三候选区域信息和第二基准图输入目标分类预测模型,得到第三分类结果;将第三候选区域信息和第二基准图输入目标边界框预测模型,得到第三边界框信息;基于类别和通用特征的目标对应关系,获取第三分类结果中的目标类别对应的目标通用特征,第三分类结果中的目标类别为第四样本图像的待修复区域中的前景物体对应的类别;将第二基准图和目标通用特征输入初始生成式对抗网络模型,基于初始生成式对抗网络模型输出的图像和第三边界框信息,确定第一修复图像;利用初始背景修复模型对基于第四样本图像和第三边界框信息确定的图像进行修复处理,得到第二修复图像;将第一修复图像和第二修复图像进行拼接处理,得到第四样本图像对应的预测修复图像;利用预测修复图像和标准修复图像计算修复损失函数;利用第一修复图像和标准修复图像计算判别器损失函数;利用修复损失函数更新初始背景修复模型的参数;利用修复损失函数和判别器损失函数更新初始生成式对抗网络模型的参数;迭代执行上述步骤,直至满足第三终止条件,得到目标生成式对抗网络模型和目标背景修复模型。
在一种可能实现方式中,第二训练子单元13033,还用于在第三边界框信息中确定与第三分类结果中的目标类别对应的第四边界框信息;将初始生成式对抗网络模型输出的图像限制在第四边界框信息指示的位置处,得到第一修复图像。
在一种可能实现方式中,第二训练子单元13033,还用于在第三边界框信息中确定与第三分类结果中的目标类别对应的第四边界框信息;将第四样本图像中除第四边界框信息指示的位置外的其他位置的图像作为待修复图像;利用初始背景修复模型对待修复图像进行修复处理,得到第二修复图像。
在本申请实施例中,在图像修复模型的训练过程中,增加对基准图获取模型的训练,该基准图获取模型用于获取携带图像的模式信息的基准图,在此基础上,训练用于修复图像的修复模型,训练得到的模型的修复效果较好。
此外,在增加对基准图获取模型的训练的基础上,训练分别用于修复待修复区域中的前景物体和背景的生成式对抗网络模型和背景修复模型,有利于提高训练得到的模型的修复效果。
参见图16,本申请实施例提供了一种图像修复装置,该装置包括:
第一获取单元1601,用于获取待修复的第一目标图像;
提取单元1602,用于提取第一目标图像的目标图像特征;
第二获取单元1603,用于基于目标图像特征,获取目标候选区域信息和目标基准图,目标基准图携带第一目标图像的模式信息;
修复单元1604,用于基于目标候选区域信息和目标基准图,对第一目标图像进行修复,得到第一目标图像对应的目标修复图像。
在一种可能实现方式中,修复单元1604,用于基于目标候选区域信息和目标基准图,获取目标分类结果和目标边界框信息;基于类别和通用特征的目标对应关系,获取目标分类结果中的目标类别对应的目标通用特征,目标分类结果中的目标类别为第一目标图像的待修复区域中的前景物体对应的类别;基于目标基准图和目标通用特征,获取第一修复图像;基于第一目标图像和目标边界框信息,获取第二修复图像;将第一修复图像和第二修复图像进行拼接处理,得到第一目标图像对应的目标修复图像。
在一种可能实现方式中,提取单元1602,用于将第一目标图像输入目标特征提取模型,得到目标图像特征;
第二获取单元1603,用于将目标图像特征输入目标候选区域提取模型,得到目标候选区域信息;将目标图像特征输入目标基准图获取模型,得到目标基准图;
修复单元1604,用于将目标候选区域信息和目标基准图输入目标修复模型,得到第一目标图像对应的目标修复图像。
在本申请实施例中,在图像修复的过程中,增加对图像的模式信息的考虑,考虑的方面较全面,有利于提高图像修复的修复效果,修复后的图像更加自然。此外,利用不同的模型分别修复待修复区域中的前景物体和背景,有利于进一步提高图像修复的效果。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图17是本申请实施例提供的一种服务器的结构示意图,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1701和一个或多个存储器1702,其中,该一个或多个存储器1702中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器1701加载并执行,以实现上述各个方法实施例提供的图像修复方法或者图像修复模型的训练方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
图18是本申请实施例提供的一种终端的结构示意图。该终端可以为:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端包括有:处理器1801和存储器1802。
处理器1801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1801可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1801所执行以实现本申请中方法实施例提供的图像修复方法或者图像修复模型的训练方法。
在一些实施例中,终端还可选包括有:***设备接口1803和至少一个***设备。处理器1801、存储器1802和***设备接口1803之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1803相连。具体地,***设备包括:射频电路1804、触摸显示屏1805、摄像头组件1806、音频电路1807、定位组件1808和电源1809中的至少一种。
***设备接口1803可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器1801和存储器1802。在一些实施例中,处理器1801、存储器1802和***设备接口1803被集成在同一芯片或电路板上;在一些其他实施例中,处理器1801、存储器1802和***设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1804包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1805是触摸显示屏时,显示屏1805还具有采集在显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。此时,显示屏1805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1805可以为一个,设置在终端的前面板;在另一些实施例中,显示屏1805可以为至少两个,分别设置在终端的不同表面或呈折叠设计;在再一些实施例中,显示屏1805可以是柔性显示屏,设置在终端的弯曲表面上或折叠面上。甚至,显示屏1805还可以设置成非矩形的不规则图形,也即异形屏。显示屏1805可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1806用于采集图像或视频。可选地,摄像头组件1806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1801进行处理,或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1807还可以包括耳机插孔。
定位组件1808用于定位终端的当前地理位置,以实现导航或LBS(Location BasedService,基于位置的服务)。定位组件1808可以是基于美国的GPS(Global PositioningSystem,全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。
电源1809用于为终端中的各个组件进行供电。电源1809可以是交流电、直流电、一次性电池或可充电电池。当电源1809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端还包括有一个或多个传感器1810。该一个或多个传感器1810包括但不限于:加速度传感器1811、陀螺仪传感器1812、压力传感器1813、指纹传感器1814、光学传感器1815以及接近传感器1816。
加速度传感器1811可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1811可以用于检测重力加速度在三个坐标轴上的分量。处理器1801可以根据加速度传感器1811采集的重力加速度信号,控制触摸显示屏1805以横向视图或纵向视图进行用户界面的显示。加速度传感器1811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1812可以检测终端的机体方向及转动角度,陀螺仪传感器1812可以与加速度传感器1811协同采集用户对终端的3D动作。处理器1801根据陀螺仪传感器1812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1813可以设置在终端的侧边框和/或触摸显示屏1805的下层。当压力传感器1813设置在终端的侧边框时,可以检测用户对终端的握持信号,由处理器1801根据压力传感器1813采集的握持信号进行左右手识别或快捷操作。当压力传感器1813设置在触摸显示屏1805的下层时,由处理器1801根据用户对触摸显示屏1805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1814用于采集用户的指纹,由处理器1801根据指纹传感器1814采集到的指纹识别用户的身份,或者,由指纹传感器1814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1801授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1814可以被设置在终端的正面、背面或侧面。当终端上设置有物理按键或厂商Logo时,指纹传感器1814可以与物理按键或厂商Logo集成在一起。
光学传感器1815用于采集环境光强度。在一个实施例中,处理器1801可以根据光学传感器1815采集的环境光强度,控制触摸显示屏1805的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1805的显示亮度;当环境光强度较低时,调低触摸显示屏1805的显示亮度。在另一个实施例中,处理器1801还可以根据光学传感器1815采集的环境光强度,动态调整摄像头组件1806的拍摄参数。
接近传感器1816,也称距离传感器,通常设置在终端的前面板。接近传感器1816用于采集用户与终端的正面之间的距离。在一个实施例中,当接近传感器1816检测到用户与终端的正面之间的距离逐渐变小时,由处理器1801控制触摸显示屏1805从亮屏状态切换为息屏状态;当接近传感器1816检测到用户与终端的正面之间的距离逐渐变大时,由处理器1801控制触摸显示屏1805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图18中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条程序代码。该至少一条程序代码由一个或者一个以上处理器加载并执行,以实现上述任一种图像修复方法或者图像修复模型的训练方法。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由计算机设备的处理器加载并执行,以实现上述任一种图像修复方法或者图像修复模型的训练方法。
可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
以上仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种图像修复方法,其特征在于,所述方法包括:
获取待修复的第一目标图像;
提取所述第一目标图像的目标图像特征;
基于所述目标图像特征,获取目标候选区域信息和目标基准图,所述目标基准图携带所述第一目标图像的模式信息;
基于所述目标候选区域信息和所述目标基准图,对所述第一目标图像进行修复,得到所述第一目标图像对应的目标修复图像。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标候选区域信息和所述目标基准图,对所述第一目标图像进行修复,得到所述第一目标图像对应的目标修复图像,包括:
基于所述目标候选区域信息和所述目标基准图,获取目标分类结果和目标边界框信息;
基于类别和通用特征的目标对应关系,获取所述目标分类结果中的目标类别对应的目标通用特征,所述目标分类结果中的目标类别为所述第一目标图像的待修复区域中的前景物体对应的类别;
基于所述目标基准图和所述目标通用特征,获取第一修复图像;
基于所述第一目标图像和所述目标边界框信息,获取第二修复图像;
将所述第一修复图像和所述第二修复图像进行拼接处理,得到所述第一目标图像对应的目标修复图像。
3.根据权利要求1所述的方法,其特征在于,所述提取所述第一目标图像的目标图像特征,包括:
将所述第一目标图像输入目标特征提取模型,得到目标图像特征;
所述基于所述目标图像特征,获取目标候选区域信息和目标基准图,包括:
将所述目标图像特征输入目标候选区域提取模型,得到目标候选区域信息;将所述目标图像特征输入目标基准图获取模型,得到目标基准图;
所述基于所述目标候选区域信息和所述目标基准图,对所述第一目标图像进行修复,得到所述第一目标图像对应的目标修复图像,包括:
将所述目标候选区域信息和所述目标基准图输入目标修复模型,得到所述第一目标图像对应的目标修复图像。
4.一种图像修复模型的训练方法,其特征在于,所述方法包括:
获取第一训练集和第二训练集,所述第一训练集包括无需修复的第一样本图像、所述第一样本图像的第一分类标签和第一边界框标签,所述第二训练集包括待修复的第二样本图像和所述第二样本图像对应的标准修复图像;
利用所述第一训练集中的第一样本图像、第一分类标签和第一边界框标签,对初始特征提取模型进行训练,得到目标特征提取模型;
利用所述第二训练集中的第二样本图像、标准修复图像和所述目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型和初始修复模型进行训练,得到目标候选区域提取模型、目标基准图获取模型和目标修复模型;所述目标候选区域提取模型用于提取候选区域信息,所述目标基准图获取模型用于获取携带图像的模式信息的基准图,所述目标修复模型用于基于模式信息修复图像。
5.根据权利要求4所述的方法,其特征在于,所述初始修复模型包括初始分类预测模型、初始边界框预测模型、初始生成式对抗网络模型和初始背景修复模型;
所述利用所述第二训练集中的第二样本图像、标准修复图像和所述目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型和初始修复模型进行训练,得到目标候选区域提取模型、目标基准图获取模型和目标修复模型,包括:
利用所述第二训练集中的第二样本图像、标准修复图像和所述目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型、初始分类预测模型、初始边界框预测模型、初始生成式对抗网络模型和初始背景修复模型进行训练,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型、目标边界框预测模型、目标生成式对抗网络模型和目标背景修复模型,所述目标生成式对抗网络模型用于根据图像的模式信息修复图像的待修复区域中的前景物体,所述目标背景修复模型用于修复图像的待修复区域中的背景。
6.根据权利要求4所述的方法,其特征在于,所述利用所述第一训练集中的第一样本图像、第一分类标签和第一边界框标签,对初始特征提取模型进行训练,得到目标特征提取模型,包括:
将所述第一训练集中的第一样本图像输入所述初始特征提取模型,得到第一图像特征;
将所述第一图像特征输入第一候选区域提取模型,得到第一候选区域信息;
将所述第一候选区域信息输入第一分类预测模型,得到第一分类结果;将所述第一候选区域信息输入第一边界框预测模型,得到第一边界框信息;
利用所述第一边界框信息和所述第一图像特征,获取所述第一分类结果中的类别对应的通用特征,记录所述第一分类结果中的类别和通用特征的临时对应关系;
基于所述第一分类结果和所述第一分类标签计算第一分类损失函数;基于所述第一边界框信息和所述第一边界框标签计算第一回归损失函数;
利用所述第一分类损失函数和所述第一回归损失函数更新所述初始特征提取模型、所述第一候选区域提取模型、所述第一分类预测模型和所述第一边界框预测模型的参数;
迭代执行上述步骤,直至满足第一终止条件,得到目标特征提取模型、第二候选区域提取模型、第二分类预测模型、第二边界框预测模型,以及类别和通用特征的目标对应关系,所述类别和通用特征的目标对应关系基于所述第一分类结果中的类别和通用特征的临时对应关系得到。
7.根据权利要求6所述的方法,其特征在于,所述利用所述第一边界框信息和所述第一图像特征,获取所述第一分类结果中的类别对应的通用特征,包括:
基于所述第一边界框信息指示的类别所在位置,在所述第一图像特征中提取所述第一分类结果中的类别对应的图像特征;
对所述第一分类结果中的类别对应的图像特征进行全局平均池化处理,得到所述第一分类结果中的类别对应的通用特征。
8.根据权利要求6所述的方法,其特征在于,所述得到目标特征提取模型、第二候选区域提取模型、第二分类预测模型、第二边界框预测模型,以及类别和通用特征的目标对应关系之后,所述方法还包括:
将所述第二候选区域提取模型作为初始候选区域提取模型,将所述第二分类预测模型作为初始分类预测模型,将所述第二边界框预测模型作为初始边界框预测模型。
9.根据权利要求5所述的方法,其特征在于,所述利用所述第二训练集中的第二样本图像、标准修复图像和所述目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型、初始分类预测模型、初始边界框预测模型、初始生成式对抗网络模型和初始背景修复模型进行训练,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型、目标边界框预测模型、目标生成式对抗网络模型和目标背景修复模型,包括:
从第二训练集中划分出第一训练子集和第二训练子集,将所述第一训练子集中的第二样本图像作为第三样本图像,将所述第二训练子集中的第二样本图像作为第四样本图像;获取所述第一训练子集中的第三样本图像对应的标准修复图像的第二分类标签和第二边界框标签;
利用所述第一训练子集中的第三样本图像、标准修复图像的第二分类标签、第二边界框标签和所述目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型、初始分类预测模型和初始边界框预测模型进行训练,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型;
利用所述第二训练子集中的第四样本图像、标准修复图像、所述目标特征提取模型、所述目标候选区域提取模型、所述目标基准图获取模型、所述目标分类预测模型和所述目标边界框预测模型,对初始生成式对抗网络模型和初始背景修复模型进行训练,得到目标生成式对抗网络模型和目标背景修复模型。
10.根据权利要求9所述的方法,其特征在于,所述利用所述第一训练子集中的第三样本图像、标准修复图像的第二分类标签、第二边界框标签和所述目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型、初始分类预测模型和初始边界框预测模型进行训练,得到目标候选区域提取模型、目标基准图获取模型、目标分类预测模型和目标边界框预测模型,包括:
将所述第一训练子集中的第三样本图像输入所述目标特征提取模型,得到第二图像特征;
将所述第二图像特征输入所述初始候选区域提取模型,得到第二候选区域信息;将所述第二图像特征输入所述初始基准图获取模型,得到第一基准图,所述第一基准图携带所述第三样本图像的模式信息;
将所述第二候选区域信息和所述第一基准图输入所述初始分类预测模型,得到第二分类结果;将所述第二候选区域信息和所述第一基准图输入所述初始边界框预测模型,得到第二边界框信息;
基于所述第二分类结果和所述第二分类标签计算第二分类损失函数;基于所述第二边界框信息和所述第二边界框标签计算第二回归损失函数;
利用所述第二分类损失函数和所述第二回归损失函数更新所述初始候选区域提取模型、所述初始基准图获取模型、所述初始分类预测模型和所述初始边界框预测模型的参数;
迭代执行上述步骤,直至满足第二终止条件,得到所述目标候选区域提取模型、所述目标基准图获取模型、所述目标分类预测模型和所述目标边界框预测模型。
11.根据权利要求9或10所述的方法,其特征在于,所述利用所述第二训练子集中的第四样本图像、标准修复图像、所述目标特征提取模型、所述目标候选区域提取模型、所述目标基准图获取模型、所述目标分类预测模型和所述目标边界框预测模型,对初始生成式对抗网络模型和初始背景修复模型进行训练,得到目标生成式对抗网络模型和目标背景修复模型,包括:
将所述第二训练子集中的第四样本图像输入所述目标特征提取模型,得到第三图像特征;
将所述第三图像特征输入所述目标候选区域提取模型,得到第三候选区域信息;将所述第三图像特征输入所述目标基准图获取模型,得到第二基准图,所述第二基准图携带所述第四样本图像的模式信息;
将所述第三候选区域信息和所述第二基准图输入所述目标分类预测模型,得到第三分类结果;将所述第三候选区域信息和所述第二基准图输入所述目标边界框预测模型,得到第三边界框信息;
基于类别和通用特征的目标对应关系,获取所述第三分类结果中的目标类别对应的目标通用特征,所述第三分类结果中的目标类别为所述第四样本图像的待修复区域中的前景物体对应的类别;
将所述第二基准图和所述目标通用特征输入所述初始生成式对抗网络模型,基于所述初始生成式对抗网络模型输出的图像和所述第三边界框信息,确定第一修复图像;
利用初始背景修复模型对基于所述第四样本图像和所述第三边界框信息确定的图像进行修复处理,得到第二修复图像;
将所述第一修复图像和所述第二修复图像进行拼接处理,得到所述第四样本图像对应的预测修复图像;
利用所述预测修复图像和所述标准修复图像计算修复损失函数;利用所述第一修复图像和所述标准修复图像计算判别器损失函数;
利用所述修复损失函数更新所述初始背景修复模型的参数;利用所述修复损失函数和所述判别器损失函数更新所述初始生成式对抗网络模型的参数;
迭代执行上述步骤,直至满足第三终止条件,得到目标生成式对抗网络模型和目标背景修复模型。
12.根据权利要求11所述的方法,其特征在于,所述基于所述初始生成式对抗网络模型输出的图像和所述第三边界框信息,确定第一修复图像,包括:
在所述第三边界框信息中确定与所述第三分类结果中的目标类别对应的第四边界框信息;
将所述初始生成式对抗网络模型输出的图像限制在所述第四边界框信息指示的位置处,得到第一修复图像。
13.根据权利要求11所述的方法,其特征在于,所述利用初始背景修复模型对基于所述第四样本图像和所述第三边界框信息确定的图像进行修复处理,得到第二修复图像,包括:
在所述第三边界框信息中确定与所述第三分类结果中的目标类别对应的第四边界框信息;
将所述第四样本图像中除所述第四边界框信息指示的位置外的其他位置的图像作为待修复图像;
利用初始背景修复模型对所述待修复图像进行修复处理,得到第二修复图像。
14.一种图像修复装置,其特征在于,所述装置包括:
第一获取单元,用于获取待修复的第一目标图像;
提取单元,用于提取所述第一目标图像的目标图像特征;
第二获取单元,用于基于所述目标图像特征,获取目标候选区域信息和目标基准图,所述目标基准图携带所述第一目标图像的模式信息;
修复单元,用于基于所述目标候选区域信息和所述目标基准图,对所述第一目标图像进行修复,得到所述第一目标图像对应的目标修复图像。
15.一种图像修复模型的训练装置,其特征在于,所述装置包括:
获取单元,用于获取第一训练集和第二训练集,所述第一训练集包括无需修复的第一样本图像、所述第一样本图像的第一分类标签和第一边界框标签,所述第二训练集包括待修复的第二样本图像和所述第二样本图像对应的标准修复图像;
第一训练单元,用于利用所述第一训练集中的第一样本图像、第一分类标签和第一边界框标签,对初始特征提取模型进行训练,得到目标特征提取模型;
第二训练单元,用于利用所述第二训练集中的第二样本图像、标准修复图像和所述目标特征提取模型,对初始候选区域提取模型、初始基准图获取模型和初始修复模型进行训练,得到目标候选区域提取模型、目标基准图获取模型和目标修复模型;所述目标候选区域提取模型用于提取候选区域信息,所述目标基准图获取模型用于获取携带图像的模式信息的基准图,所述目标修复模型用于基于模式信息修复图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010199775.1A CN111325699B (zh) | 2020-03-20 | 2020-03-20 | 图像修复方法和图像修复模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010199775.1A CN111325699B (zh) | 2020-03-20 | 2020-03-20 | 图像修复方法和图像修复模型的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325699A true CN111325699A (zh) | 2020-06-23 |
CN111325699B CN111325699B (zh) | 2021-05-25 |
Family
ID=71173487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010199775.1A Active CN111325699B (zh) | 2020-03-20 | 2020-03-20 | 图像修复方法和图像修复模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325699B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634158A (zh) * | 2020-12-22 | 2021-04-09 | 平安普惠企业管理有限公司 | 人脸图像恢复方法、装置、计算机设备及存储介质 |
CN112991232A (zh) * | 2021-04-30 | 2021-06-18 | 深圳阜时科技有限公司 | 指纹图像修复模型的训练方法、指纹识别方法及终端设备 |
CN113313271A (zh) * | 2021-06-03 | 2021-08-27 | 国家电网有限公司客户服务中心 | 一种基于远程客服的电力***故障报修方法及装置 |
CN113362240A (zh) * | 2021-05-31 | 2021-09-07 | 西南科技大学 | 一种基于轻量级特征金字塔模型的图像修复方法 |
CN113465268A (zh) * | 2020-08-18 | 2021-10-01 | 青岛海信电子产业控股股份有限公司 | 一种冰箱及食材识别方法 |
CN114549369A (zh) * | 2022-04-24 | 2022-05-27 | 腾讯科技(深圳)有限公司 | 数据修复方法、装置、计算机及可读存储介质 |
WO2022135108A1 (zh) * | 2020-12-25 | 2022-06-30 | 腾讯科技(深圳)有限公司 | 图像信号处理方法、装置、电子设备及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296605A (zh) * | 2016-08-05 | 2017-01-04 | 腾讯科技(深圳)有限公司 | 一种图像修补方法及装置 |
CN108460760A (zh) * | 2018-03-06 | 2018-08-28 | 陕西师范大学 | 一种基于生成式对抗网络的桥梁裂缝图像判别修复方法 |
CN108492281A (zh) * | 2018-03-06 | 2018-09-04 | 陕西师范大学 | 一种基于生成式对抗网络的桥梁裂缝图像障碍物检测与去除的方法 |
CN108765349A (zh) * | 2018-05-31 | 2018-11-06 | 四川斐讯信息技术有限公司 | 一种带有水印的图像修复方法及*** |
CN108765315A (zh) * | 2018-05-04 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像补全方法、装置、计算机设备及存储介质 |
CN109741268A (zh) * | 2018-12-05 | 2019-05-10 | 天津大学 | 一种针对壁画的破损图像补全方法 |
US20190228508A1 (en) * | 2018-01-24 | 2019-07-25 | Adobe Inc. | Digital Image Fill |
-
2020
- 2020-03-20 CN CN202010199775.1A patent/CN111325699B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296605A (zh) * | 2016-08-05 | 2017-01-04 | 腾讯科技(深圳)有限公司 | 一种图像修补方法及装置 |
US20190228508A1 (en) * | 2018-01-24 | 2019-07-25 | Adobe Inc. | Digital Image Fill |
CN108460760A (zh) * | 2018-03-06 | 2018-08-28 | 陕西师范大学 | 一种基于生成式对抗网络的桥梁裂缝图像判别修复方法 |
CN108492281A (zh) * | 2018-03-06 | 2018-09-04 | 陕西师范大学 | 一种基于生成式对抗网络的桥梁裂缝图像障碍物检测与去除的方法 |
CN108765315A (zh) * | 2018-05-04 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像补全方法、装置、计算机设备及存储介质 |
CN108765349A (zh) * | 2018-05-31 | 2018-11-06 | 四川斐讯信息技术有限公司 | 一种带有水印的图像修复方法及*** |
CN109741268A (zh) * | 2018-12-05 | 2019-05-10 | 天津大学 | 一种针对壁画的破损图像补全方法 |
Non-Patent Citations (4)
Title |
---|
JIAHUI YU等: "Generative Image Inpainting with Contextual Attention", 《HTTP://GWYLAB.COM/PDF/IMAGE-INPAINTING.PDF》 * |
WEI XIONG等: "Foreground-aware Image Inpainting", 《HTTPS://ARXIV.ORG/PDF/1901.05945.PDF》 * |
冰芒: "[AI] 论文笔记 - CVPR2018: Generative Image Inpainting with Contextual Attention", 《HTTPS://WWW.CNBLOGS.COM/BINGMANG/P/10000992.HTML》 * |
袁琳君等: "基于生成对抗网络的人像修复", 《计算机应用》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113465268A (zh) * | 2020-08-18 | 2021-10-01 | 青岛海信电子产业控股股份有限公司 | 一种冰箱及食材识别方法 |
CN113465268B (zh) * | 2020-08-18 | 2023-04-07 | 青岛海信电子产业控股股份有限公司 | 一种冰箱及食材识别方法 |
CN112634158A (zh) * | 2020-12-22 | 2021-04-09 | 平安普惠企业管理有限公司 | 人脸图像恢复方法、装置、计算机设备及存储介质 |
WO2022135108A1 (zh) * | 2020-12-25 | 2022-06-30 | 腾讯科技(深圳)有限公司 | 图像信号处理方法、装置、电子设备及计算机可读存储介质 |
CN112991232A (zh) * | 2021-04-30 | 2021-06-18 | 深圳阜时科技有限公司 | 指纹图像修复模型的训练方法、指纹识别方法及终端设备 |
CN112991232B (zh) * | 2021-04-30 | 2021-07-23 | 深圳阜时科技有限公司 | 指纹图像修复模型的训练方法、指纹识别方法及终端设备 |
CN113362240A (zh) * | 2021-05-31 | 2021-09-07 | 西南科技大学 | 一种基于轻量级特征金字塔模型的图像修复方法 |
CN113313271A (zh) * | 2021-06-03 | 2021-08-27 | 国家电网有限公司客户服务中心 | 一种基于远程客服的电力***故障报修方法及装置 |
CN113313271B (zh) * | 2021-06-03 | 2022-09-30 | 国家电网有限公司客户服务中心 | 一种基于远程客服的电力***故障报修方法及装置 |
CN114549369A (zh) * | 2022-04-24 | 2022-05-27 | 腾讯科技(深圳)有限公司 | 数据修复方法、装置、计算机及可读存储介质 |
WO2023207778A1 (zh) * | 2022-04-24 | 2023-11-02 | 腾讯科技(深圳)有限公司 | 数据修复方法、装置、计算机及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111325699B (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325699B (zh) | 图像修复方法和图像修复模型的训练方法 | |
CN109086709B (zh) | 特征提取模型训练方法、装置及存储介质 | |
CN110210571B (zh) | 图像识别方法、装置、计算机设备及计算机可读存储介质 | |
CN111091132B (zh) | 基于人工智能的图像识别方法、装置、计算机设备及介质 | |
CN110059685B (zh) | 文字区域检测方法、装置及存储介质 | |
CN110555839A (zh) | 缺陷检测识别方法、装置、计算机设备及存储介质 | |
CN110650379B (zh) | 视频摘要生成方法、装置、电子设备及存储介质 | |
CN109151442B (zh) | 一种图像拍摄方法及终端 | |
CN110490179B (zh) | 车牌识别方法、装置及存储介质 | |
CN111931877B (zh) | 目标检测方法、装置、设备及存储介质 | |
CN111104980B (zh) | 确定分类结果的方法、装置、设备及存储介质 | |
CN110856048B (zh) | 视频修复方法、装置、设备及存储介质 | |
CN112749613B (zh) | 视频数据处理方法、装置、计算机设备及存储介质 | |
CN112581358B (zh) | 图像处理模型的训练方法、图像处理方法及装置 | |
CN111192262A (zh) | 基于人工智能的产品缺陷分类方法、装置、设备及介质 | |
CN110991457B (zh) | 二维码处理方法、装置、电子设备及存储介质 | |
CN111597922A (zh) | 细胞图像的识别方法、***、装置、设备及介质 | |
CN114170349A (zh) | 图像生成方法、装置、电子设备及存储介质 | |
CN110675412A (zh) | 图像分割方法、图像分割模型的训练方法、装置及设备 | |
CN111738914A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN113706678A (zh) | 获取虚拟形象的方法、装置、设备及计算机可读存储介质 | |
CN111178343A (zh) | 基于人工智能的多媒体资源检测方法、装置、设备及介质 | |
CN111738365B (zh) | 图像分类模型训练方法、装置、计算机设备及存储介质 | |
CN111325220B (zh) | 图像生成方法、装置、设备及存储介质 | |
CN113706440A (zh) | 图像处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40023733 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |