CN114283050A - 图像处理方法、装置、设备及存储介质 - Google Patents

图像处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114283050A
CN114283050A CN202111114829.0A CN202111114829A CN114283050A CN 114283050 A CN114283050 A CN 114283050A CN 202111114829 A CN202111114829 A CN 202111114829A CN 114283050 A CN114283050 A CN 114283050A
Authority
CN
China
Prior art keywords
image
tensor
image processing
style
output tensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111114829.0A
Other languages
English (en)
Inventor
宋奕兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111114829.0A priority Critical patent/CN114283050A/zh
Publication of CN114283050A publication Critical patent/CN114283050A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)

Abstract

本申请公开了一种图像处理方法、装置、设备及存储介质,涉及计算机视觉技术。本申请可应用于云技术、人工智能、智慧交通等各种场景下。该图像处理方法包括:将基础图像和参考图像输入图像处理网络;基于图像处理网络,提取基础图像的图像内容特征以及参考图像的图像风格特征;基于参考图像的图像风格特征,在特征层面对基础图像的图像内容特征进行图像风格迁移,得到图像融合特征;基于图像处理网络,将图像融合特征重建为目标图像,目标图像具有基础图像的图像内容和参考图像的图像风格。本申请在图像处理过程中不会损失原始图像内容,进而可以生成图像内容丰富且具有参考图像风格的目标图像,提升了目标图像质量,确保了图像处理效果。

Description

图像处理方法、装置、设备及存储介质
技术领域
本申请涉及计算机视觉技术,特别涉及一种图像处理方法、装置、设备及存储介质。
背景技术
计算机视觉技术涉及图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解等多个分支。其中,图像处理是指将一张图像转换成具有所希望特性的另一张图像。示例性地,图像风格迁移即是一种图像处理技术。
其中,图像风格迁移也称图像样式迁移,目的是将一张图像的风格(也称样式)迁移到另一张图像中。换言之,给定一张基础图像和一张参考图像,通过图像风格迁移,可以得到既保留原始图像内容又具有新样式的目标图像。示例性地,图像的风格包括但不限于色彩、纹理等。
然而,在图像风格迁移过程中,一旦损失基础图像的图像内容,在目标图像中便会出现图像内容部分缺失的现象,进而降低图像质量,影响图像处理效果。因此,亟需一种新的图像处理方法,以实现高质量的图像风格迁移。
发明内容
本申请实施例提供了一种图像处理方法、装置、设备及存储介质,该技术方案在整个图像处理过程中不会损失原始图像内容,能够生成图像内容丰富且具有参考图像风格的目标图像,提升了目标图像质量,进而确保了图像处理效果。该技术方案如下:
一方面,提供了图像处理方法,所述方法包括:
将基础图像和参考图像输入图像处理网络;
基于所述图像处理网络,提取所述基础图像的图像内容特征以及所述参考图像的图像风格特征;
基于所述参考图像的图像风格特征,在特征层面对所述基础图像的图像内容特征进行图像风格迁移,得到图像融合特征;
基于所述图像处理网络,将所述图像融合特征重建为目标图像,所述目标图像具有所述基础图像的图像内容和所述参考图像的图像风格。
在一些实施例中,所述图像处理网络的训练过程包括:
将样本基础图像和样本参考图像输入初始网络;基于所述初始网络,获取样本目标图像,所述样本目标图像具有所述样本基础图像的图像内容以及所述样本参考图像的图像风格;
基于所述样本基础图像和所述样本目标图像,构建图像内容损失函数;
基于所述样本参考图像和所述样本目标图像,构建图像风格损失函数;
根据所述图像内容损失函数和所述图像风格损失函数,对所述初始网络的网络参数进行更新,得到所述图像处理网络。
另一方面,提供了一种图像处理装置,所述装置包括:
特征提取模块,被配置为将基础图像和参考图像输入图像处理网络;基于所述图像处理网络,提取所述基础图像的图像内容特征以及所述参考图像的图像风格特征;
风格迁移模块,被配置为基于所述参考图像的图像风格特征,在特征层面对所述基础图像的图像内容特征进行图像风格迁移,得到图像融合特征;
图像重建模块,被配置为基于所述图像处理网络,将所述图像融合特征重建为目标图像,所述目标图像具有所述基础图像的图像内容和所述参考图像的图像风格。
在一些实施例中,所述图像处理网络为可逆模型;
所述特征提取模块,被配置为:基于所述图像处理网络中各层级的前向计算过程,提取所述基础图像的图像内容特征以及所述参考图像的图像风格特征;
所述图像重建模块,被配置为:基于所述图像处理网络中各层级的逆向计算过程,将所述图像融合特征重建为所述目标图像;
其中,所述前向计算过程与所述逆向计算过程互为可逆计算。
在一些实施例中,所述图像处理网络包括图像压缩层和多个流单元,每个所述流单元包括标准化层、可逆卷积层和耦合层;所述特征提取模块,包括:
第一处理单元,被配置为对于未与所述图像压缩层连接的任意一个流单元,基于所述流单元的标准化层,对上一个流单元输出的内容特征张量进行线性变换,得到第一输出张量;
第二处理单元,被配置为基于所述流单元的可逆卷积层,对所述第一输出张量进行卷积操作,得到第二输出张量;
第三处理单元,被配置为基于所述流单元的耦合层,对所述第二输出张量进行切分,得到第一子张量和第二子张量;对所述第一子张量进行非线性变换,并将得到的非线性变换结果与所述第二子张量相加,得到第三子张量;对所述第一子张量和所述第三子张量进行特征拼接,得到第三输出张量;将所述第三输出张量输入下一个流单元。
在一些实施例中,所述第二处理单元,被配置为:
将上一个流单元输出的内容特征张量中的每个元素分别与第一参数进行点乘,得到第一中间结果;将所述第一中间结果与第二参数相加,得到所述第一输出张量。
在一些实施例中,所述第三处理单元,被配置为:
将所述第一输出张量中的每个元素分别与第一权重矩阵相乘,得到所述第二输出张量;其中,所述第一输出张量和所述第二输出张量的通道数相同;所述第一权重矩阵的大小为c*c,c为正整数,c指代所述第一输出张量和所述第二输出张量的通道数。
在一些实施例中,所述图像重建模块,被配置为:
对于未与所述图像压缩层连接的任意一个流单元,基于所述流单元的耦合层,对上一个流单元输出的融合特征张量进行切分,得到第四子张量和第五子张量;对所述第四子张量进行非线性变换,并将所述第五子张量与得到的非线性变换结果相减,得到第六子张量;对所述第四子张量和所述第六子张量进行特征拼接,得到第四输出张量;
基于所述流单元的可逆卷积层,对所述第四输出张量进行卷积操作的逆变换,得到第五输出张量;
基于所述流单元的标准化层,对所述第五输出张量进行线性变换的逆变换,得到第六输出张量;将所述第六输出张量输入下一个流单元。
在一些实施例中,所述图像重建模块,被配置为:
将所述第四输出张量中的每个元素分别与第二权重矩阵相乘,得到所述第五输出张量;
其中,所述第四输出张量和所述第五输出张量的通道数相同;所述第二权重矩阵是所述流单元的可逆卷积层在前向计算过程中使用的权重矩阵的逆。
在一些实施例中,所述图像重建模块,被配置为:
将所述第五输出张量中的每个元素分别与第二参数相减,得到第二中间结果;将所述第二中间结果与第一参数之比作为所述第六输出张量。
在一些实施例中,所述图像处理网络包括图像压缩层和多个流单元;所述装置还包括:
图像压缩模块,被配置为基于所述图像处理网络的图像压缩层,对所述基础图像进行图像压缩处理,得到第一压缩图像,将所述第一压缩图像输入与所述图像压缩层连接的流单元;所述第一压缩图像相较于所述基础图像尺寸减小且通道数加深;
所述图像压缩模块,还被配置为基于所述图像压缩层,对所述参考图像进行图像压缩处理,得到第二压缩图像,将所述第二压缩图像输入与所述图像压缩层连接的流单元;所述第二压缩图像相较于所述参考图像尺寸减小且通道数加深。
在一些实施例中,所述风格迁移模块,被配置为:
获取所述图像内容特征在通道维度上的第一均值和第一方差;
获取所述图像风格特征在通道维度上的第二均值和第二方差;
基于所述图像内容特征、所述第一均值和所述第一方差,获取第三中间结果;将所述第二方差与所述第三中间结果相乘,得到第四中间结果;
将所述第四中间结果与所述第二均值相加,得到所述图像融合特征。
在一些实施例中,所述风格迁移模块,被配置为:
获取所述图像内容特征的第一协方差矩阵,对所述第一协方差矩阵进行矩阵分解,得到第一矩阵分解结果;根据所述第一矩阵分解结果和所述图像内容特征,确定转换后的图像内容特征;
获取所述图像风格特征的第二协方差矩阵,对所述第二协方差矩阵进行矩阵分解,得到第二矩阵分解结果;根据所述第二矩阵分解结果和所述转换后的图像内容特征,获取所述图像融合特征;
其中,所述图像融合特征的第三协方差矩阵与所述图像风格特征的第一协方差矩阵相同。
另一方面,提供了一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现上述的图像处理方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现上述的图像处理方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述的图像处理方法。
本申请实施例基于一个图像处理网络实现了图像风格迁移,详细来说,基于该图像处理网络既能够进行图像特征提取,也能够进行图像重建,即该图像处理网络是将图像特征提取功能和图像重建功能合二为一的技术框架,而图像特征提取功能和图像重建功能的合二为一,确保了该图像处理网络是信息无损的,以此实现了不损失原始图像内容的图像风格迁移,可以生成图像内容丰富且具有参考图像风格的目标图像,提升了目标图像质量,进而确保了图像处理效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基础图像、参考图像和目标图像的示意图;
图2是本申请实施例提供的一种图像处理方法的实施环境示意图;
图3是本申请实施例提供的一种图像处理方法的流程图;
图4是本申请实施例提供的图像处理网络的一种可能的网络架构示意图;
图5是本申请实施例提供的一种图像处理流程的示意图;
图6是本申请实施例提供的另一种图像处理方法的流程图;
图7是本申请实施例提供的一种图像处理装置的结构示意图;
图8是本申请实施例提供的一种计算机设备的结构示意图;
图9是本申请实施例提供的另一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。
这些术语只是用于将一个元素与另一个元素区别开。例如,在不脱离各种示例的范围的情况下,第一元素能够被称为第二元素,并且类似地,第二元素也能够被称为第一元素。第一元素和第二元素都可以是元素,并且在某些情况下,可以是单独且不同的元素。
另外,至少一个是指一个或一个以上,例如,至少一个元素可以是一个元素、两个元素、三个元素等任意大于等于一的整数个元素。而至少两个是指两个或者两个以上,例如,至少两个元素可以是两个元素、三个元素等任意大于等于二的整数个元素。
在一些实施例中,本申请实施例提供的图像处理方案涉及人工智能技术。
其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的图像处理方案可能涉及人工智能的计算机视觉技术、和机器学习等技术,具体通过如下实施例进行说明。
下面对本申请实施例可能涉及到的一些关键术语或缩略语进行介绍。
图像风格迁移:也称图像样式迁移,是一类图像生成任务,该任务的目的是将一张参考图像(也称风格图像或样式图像)的风格迁移到一张基础图像(也称内容图像)中。换一种表达方式,图像风格迁移是一个改变图像风格同时保留图像内容的过程。即,给定一张内容图像和一张样式图像,通过图像风格迁移,可以得到既保留原始图像内容又具有新样式的目标图像。
在一些实施例中,图像的风格包括但不限于图像色彩、图像纹理等。
在另一些实施例中,风格图像往往是艺术作品,比如美术画作,所谓图像风格迁移,是指学习艺术画作的风格,然后再将这种风格应用到内容图像上,进而能够将拍摄的普通照片转换为具有与艺术画作相同风格的新图像。
参见图1,内容图像为用户利用拍摄设备自行拍摄的一张图像,风格图像为一幅油画作品,通过图像风格迁移,能够将用户自行拍摄的图像转换为既保留原始图像内容又具有该油画作品风格的目标图像。
下面对本申请实施例提供的图像处理方法涉及的实施环境进行介绍。
在一些实施例中,该图像处理方法由终端单独执行;在另一些实施例中,该图像处理方法由终端和服务器联合执行。例如,终端将基础图像和参考图像上传至服务器,进而由服务器基于该图像处理方法完成图像风格迁移,并将得到的目标图像返回至终端。
以该图像处理方法由终端和服务器联合执行为例,图2是本申请实施例提供的一种图像处理方法的实施环境示意图,参见图2,该实施环境包括:终端201和服务器202。
其中,终端201安装和运行有支持图像处理的目标应用程序。终端201是用户使用的终端。服务器202用于为该目标应用程序提供后台服务。
在一些实施例中,目标应用程序可以为独立运行的应用。终端201可以基于用户输入的账号信息登录该目标应用程序,通过该目标应用程序实现用户与终端201之间的交互。另外,该目标应用程序还可以为在其他应用中运行的子应用,示例性地,该子应用可以为小程序,本申请实施例对此不作具体限定。
在一些实施例中,服务器202可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端201可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端201以及服务器202可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
下面对本申请实施例提供的图像处理方法的应用场景进行介绍。
本申请实施提供的图像处理方案适用于图像美化,针对用户提供的基础图像,使用上述目标应用程序内置的参考图像或用户自己提供的参考图像,能够快速生成既保留原始图像内容又具有参考图像风格的目标图像。其中,图像美化的应用领域相当广泛,包括但不限于电影电视领域、摄影领域、时尚领域、电子商务领域、短视频领域等,甚至还可以扩展到地图、车联网或者智慧交通等领域。在上述领域中,均可应用本申请实施例提供的图像处理方案完成图像美化,进而将一张图像转换成具有用户所希望特性的另一张图像。
本申请实施例提供的图像处理方案涉及一种新的通用的图像风格迁移。该种图像处理方案能够用来实现高质量、任意分辨率的图像风格迁移。其中,高质量的含义是,该种图像处理方案在图像风格迁移过程不会损失基础图像的图像内容,相应地,在最终生成的目标图像中不会出现图像内容部分缺失的现象。通用的含义是,该种图像处理方案能够作用于任意的基础图像,无需针对单张基础图像训练一类图像风格迁移算法。下面通过以下实施方式对本申请实施例提供的图像处理方法进行详细介绍。
图3是本申请实施例提供的一种图像处理方法的流程图。该方法由计算机设备执行,该计算机设备的类型参考上述实施环境。参见图3,在一些实施例中,该方法流程包括以下步骤。
301、计算机设备将基础图像和参考图像输入图像处理网络。
其中,参考图像也称风格图像或样式图像,基础图像也称内容图像。在一些实施例中,基础图像可以为用户自行拍摄的一张图像,参考图像既可以是用户主动提供,也可以是***内置图像,比如用户可以在多张***内置图像中选择一张作为参考图像,本申请实施例在此不做限制。
需要说明的第一点是,该图像处理网络负责图像特征提取、图像风格迁移以及图像重建(将图像特征恢复为图像)。其中,图像特征提取部分的任务是对基础图像和参考图像进行图像特征提取;图像风格迁移部分的任务是基于上一步提取到的图像特征,在特征层面进行图像风格迁移;图像重建部分的任务是将上一步经过图像风格迁移的图像特征重建为图像。
需要说明的第二点是,该图像处理网络的计算过程可逆,即该图像处理网络为可逆模型,也即该图像处理网络中各层级的计算过程(也称推理过程)可逆。由于该图像处理网络的计算过程是可逆的,也即意味着该图像处理网络是信息无损的。在一些实施例中,该图像处理网络为基于可逆操作的Flow(流)模型,比如该图像处理网络为Glow模型(可逆生成模型),本申请实施例在此不做限制。
302、计算机设备基于该图像处理网络,提取基础图像的图像内容特征以及参考图像的图像风格特征。
在一些实施例中,基于该图像处理网络中各层级的前向计算过程,提取基础图像的图像内容特征以及参考图像的图像风格特征。
图4示出了该图像处理网络的一种可能的网络架构。如图4所示,该图像处理网络包括图像压缩层401、多个流单元402和图像风格迁移模块403。其中,每个流单元均包括标准化层(Actnorm)、可逆卷积层和耦合层。关于图像压缩层401、流单元402中各层和图像风格迁移模块403的功能作用,详见后文描述。
在图4中,Nx代表有N个流单元叠加。其中,N的取值为正整数,比如N的取值为8,本申请实施例在此不做限制。
需要说明的第一点是,图4中向右指示的黑色箭头即代表该图像处理网络的前向计算过程。在前向计算过程中,对于每个流单元,该流单元中标准化层的输出会传递到可逆卷积层,而可逆卷积层的输出会传递到耦合层。另外,图4中向左指示的黑色箭头即代表该图像处理网络的逆向计算过程。在逆向计算过程中,对于每个流单元,该流单元中耦合层的输出会传递到可逆卷积层,而可逆卷积层的输出会传递到标准化层。即,该图像处理网络的前向计算过程与逆向计算过程是互逆的,也即,前向计算过程与逆向计算过程互为可逆计算。
需要说明的第二点是,图像内容特征指的是图像中包括的内容的特征,其中,图像中出现的人物、动物、植物、自然风光等均属于图像内容。而图像风格包括但不限于图像的色彩、纹理等,相应地,图像风格特征指的是图像色彩的特征、图像纹理的特征等。
303、计算机设备基于参考图像的图像风格特征,在特征层面对基础图像的图像内容特征进行图像风格迁移,得到图像融合特征。
本步骤由该图像处理网络中的图像风格迁移模块403完成。在一些实施例中,该图像风格迁移模块403为AdaIN(Adaptive Instance Normalization,自适应实例归一化)模型或WCT(Whiten-Color Transform,白化-色彩转换)模型。可扩展的是,该图像风格迁移模块403还能够是除了AdaIN模型和WCT模型以外的其他模型,本申请实施例在此不做限制,仅需经过数学证明验证其他模型具有无偏性,即其他模型需进行不损失图像内容的图像风格迁移。
304、计算机设备基于图像处理网络,将该图像融合特征重建为目标图像,该目标图像具有基础图像的图像内容和参考图像的图像风格。
在一些实施例中,基于该图像处理网络中各层级的逆向计算过程,将图像融合特征重建为目标图像。
在本申请实施例中,该图像处理网络的前向计算过程用于图像特征提取,该图像处理网络的逆向计算过程用于图像重建,即如图5所示,图像特征提取和图像重建由一个模型完成,也即,该图像处理网络是将图像特征提取功能和图像重建功能合二为一的技术框架,基础图像和参考图像输入该图像处理网络后,经过该图像处理网络便能得到图像内容丰富的目标图像,以此实现了不损失原始图像内容的图像特征提取和图像恢复,进而实现了高质量图像风格迁移。
本申请实施例基于一个图像处理网络实现了图像风格迁移,详细来说,基于该图像处理网络既能够进行图像特征提取,也能够进行图像重建,即该图像处理网络是将图像特征提取功能和图像重建功能合二为一的技术框架,而图像特征提取功能和图像重建功能的合二为一,确保了该图像处理网络是信息无损的,以此实现了不损失原始图像内容的图像风格迁移,可以生成图像内容丰富且具有参考图像风格的目标图像,提升了目标图像质量,进而确保了图像处理效果。
图6是本申请实施例提供的另一种图像处理方法的流程图。该方法由计算机设备执行,该计算机设备的类型参考上述实施环境。参见图6,在一些实施例中,该方法流程包括以下步骤。
601、计算机设备将基础图像和参考图像输入图像处理网络,该图像处理网络的计算过程可逆。
在本申请实施例中,首先基于样本数据集训练图像处理网络。其中,该样本数据集中包括样本基础图像和样本参考图像。其中,样本基础图像指代用于训练的内容图像;样本参考图像指代用于训练的风格图像。
在一些实施例中,该图像处理网络的训练过程包括:将样本基础图像和样本参考图像输入初始网络;基于初始网络获取样本目标图像,该样本目标图像具有样本基础图像的图像内容以及样本参考图像的图像风格;基于样本基础图像和样本目标图像,构建图像内容损失函数;基于样本参考图像和样本目标图像,构建图像风格损失函数;进而,根据图像内容损失函数和图像风格损失函数,对初始网络的网络参数进行更新,得到该图像处理网络。
需要说明的是,训练该图像处理网络的计算机设备与执行该图像处理方法的计算机设备,既可以是同一个设备,也可以是不同的设备,本申请在此不做限制。
602、计算机设备基于该图像处理网络的图像压缩层,对基础图像进行图像压缩处理,得到第一压缩图像,将第一压缩图像输入与该图像压缩层连接的流单元;以及,基于该图像压缩层,对参考图像进行图像压缩处理,得到第二压缩图像,将第二压缩图像输入与该图像压缩层连接的流单元。
在一些实施例中,该图像处理网络包括的图像压缩层为多个,图4所示的架构包括了两个图像压缩层。其中,每个图像压缩层的功能相同,仅是其输入和输出不同。本步骤出现的图像压缩层指代该图像处理网络的首个图像压缩层,也称第一图像压缩层,即在将基础图像和参考图像输入该图像处理网络后,首先利用第一图像压缩层对基础图像和参考图像进行图像压缩处理。
在另一些实施例中,该图像压缩层采用的压缩函数为squeeze函数,其中,squeeze函数负责减小图像的尺寸并加深图像的通道数;即,其中,第一压缩图像相较于基础图像尺寸减小且通道数加深;第二压缩图像相较于参考图像尺寸减小且通道数加深。示例性地,假设某一张图像原始为h*w*c大小,在经过squeeze函数的压缩处理后,该图像便为h/2*w/2*4c大小。其中,h指代图像高度,w指代图像宽度,c指代图像通道数。
需要说明的是,对于图4中所示的另一个图像压缩层(也称第二图像压缩层,位于两个流单元之间),其处理流程与上述第一图像压缩层类似。
603、计算机设备基于该图像处理网络中各层级的前向计算过程,提取第一压缩图像的图像内容特征以及第二压缩图像的图像风格特征。
其中,第一压缩图像即为经过图像压缩处理后的基础图像,第二压缩图像即为经过图像压缩处理后的参考图像。
以对基础图像进行图像特征提取为例,则基于图像处理网络的前向计算过程,提取经过压缩处理后的基础图像的图像内容特征,包括如下步骤。
6031、对于未与图像压缩层连接的任意一个流单元,基于该流单元的标准化层,对上一个流单元输出的内容特征张量进行线性变换,得到第一输出张量。
其中,上一个流单元输出的内容特征张量,即为当前流单元的输入张量。
在一些实施例中,基于该流单元的标准化层,对上一个流单元输出的内容特征张量进行线性变换,得到第一输出张量,包括:将上一个流单元输出的内容特征张量中的每个元素分别与第一参数进行点乘,得到第一中间结果;将第一中间结果与第二参数相加,得到第一输出张量。相应地,计算公式表示如下:
yi,j=w⊙xi,j+b
其中,⊙表示点乘操作,w指代第一参数,b指代第二参数,xi,j指代当前流单元的输入张量中(i,j)位置上的元素,i和j的取值均为正整数。第一参数和第二参数均为待学习的参数。
本步骤即是将当前流单元的输入张量中每个元素分别与w相乘,之后再与作为偏置项的b相加得到当前流单元的输出结果。
6032、基于该流单元的可逆卷积层,对第一输出张量进行卷积操作,得到第二输出张量。
在一些实施例中,基于该流单元的可逆卷积层,对第一输出张量进行卷积操作,得到第二输出张量,包括:将第一输出张量中的每个元素分别与第一权重矩阵相乘,得到第二输出张量;相应地,计算公式表示如下:
Yi,j=W×Xi,j
其中,第一输出张量和第二输出张量的通道数相同;W指代第一权重矩阵,第一权重矩阵为待学习的参数;第一权重矩阵的大小为c*c,c为正整数;c指代第一输出张量和第二输出张量的通道数;Xi,j指代第一输出张量中(i,j)位置上的元素。
6033、基于该流单元的耦合层,在通道维度对第二输出张量进行切分,得到第一子张量和第二子张量;对第一子张量进行非线性变换,并将得到的非线性变换结果与第二子张量相加,得到第三子张量;在通道维度对第一子张量和第三子张量进行特征拼接,得到第三输出张量;将第三输出张量输入下一个流单元。相应地,计算公式表示如下:
xa,xb=split(x)
yb=NN(xa)+xb
y=concat(xa,yb)
其中,x指代该流单元的可逆卷积层的输出张量,即上述第二输出张量;xa指代第一子张量,xb指代第二子张量;split()指代切分操作,concat()指代特征拼接操作,NN()指代非线性变换;yb指代第三子张量;y指代第三输出张量。即,第三输出张量作为当前流单元输出的内容特征张量,会继续输入与其连接的下一个流单元。
需要说明的是,针对前向计算过程,对于与图像压缩层连接的流单元,其处理流程与上述步骤6031-步骤6033类似,区别在于,要么这些流单元的输入是图像压缩层的输出,要么这些流单元的输出是图像压缩层的输入。
604、计算机设备基于图像风格特征,在特征层面对图像内容特征进行图像风格迁移,得到图像融合特征。
在本申请实施例中,基础图像的图像内容特征以fc指代,参考图像的图像风格特征以fs指代,本步骤利用图4所示的图像风格迁移模块403在特征层面进行图像风格迁移。示例性地,假设将图像风格迁移操作用一个函数T()替代,则在特征空间进行图像风格迁移能够通过如下计算公式表示。
fcs=r(fc,fs)
其中,fcs指代图像风格迁移模块获得的经过图像风格迁移后的图像特征,即上述图像融合特征。
以该图像风格迁移模块403为AdaIN模型为例,则基于基础图像的图像内容特征和参考图像的图像风格特征,在特征层面进行图像风格迁移,包括:
6041、获取图像内容特征在通道维度上的第一均值和第一方差;以及,获取图像风格特征在通道维度上的第二均值和第二方差。
需要说明的是,为了便于区分,本文将图像内容特征fc在通道维度的均值和方差,称为第一均值和第一方差;将图像风格特征fs在通道维度的均值和方差,称为第二均值和第二方差。
其中,AdaIN模型是将图像内容特征的通道级(channel-wise)均值和方差匹配到图像风格特征的通道级均值和方差上:换言之,通过对齐基础图像每通道的特征图的均值和方差,来匹配参考图像每通道的特征图的均值和方差。即,AdaIN模型在特征层面上通过改变特征的数据分布来实现图像风格迁移。
6042、基于图像内容特征、第一均值和第一方差,获取第三中间结果;将第二方差与第三中间结果相乘,得到第四中间结果;将第四中间结果与第二均值相加,得到图像融合特征。
其中,该步骤6042利用计算公式表达如下:
Figure BDA0003275183520000151
这个公式可以理解为,先将基础图像去风格化,即图像内容特征减去自身均值再除以自身方差;再风格化到参考图像的风格,即乘以图像风格特征的方差再加上相应的均值。
以该图像风格迁移模块403为WCT模型为例,则基于基础图像的图像内容特征和参考图像的图像风格特征,在特征层面进行图像风格迁移,包括白化操作(Whitening)和上色操作(Color Transfer)两个部分。
其中,白化操作是指:获取图像内容特征的第一协方差矩阵,对第一协方差矩阵进行矩阵分解,得到第一矩阵分解结果;根据第一矩阵分解结果和图像内容特征,确定转换后的图像内容特征。
需要说明的是,为了便于区分,本文将图像内容特征的协方差矩阵称为第一协方差矩阵,而将图像风格特征的协方差矩阵称为第二协方差矩阵,将图像融合特征的协方差矩阵称为第三协方差矩阵。
详细来说,该步骤是获取第一协方差矩阵对应的正交特征向量,以及第一协方差矩阵对应的特征值组成的对角矩阵,其中,该正交特征向量和该对角矩阵是通过对第一协方差矩阵进行矩阵分解得到的。在一些实施例中,该矩阵分解为奇异值分解,本申请在此不做限制。进而根据该正交特征向量和该对角矩阵,对图像内容特征进行白化操作。
其中,上色操作是指:获取图像风格特征的第二协方差矩阵,对第二协方差矩阵进行矩阵分解,得到第二矩阵分解结果;根据第二矩阵分解结果和转换后的图像内容特征,获取图像融合特征。其中,该第二矩阵分解结果的获取方式与上述第一矩阵分解结果的获取方式类似,包括第二协方差矩阵对应的正交特征向量,以及第二协方差矩阵对应的特征值组成的对角矩阵。另外,图像融合特征的第三协方差矩阵与图像风格特征的第一协方差矩阵相同。
605、计算机设备基于该图像处理网络中各层级的逆向计算过程,将图像融合特征重建为目标图像,目标图像具有基础图像的图像内容和参考图像的图像风格,其中,前向计算过程与逆向计算过程互为可逆计算。
本步骤利用该图像处理网络的逆向计算过程将fcs还原到图像空间,完成图像重建,得到目标图像,该目标图像既保留了基础图像的图像内容,同时兼具参考图像的风格。
其中,该图像处理网络的逆向计算过程与前向计算过程互逆。在一些实施例中,基于该图像处理网络的逆向计算过程,将图像融合特征重建为目标图像,包括如下步骤。
6051、对于未与图像压缩层连接的任意一个流单元,基于该流单元的耦合层,在通道维度对上一个流单元输出的融合特征张量进行切分,得到第四子张量和第五子张量;对第四子张量进行非线性变换,并将第五子张量与得到的非线性变换结果相减,得到第六子张量;在通道维度对第四子张量和第六子张量进行特征拼接,得到第四输出张量。
6052、基于该流单元的可逆卷积层,对第四输出张量进行卷积操作的逆变换,得到第五输出张量。
在一些实施例中,基于流单元的可逆卷积层,对第四输出张量进行卷积操作的逆变换,得到第五输出张量,包括:将第四输出张量中的每个元素分别与第二权重矩阵相乘,得到第五输出张量;其中,第四输出张量和第五输出张量的通道数相同;第二权重矩阵是该流单元的可逆卷积层在前向计算过程中使用的权重矩阵的逆。
6053、基于该流单元的标准化层,对第五输出张量进行线性变换的逆变换,得到第六输出张量;将第六输出张量输入下一个流单元。
在一些实施例中,基于该流单元的标准化层,对第五输出张量进行线性变换的逆变换,得到第六输出张量,包括:将第五输出张量中的每个元素分别与第二参数相减,得到第二中间结果;将第二中间结果与第一参数之比作为第六输出张量。
需要说明的是,针对逆向计算过程,对于与图像压缩层连接的其他流单元,其处理流程与上述步骤6051-步骤6053类似。区别在于,要么这些流单元的输入是图像压缩层的输出,要么这些流单元的输出是图像压缩层的输入。
本申请实施例基于计算过程可逆的图像处理网络实现了图像风格迁移,详细来说,基于该图像处理网络的前向计算过程进行图像特征提取,基于该图像处理网络的逆向计算过程进行图像重建,即该图像处理网络是将图像特征提取功能和图像重建功能合二为一的技术框架;其中,该图像处理网络具有可逆性即意味着该图像处理网络是信息无损的,因此,该图像处理网络在图像处理过程中不会损失原始图像内容,进而可以生成图像内容丰富且具有参考图像风格的目标图像,提升了目标图像质量,进而确保了图像处理效果。
图7是本申请实施例提供的一种图像处理装置的结构示意图。参见图7,该装置包括:
特征提取模块701,被配置为将基础图像和参考图像输入图像处理网络;基于所述图像处理网络,提取所述基础图像的图像内容特征以及所述参考图像的图像风格特征;
风格迁移模块702,被配置为基于所述参考图像的图像风格特征,在特征层面对所述基础图像的图像内容特征进行图像风格迁移,得到图像融合特征;
图像重建模块703,被配置为基于所述图像处理网络,将所述图像融合特征重建为目标图像,所述目标图像具有所述基础图像的图像内容和所述参考图像的图像风格。
本申请实施例基于一个图像处理网络实现了图像风格迁移,详细来说,基于该图像处理网络既能够进行图像特征提取,也能够进行图像重建,即该图像处理网络是将图像特征提取功能和图像重建功能合二为一的技术框架,而图像特征提取功能和图像重建功能的合二为一,确保了该图像处理网络是信息无损的,以此实现了不损失原始图像内容的图像风格迁移,可以生成图像内容丰富且具有参考图像风格的目标图像,提升了目标图像质量,进而确保了图像处理效果。
在一些实施例中,所述图像处理网络为可逆模型;
所述特征提取模块,被配置为:基于所述图像处理网络中各层级的前向计算过程,提取所述基础图像的图像内容特征以及所述参考图像的图像风格特征;
所述图像重建模块,被配置为:基于所述图像处理网络中各层级的逆向计算过程,将所述图像融合特征重建为所述目标图像;
其中,所述前向计算过程与所述逆向计算过程互为可逆计算。
在一些实施例中,所述图像处理网络包括图像压缩层和多个流单元,每个所述流单元包括标准化层、可逆卷积层和耦合层;所述特征提取模块,包括:
第一处理单元,被配置为对于未与所述图像压缩层连接的任意一个流单元,基于所述流单元的标准化层,对上一个流单元输出的内容特征张量进行线性变换,得到第一输出张量;
第二处理单元,被配置为基于所述流单元的可逆卷积层,对所述第一输出张量进行卷积操作,得到第二输出张量;
第三处理单元,被配置为基于所述流单元的耦合层,对所述第二输出张量进行切分,得到第一子张量和第二子张量;对所述第一子张量进行非线性变换,并将得到的非线性变换结果与所述第二子张量相加,得到第三子张量;对所述第一子张量和所述第三子张量进行特征拼接,得到第三输出张量;将所述第三输出张量输入下一个流单元。
在一些实施例中,所述第二处理单元,被配置为:
将上一个流单元输出的内容特征张量中的每个元素分别与第一参数进行点乘,得到第一中间结果;将所述第一中间结果与第二参数相加,得到所述第一输出张量。
在一些实施例中,所述第三处理单元,被配置为:
将所述第一输出张量中的每个元素分别与第一权重矩阵相乘,得到所述第二输出张量;其中,所述第一输出张量和所述第二输出张量的通道数相同;所述第一权重矩阵的大小为c*c,c为正整数,c指代所述第一输出张量和所述第二输出张量的通道数。
在一些实施例中,所述图像重建模块,被配置为:
对于未与所述图像压缩层连接的任意一个流单元,基于所述流单元的耦合层,对上一个流单元输出的融合特征张量进行切分,得到第四子张量和第五子张量;对所述第四子张量进行非线性变换,并将所述第五子张量与得到的非线性变换结果相减,得到第六子张量;对所述第四子张量和所述第六子张量进行特征拼接,得到第四输出张量;
基于所述流单元的可逆卷积层,对所述第四输出张量进行卷积操作的逆变换,得到第五输出张量;
基于所述流单元的标准化层,对所述第五输出张量进行线性变换的逆变换,得到第六输出张量;将所述第六输出张量输入下一个流单元。
在一些实施例中,所述图像重建模块,被配置为:
将所述第四输出张量中的每个元素分别与第二权重矩阵相乘,得到所述第五输出张量;
其中,所述第四输出张量和所述第五输出张量的通道数相同;所述第二权重矩阵是所述流单元的可逆卷积层在前向计算过程中使用的权重矩阵的逆。
在一些实施例中,所述图像重建模块,被配置为:
将所述第五输出张量中的每个元素分别与第二参数相减,得到第二中间结果;将所述第二中间结果与第一参数之比作为所述第六输出张量。
在一些实施例中,所述图像处理网络包括图像压缩层和多个流单元;所述装置还包括:
图像压缩模块,被配置为基于所述图像处理网络的图像压缩层,对所述基础图像进行图像压缩处理,得到第一压缩图像,将所述第一压缩图像输入与所述图像压缩层连接的流单元;所述第一压缩图像相较于所述基础图像尺寸减小且通道数加深;
所述图像压缩模块,还被配置为基于所述图像压缩层,对所述参考图像进行图像压缩处理,得到第二压缩图像,将所述第二压缩图像输入与所述图像压缩层连接的流单元;所述第二压缩图像相较于所述参考图像尺寸减小且通道数加深。
在一些实施例中,所述风格迁移模块,被配置为:
获取所述图像内容特征在通道维度上的第一均值和第一方差;
获取所述图像风格特征在通道维度上的第二均值和第二方差;
基于所述图像内容特征、所述第一均值和所述第一方差,获取第三中间结果;将所述第二方差与所述第三中间结果相乘,得到第四中间结果;
将所述第四中间结果与所述第二均值相加,得到所述图像融合特征。
在一些实施例中,所述风格迁移模块,被配置为:
获取所述图像内容特征的第一协方差矩阵,对所述第一协方差矩阵进行矩阵分解,得到第一矩阵分解结果;根据所述第一矩阵分解结果和所述图像内容特征,确定转换后的图像内容特征;
获取所述图像风格特征的第二协方差矩阵,对所述第二协方差矩阵进行矩阵分解,得到第二矩阵分解结果;根据所述第二矩阵分解结果和所述转换后的图像内容特征,获取所述图像融合特征;
其中,所述图像融合特征的第三协方差矩阵与所述图像风格特征的第一协方差矩阵相同。
在一些实施例中,所述图像处理网络的训练过程包括:
将样本基础图像和样本参考图像输入初始网络;基于所述初始网络,获取样本目标图像,所述样本目标图像具有所述样本基础图像的图像内容以及所述样本参考图像的图像风格;
基于所述样本基础图像和所述样本目标图像,构建图像内容损失函数;
基于所述样本参考图像和所述样本目标图像,构建图像风格损失函数;
根据所述图像内容损失函数和所述图像风格损失函数,对所述初始网络的网络参数进行更新,得到所述图像处理网络。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的图像处理装置在处理图像时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8示出了本申请一个示例性实施例提供的计算机设备800的结构框图。
通常,计算机设备800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器801所执行以实现本申请中方法实施例提供的图像处理方法。
在一些实施例中,计算机设备800还可选包括有:***设备接口803和至少一个***设备。处理器801、存储器802和***设备接口803之间可以通过总线或信号线连接。各个***设备可以通过总线、信号线或电路板与***设备接口803连接。具体地,***设备包括:射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。
***设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和***设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和***设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置在计算机设备800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在计算机设备800的不同表面或呈折叠设计;在另一些实施例中,显示屏805可以是柔性显示屏,设置在计算机设备800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。
定位组件808用于定位计算机设备800的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。
电源809用于为计算机设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,计算机设备800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。
加速度传感器811可以检测以计算机设备800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器812可以检测计算机设备800的机体方向及转动角度,陀螺仪传感器812可以与加速度传感器811协同采集用户对计算机设备800的3D动作。处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器813可以设置在计算机设备800的侧边框和/或显示屏805的下层。当压力传感器813设置在计算机设备800的侧边框时,可以检测用户对计算机设备800的握持信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时,由处理器801根据用户对显示屏805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器814采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置在计算机设备800的正面、背面或侧面。当计算机设备800上设置有物理按键或厂商Logo时,指纹传感器814可以与物理按键或厂商Logo集成在一起。
光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器815采集的环境光强度,控制显示屏805的显示亮度。具体地,当环境光强度较高时,调高显示屏805的显示亮度;当环境光强度较低时,调低显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。
接近传感器816,也称距离传感器,通常设置在计算机设备800的前面板。接近传感器816用于采集用户与计算机设备800的正面之间的距离。在一个实施例中,当接近传感器816检测到用户与计算机设备800的正面之间的距离逐渐变小时,由处理器801控制显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与计算机设备800的正面之间的距离逐渐变大时,由处理器801控制显示屏805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对计算机设备800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图9是本申请实施例提供的一种计算机设备900的结构示意图。该计算机900可以是服务器。该计算机设备900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)901和一个或一个以上的存储器902,其中,所述存储器902中存储有至少一条程序代码,所述至少一条程序代码由所述处理器901加载并执行以实现上述各个方法实施例提供的图像处理方法。当然,该计算机设备900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备900还可以包括其他用于实现设备功能的部件,在此不做赘述。
在一些实施例中,还提供了一种计算机可读存储介质,例如包括程序代码的存储器,上述程序代码可由计算机设备中的处理器执行以完成上述实施例中的图像处理方法。例如,所述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在一些实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述图像处理方法。
在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链***。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种图像处理方法,其特征在于,所述方法包括:
将基础图像和参考图像输入图像处理网络;
基于所述图像处理网络,提取所述基础图像的图像内容特征以及所述参考图像的图像风格特征;
基于所述参考图像的图像风格特征,在特征层面对所述基础图像的图像内容特征进行图像风格迁移,得到图像融合特征;
基于所述图像处理网络,将所述图像融合特征重建为目标图像,所述目标图像具有所述基础图像的图像内容和所述参考图像的图像风格。
2.根据权利要求1所述的方法,其特征在于,所述图像处理网络为可逆模型;
所述基于所述图像处理网络,提取所述基础图像的图像内容特征以及所述参考图像的图像风格特征,包括:
基于所述图像处理网络中各层级的前向计算过程,提取所述基础图像的图像内容特征以及所述参考图像的图像风格特征;
所述基于所述图像处理网络,将所述图像融合特征重建为目标图像,包括:
基于所述图像处理网络中各层级的逆向计算过程,将所述图像融合特征重建为所述目标图像;
其中,所述前向计算过程与所述逆向计算过程互为可逆计算。
3.根据权利要求2所述的方法,其特征在于,所述图像处理网络包括图像压缩层和多个流单元,每个所述流单元包括标准化层、可逆卷积层和耦合层;
所述基于所述图像处理网络中各层级的前向计算过程,对所述基础图像进行图像内容特征提取,包括:
对于未与所述图像压缩层连接的任意一个流单元,基于所述流单元的标准化层,对上一个流单元输出的内容特征张量进行线性变换,得到第一输出张量;
基于所述流单元的可逆卷积层,对所述第一输出张量进行卷积操作,得到第二输出张量;
基于所述流单元的耦合层,对所述第二输出张量进行切分,得到第一子张量和第二子张量;对所述第一子张量进行非线性变换,并将得到的非线性变换结果与所述第二子张量相加,得到第三子张量;对所述第一子张量和所述第三子张量进行特征拼接,得到第三输出张量;将所述第三输出张量输入下一个流单元。
4.根据权利要求3所述的方法,其特征在于,所述基于所述流单元的标准化层,对上一个流单元输出的内容特征张量进行线性变换,得到第一输出张量,包括:
将上一个流单元输出的内容特征张量中的每个元素分别与第一参数进行点乘,得到第一中间结果;
将所述第一中间结果与第二参数相加,得到所述第一输出张量。
5.根据权利要求3所述的方法,其特征在于,所述基于所述流单元的可逆卷积层,对所述第一输出张量进行卷积操作,得到第二输出张量,包括:
将所述第一输出张量中的每个元素分别与第一权重矩阵相乘,得到所述第二输出张量;
其中,所述第一输出张量和所述第二输出张量的通道数相同;所述第一权重矩阵的大小为c*c,c为正整数,c指代所述第一输出张量和所述第二输出张量的通道数。
6.根据权利要求2所述的方法,其特征在于,所述图像处理网络包括图像压缩层和多个流单元,每个所述流单元包括标准化层、可逆卷积层和耦合层;
所述基于所述图像处理网络中各层级的逆向计算过程,将所述图像融合特征重建为目标图像,包括:
对于未与所述图像压缩层连接的任意一个流单元,基于所述流单元的耦合层,对上一个流单元输出的融合特征张量进行切分,得到第四子张量和第五子张量;对所述第四子张量进行非线性变换,并将所述第五子张量与得到的非线性变换结果相减,得到第六子张量;对所述第四子张量和所述第六子张量进行特征拼接,得到第四输出张量;
基于所述流单元的可逆卷积层,对所述第四输出张量进行卷积操作的逆变换,得到第五输出张量;
基于所述流单元的标准化层,对所述第五输出张量进行线性变换的逆变换,得到第六输出张量;将所述第六输出张量输入下一个流单元。
7.根据权利要求6所述的方法,其特征在于,所述基于所述流单元的可逆卷积层,对所述第四输出张量进行卷积操作的逆变换,得到第五输出张量,包括:
将所述第四输出张量中的每个元素分别与第二权重矩阵相乘,得到所述第五输出张量;
其中,所述第四输出张量和所述第五输出张量的通道数相同;所述第二权重矩阵是所述流单元的可逆卷积层在前向计算过程中使用的权重矩阵的逆。
8.根据权利要求6所述的方法,其特征在于,所述基于所述流单元的标准化层,对所述第五输出张量进行线性变换的逆变换,得到第六输出张量,包括:
将所述第五输出张量中的每个元素分别与第二参数相减,得到第二中间结果;将所述第二中间结果与第一参数之比作为所述第六输出张量。
9.根据权利要求1所述的方法,其特征在于,所述图像处理网络包括图像压缩层和多个流单元;所述方法还包括:
基于所述图像处理网络的图像压缩层,对所述基础图像进行图像压缩处理,得到第一压缩图像,将所述第一压缩图像输入与所述图像压缩层连接的流单元;所述第一压缩图像相较于所述基础图像尺寸减小且通道数加深;
基于所述图像压缩层,对所述参考图像进行图像压缩处理,得到第二压缩图像,将所述第二压缩图像输入与所述图像压缩层连接的流单元;所述第二压缩图像相较于所述参考图像尺寸减小且通道数加深。
10.根据权利要求1所述的方法,其特征在于,所述基于所述基础图像的图像内容特征和所述参考图像的图像风格特征,在特征层面进行图像风格迁移,得到图像融合特征,包括:
获取所述图像内容特征在通道维度上的第一均值和第一方差;
获取所述图像风格特征在通道维度上的第二均值和第二方差;
基于所述图像内容特征、所述第一均值和所述第一方差,获取第三中间结果;将所述第二方差与所述第三中间结果相乘,得到第四中间结果;
将所述第四中间结果与所述第二均值相加,得到所述图像融合特征。
11.根据权利要求1所述的方法,其特征在于,所述基于所述基础图像的图像内容特征和所述参考图像的图像风格特征,在特征层面进行图像风格迁移,得到图像融合特征,包括:
获取所述图像内容特征的第一协方差矩阵,对所述第一协方差矩阵进行矩阵分解,得到第一矩阵分解结果;根据所述第一矩阵分解结果和所述图像内容特征,确定转换后的图像内容特征;
获取所述图像风格特征的第二协方差矩阵,对所述第二协方差矩阵进行矩阵分解,得到第二矩阵分解结果;根据所述第二矩阵分解结果和所述转换后的图像内容特征,获取所述图像融合特征;
其中,所述图像融合特征的第三协方差矩阵与所述图像风格特征的第一协方差矩阵相同。
12.一种图像处理装置,其特征在于,所述装置包括:
特征提取模块,被配置为将基础图像和参考图像输入图像处理网络;基于所述图像处理网络,提取所述基础图像的图像内容特征以及所述参考图像的图像风格特征;
风格迁移模块,被配置为基于所述参考图像的图像风格特征,在特征层面对所述基础图像的图像内容特征进行图像风格迁移,得到图像融合特征;
图像重建模块,被配置为基于所述图像处理网络,将所述图像融合特征重建为目标图像,所述目标图像具有所述基础图像的图像内容和所述参考图像的图像风格。
13.一种计算机设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至11中任一项权利要求所述的图像处理方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至11中任一项权利要求所述的图像处理方法。
15.一种计算机程序产品或计算机程序,其特征在于,所述计算机程序产品或计算机程序包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述计算机设备执行如权利要求1至11中任一项权利要求所述的图像处理方法。
CN202111114829.0A 2021-09-23 2021-09-23 图像处理方法、装置、设备及存储介质 Pending CN114283050A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111114829.0A CN114283050A (zh) 2021-09-23 2021-09-23 图像处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111114829.0A CN114283050A (zh) 2021-09-23 2021-09-23 图像处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114283050A true CN114283050A (zh) 2022-04-05

Family

ID=80868559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111114829.0A Pending CN114283050A (zh) 2021-09-23 2021-09-23 图像处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114283050A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115866074A (zh) * 2022-11-29 2023-03-28 金蝶软件(中国)有限公司 基于区块链的图片处理方法及相关设备
CN116012248A (zh) * 2022-12-30 2023-04-25 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及计算机存储介质
CN116193242A (zh) * 2023-04-24 2023-05-30 北京城建智控科技股份有限公司 一种摄像装置图像解析与传输方法
CN116664719A (zh) * 2023-07-28 2023-08-29 腾讯科技(深圳)有限公司 一种图像重绘模型训练方法、图像重绘方法及装置
CN116912353A (zh) * 2023-09-13 2023-10-20 上海蜜度信息技术有限公司 多任务图像处理方法、***、存储介质及电子设备
CN117576265A (zh) * 2024-01-15 2024-02-20 腾讯科技(深圳)有限公司 风格图像的生成方法、装置、计算机设备和存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115866074A (zh) * 2022-11-29 2023-03-28 金蝶软件(中国)有限公司 基于区块链的图片处理方法及相关设备
CN116012248A (zh) * 2022-12-30 2023-04-25 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及计算机存储介质
CN116012248B (zh) * 2022-12-30 2024-03-26 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及计算机存储介质
CN116193242A (zh) * 2023-04-24 2023-05-30 北京城建智控科技股份有限公司 一种摄像装置图像解析与传输方法
CN116193242B (zh) * 2023-04-24 2023-07-14 北京城建智控科技股份有限公司 一种摄像装置图像解析与传输方法
CN116664719A (zh) * 2023-07-28 2023-08-29 腾讯科技(深圳)有限公司 一种图像重绘模型训练方法、图像重绘方法及装置
CN116664719B (zh) * 2023-07-28 2023-12-29 腾讯科技(深圳)有限公司 一种图像重绘模型训练方法、图像重绘方法及装置
CN116912353A (zh) * 2023-09-13 2023-10-20 上海蜜度信息技术有限公司 多任务图像处理方法、***、存储介质及电子设备
CN116912353B (zh) * 2023-09-13 2023-12-19 上海蜜度信息技术有限公司 多任务图像处理方法、***、存储介质及电子设备
CN117576265A (zh) * 2024-01-15 2024-02-20 腾讯科技(深圳)有限公司 风格图像的生成方法、装置、计算机设备和存储介质
CN117576265B (zh) * 2024-01-15 2024-05-28 腾讯科技(深圳)有限公司 风格图像的生成方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN110136136B (zh) 场景分割方法、装置、计算机设备及存储介质
CN111091132B (zh) 基于人工智能的图像识别方法、装置、计算机设备及介质
CN110544272B (zh) 脸部跟踪方法、装置、计算机设备及存储介质
CN114283050A (zh) 图像处理方法、装置、设备及存储介质
CN111489378B (zh) 视频帧特征提取方法、装置、计算机设备及存储介质
CN111091166B (zh) 图像处理模型训练方法、图像处理方法、设备及存储介质
CN112991494B (zh) 图像生成方法、装置、计算机设备及计算机可读存储介质
CN111738914B (zh) 图像处理方法、装置、计算机设备及存储介质
CN110570460B (zh) 目标跟踪方法、装置、计算机设备及计算机可读存储介质
CN112272311B (zh) 花屏修复方法、装置、终端、服务器及介质
CN114332530A (zh) 图像分类方法、装置、计算机设备及存储介质
CN112581358B (zh) 图像处理模型的训练方法、图像处理方法及装置
CN115019050A (zh) 图像处理方法、装置、设备及存储介质
CN110675412A (zh) 图像分割方法、图像分割模型的训练方法、装置及设备
CN112115900B (zh) 图像处理方法、装置、设备及存储介质
CN111768507B (zh) 图像融合方法、装置、计算机设备及存储介质
CN113705302A (zh) 图像生成模型的训练方法、装置、计算机设备及存储介质
CN114283299A (zh) 图像聚类方法、装置、计算机设备及存储介质
CN113822263A (zh) 图像标注方法、装置、计算机设备及存储介质
CN115170896A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN112508959B (zh) 视频目标分割方法、装置、电子设备及存储介质
CN113570510A (zh) 图像处理方法、装置、设备及存储介质
CN113821658A (zh) 对编码器进行训练的方法、装置、设备及存储介质
CN113763931A (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN113569822B (zh) 图像分割方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination