CN117036180A - 图像优化方法、装置、电子设备、介质和程序产品 - Google Patents

图像优化方法、装置、电子设备、介质和程序产品 Download PDF

Info

Publication number
CN117036180A
CN117036180A CN202211252059.0A CN202211252059A CN117036180A CN 117036180 A CN117036180 A CN 117036180A CN 202211252059 A CN202211252059 A CN 202211252059A CN 117036180 A CN117036180 A CN 117036180A
Authority
CN
China
Prior art keywords
image
target
optimized
network
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211252059.0A
Other languages
English (en)
Inventor
林楚铭
王烟波
罗栋豪
邰颖
张志忠
谢源
汪铖杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211252059.0A priority Critical patent/CN117036180A/zh
Priority to EP23861677.5A priority patent/EP4386657A1/en
Priority to PCT/CN2023/120931 priority patent/WO2024078308A1/zh
Publication of CN117036180A publication Critical patent/CN117036180A/zh
Priority to US18/421,016 priority patent/US20240161245A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请实施例公开了一种图像优化方法、装置、电子设备、介质和程序产品,可以应用于基于计算机视觉等技术的人工智能领域;本申请实施例获取图像生成网络、待优化图像以及多个预设的随机特征;从多个预设的随机特征中,选取目标特征,目标特征为与待优化图像满足预设相似度条件的预设的随机特征;根据图像生成网络、目标特征以及待优化图像,调整初始偏移参数,得到目标偏移参数;将目标特征以及目标偏移参数输入图像生成网络,生成优化后的图像。在本申请实施例中,从多个预设的随机特征中选取对应待优化图像的目标特征,并通过调整得到目标偏移参数,可以由目标特征结合目标偏移参数,生成优化后的图像,以提升图像的优化效果。

Description

图像优化方法、装置、电子设备、介质和程序产品
技术领域
本申请涉及图像处理技术领域,具体涉及一种图像优化方法、装置、电子设备、介质和程序产品。
背景技术
图像在成像、传输、获取的过程中,会受到外界的干扰、传输设备不完善等因素的影响,使得图像有噪声、色彩缺失、细节缺失、分辨率低等问题,导致图像质量较低。为了提升图像的质量,就需要对图像进行优化处理。
然而,现有的图像优化方法,例如对图像的噪声、模糊进行修复的方法,优化效果不佳。
发明内容
本申请实施例提供一种图像优化方法、装置、电子设备、介质和程序产品,可以提升图像的优化效果。
本申请实施例提供一种图像优化方法,包括:获取图像生成网络、待优化图像以及多个预设的随机特征;从所述多个预设的随机特征中,选取目标特征,所述目标特征为与所述待优化图像满足预设相似度条件的所述预设的随机特征;根据所述图像生成网络、所述目标特征以及所述待优化图像,调整初始偏移参数,得到目标偏移参数;将所述目标特征以及所述目标偏移参数输入所述图像生成网络,生成优化后的图像。
本申请实施例还提供一种图像优化装置,包括:获取单元,用于获取图像生成网络、待优化图像以及多个预设的随机特征;确定单元,用于从所述多个预设的随机特征中,选取目标特征,所述目标特征为与所述待优化图像满足预设相似度条件的所述预设的随机特征;调整单元,用于根据所述图像生成网络、所述目标特征以及所述待优化图像,调整初始偏移参数,得到目标偏移参数;生成单元,用于将所述目标特征以及所述目标偏移参数输入所述图像生成网络,生成优化后的图像。
本申请实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本申请实施例所提供的任一种图像优化方法中的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种图像优化方法中的步骤。
本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请实施例所提供的任一种图像优化方法中的步骤。
本申请实施例可以获取图像生成网络、待优化图像以及多个预设的随机特征;从所述多个预设的随机特征中,选取目标特征,所述目标特征为与所述待优化图像满足预设相似度条件的所述预设的随机特征;根据所述图像生成网络、所述目标特征以及所述待优化图像,调整初始偏移参数,得到目标偏移参数;将所述目标特征以及所述目标偏移参数输入所述图像生成网络,生成优化后的图像。
在本申请中,从多个预设的随机特征中选取对应待优化图像的目标特征,可以以目标特征为起点,结合目标偏移参数,确定用于生成优化后的图像的特征,以生成优化后的图像。其中,基于由预设的随机特征确定的目标特征,能够减少特征之间的关联性,提升对图像中视觉特征的控制能力,以提升图像的优化效果;通过调整初始偏移参数,使用于生成优化后的图像的输入向量向调整目标靠近,以增加优化后图像的真实性,以提升图像的优化效果。而且,目标特征与待优化图像满足预设相似度条件,能够减小目标特征与用于生成优化后的图像的特征之间的距离,减小调整初始偏移参数的难度,提升图像优化效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的图像优化方法的场景示意图;
图1b是本申请实施例提供的图像优化方法的流程示意图;
图1c是以不同方法进行反演搜索的示意图;
图1d是本申请实施例提供的调整初始偏移参数的流程示意图;
图1e是本申请实施例提供的调整图像生成网络的网络参数的流程示意图;
图2a是本申请实施例提供的StyleGAN-XL网络的结构示意图;
图2b是本申请另一个实施例提供的图像优化方法的流程示意图;
图2c是本申请实施例提供的迭代训练过程的示意图;
图2d是本申请实施例提供的不同优化方法生成的优化后的图像的示意图;
图2e是本申请实施例提供的不同优化方法在不同修复任务以及不同指标上的对比结果的示意图;
图3是本申请实施例提供的图像优化装置的结构示意图;
图4是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种图像优化方法、装置、电子设备、介质和程序产品。
其中,该图像优化装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该图像优化装置还可以集成在多个电子设备中,比如,图像优化装置可以集成在多个服务器中,由多个服务器来实现本申请的图像优化方法。
在一些实施例中,服务器也可以以终端的形式来实现。
例如,参考图1a,该图像优化方法可以由图像优化装置实现,该图像优化装置可以集成在服务器中,该服务器可以获取图像生成网络、待优化图像以及多个预设的随机特征;从多个预设的随机特征中,选取目标特征,目标特征为与待优化图像满足预设相似度条件的预设的随机特征;根据图像生成网络、目标特征以及待优化图像,调整初始偏移参数,得到目标偏移参数;将目标特征以及目标偏移参数输入图像生成网络,生成优化后的图像。
图像的生成过程是把一个输入向量(输入特征)转变成一张高质量图像,图像反演则是通过一张输入图像(不一定需要高质量的图像)推算(搜索)出对应的输入向量,这个过程叫做反演。这个输入向量输入到图像生成网络中,就可以生成出跟输入图像相似且高质量的图像。图像生成网络可以指能用于生成图像的神经网络,图像生成网络可以通过对输入向量进行解码以重建输入向量对应的高质量图像,输入向量可以是随机的噪声或条件向量。因此,可以将一张低质量图像,通过反演技术推算出在图像生成网络下的输入向量,再由图像生成网络对该输入向量进行处理以生成对应的高质量图像,实现图像修复等应用。
本申请实施例的图像优化方法可以通过待优化图像以及多个预设的随机特征反演搜索得到图像生成网络的输入向量(即结合目标特征以及偏移参数得到的特征向量),以根据该输入向量生成优化后的图像。本申请实施例的图像优化方法可以应用于基于计算机视觉等技术的人工智能领域,具体可以应用于图像超分辨率,图像修复,图像增强,图像编辑等领域。
具体地,本申请实施例可以以对应待优化图像的目标特征作为反演搜索的起点,通过调整初始偏移参数,以搜索得到目标搜索结果,并将该目标搜索结果作为图像生成网络的输入向量。再该将输入向量输入图像生成网络,由图像生成网络生成高质量的优化后的图像。
以下分别进行详细说明。可以理解的是,在本申请的具体实施方式中,涉及到与用户相关的图像等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
人工智能(Artificial Intelligence,AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术,该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,计算机视觉(Computer Vision,CV)是利用计算机代替人眼对优化后的图像进行识别、测量等操作并进一步进行处理的技术。计算机视觉技术通常包括图像生成、图像识别、图像语义理解、图像检索、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。比如,图像着色、图像描边提取等图像生成技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
在本实施例中,提供了一种涉及人工智能的图像优化方法,如图1b所示,该图像优化方法的具体流程可以如下:
110、获取图像生成网络、待优化图像以及多个预设的随机特征。
其中,待优化图像可以指低质量的图像或需要提升质量的图像,例如,待优化图像可以表现有噪声、色彩缺失、细节缺失、分辨率等问题,以导致图像质量较低。本申请对待优化图像的类型不做限制,例如待优化图像可以包括但不限于人脸图像、动物图像、建筑物图像、风景图像等。
其中,图像生成网络可以指能用于生成图像的神经网络。例如,图像生成网络可以为卷积网络(CNN)、变分自编码(VAE)、生成对抗网络(GAN)等中的一个或多个。例如,生成对抗网络也可以为对抗生成网络中的生成网络。
生成对抗网络(Generative Adversarial Networks,GAN)是由生成网络和判别网络组合成的网络框架,输入一个高斯随机向量到生成网络中,可以生成出一张高质量图像。以此,可以以生成对抗网络中的生成网络作为本申请实施例中的图像生成网络,以可以由随机特征等生成相应的图像。
例如,生成对抗网络的生成网络可以包括多个卷积层,可以通过映射网络将输入向量如w向量转换得到仿射变换以及随机噪声,并输入生成网络中的每个卷积层,仿射变换可以用于控制生成图像的风格,随机噪声可以用于丰富生成图像的细节,每个卷积层都能根据输入的仿射变换来调整图像的风格,通过输入的随机噪声来调节图像的细节。
在一些实施方式中,可以先对原始图像进行降质处理,在降低图像特征维度同时保留有效信息。具体地,待优化图像的获取方法,包括:
获取原始图像;
对原始图像进行图像劣化处理,得到待优化图像。
其中,图像劣化处理可以指用于降低图像质量的处理过程。例如,图像劣化处理可以包括下采样处理等方法。下采样处理可以包括但不限于通过for循环隔行隔列循环遍历每一个像素点、矩阵隔行隔列复制等方法。通过下采样处理可以在降低图像特征维度的同时保留有效信息,以避免过拟合,并减少图像优化过程的运算量。
例如,可以将原始图像进行图像劣化处理,得到低分辨率图像即待优化图像Id=D(I),其中,D(.)为图像劣化处理过程,I为原始图像,再通过本申请实施例的方法生成优化后的图像即高分辨率图像。优化后的图像与原始图像相比,填充的细节更准确,颜色与真实情况更贴近,纹理细节更丰富。
其中,随机特征可以指随机变量的特征,可以理解的是,预设的随机特征是与待优化图像无关的特征。在不同的条件下由于偶然因素影响,变量可能取各种不同的值,具有不确定性和随机性,但这些取值落在某个范围的概率是一定的,此种变量称为随机变量。随机变量可以是离散型的,也可以是连续型的。
随机变量的特征矢量在特征空间中是按照某种统计轨迹随机分布的,该特征矢量即是该特征空间中的一个点,该统计轨迹可以由概率分布函数确定。例如,可以通过0-1分布、二项分布、泊松分布、几何分布、均匀分布、指数分布或高斯分布等概率分布函数得到随机变量的特征,并作为本申请实施例中的预设的随机特征。例如,在要对待优化图像进行优化前,可以由随机数生成器生成随机变量的特征矢量,即生成多个预设的随机特征。该随机数生成器可以服从某种统计轨迹随机分布,如该随机数生成器可以为服从高斯分布的随机数生成器。
再如,特征空间可以为n维特征的组合,随机变量的特征矢量便是特征空间中的一个点,各种不同取值的特征矢量的全体构成了n维空间。因此也可以将随机变量的特征矢量由一个的特征空间变换为另一特征空间,以将变换后的特征作为本申请实施例中的预设的随机特征。
在一些实施方式中,可以将由概率分布函数得到的原始特征(随机变量的特征矢量),变换到预设的空间内,以提升特征的表达能力。具体地,多个预设的随机特征的获取方法,包括:
根据随机变量的分布特征类型,采样得到多个原始特征;
将多个原始特征映射到预设的特征空间中,得到多个预设的随机特征。
其中,分布特征可以指随机变量的分布方式。例如,分布特征类型可以为0-1分布、二项分布、泊松分布、几何分布、均匀分布、指数分布或高斯分布等。可以将随机变量在初始特征空间中的特征矢量作为原始特征,初始特征空间可以指随机变量的特征矢量构成的特征空间。
其中,预设的特征空间可以指根据实际应用场景设置的特征空间。例如,预设的特征空间可以为W空间等。
可以理解的是,由多个原始特征映射得到多个随机特征的过程,实际上也是将多个原始特征构成的初始特征空间变换得到多个预设的随机特征构成的预设的特征空间。例如,可以由服从高斯分布的随机数生成器生成多个z向量(即多个原始特征),再将z向量由Z空间变换至W空间,以得到多个w向量(即多个预设的随机特征)。
可选地,为了控制生成的图像的风格,预设的特征空间为W空间,W空间是图像特征空间的一个子集,其中的向量的相互关系更加线性。例如,可以通过高斯分布采样得到Z空间,Z空间是一个高斯分布空间,可以将Z空间变换得到W空间,W空间的w向量在生成图像的过程中,可以向后传递给图像生成网络,以得到多个控制向量,使该控制向量的不同元素能够控制不同的视觉特征,以控制生成的图像的风格。例如,通常由z向量所生成图像的风格较为固定,然而通过调整w向量可以改变生成图像的风格,例如,通过对w向量的多次调整,可以将图像从A风格调整为B风格。以此,通过w向量作为预设的随机特征,可以逐渐改变w向量所生成图像的风格,使其与待优化图像风格相似,提升图像的优化效果。
可选地,可以通过映射网络(Mapping)进行映射,该映射网络可以包括多个全连接层。将多个原始特征输入映射网络后,经多个全连接层处理后可以得到多个预设的随机特征。例如,可以采样得到M个z向量其中,/> 为高斯分布,该M个z向量构成Z空间。将M个z向量输入映射网络中,由W=Mapping(Z)得到M个w向量,该M个w向量构成W空间,其中,Mapping(.)表示映射网络的处理过程。具体地,映射网络的处理过程可以表征为/>其中φMapping表示映射网络,c是指定的类别,为M个w向量。
120、从多个预设的随机特征中,选取目标特征,目标特征为与待优化图像满足预设相似度条件的预设的随机特征。
在本申请实施例中,为了获取用于生成优化后图像的输入向量,可以在多个随机特征中找到对应待优化图像的隐含特征(即目标特征),并以该隐含特征作为向量搜索的起点,以确定输入向量。而且,目标特征与待优化图像满足预设相似度条件,能缩短反演搜索的搜索起点与目标搜索结果之间的距离,减少搜索难度,提升搜索效率。
其中,预设相似度条件可以指根据实际应用场景设置的相似度条件。例如,预设相似度条件可以指与待优化图像的相似度大于相似度阈值,或与待优化图像的相似度满足预设排序如相似度为最高等。
例如,可以通过判断所有预设的随机特征与待优化图像是否满足预设相似度,以确定目标特征。也可以通过聚类等方法从多个预设的随机特征中筛选得到部分的随机特征,再判断该部分的随机特征与待优化图像是否满足预设相似度,以确定目标特征。
在一些实施方式中,可以通过聚类处理对多个预设的随机特征进行分类,并从分类后的中心特征中确定目标特征,以减少要判断是否满足相似度条件的特征的数量,提升确定目标特征的效率。具体地,从多个预设的随机特征中,选取目标特征,包括:
对多个预设的随机特征进行聚类处理,得到多个特征簇,特征簇包括中心特征;
从多个特征簇的中心特征中,选取目标特征。
其中,聚类处理可以指将所有预设的随机特征分成由类似的预设的随机特征组成的多个类的过程。特征簇可以为聚类得到一个类,中心特征可以指聚类得到的类的中心即质心。聚类处理的方法可以包括K-Means算法、DBSCAN算法、BIRCH算法等,本申请实施例对聚类处理采用的参数如聚类半径等不做限定,可以根据实际应用场景设置。
例如,可以采用K-Means算法,将M个w向量进行聚类,得到N个特征簇,以及N个类的N个质心/>并可以将N个质心中,与待优化图像的相似度为最高相似度的质心确定为目标特征。
在一些实施方式中,可以通过比较中心特征对应的图像与待优化图像之间的相似度,来确定目标特征,以增加确定的目标特征的准确性。具体地,从多个特征簇的中心特征中,选取目标特征,包括:
将中心特征输入图像生成网络,生成中心图像;
从中心图像中,确定目标图像,目标图像为与待优化图像满足预设相似度的中心图像;
将与目标图像对应的中心特征,确定为目标特征。
例如,可以将N个中心特征输入图像生成网络,由该图像生成网络经处理后,输出N个中心图像/> 其中/>表示N个中心图像。并计算各中心图像与待优化图像Id的图像相似度,将各中心图像中,图像相似度为最高相似图的中心图像确定为目标图像。生成该目标图像的中心特征,即为目标特征。
在一些实施方式中,可以将与待优化图像之间的特征距离最近的中心图像所对应的特征,确定为目标特征,使目标特征靠近调整目标(目标搜索结果),以缩短目标特征与调整目标之间的距离。具体地,从中心图像中,确定目标图像,包括:
计算中心图像与待优化图像之间的特征距离;
将与待优化图像之间的特征距离最短的中心图像,确定为目标图像。
其中,特征距离可以为欧式距离、余弦距离(Cosine Distance)、绝对值距离、切式距离、明式距离或马氏距离等。
例如,如图1c所示,若采用图中的方法1,即对M个W空间的w向量取平均得到wavg,然后以wavg为起点,即令根据损失函数迭代更新向量/>以迭代S次后的向量/>作为最终反演搜索的结果向量,以wavg为起点开始搜索,若以方法1中的wt为目标搜索结果,那wavg与wt在空间上有一定距离,因此搜索难度大。
然而,如图1c所示,采用图中的方法2,即本申请实施例的对M个W空间的w向量进行聚类方法,通过随机采样得到多个原始特征的向量,并对这些采样出来的向量进行聚类,得到四个聚类中心(质心)和/>显然,这四个聚类质心中,距离目标搜索结果wt最近的质心/>生成的图像与目标搜索结果对应的图像的相似度最高,距离目标搜索结果wt最远的质心/>生成的图像与目标搜索结果对应的图像的相似度最低。由于待优化图像与目标搜索结果对应的图像的区别仅在于图像质量不同,以此,可以通过分别比较这四个质心对应的图像与待优化图像的相似度,找到相似度最高的图像即质心生成的图像,并以该质心/>为起点进行反演搜索,显然该质心/>与目标搜索结果wt在空间之间的距离最短。以此,本申请实施例的聚类方法,能缩短搜索起点与目标搜索结果之间的距离,减少搜索难度,提升搜索效率,提升调整初始偏移参数的效率。
可选地,为了提升确定的目标特征的准确性。计算中心图像与待优化图像之间的特征距离,包括:
分别对中心图像以及待优化图像进行特征提取,得到第一特征以及第二特征;
计算第一特征以及第二特征之间的特征距离。
例如,可以通过特征提取网络分别对中心图像以及待优化图像进行特征提取,得到第一特征以及第二特征,并计算第一特征以及第二特征之间的欧式距离或余弦距离,将与待优化图像的第二特征距离最近的第一特征对应的中心图像,确定为目标图像。如,在N个质心生成的N个中心图像中,第K个图像/>与待优化图像的特征距离最近,则该图像对应的向量/>即为目标特征。
其中,特征提取网络可以指用于图像特征提取的神经网络,例如,特征提取网络可以包括卷积网络(CNN)、前馈神经网络(BP)、循环网络(RNN)等中的一个或多个。
130、根据图像生成网络、目标特征以及待优化图像,调整初始偏移参数,得到目标偏移参数。
例如,可以计算目标特征以及待优化图像之间的差异如相似度、损失值等,根据该差异来调整初始偏移参数,使用于生成优化后的图像的输入向量向调整目标(目标搜索结果)靠近。例如,可以由初始调整参数对目标特征进行第一次调整,以得到图像生成网络的输入向量,并通过多次调整过程,使输入向量可以不断学习待优化图像中隐含的特征(隐向量),使输入向量不断变化,并使输入向量向待优化图像靠近的过程中,以增加优化后图像的真实性。
其中,偏移参数可以指用于调整特征,以减小与调整目标之间差异的参数。初始偏移参数可以指根据应用场景或经验设置的,用于调整目标特征的偏移参数。例如可以设置初始偏移参数为0。
可以理解的是,由于目标特征是从预设的随机特征中确定的,其与待优化图像之间存在差异,以此可以通过引入初始偏移参数来减小该差异对生成的优化后图像的影响。例如,可以通过引入偏移项woff,将目标特征调整得到/>该偏移项woff的初始值即为初始偏移参数。若对偏移项woff进行了至少一次调整,则可以将最后一次调整得到的woff的值作为目标偏移参数。
在一些实施方式中,可以通过计算由目标特征以及初始偏移参数生成的降质后的第二图像与待优化图像之间的损失值,来调整初始偏移参数,以此使用于生成优化后的图像的输入向量向调整目标靠近。此外,在计算损失值的过程中,加入对初始偏移参数的约束条件,以限制反演搜索的范围。具体地,根据图像生成网络、目标特征以及待优化图像,调整初始偏移参数,得到目标偏移参数,包括:
将目标特征以及初始偏移参数输入图像生成网络,生成第一图像;
对第一图像进行图像劣化处理,得到第二图像;
基于对初始偏移参数的约束条件,对待优化图像以及第二图像进行计算,得到偏移损失值;
根据偏移损失值,调整初始偏移参数,得到目标偏移参数。
其中,约束条件可以包括强制约束如等式约束、直接截断约束(限制最大最小范围),软约束如L1约束、L2约束等约束条件。例如,可以通过带约束条件的损失函数计算待优化图像以及第二图像的损失值,在损失函数中加入约束条件,可以防止模型训练的过拟合,进而增强泛化能力,避免优化后的图像失真。
其中,损失函数可以包括但不限于结构相似性指数(SSIM)损失函数、学***方项损失函数等中的一种或多种的组合。其中,对初始偏移参数的约束条件可以指用于约束偏移参数的条件。
例如,在反演搜索过程中,可以先由目标特征以及初始偏移参数作为图像生成网络的输入向量,由图像生成网络输出第一图像。在对第一图像进行降质处理后,通过带约束条件的损失函数计算第二图像以及待优化图像的损失值即偏移损失值。再根据偏移损失值调整初始偏移参数,使用于生成优化后的图像的输入向量向调整目标靠近,使第二图像向待优化图像靠近,直至损失函数收敛。
例如,如图1c所示,若采用图中的方法1,由于该在搜索时没有加任何限制,导致搜索结果容易得到一个局部最优解,如图中的方法1的wre的结果,虽然纹理上与目标结果wt接近,但颜色上有一定差距。
然而,本申请实施例在以质心为起点的反演搜索中,用正则化方法限制了反演搜索范围,以此使目标搜索结果与目标结果在颜色和纹理上都接近,使生成的图像实现质量-失真平衡,得到高质量且与输入图像接近的图像。
可选地,可以通过偏移损失值迭代优化初始偏移参数,直至损失函数收敛,得到目标偏移参数,以通过多次迭代使用于生成优化后的图像的输入向量向调整目标靠近,以优化得到表达更为精准的偏移参数。具体地,根据偏移损失值,调整初始偏移参数,得到目标偏移参数,包括:
根据偏移损失值,调整初始偏移参数,得到中间偏移参数;
将中间偏移参数确定为初始偏移参数,返回执行步骤将目标特征以及初始偏移参数输入图像生成网络,生成第一图像,至步骤根据偏移损失值,调整初始偏移参数,得到中间偏移参数,直至偏移损失值收敛,将最后一次调整得到的偏移参数确定为目标偏移参数。
例如,如图1d所示调整初始偏移参数的流程,在迭代优化初始偏移参数时,每次迭代过程中,可以结合目标特征以及上一次调整得到的偏移参数生成第一图像。并基于生成的第一图像降质得到第二图像,以通过损失函数计算第二图像以及待优化图像得到偏移损失值,再根据该损失值调整上一次调整得到的偏移参数,直至损失函数收敛,将最后一次调整得到的偏移参数作为目标偏移参数。
在一些实施方式中,通过正则化处理的初始偏移参数来限制偏移参数的范围,以提高调整初始偏移参数的效率和准确性。具体地,对初始偏移参数的约束条件包括偏移参数约束项,基于对初始偏移参数的约束条件,对待优化图像以及第二图像进行计算,得到偏移损失值,包括:
对待优化图像以及第二图像进行计算,得到第一损失项;
对初始偏移参数进行正则化处理,得到偏移参数约束项;
通过偏移参数约束项约束第一损失项,得到偏移损失值。
其中,正则化处理可以指向要优化的参数添加约束的方法。
例如,用于计算偏移损失值的损失函数可以为Lop=LLPIPS(ID,D(Isyn))+λ1L2(Id,D(Isyn))+λ2reg,其中,LLPIPS(Id,D(Isyn))+λ1L2(Id,D(Isyn))为第一损失项,LLPIPS为LPIPS损失函数,λ2reg为偏移参数约束项,L2为平方损失函数,λ1与λ2为超参数,reg表示对偏移参数进行正则化处理,reg=||woff||2
140、将目标特征以及目标偏移参数输入图像生成网络,生成优化后的图像。
例如,本申请实施例可以以目标特征作为反演搜索的起点,依据待优化图像,通过反演搜索不断调整偏移参数,以得到目标偏移参数。再由目标特征和目标偏移参数得到用于生成优化后的图像的输入向量,并由该输入向量生成优化后的图像。可以理解的是,若仅以待优化图像中的特征来生成优化后的图像,其对图像中视觉特征的控制能力受限于待优化图像中的特征。然而,本申请实施例基于由预设的随机特征确定的目标特征,能够减少特征之间的关联性,提升对图像中视觉特征的控制能力,提升图像质量。
例如,可以由生成网络,经由目标特征/>以及目标偏移参数woff生成优化后的图像Isyn,其中,φSynthesis表示图像生成网络。
在一些实施方式中,在调整偏移参数后,可以固定偏移参数,以调整图像生成网络,以优化图像生成网络,提升生成的优化后的图像的质量。具体地,根据偏移损失值,调整初始偏移参数,得到目标偏移参数之后,还包括:
根据目标特征、目标偏移参数以及待优化图像,调整图像生成网络的网络参数,得到调整后的图像生成网络。
可选地,为了进一步优化图像生成网络,在执行步骤根据目标特征、目标偏移参数以及待优化图像,调整图像生成网络的网络参数,得到调整后的图像生成网络之后,可以将调整后的图像生成网络确定为初始图像生成网络,返回执行步骤根据图像生成网络、目标特征以及待优化图像,调整初始偏移参数,得到目标偏移参数,以此交替执行步骤根据目标特征、目标偏移参数以及待优化图像,调整图像生成网络的网络参数,得到调整后的图像生成网络,以及步骤根据图像生成网络、目标特征以及待优化图像,调整初始偏移参数,得到目标偏移参数,直至满足预设的结束条件。
预设的结束条件可以为根据应用场景设置的结束条件,例如,预设的结束条件可以为交替执行上述步骤的次数达到阈值,也可以为调整初始偏移参数过程中的损失函数、和/或调整图像生成网络的网络参数过程中的损失函数收敛到损失阈值或者等于零等。
需说明的是,在交替执行上述步骤的过程中,每次交替过程可以调整一次或调整多次初始偏移参数和/或图像生成网络的网络参数。
例如,可以先目标特征以及待优化图像,对初始偏移参数进行一次调整,得到目标偏移参数,再根据目标特征、目标偏移参数以及待优化图像,对图像生成网络的网络参数进行一次调整,得到调整后的图像生成网络,再将目标偏移参数作为初始偏移参数,将调整后的图像生成网络作为图像生成网络,重复对初始偏移参数进行一次调整以及对图像生成网络的网络参数进行一次调整的过程,以此类推,重复交替执行对初始偏移参数和图像生成网络的调整过程,直至损失函数收敛。
再如,也可以在每次交替过程中,对初始偏移参数进行多次迭代调整,直至满足预设的迭代次数或偏移损失值对应的损失函数收敛到第一损失阈值,以及对图像生成网络的网络参数进行多次迭代调整,直至满足预设的迭代次数或网络损失值对应的损失函数收敛到第二损失阈值,以此,重复交替执行对初始偏移参数和图像生成网络的调整过程,直至交替执行上述步骤的次数达到阈值、或偏移损失值对应的损失函数以及网络损失值对应的损失函数收敛到第三损失阈值。
在一些实施方式中,在调整偏移参数后,可以通过计算由目标特征以及初始偏移参数生成的降质后的第四图像与待优化图像之间的损失值,来调整图像生成网络的参数,以不断优化图像生成网络。此外,在计算损失过程中加入对初始偏移参数的约束条件,以限制参数范围,避免因过度拟合导致优化后的图像失真。根据目标特征、目标偏移参数以及待优化图像,调整图像生成网络的网络参数,得到调整后的图像生成网络,包括:
将目标特征以及目标偏移参数输入图像生成网络,生成第三图像;
对第三图像进行图像劣化处理,得到第四图像;
基于对图像生成网络的约束条件,对待优化图像以及第四图像进行计算,得到网络损失值;
根据网络损失值,调整图像生成网络的网络参数,得到调整后的图像生成网络,调整后的图像生成网络用于生成优化后的图像。
其中,对图像生成网络的约束条件可以指用于约束图像生成网络的网络参数的条件。
例如,在将初始偏移参数调整为目标偏移参数后,可以固定偏移参数,只优化图像生成网络的参数。以此,可以将目标特征以及目标偏移参数作为图像生成网络的输入向量,由图像生成网络输出第三图像。在对第三图像进行降质处理后,通过带约束条件的损失函数计算第四图像以及待优化图像的损失值即网络损失值。再根据网络损失值调整图像生成网络的网络参数,直至损失函数收敛。
可选地,可以通过网络损失值迭代调整图像生成网络的网络参数,直至损失函数收敛,得到调整后的图像生成网络,以得到较优的图像生成网络。具体地,根据网络损失值,调整图像生成网络的网络参数,得到调整后的图像生成网络,包括:
根据网络损失值,调整当前图像生成网络的网络参数,得到中间图像生成网络;
将中间图像生成网络确定为当前图像生成网络,返回执行步骤将目标特征以及目标偏移参数输入图像生成网络,生成第三图像,至步骤根据网络损失值,调整当前图像生成网络的网络参数,得到调整后的图像生成网络,直至偏移损失值收敛,将最后一次调整得到的中间图像生成网络确定为调整后的图像生成网络。
其中,当前图像生成网络可以指调整过程中当前要调整网络参数的图像生成网络。
例如,如图1e所示的调整图像生成网络的网络参数的流程,在迭代调整图像生成网络的网络参数时,每次迭代过程中,可以将目标特征以及目标偏移参数输入当前图像生成网络,生成第三图像。并基于生成的第三图像降质得到第四图像,以通过损失函数由第四图像以及待优化图像计算得到网络损失值,再根据该损失值调整当前图像生成网络的网络参数。并开始下一次迭代过程,将上次迭代过程中调整后的图像生成网络作为当前图像生成网络,以此类推,直至损失函数收敛,将最后一次调整得到的图像生成网络作为调整后的图像生成网络。
在一些实施方式中,可以通过初始图像生成网络以及当前图像生成网络之间的差异来限制网络参数的范围,以提高调整网络参数的效率和准确性。具体地,对当前图像生成网络的约束条件包括网络约束项,基于对图像生成网络的约束条件,对待优化图像以及第四图像进行计算,得到网络损失值,包括:
对待优化图像以及第四图像进行计算,得到第二损失项;
对初始图像生成网络的输出结果以及当前图像生成网络的输出结果进行计算,得到网络约束项;
通过网络约束项约束第二损失项,得到网络损失值。
其中,初始图像生成网络可以指未调整网络参数的图像生成网络。例如,在通过多次迭代过程得到调整后的图像生成网络中,第一次迭代过程中的当前图像生成网络即为初始图像生成网络。
例如,用于计算网络损失值的损失函数可以为Lft=LLPIPS(Id,D(Isyn))+λL2L2(Id,D(Isyn))+λRLR,其中,LLPIPS(Id,D(Isyn))+λL2L2(Id,D(Isyn))为第二损失项,LLPIPS为LPIPS损失函数,λRLR为网络约束项,λL2与λR为超参数。
在一些实施方式中,可以通过比较初始图像生成网络以及当前图像生成网络生成的图像之间的差异,以确定网络约束项。具体地,对初始图像生成网络的输出结果以及当前图像生成网络的输出结果进行计算,得到网络约束项,包括:
将目标特征以及目标偏移参数输入初始图像生成网络,生成初始图像,并将目标特征以及目标偏移参数输入当前图像生成网络,生成当前图像;
对初始图像以及当前图像进行计算,得到网络约束项。
例如,网络损失项λRLR中的LR为局部正则项,可以表示为 其中,/>为超参数,xr=φSynthesis(wr;θ)表示采用初始图像生成网络生成的图像(即初始图像),/>表达采用当前图像生成网络生成的图像(即当前图像)。
本申请实施例提供的图像优化方案可以应用在各种图像优化场景中。比如,以图像修复为例,获取图像生成网络、待优化图像以及多个预设的随机特征;从多个预设的随机特征中,选取目标特征,目标特征为与待优化图像满足预设相似度条件的预设的随机特征;根据图像生成网络、目标特征以及待优化图像,调整初始偏移参数,得到目标偏移参数;将目标特征以及目标偏移参数输入图像生成网络,生成优化后的图像。
由上可知,本申请实施例从多个预设的随机特征中选取对应待优化图像的目标特征,可以以目标特征为起点,结合目标偏移参数,确定用于生成优化后的图像的特征,以生成优化后的图像。其中,基于由预设的随机特征确定的目标特征,能够减少特征之间的关联性,提升对图像中视觉特征的控制能力,以提升图像的优化效果;通过调整初始偏移参数,使用于生成优化后的图像的输入向量向调整目标靠近,以增加优化后图像的真实性,以提升图像的优化效果。而且,目标特征与待优化图像满足预设相似度条件,能够减小目标特征与用于生成优化后的图像的特征之间的距离,减小调整初始偏移参数的难度,提升图像优化效率。
根据上述实施例所描述的方法,以下将作进一步详细说明。
在本实施例中,将以采用StyleGAN-XL网络进行图像优化为例,对本申请实施例的方法进行详细说明。
StyleGAN-XL网络是一种可以生成高分辨率且种类丰富的图像的生成对抗网络。本申请实施例以StyleGAN-XL网络作为图像生成网络。如图2a所示,StyleGAN-XL网络可以包括Mapping network(映射网络)以及Synthesisnetwork(生成网络),映射网络可以用于将z向量变换为w向量,生成网络可以用于生成图像,该生成网络即为本申请实施例中的图像生成网络。
本申请实施例使用的StyleGAN-XL网络是预训练在ImageNet上的,也就是该图像生成网络能根据指定的ImageNet中的类别,生成对应类别的图像。其中,ImageNet是一个用于视觉对象识别软件研究的大型可视化数据库。ImageNet数据集中有1024种类别,也就意味着StyleGAN-XL能生成1024种不同类别的图像。
如图2b所示,一种图像优化方法具体流程如下:
210、对原始图像进行图像劣化处理,得到待优化图像。
例如,给定一张输入的降质图像Id(待优化图像),它是由高清图像(原始图像)降质而来,即Id=D(I),D(.)为降质过程,I为高清图像,φSynthesis表示StyleGAN-XL的生成网络。
220、对多个预设的随机特征进行聚类处理,得到多个特征簇,特征簇包括中心特征。
例如,本申请实施例的图像优化方法的目标是找到隐向量w,使其满足:w=argminL(D(φSynthesis(w)),Id),其中L(.)表示图像中的距离度量或要素空间,argmin表示使L(.)的值最小。
为了找到隐向量w,可以先找到初始的搜索起点,也就是初始质心(即目标特征)。可以先获取M个W空间的w向量(即多个预设的随机特征),w向量可以从StyleGAN-XL的mapping网络φMapping得到:其中,/> 为高斯分布,c是指定的类别。
230、从多个特征簇的中心特征中,选取目标特征。
例如,可以把(即多个预设的随机特征)采用K-Means方法进行聚类,得到N个质心/>(即中心特征)。然后把N个质心输入到图像生成网络中去获得N个中心图像:/>
对于给定的输入图像Id,可以对这N个图像找到离Id距离“最近”的图像。例如,可以采用特征空间来衡量两个图像的距离,如可以采用视觉几何组(VGG)网络提取图像的特征,然后计算提取的特征的欧式距离或者cosine距离来找到距离输入图像“最近”的图像。假设N个图像中,第k张图像/>是“最近”的图像,则该图像所对应/>向量即是要优化的隐向量(即初始的搜索起点)。
240、根据图像生成网络、目标特征以及待优化图像,调整初始偏移参数,得到目标偏移参数。
例如,本申请实施例并没有直接优化初始的隐向量而是将该隐向量固定引入一项偏移项woff,以优化偏移项,该偏移项的初始值即为初始偏移参数。可以由隐向量以及偏移项得到隐向量/>并可以以该隐向量作为输入向量输入图像生成网络,并进行迭代训练,以输出图像
在训练迭代中,可以将woff引入正则化:reg=||woff||2,以将正则化约束会体现在迭代训练的损失函数中。
250、根据目标特征、目标偏移参数以及待优化图像,调整图像生成网络的网络参数,得到调整后的图像生成网络。
例如,在迭代训练中,可以将迭代训练分别两个阶段,如图2c所示的迭代训练过程,第一阶段可以固定图像生成网络φSynthesis的网络参数θ,只优化woff参数(偏移项),即步骤240。第二阶段可以固定woff参数(偏移项),只优化网络参数θ,即步骤250。在训练过程中,两个阶段交替重复进行,直到损失函数收敛之后,停止训练。
第一个阶段的损失函数如下:
Lop=LLPIPS(Id,D(Isyn))+λ1L2(Id,D(Isyn))+λ2reg;
其中,LLPIPS为计算LPIPS指标的函数,L2为平方损失函数,λ1与λ2为超参数。
第二个阶段的损失函数如下:
Lft=LLPIPS(Id,D(Isyn))+λL2L2(Id,D(Isyn))+λRLR
其中,λL2与λR为超参数,LR为局部正则项,表示如下:
其中,为超参数,xr=φSynthesis(wr;θ)表示采用原始的网络参数生成的图像(即初始图像),/>表达采用当前的网络参数生成的图像(即当前图像),wr表示随机潜在向量和关键潜在向量之间的插值码,LL2为均方误差。
第一阶段的具体实现流程可以参见如图1d所示的流程,第二阶段的具体实现流程可以参见如图1e所示的流程,以及前述实施例中相应的描述,在此不再赘述。
260、将目标特征以及目标偏移参数输入调整后的图像生成网络,生成优化后的图像。
例如,在两个阶段的损失函数均收敛后,可以将最后一次迭代生成的图像作为优化后的图像。可以理解的是,该最后一次迭代中,隐向量输入的图像生成网络即为调整后的图像生成网络,输入该调整后的图像生成网络的隐向量中的偏移项对应的参数值即为目标偏移参数。
例如,将本申请实施例的图像优化方法、以及基于StyleGAN-XL网络的PULSE(基于隐式空间的图像超分辨率算法)方法、DGP(基于图像的先验概率分布)方法、PTI(关键调谐反转)方法等优化方法进行比较,可以得到如图2d所示以及如图2e所示的结果,图中GT表示高质量的参照图像(降质处理前的原始图像)。
如图2d所示,展示了不同优化方法生成的优化后的图像,每一行表示的是输入不同降质情况的图片,并且使用不同的方法进行反演,得到StyleGAN-XL网络输出的优化后的图像。第一行表示的是将图像中间去除一块信息,通过反演技术将中间缺失的信息填补上;第二行表示的是将图像的颜色信息去除,通过反演技术将图像的颜色填充上;第三行表示的是将图像下采样成低分辨率图像,通过反演技术生成对应的高分辨率图像。从图2d中可以看出,本申请实施例的图像优化方法相对比其他方法而言,填充的细节更准确,颜色与真实情况(参照图像)更贴近,纹理细节更丰富。
如图2e所示,展示了不同优化方法在不同修复任务以及不同指标上的对比结果。该图中比较了本申请实施例的图像优化方法、基于StyleGAN-XL网络的DGP方法与基于StyleGAN-XL网络的PTI方法的指标,分别在三种不同的图像降质修复任务上做对比,包含了图像补全(inpainting)、图像上色(colorization)、图像超分辨率(SR)。在这三个任务上,本申请实施例的图像优化方法的LPIPS(图像感知相似度)指标、FID(图像质量评估)指标、NIQE(无参考图像评价)指标均达到最优。
由上可知,现有优化方法通过反演得到的图像与实际目标结果(参照图像)差距较大,特别是针对输入图像为降质图像的情况,这些搜索到的反演结果往往较差。例如,DGP方法是在BigGAN(大规模生成对抗网络)上进行反演,BigGAN只能生成256×256分辨率的图像,并且DGP方法用在其他生成网络上效果不佳。然而,本申请实施例采用StyleGAN-XL网络的生成网络作为图像生成网络,该网络可以生成高分辨率且种类丰富的图像,通过针对该网络进行反演,使得针对任意图像,都能反演出对应的输入向量以及生成对应的高质量高分辨率图像。以此,本申请实施例在给定一张图像或者降质图像(降质图像指图像有噪声、色彩缺失、细节缺失、分辨率低等图像)时,可以找到对应的隐空间中的输入向量,使得该输入向量送入到生成网络中,能生成相似且高质量的图像(即优化后的图像)。
为了更好地实施以上方法,本申请实施例还提供一种图像优化装置,该图像优化装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
比如,在本实施例中,将以图像优化装置具体集成在服务器为例,对本申请实施例的方法进行详细说明。
例如,如图3所示,该图像优化装置可以包括获取单元310、确定单元320、调整单元330以及生成单元340,如下:
(一)获取单元310
用于获取图像生成网络、待优化图像以及多个预设的随机特征。
在一些实施方式中,获取单元310具有可以用于:
根据随机变量的分布特征类型,采样得到多个原始特征;
将多个原始特征映射到预设的特征空间中,得到多个预设的随机特征。
在一些实施方式中,获取单元310具有可以用于:
获取原始图像;
对原始图像进行图像劣化处理,得到待优化图像。
(二)确定单元320
用于从多个预设的随机特征中,选取目标特征,目标特征为与待优化图像满足预设相似度条件的预设的随机特征。
在一些实施方式中,确定单元320具体可以用于:
对多个预设的随机特征进行聚类处理,得到多个特征簇,特征簇包括中心特征;
从多个特征簇的中心特征中,选取目标特征。
在一些实施方式中,从多个特征簇的中心特征中,选取目标特征,包括:
将中心特征输入图像生成网络,生成中心图像;
从中心图像中,确定目标图像,目标图像为与待优化图像满足预设相似度的中心图像;
将与目标图像对应的中心特征,确定为目标特征。
在一些实施方式中,从中心图像中,确定目标图像,包括:
计算中心图像与待优化图像之间的特征距离;
将与待优化图像之间的特征距离最短的中心图像,确定为目标图像。
(三)调整单元330
用于根据图像生成网络、目标特征以及待优化图像,调整初始偏移参数,得到目标偏移参数。
在一些实施方式中,调整单元330具体可以用于:
将目标特征以及初始偏移参数输入图像生成网络,生成第一图像;
对第一图像进行图像劣化处理,得到第二图像;
基于对初始偏移参数的约束条件,对待优化图像以及第二图像进行计算,得到偏移损失值;
根据偏移损失值,调整初始偏移参数,得到目标偏移参数。
在一些实施方式中,对初始偏移参数的约束条件包括偏移参数约束项,基于对初始偏移参数的约束条件,对待优化图像以及第二图像进行计算,得到偏移损失值,包括:
对待优化图像以及第二图像进行计算,得到第一损失项;
对初始偏移参数进行正则化处理,得到偏移参数约束项;
通过偏移参数约束项约束第一损失项,得到偏移损失值。
在一些实施方式中,调整单元330还可以用于:
将目标特征以及目标偏移参数输入图像生成网络,生成第三图像;
对第三图像进行图像劣化处理,得到第四图像;
基于对图像生成网络的约束条件,对待优化图像以及第四图像进行计算,得到网络损失值;
根据网络损失值,调整图像生成网络的网络参数,得到调整后的图像生成网络,调整后的图像生成网络用于生成优化后的图像。
在一些实施方式中,对当前图像生成网络的约束条件包括网络约束项,基于对图像生成网络的约束条件,对待优化图像以及第四图像进行计算,得到网络损失值,包括:
对待优化图像以及第四图像进行计算,得到第二损失项;
对初始图像生成网络的输出结果以及当前图像生成网络的输出结果进行计算,得到网络约束项;
通过网络约束项约束第二损失项,得到网络损失值。
在一些实施方式中,对初始图像生成网络的输出结果以及当前图像生成网络的输出结果进行计算,得到网络约束项,包括:
将目标特征以及目标偏移参数输入初始图像生成网络,生成初始图像,并将目标特征以及目标偏移参数输入当前图像生成网络,生成当前图像;
对初始图像以及当前图像进行计算,得到网络约束项。
(四)生成单元340
用于将目标特征以及目标偏移参数输入图像生成网络,生成优化后的图像。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由此,本申请实施例可以从多个预设的随机特征中选取对应待优化图像的目标特征,并通过调整得到目标偏移参数,可以由目标特征结合目标偏移参数,生成优化后的图像,以提升图像的优化效果。
本申请实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。
在一些实施例中,该图像优化装置还可以集成在多个电子设备中,比如,图像优化装置可以集成在多个服务器中,由多个服务器来实现本申请的图像优化方法。
在本实施例中,将以本实施例的电子设备是服务器为例进行详细描述,比如,如图4所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器410、一个或一个以上计算机可读存储介质的存储器420、电源430、输入模块440以及通信模块450等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器410是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行服务器的各种功能和处理数据。在一些实施例中,处理器410可包括一个或多个处理核心;在一些实施例中,处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
存储器420可用于存储软件程序以及模块,处理器410通过运行存储在存储器420的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器420还可以包括存储器控制器,以提供处理器410对存储器420的访问。
服务器还包括给各个部件供电的电源430,在一些实施例中,电源430可以通过电源管理***与处理器410逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源430还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入模块440,该输入模块440可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括通信模块450,在一些实施例中通信模块450可以包括无线模块,服务器可以通过该通信模块450的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块450可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器410会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器420中,并由处理器410来运行存储在存储器420中的应用程序,从而实现各种功能,如下:
获取图像生成网络、待优化图像以及多个预设的随机特征;从多个预设的随机特征中,选取目标特征,目标特征为与待优化图像满足预设相似度条件的预设的随机特征;根据图像生成网络、目标特征以及待优化图像,调整初始偏移参数,得到目标偏移参数;将目标特征以及目标偏移参数输入图像生成网络,生成优化后的图像。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本申请实施例可以从多个随机特征中选取对应待优化图像的目标特征,并通过调整得到目标偏移参数,可以由目标特征结合目标偏移参数,生成优化后的图像,以提升图像的优化效果。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种图像优化方法中的步骤。例如,该指令可以执行如下步骤:
获取图像生成网络、待优化图像以及多个预设的随机特征;从多个预设的随机特征中,选取目标特征,目标特征为与待优化图像满足预设相似度条件的预设的随机特征;根据图像生成网络、目标特征以及待优化图像,调整初始偏移参数,得到目标偏移参数;将目标特征以及目标偏移参数输入图像生成网络,生成优化后的图像。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序/指令,该计算机程序/指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序/指令,处理器执行该计算机程序/指令,使得该计算机设备执行上述实施例中提供各种可选实现方式中提供的方法。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种图像优化方法中的步骤,因此,可以实现本申请实施例所提供的任一种图像优化方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种图像优化方法、装置、电子设备、介质和程序产品进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种图像优化方法,其特征在于,包括:
获取图像生成网络、待优化图像以及多个预设的随机特征;
从所述多个预设的随机特征中,选取目标特征,所述目标特征为与所述待优化图像满足预设相似度条件的所述预设的随机特征;
根据所述图像生成网络、所述目标特征以及所述待优化图像,调整初始偏移参数,得到目标偏移参数;
将所述目标特征以及所述目标偏移参数输入所述图像生成网络,生成优化后的图像。
2.如权利要求1所述的图像优化方法,其特征在于,所述从所述多个预设的随机特征中,选取目标特征,包括:
对所述多个预设的随机特征进行聚类处理,得到多个特征簇,所述特征簇包括中心特征;
从所述多个特征簇的所述中心特征中,选取目标特征。
3.如权利要求2所述的图像优化方法,其特征在于,所述从所述多个特征簇的所述中心特征中,选取目标特征,包括:
将所述中心特征输入所述图像生成网络,生成中心图像;
从所述中心图像中,确定目标图像,所述目标图像为与所述待优化图像满足所述预设相似度的所述中心图像;
将与所述目标图像对应的所述中心特征,确定为目标特征。
4.如权利要求3所述的图像优化方法,其特征在于,所述从所述中心图像中,确定目标图像,包括:
计算所述中心图像与所述待优化图像之间的特征距离;
将与所述待优化图像之间的特征距离最短的所述中心图像,确定为目标图像。
5.如权利要求1所述的图像优化方法,其特征在于,根据所述图像生成网络、所述目标特征以及所述待优化图像,调整初始偏移参数,得到目标偏移参数,包括:
将所述目标特征以及所述初始偏移参数输入所述图像生成网络,生成第一图像;
对所述第一图像进行图像劣化处理,得到第二图像;
基于对所述初始偏移参数的约束条件,对所述待优化图像以及所述第二图像进行计算,得到偏移损失值;
根据所述偏移损失值,调整所述初始偏移参数,得到目标偏移参数。
6.如权利要求5所述的图像优化方法,其特征在于,所述对所述初始偏移参数的约束条件包括偏移参数约束项,所述基于对所述初始偏移参数的约束条件,对所述待优化图像以及所述第二图像进行计算,得到偏移损失值,包括:
对所述待优化图像以及所述第二图像进行计算,得到第一损失项;
对所述初始偏移参数进行正则化处理,得到偏移参数约束项;
通过所述偏移参数约束项约束所述第一损失项,得到偏移损失值。
7.如权利要求1所述的图像优化方法,其特征在于,所述根据所述偏移损失值,调整初始偏移参数,得到目标偏移参数之后,还包括:
将所述目标特征以及所述目标偏移参数输入所述图像生成网络,生成第三图像;
对所述第三图像进行图像劣化处理,得到第四图像;
基于对所述图像生成网络的约束条件,对所述待优化图像以及所述第四图像进行计算,得到网络损失值;
根据所述网络损失值,调整所述图像生成网络的网络参数,得到调整后的图像生成网络,所述调整后的图像生成网络用于生成所述优化后的图像。
8.如权利要求7所述的图像优化方法,其特征在于,所述对所述图像生成网络的约束条件包括网络约束项,所述基于对所述图像生成网络的约束条件,对所述待优化图像以及所述第四图像进行计算,得到网络损失值,包括:
对所述待优化图像以及所述第四图像进行计算,得到第二损失项;
对初始图像生成网络的输出结果以及当前图像生成网络的输出结果进行计算,得到网络约束项;
通过所述网络约束项约束所述第二损失项,得到网络损失值。
9.如权利要求8所述的图像优化方法,其特征在于,所述对初始图像生成网络的输出结果以及当前图像生成网络的输出结果进行计算,得到网络约束项,包括:
将所述目标特征以及所述目标偏移参数输入所述初始图像生成网络,生成初始图像,并将所述目标特征以及所述目标偏移参数输入所述当前图像生成网络,生成当前图像;
对所述初始图像以及所述当前图像进行计算,得到网络约束项。
10.如权利要求1所述的图像优化方法,其特征在于,所述多个预设的随机特征的获取方法,包括:
根据随机变量的分布特征类型,采样得到多个原始特征;
将所述多个原始特征映射到预设的特征空间中,得到多个预设的随机特征。
11.如权利要求1~10任一项所述的图像优化方法,其特征在于,所述待优化图像的获取方法,包括:
获取原始图像;
对所述原始图像进行图像劣化处理,得到待优化图像。
12.一种图像优化装置,其特征在于,包括:
获取单元,用于获取图像生成网络、待优化图像以及多个预设的随机特征;
确定单元,用于从所述多个预设的随机特征中,选取目标特征,所述目标特征为与所述待优化图像满足预设相似度条件的所述预设的随机特征;
调整单元,用于根据所述图像生成网络、所述目标特征以及所述待优化图像,调整初始偏移参数,得到目标偏移参数;
生成单元,用于将所述目标特征以及所述目标偏移参数输入所述图像生成网络,生成优化后的图像。
13.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~11任一项所述的图像优化方法中的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~11任一项所述的图像优化方法中的步骤。
15.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1~11任一项所述的图像优化方法中的步骤。
CN202211252059.0A 2022-10-13 2022-10-13 图像优化方法、装置、电子设备、介质和程序产品 Pending CN117036180A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202211252059.0A CN117036180A (zh) 2022-10-13 2022-10-13 图像优化方法、装置、电子设备、介质和程序产品
EP23861677.5A EP4386657A1 (en) 2022-10-13 2023-09-25 Image optimization method and apparatus, electronic device, medium, and program product
PCT/CN2023/120931 WO2024078308A1 (zh) 2022-10-13 2023-09-25 图像优化方法、装置、电子设备、介质和程序产品
US18/421,016 US20240161245A1 (en) 2022-10-13 2024-01-24 Image optimization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211252059.0A CN117036180A (zh) 2022-10-13 2022-10-13 图像优化方法、装置、电子设备、介质和程序产品

Publications (1)

Publication Number Publication Date
CN117036180A true CN117036180A (zh) 2023-11-10

Family

ID=88637798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211252059.0A Pending CN117036180A (zh) 2022-10-13 2022-10-13 图像优化方法、装置、电子设备、介质和程序产品

Country Status (4)

Country Link
US (1) US20240161245A1 (zh)
EP (1) EP4386657A1 (zh)
CN (1) CN117036180A (zh)
WO (1) WO2024078308A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583165B (zh) * 2019-02-19 2023-08-08 京东方科技集团股份有限公司 图像处理方法、装置、设备及存储介质
CN111488865B (zh) * 2020-06-28 2020-10-27 腾讯科技(深圳)有限公司 图像优化方法、装置、计算机存储介质以及电子设备
CN115131218A (zh) * 2021-03-25 2022-09-30 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读介质及电子设备

Also Published As

Publication number Publication date
US20240161245A1 (en) 2024-05-16
WO2024078308A1 (zh) 2024-04-18
EP4386657A1 (en) 2024-06-19

Similar Documents

Publication Publication Date Title
US20200311871A1 (en) Image reconstruction method and device
JP7373554B2 (ja) クロスドメイン画像変換
WO2021143264A1 (zh) 图像处理方法、装置、服务器和存储介质
CN110223292B (zh) 图像评估方法、装置及计算机可读存储介质
CN107292352B (zh) 基于卷积神经网络的图像分类方法和装置
CN110222717A (zh) 图像处理方法和装置
Li et al. Globally and locally semantic colorization via exemplar-based broad-GAN
JP2023523029A (ja) 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体
US9230328B1 (en) Providing image parameters
Song et al. A novel partial point cloud registration method based on graph attention network
Qian et al. Circular LBP prior-based enhanced GAN for image style transfer
CN116383639A (zh) 一种生成对抗网络的知识蒸馏方法、装置、设备及存储介质
WO2024060839A1 (zh) 对象操作方法、装置、计算机设备以及计算机存储介质
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
Jin et al. Text2poster: Laying out stylized texts on retrieved images
Zhong et al. A painting style system using an improved CNN algorithm
CN116797850A (zh) 基于知识蒸馏和一致性正则化的类增量图像分类方法
CN114724183B (zh) 人体关键点检测方法、***、电子设备及可读存储介质
CN117036180A (zh) 图像优化方法、装置、电子设备、介质和程序产品
CN112633517A (zh) 一种机器学习模型的训练方法、计算机设备及存储介质
Xiao et al. Optimizing generative adversarial networks in Latent Space
Huang et al. Context attention network for skeleton extraction
CN113793627B (zh) 一种基于注意力的多尺度卷积语音情感识别方法及装置
Tran et al. Emotion-aware music recommendation
CN117541681A (zh) 基于深度特征生成的图像编辑方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination