CN116982072A - 机器学习模型的训练方法、装置和图像的处理方法、装置 - Google Patents

机器学习模型的训练方法、装置和图像的处理方法、装置 Download PDF

Info

Publication number
CN116982072A
CN116982072A CN202280000355.3A CN202280000355A CN116982072A CN 116982072 A CN116982072 A CN 116982072A CN 202280000355 A CN202280000355 A CN 202280000355A CN 116982072 A CN116982072 A CN 116982072A
Authority
CN
China
Prior art keywords
pixel
mask
self
predicted
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280000355.3A
Other languages
English (en)
Inventor
钟楚千
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Beijing BOE Technology Development Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Beijing BOE Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd, Beijing BOE Technology Development Co Ltd filed Critical BOE Technology Group Co Ltd
Publication of CN116982072A publication Critical patent/CN116982072A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种机器学习模型的训练方法、装置和图像的处理方法、装置,涉及图像处理技术领域。该机器学习模型的训练方法,包括:将待处理图像样本的至少一个像素扩充为像素块,像素块包括多个待预测像素;利用第一掩码,对像素块进行处理,获取掩码处理结果;根据掩码处理结果,利用机器学习模型,预测多个待预测像素的像素预测值,得到处理后的图像样本;根据多个待预测像素的像素预测值和多个待预测像素的像素标注值,训练机器学习模型。

Description

机器学习模型的训练方法、装置和图像的处理方法、装置 技术领域
本公开涉及图像处理技术领域,特别涉及一种机器学习模型的训练方法、机器学习模型的训练装置、图像的处理方法、图像的处理装置、电子设备和非易失性计算机可读存储介质。
背景技术
超分辨率技术(Super-Resolution,SR)是通过硬件或软件的方法提高原有图像的分辨率。通过一系列低分辨率的图像来得到一幅高分辨率的图像过程就是超分辨率重建,在众多领域都有重要的应用价值。
在相关技术中,采用上采样技术来实现图像的超分辨率处理。
发明内容
根据本公开的一些实施例,提供了一种机器学习模型的训练方法,包括:将待处理图像样本的至少一个像素扩充为像素块,像素块包括多个待预测像素;利用第一掩码,对像素块进行处理,获取掩码处理结果;根据掩码处理结果,利用机器学习模型,预测多个待预测像素的像素预测值,得到处理后的图像样本;根据多个待预测像素的像素预测值和多个待预测像素的像素标注值,训练机器学习模型。
在一些实施例中,利用机器学习模型,预测多个待预测像素的像素预测值包括:利用机器学习模型的自注意力模块,提取像素块的自注意力特征;根据像素块的自注意力特征,利用机器学习模型,预测像素预测值。
在一些实施例中,利用机器学习模型的自注意力模块,提取像素块的自注意力特征包括:利用自注意力模块,计算各待预测像素的第一自注意力关联张量;利用第二掩码对第一自注意力关联张量进行处理,确定第二自注意力关联张量,使得各待预测像素无法学习到指定待预测像素的相关信息;根据第二自注意力关联张量,利用自注意力模块,提取自注意力特征。
在一些实施例中,利用自注意力模块,计算各像素块的第一自注意力关联张量包括:利用自注意力模块,提取各待预测像素的查询向量和键向量;根据查询向量和键向量,计算第一自注意力关联张量;利用第二掩码对第一自注意力关联张量进行处理,确定第二自注意力关联张量包括:利用第二掩码对第一自注意力关联张量进行处理, 确定第二自注意力关联张量,使得各待预测像素对指定待预测像素的影响小于第一阈值。
在一些实施例中,上述至少一个像素为种子像素,第二自注意力关联张量使得,每个待预测像素只能学习到种子像素的信息,或者每个待预测像素均能学习到自身的信息和种子像素的信息,或者种子像素能学习到每个待预测像素的信息,每个待预测像素只能学习到种子像素的信息,或者种子像素能学习到每个待预测像素的信息,每个待预测像素只能学习到自身的信息和种子像素的信息。
在一些实施例中,利用第二掩码对第一自注意力关联张量进行处理,确定第二自注意力关联张量包括:根据第二掩码与第一自注意力关联张量的加和,确定第二自注意力关联张量,第二掩码中与第一关联关系相应的元素为0,与第二关联关系相应的元素小于第二阈值,第一关联关系为各待预测像素与至少一个元素的关联关系,第二关联关系为各待预测像素与指定待预测像素的关联关系。
在一些实施例中,第二掩码的第1+n×N 2列为全0列,第二掩码的其余元素小于第二阈值,n为0或正整数,N为处理后的图像样本对于待处理图像样本分辨率提高的倍数,或者第二掩码的第1+n×N 2列为全0列,第二掩码的对角线元素为0,第二掩码的其余元素小于第二阈值,或者第二掩码的第1+n×N 2列为全0列,第二掩码的第1+n×N 2行为全0行,第二掩码的其余元素小于第二阈值,或者第二掩码的第1+n×N 2列为全0列,第二掩码的第1+n×N 2行为全0行,第二掩码的对角线元素为0,第二掩码的其余元素小于第二阈值。
在一些实施例中,利用机器学习模型的自注意力模块,提取像素块的自注意力特征包括:在训练的轮次小于轮次阈值的情况下,根据第二自注意力关联张量,利用自注意力模块,提取自注意力特征;在训练的轮次大于或等于轮次阈值的情况下,根据第一自注意力关联张量,利用自注意力模块,提取自注意力特征。
在一些实施例中,利用机器学习模型,预测像素块中多个待预测像素的像素预测值包括:利用机器学习模型,对像素块进行嵌入表示,生成第一嵌入特征张量;根据第一嵌入特征张量,利用机器学习模型,提取像素块的特征信息;根据像素块的特征信息,利用机器学习模型,预测像素预测值。
在一些实施例中,根据第一嵌入特征张量,利用机器学习模型,提取像素块的特征信息包括:对图像中的像素进行位置编码,生成位置编码张量;根据位置编码张量和第一嵌入特征张量,生成第二嵌入特征张量;根据第二嵌入特征张量,利用机器学 习模型,提取图像中的像素的特征信息。
在一些实施例中,对第一嵌入特征张量进行位置编码,生成位置编码张量包括:根据不同的方向,将第一嵌入特征张量划分为多个嵌入特征子张量;分别对多个嵌入特征子张量进行位置编码,生成多个位置编码张量。
在一些实施例中,将待处理图像样本的至少一个像素扩充为像素块包括:将待处理图像样本划分为多个子图像;将多个子图像的至少一个像素扩充为像素块。
在一些实施例中,将待处理图像样本划分为多个子图像包括:将待处理图像划分为多个图像块;针对不同的图像通道,将多个图像块中的每一个划分为多个子图像。
在一些实施例中,处理不同像素块的第一掩码均相同,第一掩码中的各掩码值均相同,或者处理不同像素块的第一掩码均相同,第一掩码中的各掩码值互不相同,或者处理不同像素块的第一掩码均不相同,每一个第一掩码中的各掩码值均相同,或者处理不同像素块的第一掩码均不相同,每一个第一掩码中的各掩码值互不相同。
根据本公开的另一些实施例,提供一种图像的处理方法,包括:将待处理图像样本的至少一个像素扩充为像素块,像素块包括多个待预测像素;利用第一掩码,对像素块进行处理,获取掩码处理结果;根据掩码处理结果,利用机器学习模型,预测像素块中多个待预测像素的像素预测值,得到处理后的图像样本,机器学习模型利用上述任一个实施例中的训练方法训练。
根据本公开的又一些实施例,提供一种机器学习模型的训练装置,包括:扩充单元,用于将待处理图像样本的至少一个像素扩充为像素块,像素块包括多个待预测像素,利用第一掩码,对像素块进行处理,获取掩码处理结果;预测单元,用于根据掩码处理结果,利用机器学习模型,预测像素块中多个待预测像素的像素预测值,得到处理后的图像样本;训练单元,用于根据多个待预测像素的像素预测值和多个待预测像素的像素标注值,训练机器学习模型。
在一些实施例中,预测单元利用机器学习模型的自注意力模块,提取像素块的自注意力特征;根据像素块的自注意力特征,利用机器学习模型,预测像素预测值。
在一些实施例中,预测单元利用自注意力模块,计算各待预测像素的第一自注意力关联张量;利用第二掩码对第一自注意力关联张量进行处理,确定第二自注意力关联张量,使得各待预测像素无法学习到指定待预测像素的相关信息;根据第二自注意力关联张量,利用自注意力模块,提取自注意力特征。
在一些实施例中,预测单元利用自注意力模块,提取各待预测像素的查询向量和 键向量;根据查询向量和键向量,计算第一自注意力关联张量;利用第二掩码对第一自注意力关联张量进行处理,确定第二自注意力关联张量包括:利用第二掩码对第一自注意力关联张量进行处理,确定第二自注意力关联张量,使得各待预测像素对指定待预测像素的影响小于第一阈值。
在一些实施例中,上述至少一个像素为种子像素,第二自注意力关联张量使得,每个待预测像素只能学习到种子像素的信息,或者每个待预测像素均能学习到自身的信息和种子像素的信息,或者种子像素能学习到每个待预测像素的信息,每个待预测像素只能学习到种子像素的信息,或者种子像素能学习到每个待预测像素的信息,每个待预测像素只能学习到自身的信息和种子像素的信息。
在一些实施例中,预测单元根据第二掩码与第一自注意力关联张量的加和,确定第二自注意力关联张量,第二掩码中与第一关联关系相应的元素为0,与第二关联关系相应的元素小于第二阈值,第一关联关系为各待预测像素与至少一个元素的关联关系,第二关联关系为各待预测像素与指定待预测像素的关联关系。
在一些实施例中,第二掩码的第1+n×N 2列为全0列,第二掩码的其余元素小于第二阈值,n为0或正整数,N为处理后的图像样本对于待处理图像样本分辨率提高的倍数,或者第二掩码的第1+n×N 2列为全0列,第二掩码的对角线元素为0,第二掩码的其余元素小于第二阈值,或者第二掩码的第1+n×N 2列为全0列,第二掩码的第1+n×N 2行为全0行,第二掩码的其余元素小于第二阈值,或者第二掩码的第1+n×N 2列为全0列,第二掩码的第1+n×N 2行为全0行,第二掩码的对角线元素为0,第二掩码的其余元素小于第二阈值。
在一些实施例中,预测单元在训练的轮次小于轮次阈值的情况下,根据第二自注意力关联张量,利用自注意力模块,提取自注意力特征;在训练的轮次大于或等于轮次阈值的情况下,根据第一自注意力关联张量,利用自注意力模块,提取自注意力特征。
在一些实施例中,预测单元利用机器学习模型,对像素块进行嵌入表示,生成第一嵌入特征张量;根据第一嵌入特征张量,利用机器学习模型,提取像素块的特征信息;根据像素块的特征信息,利用机器学习模型,预测像素预测值。
在一些实施例中,预测单元对图像中的像素进行位置编码,生成位置编码张量;根据位置编码张量和第一嵌入特征张量,生成第二嵌入特征张量;根据第二嵌入特征张量,利用机器学习模型,提取图像中的像素的特征信息。
在一些实施例中,预测单元根据不同的方向,将第一嵌入特征张量划分为多个嵌入特征子张量;分别对多个嵌入特征子张量进行位置编码,生成多个位置编码张量。
在一些实施例中,扩充单元将待处理图像样本划分为多个子图像;将多个子图像的至少一个像素扩充为像素块。
在一些实施例中,扩充单元将待处理图像划分为多个图像块;针对不同的图像通道,将多个图像块中的每一个划分为多个子图像。
在一些实施例中,处理不同像素块的第一掩码均相同,第一掩码中的各掩码值均相同,或者处理不同像素块的第一掩码均相同,第一掩码中的各掩码值互不相同,或者处理不同像素块的第一掩码均不相同,每一个第一掩码中的各掩码值均相同,或者处理不同像素块的第一掩码均不相同,每一个第一掩码中的各掩码值互不相同。
根据本公开的再一些实施例,提供一种图像的处理装置,包括:扩充单元,用于将待处理图像样本的至少一个像素扩充为像素块,像素块包括多个待预测像素,利用第一掩码,对像素块进行处理,获取掩码处理结果;预测单元,用于根据掩码处理结果,利用机器学习模型,预测像素块中多个待预测像素的像素预测值,得到处理后的图像样本,机器学习模型利用上述任一个实施例的训练方法训练。
根据本公开的再一些实施例,提供一种电子设备,包括:存储器;和耦接至存储器的处理器,处理器被配置为基于存储在存储器装置中的指令,执行上述任一个实施例中的机器学习模型的训练方法,或者图像的处理方法。
根据本公开的再一些实施例,提供一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的机器学习模型的训练方法,或者图像的处理方法。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1示出本公开的机器学习模型的训练方法的一些实施例的流程图;
图2a~2e示出本公开的机器学习模型的训练方法的一些实施例的示意图;
图3a~3d示出本公开的第二掩码的一些实施例的示意图;
图4示出本公开的机器学习模型的训练方法的另一些实施例的流程图;
图5示出本公开的图像的处理方法的一些实施例的流程图;
图6示出本公开的机器学习模型的训练装置的一些实施例的框图;
图7示出本公开的图像的处理装置的一些实施例的框图;
图8示出本公开的电子设备的一些实施例的框图;
图9示出本公开的电子设备的另一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的发明人发现上述相关技术中存在如下问题:在预测超分辨率图像的像素值时,无法学习感受野以外的信息;而且上采样过程并非可学习过程,导致图像的超分辨率处理性能下降。
鉴于此,本公开提出了一种机器学习模型的训练技术方案,能够提高图像的超分辨率处理性能。
针对上述技术问题,本公开可以通过如下的实施例完成超分辨率任务。将图像切割成多个图像块,使用待预测像素来填充待处理图像,使之与超分辨率处理后的图像的大小相等;通过机器学习模型来提取图像特征,同时达到上采样的目的。
这样,通过使用待预测像素填充低分辨率图像,利用机器学习模型将特征提取和上采样两步结合在一起,解决了无法学习感受野以外的信息的技术问题,使得图像超 分辨率的效果更好。例如,可以通过如下的实施例实现本公开的技术方案。
图1示出本公开的机器学习模型的训练方法的一些实施例的流程图。
如图1所示,在步骤110中,将待处理图像样本的至少一个像素扩充为像素块。像素块包括多个待预测像素。在一些实施例中,可以根据待处理图像的分辨率和想要达到的分辨率,对像素进行扩充,生成扩充后的图像。扩充后的图像的大小与想要到的分辨率对应的图像的大小相同。
在步骤120中,利用第一掩码,对像素块进行处理,获取掩码处理结果。
在一些实施例中,可以将待处理图像中的各像素作为种子像素,根据第一掩码中种子像素在像素块中的位置,以及各掩码值之间的关系,为各待遇测像素赋予初始值。种子像素可在像素块中的任一位置。
图2a~2e示出本公开的机器学习模型的训练方法的一些实施例的示意图。
在一些实施例中,种子像素能够学习自己的信息,每个待预测像素只能学习到种子像素的信息。例如,种子像素在每个像素块的第一行第一列,并且处理不同像素块的第一掩码均相同,第一掩码中的各掩码值均相同。
如图2a所示,待处理图像的大小为m×n,第一掩码的大小为N×N,N为处理后的图像样本对于待处理图像样本分辨率提高的倍数。第一掩码中种子像素位于1行1列,且各掩码值均相同(均为mask)。
在一些实施例中,种子像素能够学习自己的信息,每个待预测像素均能学习到自身的信息和种子像素的信息。例如,种子像素在每个像素块的第一行第一列,并且处理不同像素块的第一掩码均相同,第一掩码中的各掩码值互不相同。
如图2b所示,所有的种子像素共用1个N×N大小的第一掩码。第一掩码中种子像素位于1行1列,且不同位置的掩码值互不相同(mask i,j,i=1,2…N,j=1,2…N)。
在一些实施例中,种子像素能学习到每个待预测像素的信息,每个待预测像素只能学习到种子像素的信息。例如,种子像素在每个像素块的第一行第一列,并且处理不同像素块的第一掩码均不相同,每一个第一掩码中的各掩码值均相同。
如图2c所示,不同的种子像素使用不同的N×N大小的第一掩码。每一个第一掩码中种子像素位于1行1列,且不同位置的掩码值均相同,但是不同的第一掩码中的待预测像素的像素值不同。如种子像素(1,1)对应的第一掩码中的像素值为mask 1,1,种子像素(1,n)对应的第一掩码中的像素值为mask 1,n
在一些实施例中,种子像素能学习到每个待预测像素的信息,每个待预测像素只 能学习到自身的信息和种子像素的信息。例如,种子像素在每个像素块的第一行第一列,并且处理不同像素块的第一掩码均不相同,每一个第一掩码中的各掩码值互不相同。
如图2d所示,不同的种子像素使用不同的N×N大小的第一掩码。每一个第一掩码中种子像素位于1行1列,且不同位置的掩码值均不相同。种子像素(1,1)对应的第一掩码中的各像素值为mask11 i,j,i=1,2…N,j=1,2…N,种子像素(1,n)对应的第一掩码中的各像素值为mask1n i,j
在一些实施例中,将待处理图像样本划分为多个子图像;将多个子图像的至少一个像素扩充为像素块。
在一些实施例中,将待处理图像划分为多个图像块;针对不同的图像通道,将多个图像块中的每一个划分为多个子图像。例如,可以通过图2a中的实施例实现子图像的划分。
如图2e所示,对待处理图像进行分割,划分成多个图像块;对于一个图像块,在R(红)、G(绿)、B(蓝)三个通道上分别生成子图像后,进行后续处理。
在一些实施例中,也可以不对待处理图像进行切割,而是将整幅待处理图像分成三个通道的子图像后,进行后续处理。
这样,通过对待处理图像进行分割,划分成较小的子图像后在进行后续处理,使得机器学习模型需要学习的无用信息更少,并且所需算力资源也更少,从而提高了处理效率。
在步骤130中,利用机器学习模型,预测多个待预测像素的像素预测值,得到处理后的图像样本。
在一些实施例中,利用机器学习模型的自注意力模块,提取像素块的自注意力特征;根据像素块的自注意力特征,利用机器学习模型,预测像素预测值。
在一些实施例中,可以将像素块展开为一维向量后,再进行嵌入表示处理,得到第一嵌入特征张量。例如,也可以不对像素块进行展开,直接进行嵌入表示处理。
例如,如果展开成一维向量,可以对扩充后的图像中各像素进行嵌入表示处理,得到嵌入特征张量。嵌入维度可以为D,则可以得到mn×D的嵌入特征张量。将嵌入特征张量输入transformer模型的encoder(编码器)的自注意力模块,提取出大小为mn×D的自注意力特征。
在一些实施例中,encoder可以包含多头自注意力模块和前馈神经网络模块。多 头自注意力模块可以提取多组由查询(Query)向量、键(Key)向量和值(Value)向量组成的特征向量组,进而得到多头的自注意力特征;多头的自注意力特征可以融合为最终的自注意力特征。
例如,对于每一个头来说,嵌入特征张量经过三个线性变换,生成查询向量、键向量和值向量;各像素的查询向量与自己及其他像素的键向量的转置相乘,计算得到各像素的自注意力关联张量(self-attention score);各像素的自注意力关联张量除以 之后进行softmax处理,d为键向量的维度数量;各像素的softmax处理结果分别乘以自己及其他像素的值向量,并对乘积求和;根据求和结果,确定每个像素的自注意力特征。
在一些实施例中,利用自注意力模块,计算各待预测像素的第一自注意力关联张量;利用第二掩码对第一自注意力关联张量进行处理,确定第二自注意力关联张量,使得各待预测像素无法学习到指定待预测像素的相关信息;根据第二自注意力关联张量,利用自注意力模块,提取自注意力特征。
上述实施例中,考虑到训练过程中,待预测像素的初始预测值是随机初始化的,不包含有用的信息,有可能影响其他待预测像素的学习效果。通过设置第二掩码,可以使得待预测像素不会学习到此阶段的其他待预测像素的无用信息,但是能够学习到种子像素的有用信息,从而提高超分辨处理性能。
在一些实施例中,利用自注意力模块,提取各待预测像素的查询向量和键向量;根据查询向量和键向量,计算第一自注意力关联张量;利用第二掩码对第一自注意力关联张量进行处理,确定第二自注意力关联张量,使得各待预测像素的查询向量对指定待预测像素的键向量的影响小于第一阈值。
例如,利用第二掩码对第一自注意力关联张量进行处理,确定第二自注意力关联张量;对第二自注意力关联张量进行softmax处理后,使得各待预测像素对指定待预测像素的影响为0。
例如,利用第二掩码对第一自注意力关联张量进行处理后再进行softmax处理,得到第二自注意力关联张量。
例如,第二掩码还使得第二自注意力关联张量中,表征各待预测像素的查询向量对种子像素的键向量的影响的元素,与第一自注意力关联张量中的相应元素保持一致,从而保留各待预测像素的查询向量对种子像素的键向量的影响。
图3a~3d示出本公开的第二掩码的一些实施例的示意图。
如图3a所示,第二掩码的第1+n×N 2列为全0列,第二掩码的其余元素小于第二阈值,n为0或正整数,N为处理后的图像样本对于待处理图像样本分辨率提高的倍数。例如,第一阈值可以与第二阈值相等,如都为负无穷小。
如图3b所示,第二掩码的第1+n×N 2列为全0列,第二掩码的对角线元素为0,第二掩码的其余元素小于第二阈值。
如图3c所示,第二掩码的第1+n×N 2列为全0列,第二掩码的第1+n×N 2行为全0行,第二掩码的其余元素小于第二阈值。
如图3d所示,第二掩码的第1+n×N 2列为全0列,第二掩码的第1+n×N 2行为全0行,第二掩码的对角线元素为0,第二掩码的其余元素为小于第二阈值的负数(例如,这些其余元素可以为-1×10 9或者负无穷)。
在一些实施例中,可以对像素块进行一维嵌入表示处理后,利用机器学习模型得到第一自注意力关联张量;然后利用图3a~3d中的第二掩码对第一自注意力关联张量进行处理,得到第二自注意力关联张量。
例如,也可以对像素块进行二维嵌入表示处理后,利用机器学习模型得到第一自注意力关联张量;然后利用与二维嵌入表示处理对应的第二掩码对第一自注意力关联张量进行处理,得到第二自注意力关联张量。
在一些实施例中,根据第二掩码与第一自注意力关联张量的加和,确定第二自注意力关联张量,第二掩码中与第一关联关系相应的元素为0,与第二关联关系相应的元素小于第二阈值(例如,这些元素可以为负无穷),第一关联关系为各待预测像素与种子元素的关联关系,第二关联关系为各待预测像素与指定待预测像素的关联关系。
例如,将第一自注意力关联张量与第二掩码相加,得到第二自注意力关联张量。将第二自注意力关联张量进行scale处理(即除以 ),以防止数据过大,导致梯度消失或梯度***。经过softmax处理后与值向量相乘。将自注意力处理模块的输出值(如自注意力特征)与自注意力处理模块的输入值相加,经过layer normalization处理后,作为多头自注意力模块的输出。
在一些实施例中,根据第一自注意力关联张量与第二掩码的相减结果,确定第二自注意力关联张量,第二掩码中与第一关联关系相应的元素为0,与第二关联关系相应的元素大于第二阈值(例如,这些元素可以为正无穷)。
在一些实施例中,可以利用前馈神经网络处理多头自注意力模块的输出;再将处理结果与多头自注意力模块的输出相加,进行layer normalization处理后,作为整个 encoder层的输出。
在一些实施例中,在训练的轮次小于轮次阈值的情况下,根据第二自注意力关联张量,利用自注意力模块,提取自注意力特征;在训练的轮次大于或等于轮次阈值的情况下,根据第一自注意力关联张量,利用自注意力模块,提取自注意力特征。
例如,在训练过程中,可将训练分为两个阶段。在第一阶段(例如前K轮训练),预测的像素值比较准确,使用第二掩码进行训练以提高准确性;在第二阶段,预测的像素比较准确,不使用第二掩码进行训练,各像素通过互相学习来提高准确性。
例如,在整个训练过程中,可以只存在第一阶段,也可以只存在第二阶段,或者两个阶段都存在。
图4示出本公开的机器学习模型的训练方法的另一些实施例的流程图。
如图4所示,可以利用(CNN)卷积神经网络对待处理图像样本进行特征提取,得到待预测图像。也可以不利用CNN进行处理,直接将待处理图像作为待遇测图像进行后续处理。
在一些实施例中,可以对图像中的像素进行位置嵌入处理。例如,利用机器学习模型,对图像中的像素进行嵌入表示处理,生成第一嵌入特征张量;根据第一嵌入特征张量,利用机器学习模型,提取图像中的像素的特征信息;例如,也可以将图像划分为多个图像块,再对图像块中的像素进行上述位置嵌入处理。
在一些实施例中,对图像中的像素进行位置编码,生成位置编码张量;根据位置编码张量和第一嵌入特征张量,生成第二嵌入特征张量;根据第二嵌入特征张量,利用机器学习模型,提取图像中的像素的特征信息;根据特征信息,得到处理后的图像样本,用于训练机器学习模型。
例如,位置编码可以为一维位置编码,如绝对位置编码或相对位置编码。
在一些实施例中,对于大小为mn×D的第一嵌入特征张量,D为嵌入表示处理的维度数量,可以将前D/2的第一嵌入特征张量编码为X方向,将后D/2的第一嵌入特征张量编码为Y方向,分别得到大小为mn×D/2的嵌入特征子张量Ex和Ey;将Ex与Ey拼接在一起,形成位置编码Epos,大小为mn ×D;
例如,将X、Y方向分别编码为Ex、Ey,大小均为mn ×D,将Ex与Ey相加,形成位置编码Epos。
这样,通过位置编码,能够将像素的位置信息引入到像素的预测处理中,从而提高像素预测的准确性。
在步骤140中,根据多个待预测像素的像素预测值和多个待预测像素的像素标注值,训练机器学习模型。
在一些实施例中,可以利用MSE(均方方差)损失函数或者交叉熵损失函数,训练机器学习模型。
在一些实施例中,可将超分辨处理前后分辨率的增加倍数N,分为N1和N2,即N=N1×N2。先后利用N1和N2替换上述任一个实施例中的N,进行分阶段超分辨率处理和训练,可以得到同样的分辨率,且避免了计算过程中张量过于稀疏造成的处理效率低下问题。例如,也可以将N分为多于两个部分,即N=N1×N2×…×Nn,处理方式与上述实施例类似。
在上述实施例中,使用多个待预测像素扩充待处理图像中的已有像素,并使用机器学习模型预测这些待预测像素的像素值。这样,能够学习到感受野以外的信息,且预测过程是可学习的,从而提高了像素预测结果的准确性,从而提高图像的超分辨率处理性能。
图5示出本公开的图像的处理方法的一些实施例的流程图。
如图5所示,在步骤510中,将待处理图像样本的至少一个像素扩充为像素块,像素块包括多个待预测像素。
在步骤520中,利用第一掩码,对像素块进行处理,获取掩码处理结果。
在步骤530中,根据掩码处理结果,利用机器学习模型,预测像素块中多个待预测像素的像素预测值,得到处理后的图像样本,机器学习模型利用上述任一个实施例中的训练方法训练。
图6示出本公开的机器学习模型的训练装置的一些实施例的框图。
如图6所示,机器学习模型的训练装置6包括:扩充单元61,用于将待处理图像样本的至少一个像素扩充为像素块,像素块包括多个待预测像素,利用第一掩码,对像素块进行处理,获取掩码处理结果;预测单元62,用于根据掩码处理结果,利用机器学习模型,预测像素块中多个待预测像素的像素预测值,得到处理后的图像样本;训练单元63,用于根据多个待预测像素的像素预测值和多个待预测像素的像素标注值,训练机器学习模型。
在一些实施例中,预测单元62利用机器学习模型的自注意力模块,提取像素块的自注意力特征;根据像素块的自注意力特征,利用机器学习模型,预测像素预测值。
在一些实施例中,预测单元62利用自注意力模块,计算各待预测像素的第一自 注意力关联张量;利用第二掩码对第一自注意力关联张量进行处理,确定第二自注意力关联张量,使得各待预测像素无法学习到指定待预测像素的相关信息;根据第二自注意力关联张量,利用自注意力模块,提取自注意力特征。
在一些实施例中,预测单元62利用自注意力模块,提取各待预测像素的查询向量和键向量;根据查询向量和键向量,计算第一自注意力关联张量;利用第二掩码对第一自注意力关联张量进行处理,确定第二自注意力关联张量包括:利用第二掩码对第一自注意力关联张量进行处理,确定第二自注意力关联张量,使得各待预测像素对指定待预测像素的影响小于第一阈值。
在一些实施例中,上述至少一个像素为种子像素,种子像素能够学习到自己的信息。第二自注意力关联张量使得,每个待预测像素只能学习到种子像素的信息,或者每个待预测像素均能学习到自身的信息和种子像素的信息,或者种子像素能学习到每个待预测像素的信息,每个待预测像素只能学习到种子像素的信息,或者种子像素能学习到每个待预测像素的信息,每个待预测像素只能学习到自身的信息和种子像素的信息。
在一些实施例中,预测单元62根据第二掩码与第一自注意力关联张量的加和,确定第二自注意力关联张量,第二掩码中与第一关联关系相应的元素为0,与第二关联关系相应的元素小于第二阈值,第一关联关系为各待预测像素与至少一个元素的关联关系,第二关联关系为各待预测像素与指定待预测像素的关联关系。
在一些实施例中,第二掩码的第1+n×N 2列为全0列,第二掩码的其余元素小于第二阈值,n为0或正整数,N为处理后的图像样本对于待处理图像样本分辨率提高的倍数,或者第二掩码的第1+n×N 2列为全0列,第二掩码的对角线元素为0,第二掩码的其余元素小于第二阈值,或者第二掩码的第1+n×N 2列为全0列,第二掩码的第1+n×N 2行为全0行,第二掩码的其余元素小于第二阈值,或者第二掩码的第1+n×N 2列为全0列,第二掩码的第1+n×N 2行为全0行,第二掩码的对角线元素为0,第二掩码的其余元素小于第二阈值。
在一些实施例中,预测单元62在训练的轮次小于轮次阈值的情况下,根据第二自注意力关联张量,利用自注意力模块,提取自注意力特征;在训练的轮次大于或等于轮次阈值的情况下,根据第一自注意力关联张量,利用自注意力模块,提取自注意力特征。
在一些实施例中,预测单元62利用机器学习模型,对像素块进行嵌入表示,生 成第一嵌入特征张量;根据第一嵌入特征张量,利用机器学习模型,提取像素块的特征信息;根据像素块的特征信息,利用机器学习模型,预测像素预测值。
在一些实施例中,预测单元62对图像中的像素进行位置编码,生成位置编码张量;根据位置编码张量和第一嵌入特征张量,生成第二嵌入特征张量;根据第二嵌入特征张量,利用机器学习模型,提取图像中的像素的特征信息。
在一些实施例中,预测单元62根据不同的方向,将第一嵌入特征张量划分为多个嵌入特征子张量;分别对多个嵌入特征子张量进行位置编码,生成多个位置编码张量。
在一些实施例中,扩充单元61将待处理图像样本划分为多个子图像;将多个子图像的至少一个像素扩充为像素块。
在一些实施例中,扩充单元61将待处理图像划分为多个图像块;针对不同的图像通道,将多个图像块中的每一个划分为多个子图像。
在一些实施例中,处理不同像素块的第一掩码均相同,第一掩码中的各掩码值均相同,或者处理不同像素块的第一掩码均相同,第一掩码中的各掩码值互不相同,或者处理不同像素块的第一掩码均不相同,每一个第一掩码中的各掩码值均相同,或者处理不同像素块的第一掩码均不相同,每一个第一掩码中的各掩码值互不相同。
图7示出本公开的图像的处理装置的一些实施例的框图。
如图7所示,图像的处理装置7包括:扩充单元71,用于将待处理图像样本的至少一个像素扩充为像素块,像素块包括多个待预测像素,利用第一掩码,对像素块进行处理,获取掩码处理结果;预测单元72,用于根据掩码处理结果,利用机器学习模型,预测像素块中多个待预测像素的像素预测值,得到处理后的图像样本,机器学习模型利用上述任一个实施例的训练方法训练。
图8示出本公开的电子设备的一些实施例的框图。
如图8所示,该实施例的装置8包括:存储器81以及耦接至该存储器81的处理器82,处理器82被配置为基于存储在存储器51中的指令,执行本公开中任意一个实施例中的机器学习模型的训练方法,或者图像的处理方法。
其中,存储器81例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序Boot Loader、数据库以及其他程序等。
图9示出本公开的电子设备的另一些实施例的框图。
如图9所示,该实施例的电子设备9包括:存储器910以及耦接至该存储器910的处理器920,处理器920被配置为基于存储在存储器910中的指令,执行前述任意一个实施例中的机器学习模型的训练方法,或者图像的处理方法。
存储器910例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序Boot Loader以及其他程序等。
电子设备9还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930、940、950以及存储器910和处理器920之间例如可以通过总线960连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏、麦克、音箱等输入输出设备提供连接接口。网络接口940为各种联网设备提供连接接口。存储接口950为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的机器学习模型的训练方法、机器学习模型的训练装置、图像的处理方法、图像的处理装置、电子设备和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和***。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和***。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (19)

  1. 一种机器学习模型的训练方法,包括:
    将待处理图像样本的至少一个像素扩充为像素块,所述像素块包括多个待预测像素;
    利用第一掩码,对所述像素块进行处理,获取掩码处理结果;
    根据所述掩码处理结果,利用所述机器学习模型,预测所述多个待预测像素的像素预测值,得到处理后的图像样本;
    根据所述多个待预测像素的像素预测值和所述多个待预测像素的像素标注值,训练所述机器学习模型。
  2. 根据权利要求1所述的训练方法,其中,所述利用所述机器学习模型,预测所述多个待预测像素的像素预测值包括:
    利用所述机器学习模型的自注意力模块,提取所述像素块的自注意力特征;
    根据所述像素块的自注意力特征,利用所述机器学习模型,预测所述像素预测值。
  3. 根据权利要求2所述的训练方法,其中,所述利用所述机器学习模型的自注意力模块,提取所述像素块的自注意力特征包括:
    利用所述自注意力模块,计算所述各待预测像素的第一自注意力关联张量;
    利用第二掩码对所述第一自注意力关联张量进行处理,确定第二自注意力关联张量,使得各待预测像素无法学习到指定待预测像素的相关信息;
    根据所述第二自注意力关联张量,利用所述自注意力模块,提取所述自注意力特征。
  4. 根据权利要求3所述的训练方法,其中,所述利用所述自注意力模块,计算所述各像素块的第一自注意力关联张量包括:
    利用所述自注意力模块,提取所述各待预测像素的查询向量和键向量;
    根据所述查询向量和键向量,计算所述第一自注意力关联张量;
    所述利用第二掩码对所述第一自注意力关联张量进行处理,确定第二自注意力关联张量包括:
    利用所述第二掩码对所述第一自注意力关联张量进行处理,确定所述第二自注意力关联张量,使得所述各待预测像素对所述指定待预测像素的影响小于第一阈值。
  5. 根据权利要求4所述的训练方法,其中,所述至少一个像素为种子像素,所述第二自注意力关联张量使得,
    每个待预测像素只能学习到所述种子像素的信息,或者
    所述每个待预测像素均能学习到自身的信息和所述种子像素的信息,或者
    所述种子像素能学习到所述每个待预测像素的信息,所述每个待预测像素只能学习到所述种子像素的信息,或者
    所述种子像素能学习到所述每个待预测像素的信息,所述每个待预测像素只能学习到自身的信息和所述种子像素的信息。
  6. 根据权利要求4所述的训练方法,其中,所述利用第二掩码对所述第一自注意力关联张量进行处理,确定所述第二自注意力关联张量包括:
    根据所述第二掩码与所述第一自注意力关联张量的加和,确定所述第二自注意力关联张量,所述第二掩码中与第一关联关系相应的元素为0,与第二关联关系相应的元素小于第二阈值,所述第一关联关系为所述各待预测像素与所述至少一个元素的关联关系,所述第二关联关系为所述各待预测像素与所述指定待预测像素的关联关系。
  7. 根据权利要求6所述的训练方法,其中,所述第二掩码的第1+n×N 2列为全0列,所述第二掩码的其余元素小于所述第二阈值,n为0或正整数,N为所述处理后的图像样本对于所述待处理图像样本分辨率提高的倍数,或者
    所述第二掩码的第1+n×N 2列为全0列,所述第二掩码的对角线元素为0,所述第二掩码的其余元素小于所述第二阈值,或者
    所述第二掩码的第1+n×N 2列为全0列,所述第二掩码的第1+n×N 2行为全0行,所述第二掩码的其余元素小于所述第二阈值,或者
    所述第二掩码的第1+n×N 2列为全0列,所述第二掩码的第1+n×N 2行为全0行,所述第二掩码的对角线元素为0,所述第二掩码的其余元素小于所述第二阈值。
  8. 根据权利要求3所述的训练方法,其中,所述利用所述机器学习模型的自注意 力模块,提取所述像素块的自注意力特征包括:
    在训练的轮次小于轮次阈值的情况下,根据第二自注意力关联张量,利用所述自注意力模块,提取所述自注意力特征;
    在训练的轮次大于或等于所述轮次阈值的情况下,根据第一自注意力关联张量,利用所述自注意力模块,提取所述自注意力特征。
  9. 根据权利要求1所述的训练方法,其中,所述利用所述机器学习模型,预测所述像素块中多个待预测像素的像素预测值包括:
    利用所述机器学习模型,对所述像素块进行嵌入表示,生成第一嵌入特征张量;
    根据所述第一嵌入特征张量,利用所述机器学习模型,提取所述像素块的特征信息;
    根据所述像素块的特征信息,利用所述机器学习模型,预测所述像素预测值。
  10. 根据权利要求9所述的训练方法,其中,所述根据所述第一嵌入特征张量,利用所述机器学习模型,提取所述像素块的特征信息包括:
    对所述图像中的像素进行位置编码,生成位置编码张量;
    根据所述位置编码张量和所述第一嵌入特征张量,生成第二嵌入特征张量;
    根据所述第二嵌入特征张量,利用所述机器学习模型,提取所述图像中的像素的特征信息。
  11. 根据权利要求10所述的训练方法,其中,所述对所述第一嵌入特征张量进行位置编码,生成位置编码张量包括:
    根据不同的方向,将所述第一嵌入特征张量划分为多个嵌入特征子张量;
    分别对所述多个嵌入特征子张量进行位置编码,生成多个位置编码张量。
  12. 根据权利要求1所述的训练方法,其中,所述将待处理图像样本的至少一个像素扩充为像素块包括:
    将所述待处理图像样本划分为多个子图像;
    将所述多个子图像的至少一个像素扩充为像素块。
  13. 根据权利要求12所述的训练方法,其中,所述将所述待处理图像样本划分为多个子图像包括:
    将所述待处理图像划分为多个图像块;
    针对不同的图像通道,将所述多个图像块中的每一个划分为多个子图像。
  14. 根据权利要求1-13任一项所述的训练方法,其中,
    处理不同像素块的第一掩码均相同,所述第一掩码中的各掩码值均相同,或者
    处理不同像素块的第一掩码均相同,所述第一掩码中的各掩码值互不相同,或者
    处理不同像素块的第一掩码均不相同,每一个第一掩码中的各掩码值均相同,或者
    处理不同像素块的第一掩码均不相同,每一个第一掩码中的各掩码值互不相同。
  15. 一种图像的处理方法,包括:
    将待处理图像样本的至少一个像素扩充为像素块,所述像素块包括多个待预测像素;
    利用第一掩码,对所述像素块进行处理,获取掩码处理结果;
    根据所述掩码处理结果,利用所述机器学习模型,预测所述像素块中多个待预测像素的像素预测值,得到处理后的图像样本,所述机器学习模型利用权利要求1~14任一项所述的训练方法训练。
  16. 一种机器学习模型的训练装置,包括:
    扩充单元,用于将待处理图像样本的至少一个像素扩充为像素块,所述像素块包括多个待预测像素,利用第一掩码,对所述像素块进行处理,获取掩码处理结果;
    预测单元,用于根据所述掩码处理结果,利用所述机器学习模型,预测所述像素块中多个待预测像素的像素预测值,得到处理后的图像样本;
    训练单元,用于根据所述多个待预测像素的像素预测值和所述多个待预测像素的像素标注值,训练所述机器学习模型。
  17. 一种图像的处理装置,包括:
    扩充单元,用于将待处理图像样本的至少一个像素扩充为像素块,所述像素块包 括多个待预测像素,利用第一掩码,对所述像素块进行处理,获取掩码处理结果;
    预测单元,用于根据所述掩码处理结果,利用所述机器学习模型,预测所述像素块中多个待预测像素的像素预测值,得到处理后的图像样本,所述机器学习模型利用权利要求1~14任一项所述的训练方法训练。
  18. 一种电子设备,包括:
    存储器;和
    耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1~14任一项所述的机器学习模型的训练方法,或者权利要求14所述的图像的处理方法。
  19. 一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1~14任一项所述的机器学习模型的训练方法,或者权利要求14所述的图像的处理方法。
CN202280000355.3A 2022-02-28 2022-02-28 机器学习模型的训练方法、装置和图像的处理方法、装置 Pending CN116982072A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2022/078338 WO2023159581A1 (zh) 2022-02-28 2022-02-28 机器学习模型的训练方法、装置和图像的处理方法、装置

Publications (1)

Publication Number Publication Date
CN116982072A true CN116982072A (zh) 2023-10-31

Family

ID=87764434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280000355.3A Pending CN116982072A (zh) 2022-02-28 2022-02-28 机器学习模型的训练方法、装置和图像的处理方法、装置

Country Status (2)

Country Link
CN (1) CN116982072A (zh)
WO (1) WO2023159581A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070283A (ja) * 2009-09-24 2011-04-07 Nippon Telegr & Teleph Corp <Ntt> 顔画像高解像度化装置、及びプログラム
CN108122197B (zh) * 2017-10-27 2021-05-04 江西高创保安服务技术有限公司 一种基于深度学习的图像超分辨率重建方法
CN109146788B (zh) * 2018-08-16 2023-04-18 广州视源电子科技股份有限公司 基于深度学习的超分辨率图像重建方法和装置
CN112446826A (zh) * 2019-09-03 2021-03-05 联咏科技股份有限公司 用于图像超分辨率、图像增强及模型训练的方法及装置
US20220215528A1 (en) * 2019-09-26 2022-07-07 Hewlett-Packard Development Company, L.P. Enhancing interpolated thermal images
CN111598779B (zh) * 2020-05-14 2023-07-14 Oppo广东移动通信有限公司 图像超分辨率处理方法和装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2023159581A1 (zh) 2023-08-31

Similar Documents

Publication Publication Date Title
CN108664981B (zh) 显著图像提取方法及装置
CN115885289A (zh) 利用全局自注意力神经网络对依赖性建模
CN112560980A (zh) 目标检测模型的训练方法、装置及终端设备
CN110348531B (zh) 具有分辨率适应性的深度卷积神经网络构建方法及应用
CN112434618B (zh) 基于稀疏前景先验的视频目标检测方法、存储介质及设备
CN112016682B (zh) 视频表征学习、预训练方法及装置、电子设备、存储介质
CN111696038A (zh) 图像超分辨率方法、装置、设备及计算机可读存储介质
WO2022152104A1 (zh) 动作识别模型的训练方法及装置、动作识别方法及装置
CN112801104B (zh) 基于语义分割的图像像素级伪标签确定方法及***
CN115147426B (zh) 基于半监督学习的模型训练与图像分割方法和***
CN113706388A (zh) 图像超分辨率重建方法及装置
CN112529862A (zh) 一种交互循环特征重塑的显著性图像检测方法
Yang et al. Xception-based general forensic method on small-size images
CN116797456A (zh) 图像超分辨率重建方法、***、设备和存储介质
WO2024140642A1 (zh) 一种图像处理方法、装置及计算设备
CN117809198A (zh) 基于多尺度特征聚合网络的遥感图像显著性检测方法
KR102371292B1 (ko) 컨텍스트 스타일 변환기를 이용한 영상 처리 기법
CN116982072A (zh) 机器学习模型的训练方法、装置和图像的处理方法、装置
CN116645513A (zh) 水印提取方法、模型训练方法、装置、电子设备及介质
CN116523725A (zh) 一种神经网络模型的水印处理方法和装置
CN116343034A (zh) 一种遥感图像的变化检测方法、***、电子设备及介质
CN115660984A (zh) 一种图像高清还原方法、装置及存储介质
CN114638845A (zh) 一种基于双阈值的量子图像分割方法、装置及存储介质
CN111754518B (zh) 图像集合的扩充方法、装置及电子设备
CN112836797A (zh) 一种基于帧内数据差值神经网络加速方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination