CN112541878A - 建立图像增强模型与图像增强的方法、装置 - Google Patents

建立图像增强模型与图像增强的方法、装置 Download PDF

Info

Publication number
CN112541878A
CN112541878A CN202011550778.1A CN202011550778A CN112541878A CN 112541878 A CN112541878 A CN 112541878A CN 202011550778 A CN202011550778 A CN 202011550778A CN 112541878 A CN112541878 A CN 112541878A
Authority
CN
China
Prior art keywords
channel
video frame
neural network
module
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011550778.1A
Other languages
English (en)
Inventor
李超
何栋梁
高文灵
李甫
孙昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhaoyan Network Technology Co ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011550778.1A priority Critical patent/CN112541878A/zh
Publication of CN112541878A publication Critical patent/CN112541878A/zh
Priority to EP21186648.8A priority patent/EP4020376A1/en
Priority to US17/460,646 priority patent/US20220207299A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种建立图像增强模型与图像增强的方法、装置,涉及计算机视觉、深度学习技术领域。本申请在建立图像增强模型时包括:获取训练数据;构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型,其中每个通道膨胀卷积模块包含空间下采样子模块、通道膨胀子模块与空间上采样子模块;使用各视频帧以及对应各视频帧的标准图像对所述神经网络模型进行训练,直至所述神经网络模型收敛得到图像增强模型。另外,本申请在进行图像增强时包括:获取待处理视频帧;将待处理视频帧作为图像增强模型的输入,将图像增强模型的输出结果作为待处理视频帧的图像增强结果。本申请能够提升所建立的图像增强模型的处理效率。

Description

建立图像增强模型与图像增强的方法、装置
技术领域
本申请涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域中的一种建立图像增强模型与图像增强的方法、装置、电子设备和可读存储介质。
背景技术
随着视频直播业务的兴起,服务器分发带宽成本成为直播服务提供商的主要成本。为了减少带宽成本,一种最直接的方式是分发低码率视频,但是与高码率视频观感体验差距很大。移动端视频画面增强技术可以在移动设备上对视频画质进行增强,提升视频主观清晰度,使视频观看起来更清晰,极大提升用户体验。
但是,现有技术中的视频画面增强技术,利用传统的卷积神经网络,计算量大,难以在移动端对于直播视频实现实时的画面增强。此外,对于移动端视频画面增强任务来说,现有的神经网络轻量化技术,例如剪枝,蒸馏等,往往会遇到模型坍缩问题,无法学习到有效的画面增强信息。
发明内容
本申请为解决技术问题所采用的技术方案是提供一种建立图像增强模型的方法,包括:获取训练数据,所述训练数据中包含多个视频帧以及对应各视频帧的标准图像;构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型,其中每个通道膨胀卷积模块包含空间下采样子模块、通道膨胀子模块与空间上采样子模块;使用各视频帧以及对应各视频帧的标准图像对所述神经网络模型进行训练,直至所述神经网络模型收敛,得到图像增强模型。
本申请为解决技术问题所采用的技术方案是提供一种建立图像增强模型的装置,包括:获取单元,用于获取训练数据,所述训练数据中包含多个视频帧以及对应各视频帧的标准图像;构建单元,用于构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型,其中每个通道膨胀卷积模块包含空间下采样子模块、通道膨胀子模块与空间上采样子模块;训练单元,用于使用各视频帧以及对应各视频帧的标准图像对所述神经网络模型进行训练,直至所述神经网络模型收敛,得到图像增强模型。
本申请为解决技术问题所采用的技术方案是提供一种图像增强的方法,包括:获取待处理视频帧;将所述待处理视频帧作为图像增强模型的输入,将所述图像增强模型的输出结果作为所述待处理视频帧的图像增强结果。
本申请为解决技术问题所采用的技术方案是提供一种图像增强的装置,包括:第二获取单元、用于获取待处理视频帧;增强单元、用于将所述待处理视频帧作为图像增强模型的输入,将所述图像增强模型的输出结果作为所述待处理视频帧的图像增强结果。
一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述方法。
一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述方法。
上述申请中的一个实施例具有如下优点或有益效果:本申请能够降低图像增强模型在生成图像时的计算量,提升移动端在使用图像增强模型进行图像增强时的处理效率。因为采用了基于通道膨胀卷积模块的神经网络来训练得到图像增强模型的技术手段,所以克服了现有技术使用传统卷积神经网络进行图像增强时所需计算量大,使用剪枝、蒸馏等神经网络轻量化技术进行图像增强时容易遇到模型坍缩的问题,在降低了图像增强模型在生成图像时的计算量的同时,还能够提升移动端在使用图像增强模型进行图像增强时的处理效率。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是根据本申请第三实施例的示意图;
图4是根据本申请第四实施例的示意图;
图5是根据本申请第五实施例的示意图;
图6是用来实现本申请实施例的建立图像增强模型的方法与图像增强的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请第一实施例的示意图。如图1中所示,本实施例的建立图像增强模型的方法,具体可以包括如下步骤:
S101、获取训练数据,所述训练数据中包含多个视频帧以及对应各视频帧的标准图像;
S102、构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型,其中每个通道膨胀卷积模块包含空间下采样子模块、通道膨胀子模块与空间上采样子模块;
S103、使用各视频帧以及对应各视频帧的标准图像对所述神经网络模型进行训练,直至所述神经网络模型收敛,得到图像增强模型。
本实施例的建立图像增强模型的方法,利用基于通道膨胀卷积模块的神经网络来训练得到图像增强模型,由于训练得到的图像增强模型使用了轻量级的神经网络框架,因此极大地降低了图像增强模型在生成图像时的计算量,使得该图像增强模型特别适用于移动端进行图像增强,提升了移动端进行图像增强时的处理效率。
本实施例在执行S101获取训练数据时,可以获取视频中所包含的连续视频帧作为多个视频帧,而对应各视频帧的标准图像则为各视频帧所对应的清晰图像。
本实施例在执行S101获取多个视频帧以及对应各视频帧的标准图像之后,执行S102构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型,通道膨胀卷积模块中的各子模块采用逐通道卷积与逐点卷积相结合的计算方式完成特征的卷积计算。
可以理解的是,本实施例通过逐通道卷积与逐点卷积相结合的方式来实现常规的卷积计算,能够减少卷积计算所需的参数量,从而降低神经网络计算的复杂度;逐通道卷积为使用卷积核对不同通道的特征进行分别卷积,逐点卷积为使用卷积核对不同通道的特征进行逐个点的卷积。
其中,本实施例执行S102构建的神经网络模型中的特征提取模块,包含多个特征提取层,特征提取模块利用多个特征提取层来得到视频帧的深层特征;神经网络模型中的通道膨胀卷积模块,包含空间下采样子模块、通道膨胀子模块与空间上采样子模块,空间下采样子模块用于对输入特征进行下采样,缩小输入特征的空间分辨率,通道膨胀子模块用于对空间下采样子模块的输出特征的通道数进行膨胀与收缩,空间上采样子模块用于对通道膨胀子模块的输出特征进行上采样,放大输出特征的空间分辨率;神经网络模型中的空间上采样模块,用于对通道膨胀卷积模块的输出特征进行上采样得到重建视频帧,并将重建视频帧的尺寸还原至输入视频帧的尺寸。
具体地,本实施例执行S102所构建的神经网络模型包含的通道膨胀卷积模块中的空间下采样子模块,包含第一逐通道(Depth Wise,DW)卷积层与第一逐点(Point Wise,PW)卷积层,空间下采样子模块中该两个卷积层的的通道数为第一通道数;第一逐通道卷积层用于根据第一通道数对输入特征进行逐通道卷积计算,实现对输入特征的空间下采样;第一逐点卷积层用于根据第一通道数对第一逐通道卷积层的输出特征进行逐点卷积计算,实现对输入特征的特征变换。
本实施例执行S102所构建的神经网络模型包含的通道膨胀卷积模块中的通道膨胀子模块,包含第一通道膨胀层、第二通道膨胀层与通道收缩层,第一通道膨胀层对应的通道数为第二通道数,第二通道膨胀层对应的通道数为第三通道数,通道收缩层对应的通道数为第一通道数;且在本实施例中,第一通道数<第二通道数<第三通道数。通常情况下,本实施例中的第三通道数为第二通道数的两倍,第二通道数远大于第一通道数。
也就是说,本实施例中的通道膨胀子模块会设置不同的通道数来实现通道的膨胀,而通过对特征的通道进行膨胀的方式,能够增大进行卷积计算时所使用的卷积核的感受野,从而实现通过从图像中获取更为丰富的特征信息来增强图像的目的。
其中,本实施例中的第一通道膨胀层包含第二逐通道卷积层与第二逐点卷积层,第二逐通道卷积层用于根据第二通道数对空间下采样子模块的输出特征进行逐通道卷积计算,实现特征融合;第二逐点卷积层用于根据第二通道数对第二逐通道卷积层的输出特征进行逐点卷积计算,实现对融合特征的通道数进行膨胀,具体为将特征的通道数从第一通道数膨胀到第二通道数。
本实施例中的第二通道膨胀层包含第三逐点卷积层,第三逐点卷积层用于根据第三通道数对第一通道膨胀层的输出特征进行逐点卷积计算,实现对第一通道膨胀层的输出结果的通道数进行膨胀,具体为将特征的通道数从第二通道数膨胀到第三通道数。
本实施例中的通道收缩层包含第四逐通道卷积层与第四逐点卷积层,第四逐通道卷积层用于根据第一通道数对第二通道膨胀层的输出特征进行逐通道卷积计算,实现特征融合;第四逐点卷积层用于根据第一通道数对第四逐通道卷积层的输出特征进行逐点卷积计算,实现对融合特征的通道数进行收缩,具体为将特征的通道数从第三通道数收缩到第一通道数。
本实施例执行S102所构建的神经网络模型包含的通道膨胀卷积模块中的空间上采样子模块,包含第五逐通道卷积层与第五逐点卷积层,空间上采样子模块中该两个卷积层的的通道数为第一通道数;第五逐通道卷积层用于根据第一通道数对通道膨胀子模块的输出特征进行逐通道卷积计算,实现对输出特征的上采样;第五逐点卷积层用于根据第一通道数对第五逐通道卷积层的输出特征进行逐点卷积计算,实现输出特征的特征变换。
可以理解的是,本实施例中逐通道卷积层中卷积核的大小为3×3或者5×5,逐点卷积层中卷积核的大小为1×1×通道数,例如第一逐点卷积层中卷积核的大小为1×1×第一通道数,第三逐点卷积层中卷积核的大小为1×1×第三通道数。
另外,本实施例中用于进行卷积计算的通道数对应于卷积层所输出特征的数量,例如第一通道数为3,第一逐通道卷积层会输出3个特征。
也就是说,本实施例通过在构建神经网络模型时,设置通道膨胀卷积模块中不同的逐通道卷积层或者逐点卷积层的通道数的方式,实现了对所输入视频帧的特征的通道数进行膨胀与收缩,避免了使用传统的轻量级神经网络框架进行训练时会产生模型坍缩、难以训练等问题,确保了神经网络模型能够学习到有效的图像增强信息,从而提升了训练得到的图像增强模型能够生成更加清晰的图像。
本实施例在执行S102构建神经网络模型之后,执行S103使用各视频帧以及对应各视频帧的标准图像对所构建的神经网络模型进行训练,直至神经网络模型收敛,得到图像增强模型。本实施例所得到的图像增强模型,能够根据输入的视频帧来生成对应该视频帧的清晰图像。
本实施例在执行S103使用各视频帧以及对应各视频帧的标准图像对神经网络模型进行训练,直至神经网络模型收敛时,可以采用的可选实现方式为:将各视频帧作为神经网络模型的输入,得到神经网络模型针对各视频帧的输出结果;根据各视频帧的输出结果与对应各视频帧的标准图像计算损失函数,本实施例可以计算输出结果与标准图像之间的图像相似度作为损失函数;在确定计算得到的损失函数收敛的情况下,完成对神经网络模型的训练。
另外,本实施例在执行S103使用各视频帧以及对应各视频帧的标准图像对神经网络模型进行训练,直至神经网络模型收敛时,可以采用的可选实现方式为:获取各视频帧对应的相邻视频帧,本实施例中的相邻视频帧可以为位于当前视频帧前后预设个数的多个视频帧;将各视频帧与各视频帧对应的相邻视频帧作为神经网络模型的输入,得到神经网络模型针对各视频帧的输出结果;根据各视频帧的输出结果与对应各视频帧的标准图像计算损失函数;在确定计算得到的损失函数收敛的情况下,完成对神经网络模型的训练。
可以理解的是,若本实施例在执行S103时使用了各视频帧与各视频帧对应的相邻视频帧对神经网络模型进行了训练,则神经网络模型中的特征提取模块在分别提取当前视频帧以及与其对应的相邻视频的的深层特征之后,将所提取的多个深层特征的拼接结果作为当前视频帧的输入特征。
也就是说,本实施例在对神经网络模型进行训练时,除了使用当前视频帧本身之外,还会使用当前视频帧所对应的相邻视频帧,能够使得神经网络模型获取更为丰富的特征信息,进一步提升了训练得到的图像增强模型所生成图像的清晰度。
为了确保训练得到的图像增强模型在具有较快的处理速度的同时,还能够生成更为清晰的图像,本实施例在执行S104时可以采用渐进式的训练方案,通过不断增加神经网络模型中通道膨胀卷积模块的数量,来得到生成速度更快、所生成的图像的清晰度更高的图像增强模型。
具体地,本实施例在执行S103使用各视频帧以及对应各视频帧的标准图像对神经网络模型进行训练,直至神经网络模型收敛之后,还可以包含以下内容:确定已收敛的神经网络模型是否满足预设的训练要求;若是,则停止训练,得到图像增强模型;否则,将预设个数的通道膨胀卷积模块添加至神经网络模型中通道膨胀卷积模块的末尾;使用各视频帧以及对应各视频帧的标准图像对添加通道膨胀卷积模块之后的神经网络模型进行训练;在确定该神经网络模型收敛之后,转至执行确定已收敛的神经网络模型是否满足预设的训练要求的步骤,以此循环进行,直至确定已收敛的神经网络模型满足预设的训练要求。
其中,本实施例中所添加的通道膨胀卷积模块的预设个数可以为一个,也可以为多个,本实施例可以根据用户实际需求进行设置。
另外,本实施例在执行S103确定已收敛的神经网络模型是否满足预设的训练要求时,可以确定已收敛的神经网络模型所生成图像的清晰度是否达到预设清晰度,也可以确定已收敛的神经网络模型生成图像的速度是否低于预设速度。
根据本实施例所提供的上述方法,通过基于通道膨胀卷积模块的神经网络来训练得到图像增强模型,由于训练得到的图像增强模型使用了轻量级的神经网络框架,因此极大地降低了图像增强模型在生成图像时的计算量,使得该图像增强模型特别适用于移动端进行图像增强,从而提升了移动端进行图像增强时的处理效率。
图2是根据本申请第二实施例的示意图。如图2中所示,该图示出了本实施例所建立的图像增强模型的架构图:将当前视频帧以及当前视频帧对应的相邻视频帧作为图像增强模型的输入,图像增强模型中的特征提取模块提取所输入图像帧的深层特征之后,将各深层特征的拼接结果输入通道膨胀卷积模块,该拼接结果经过空间下采样子模块、通道膨胀子模块与空间上采样子模块的处理之后,再将处理结果输入下一个通道膨胀卷积模块,以此重复进行,直至获取最后一个通道膨胀卷积模块的输出结果;将最后一个通道膨胀卷积模块的输出结果输入空间上采样模块进行处理,处理结果即为图像增强模型输出的对应当前视频帧的增强视频帧。
图3是根据本申请第三实施例的示意图。如图3中所示,本实施例的图像增强的方法,具体包括如下步骤:
S301、获取待处理视频帧;
S302、将所述待处理视频帧作为图像增强模型的输入,将所述图像增强模型的输出结果作为所述待处理视频帧的图像增强结果。
本实施例的图像增强的方法的执行主体为移动终端,移动终端使用上述实施例构建的图像增强模型来实现待处理视频的图像增强,由于该图像增强模型采用了轻量级的神经网络框架,进一步提升了移动终端在进行图像增强时的效率,确保了能够更快地得到更为清晰的图像增强结果。
本实施例执行S301所获取的待处理视频帧,可以为普通视频的视频帧,还可以为直播视频的视频帧。也就是说,本实施例可以对直播视频的视频帧进行图像增强,即使移动终端所得到的是低码率的直播视频,也能够提升直播视频中视频帧的清晰度。
本实施例在执行S301获取待处理视频之后,执行S302将待处理视频帧作为图像增强模型的输入,将图像增强模型的输出结果作为所述待处理视频帧的图像增强结果。
可以理解的是,本实施例执行S302所使用的图像增强模型的输入可以为一帧图像,即图像增强模型可以仅根据待处理视频帧这一帧图像实现图像增强;本实施例执行S302所使用的图像增强模型的输入也可以为多帧图像,即图像增强模型可以根据待处理视频帧以及对应待处理视频帧的其他视频帧实现待处理视频帧的图像增强,由于能够获取更为丰富的信息,本实施例使用多帧图像进行待处理视频帧的图像增强时,可以进一步提升所得到的图像增强结果的清晰度。
本实施例在执行S302将待处理视频帧作为图像增强模型的输入时,可以采用的可选实现方式为:获取待处理视频帧的相邻视频帧,例如获取位于待处理视频帧前后预设个数的视频帧作为相邻视频帧;将待处理视频帧与待处理视频帧的相邻视频帧作为图像增强模型的输入。
图4是根据本申请第四实施例的示意图。如图4中所示,本实施例的建立图像增强模型的装置,包括:
第一获取单元401、用于获取训练数据,所述训练数据中包含多个视频帧以及对应各视频帧的标准图像;
构建单元402、用于构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型,其中每个通道膨胀卷积模块包含空间下采样子模块、通道膨胀子模块与空间上采样子模块;
训练单元403、用于使用各视频帧以及对应各视频帧的标准图像对所述神经网络模型进行训练,直至所述神经网络模型收敛,得到图像增强模型。
第一获取单元401在获取训练数据时,可以获取视频中所包含的连续视频帧作为多个视频帧,而对应各视频帧的标准图像则为各视频帧所对应的清晰图像。
本实施例在由第一获取单元401获取多个视频帧以及对应各视频帧的标准图像之后,由构建单元402构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型,通道膨胀卷积模块中的各子模块采用逐通道卷积与逐点卷积相结合的计算方式完成特征的卷积计算。
其中,构建单元402构建的神经网络模型中的特征提取模块,包含多个特征提取层,特征提取模块利用多个特征提取层来得到视频帧的深层特征;神经网络模型中的通道膨胀卷积模块,包含空间下采样子模块、通道膨胀子模块与空间上采样子模块,空间下采样子模块用于对输入特征进行下采样,缩小输入特征的空间分辨率,通道膨胀子模块用于对空间下采样子模块的输出特征的通道数进行膨胀与收缩,空间上采样子模块用于对通道膨胀子模块的输出特征进行上采样,放大输出特征的空间分辨率;神经网络模型中的空间上采样模块,用于对通道膨胀卷积模块的输出特征进行上采样得到重建视频帧,并将重建视频帧的尺寸还原至输入视频帧的尺寸。
具体地,构建单元402所构建的神经网络模型包含的通道膨胀卷积模块中的空间下采样子模块,包含第一逐通道(Depth Wise,DW)卷积层与第一逐点(Point Wise,PW)卷积层,空间下采样子模块中该两个卷积层的的通道数为第一通道数;第一逐通道卷积层用于根据第一通道数对输入特征进行逐通道卷积计算,实现对输入特征的空间下采样;第一逐点卷积层用于根据第一通道数对第一逐通道卷积层的输出特征进行逐点卷积计算,实现对输入特征的特征变换。
构建单元402构建的神经网络模型包含的通道膨胀卷积模块中的通道膨胀子模块,包含第一通道膨胀层、第二通道膨胀层与通道收缩层,第一通道膨胀层对应的通道数为第二通道数,第二通道膨胀层对应的通道数为第三通道数,通道收缩层对应的通道数为第一通道数;且在本实施例中,第一通道数<第二通道数<第三通道数。通常情况下,本实施例中的第三通道数为第二通道数的两倍,第二通道数远大于第一通道数。
也就是说,构建单元402所构建的通道膨胀子模块会设置不同的通道数来实现通道的膨胀,而通过对特征的通道进行膨胀的方式,能够增大进行卷积计算时所使用的卷积核的感受野,从而实现通过从图像中获取更为丰富的特征信息来增强图像的目的。
其中,构建单元402所构建的第一通道膨胀层包含第二逐通道卷积层与第二逐点卷积层,第二逐通道卷积层用于根据第二通道数对空间下采样子模块的输出特征进行逐通道卷积计算,实现特征融合;第二逐点卷积层用于根据第二通道数对第二逐通道卷积层的输出特征进行逐点卷积计算,实现对融合特征的通道数进行膨胀,具体为将特征的通道数从第一通道数膨胀到第二通道数。
构建单元402所构建的第二通道膨胀层包含第三逐点卷积层,第三逐点卷积层用于根据第三通道数对第一通道膨胀层的输出特征进行逐点卷积计算,实现对第一通道膨胀层的输出结果的通道数进行膨胀,具体为将特征的通道数从第二通道数膨胀到第三通道数。
构建单元402所构建的通道收缩层包含第四逐通道卷积层与第四逐点卷积层,第四逐通道卷积层用于根据第一通道数对第二通道膨胀层的输出特征进行逐通道卷积计算,实现特征融合;第四逐点卷积层用于根据第一通道数对第四逐通道卷积层的输出特征进行逐点卷积计算,实现对融合特征的通道数进行收缩,具体为将特征的通道数从第三通道数收缩到第一通道数。
构建单元402所构建的神经网络模型包含的通道膨胀卷积模块中的空间上采样子模块,包含第五逐通道卷积层与第五逐点卷积层,空间上采样子模块中该两个卷积层的的通道数为第一通道数;第五逐通道卷积层用于根据第一通道数对通道膨胀子模块的输出特征进行逐通道卷积计算,实现对输出特征的上采样;第五逐点卷积层用于根据第一通道数对第五逐通道卷积层的输出特征进行逐点卷积计算,实现输出特征的特征变换。
可以理解的是,构建单元402所构建的逐通道卷积层中卷积核的大小为3×3或者5×5,逐点卷积层中卷积核的大小为1×1×通道数。
也就是说,构建单元402通过在构建神经网络模型时,设置通道膨胀卷积模块中不同的逐通道卷积层或者逐点卷积层的通道数的方式,实现了对所输入视频帧的特征的通道数进行膨胀与收缩,避免了使用传统的轻量级神经网络框架进行训练时会产生模型坍缩、难以训练等问题,确保了神经网络模型能够学习到有效的图像增强信息,从而提升了训练得到的图像增强模型能够生成更加清晰的图像。
本实施例在由构建单元402构建神经网络模型之后,由训练单元403使用各视频帧以及对应各视频帧的标准图像对所构建的神经网络模型进行训练,直至神经网络模型收敛,得到图像增强模型。训练单元403所得到的图像增强模型,能够根据输入的视频帧来生成对应该视频帧的清晰图像。
训练单元403在使用各视频帧以及对应各视频帧的标准图像对神经网络模型进行训练,直至神经网络模型收敛时,可以采用的可选实现方式为:将各视频帧作为神经网络模型的输入,得到神经网络模型针对各视频帧的输出结果;根据各视频帧的输出结果与对应各视频帧的标准图像计算损失函数,本实施例可以计算输出结果与标准图像之间的图像相似度作为损失函数;在确定计算得到的损失函数收敛的情况下,完成对神经网络模型的训练。
另外,训练单元403在使用各视频帧以及对应各视频帧的标准图像对神经网络模型进行训练,直至神经网络模型收敛时,可以采用的可选实现方式为:获取各视频帧对应的相邻视频帧;将各视频帧与各视频帧对应的相邻视频帧作为神经网络模型的输入,得到神经网络模型针对各视频帧的输出结果;根据各视频帧的输出结果与对应各视频帧的标准图像计算损失函数;在确定计算得到的损失函数收敛的情况下,完成对神经网络模型的训练。
可以理解的是,若训练单元403使用了各视频帧与各视频帧对应的相邻视频帧对神经网络模型进行了训练,则神经网络模型中的特征提取模块在分别提取当前视频帧以及与其对应的相邻视频的的深层特征之后,将所提取的多个深层特征的拼接结果作为当前视频帧的输入特征。
也就是说,训练单元403在对神经网络模型进行训练时,除了使用当前视频帧本身之外,还会使用当前视频帧所对应的相邻视频帧,能够使得神经网络模型获取更为丰富的特征信息,进一步提升了训练得到的图像增强模型所生成图像的清晰度。
为了确保训练得到的图像增强模型在具有较快的处理速度的同时,还能够生成更为清晰的图像,训练单元403可以采用渐进式的训练方案,通过不断增加神经网络模型中通道膨胀卷积模块的数量,来得到生成速度更快、所生成的图像的清晰度更高的图像增强模型。
具体地,训练单元403在使用各视频帧以及对应各视频帧的标准图像对神经网络模型进行训练,直至神经网络模型收敛之后,还可以包含以下内容:确定已收敛的神经网络模型是否满足预设的训练要求;若是,则停止训练,得到图像增强模型;否则,将预设个数的通道膨胀卷积模块添加至神经网络模型中通道膨胀卷积模块的末尾;使用各视频帧以及对应各视频帧的标准图像对添加通道膨胀卷积模块之后的神经网络模型进行训练;在确定该神经网络模型收敛之后,转至执行确定已收敛的神经网络模型是否满足预设的训练要求的步骤,以此循环进行,直至确定已收敛的神经网络模型满足预设的训练要求。
其中,训练单元403中所添加的通道膨胀卷积模块的预设个数可以为一个,也可以为多个,本实施例可以根据用户实际需求进行设置。
另外,训练单元403在确定已收敛的神经网络模型是否满足预设的训练要求时,可以确定已收敛的神经网络模型所生成图像的清晰度是否达到预设清晰度,也可以确定已收敛的神经网络模型生成图像的速度是否低于预设速度。
图5是根据本申请第五实施例的示意图。如图5中所示,本实施例的图像增强的装置,包括:
第二获取单元501、用于获取待处理视频帧;
增强单元502、用于将所述待处理视频帧作为图像增强模型的输入,将所述图像增强模型的输出结果作为所述待处理视频帧的图像增强结果。
第二获取单元501所获取的待处理视频帧,可以为普通视频的视频帧,还可以为直播视频的视频帧。也就是说,本实施例可以对直播视频的视频帧进行图像增强,即使移动终端所得到的是低码率的直播视频,也能够提升直播视频中视频帧的清晰度。
本实施例在由第二获取单元501获取待处理视频之后,由增强单元502将待处理视频帧作为图像增强模型的输入,将图像增强模型的输出结果作为所述待处理视频帧的图像增强结果。
可以理解的是,增强单元502所使用的图像增强模型的输入可以为一帧图像,即图像增强模型可以仅根据待处理视频帧这一帧图像实现图像增强;增强单元502所使用的图像增强模型的输入也可以为多帧图像,即图像增强模型可以根据待处理视频帧以及对应待处理视频帧的其他视频帧实现待处理视频帧的图像增强。由于能够获取更为丰富的信息,增强单元502使用多帧图像进行待处理视频帧的图像增强时,可以进一步提升所得到的图像增强结果的清晰度。
增强单元502在将待处理视频帧作为图像增强模型的输入时,可以采用的可选实现方式为:获取待处理视频帧的相邻视频帧,例如获取位于待处理视频帧前后预设个数的视频帧作为相邻视频帧;将待处理视频帧与待处理视频帧的相邻视频帧作为图像增强模型的输入。
根据本申请的实施例,本申请还提供了一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如建立图像增强模型的方法或者图像增强的方法。例如,在一些实施例中,建立图像增强模型的方法或者图像增强的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的建立图像增强模型的方法或者图像增强的方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行建立图像增强模型的方法或者图像增强的方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(“Virtual Private Server”,或简称“VPS”)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种建立图像增强模型的方法,包括:
获取训练数据,所述训练数据中包含多个视频帧以及对应各视频帧的标准图像;
构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型,其中每个通道膨胀卷积模块包含空间下采样子模块、通道膨胀子模块与空间上采样子模块;
使用各视频帧以及对应各视频帧的标准图像对所述神经网络模型进行训练,直至所述神经网络模型收敛,得到图像增强模型。
2.根据权利要求1所述的方法,其中,所述构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型包括:
构建包含第一逐通道卷积层与第一逐点卷积层的空间下采样子模块,所述第一逐通道卷积层与第一逐点卷积层的通道数为第一通道数。
3.根据权利要求1所述的方法,其中,所述构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型包括:
构建包含第一通道膨胀层、第二通道膨胀层与通道收缩层的通道膨胀子模块;
所述第一通道膨胀层包含第二逐通道卷积层与第二逐点卷积层,所述第二逐通道卷积层与第二逐点卷积层的通道数为第二通道数;
所述第二通道膨胀层包含第三逐点卷积层,所述第三逐点卷积层的通道数为第三通道数;
所述通道收缩层包含第四逐通道卷积层与第四逐点卷积层,所述第四逐通道卷积层与第四逐点卷积层的通道数为第一通道数。
4.根据权利要求1所述的方法,其中,所述构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型包括:
构建包含第五逐通道卷积层与第五逐点卷积层的空间上采样子模块,所述第五逐通道卷积层与第五逐点卷积层的通道数为第一通道数。
5.根据权利要求1所述的方法,其中,所述使用各视频帧以及对应各视频帧的标准图像对所述神经网络模型进行训练,直至所述神经网络模型收敛包括:
获取各视频帧对应的相邻视频帧;
将各视频帧与各视频帧对应的相邻视频帧作为所述神经网络模型的输入,得到所述神经网络模型针对各视频帧的输出结果;
根据各视频帧的输出结果与对应各视频帧的标准图像计算损失函数;
在确定计算得到的损失函数收敛的情况下,完成对所述神经网络模型的训练。
6.根据权利要求1所述的方法,还包括,
在使用各视频帧以及对应各视频帧的标准图像对所述神经网络模型进行训练,直至所述神经网络模型收敛之后,确定已收敛的神经网络模型是否满足预设的训练要求;
若是,则停止训练,得到图像增强模型;
否则,将预设个数的通道膨胀卷积模块添加至神经网络模型中通道膨胀卷积模块的末尾;
使用各视频帧以及对应各视频帧的标准图像对添加通道膨胀卷积模块之后的神经网络模型进行训练;
在确定该神经网络模型收敛之后,转至执行确定已收敛的神经网络模型是否满足预设的训练要求的步骤,以此循环进行,直至确定已收敛的神经网络模型满足预设的训练要求。
7.一种图像增强的方法,包括:
获取待处理视频帧;
将所述待处理视频帧作为图像增强模型的输入,将所述图像增强模型的输出结果作为所述待处理视频帧的图像增强结果;
其中,所述图像增强模型是根据权利要求1-6中任一项方法预先训练得到的。
8.根据权利要求7所述的方法,其中,所述将所述待处理视频帧作为图像增强模型的输入包括:
获取所述待处理视频帧的相邻视频帧;
将所述待处理视频帧与所述相邻视频帧作为所述图像增强模型的输入。
9.一种建立图像增强模型的装置,包括:
第一获取单元,用于获取训练数据,所述训练数据中包含多个视频帧以及对应各视频帧的标准图像;
构建单元,用于构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型,其中每个通道膨胀卷积模块包含空间下采样子模块、通道膨胀子模块与空间上采样子模块;
训练单元,用于使用各视频帧以及对应各视频帧的标准图像对所述神经网络模型进行训练,直至所述神经网络模型收敛,得到图像增强模型。
10.根据权利要求9所述的装置,其中,所述构建单元在构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型时,具体执行:
构建包含第一逐通道卷积层与第一逐点卷积层的空间下采样子模块,所述第一逐通道卷积层与第一逐点卷积层的通道数为第一通道数。
11.根据权利要求9所述的装置,其中,所述构建单元在构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型时,具体执行:
构建包含第一通道膨胀层、第二通道膨胀层与通道收缩层的通道膨胀子模块;
所述第一通道膨胀层包含第二逐通道卷积层与第二逐点卷积层,所述第二逐通道卷积层与第二逐点卷积层的通道数为第二通道数;
所述第二通道膨胀层包含第三逐点卷积层,所述第三逐点卷积层的通道数为第三通道数;
所述通道收缩层包含第四逐通道卷积层与第四逐点卷积层,所述第四逐通道卷积层与第四逐点卷积层的通道数为第一通道数。
12.根据权利要求9所述的装置,其中,所述构建单元在构建由特征提取模块、至少一个通道膨胀卷积模块与空间上采样模块组成的神经网络模型包括时,具体执行:
构建包含第五逐通道卷积层与第五逐点卷积层的空间上采样子模块,所述第五逐通道卷积层与第五逐点卷积层的通道数为第一通道数。
13.根据权利要求9所述的装置,其中,所述训练单元在使用各视频帧以及对应各视频帧的标准图像对所述神经网络模型进行训练,直至所述神经网络模型收敛时,具体执行:
获取各视频帧对应的相邻视频帧;
将各视频帧与各视频帧对应的相邻视频帧作为所述神经网络模型的输入,得到所述神经网络模型针对各视频帧的输出结果;
根据各视频帧的输出结果与对应各视频帧的标准图像计算损失函数;
在确定计算得到的损失函数收敛的情况下,完成对所述神经网络模型的训练。
14.根据权利要求9所述的装置,所述训练单元还用于执行,
在使用各视频帧以及对应各视频帧的标准图像对所述神经网络模型进行训练,直至所述神经网络模型收敛之后,确定已收敛的神经网络模型是否满足预设的训练要求;
若是,则停止训练,得到图像增强模型;
否则,将预设个数的通道膨胀卷积模块添加至神经网络模型中通道膨胀卷积模块的末尾;
使用各视频帧以及对应各视频帧的标准图像对添加通道膨胀卷积模块之后的神经网络模型进行训练;
在确定该神经网络模型收敛之后,转至执行确定已收敛的神经网络模型是否满足预设的训练要求的步骤,以此循环进行,直至确定已收敛的神经网络模型满足预设的训练要求。
15.一种图像增强的装置,包括:
第二获取单元、用于获取待处理视频帧;
增强单元、用于将所述待处理视频帧作为图像增强模型的输入,将所述图像增强模型的输出结果作为所述待处理视频帧的图像增强结果;
其中,所述图像增强模型是根据权利要求9-14中任一项装置预先训练得到的。
16.根据权利要求15所述的装置,其中,所述增强单元在将所述待处理视频帧作为图像增强模型的输入时,具体执行:
获取所述待处理视频帧的相邻视频帧;
将所述待处理视频帧与所述相邻视频帧作为所述图像增强模型的输入。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202011550778.1A 2020-12-24 2020-12-24 建立图像增强模型与图像增强的方法、装置 Pending CN112541878A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011550778.1A CN112541878A (zh) 2020-12-24 2020-12-24 建立图像增强模型与图像增强的方法、装置
EP21186648.8A EP4020376A1 (en) 2020-12-24 2021-07-20 Method and apparatus for building image enhancement model and for image enhancement
US17/460,646 US20220207299A1 (en) 2020-12-24 2021-08-30 Method and apparatus for building image enhancement model and for image enhancement

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011550778.1A CN112541878A (zh) 2020-12-24 2020-12-24 建立图像增强模型与图像增强的方法、装置

Publications (1)

Publication Number Publication Date
CN112541878A true CN112541878A (zh) 2021-03-23

Family

ID=75017285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011550778.1A Pending CN112541878A (zh) 2020-12-24 2020-12-24 建立图像增强模型与图像增强的方法、装置

Country Status (3)

Country Link
US (1) US20220207299A1 (zh)
EP (1) EP4020376A1 (zh)
CN (1) CN112541878A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327203A (zh) * 2021-05-28 2021-08-31 北京百度网讯科技有限公司 图像处理网络模型、方法、设备和介质
CN113610731A (zh) * 2021-08-06 2021-11-05 北京百度网讯科技有限公司 用于生成画质提升模型的方法、装置及计算机程序产品
CN113763296A (zh) * 2021-04-28 2021-12-07 腾讯云计算(北京)有限责任公司 图像处理方法、设备以及介质
WO2023179360A1 (zh) * 2022-03-24 2023-09-28 北京字跳网络技术有限公司 视频处理方法、装置、电子设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494584B2 (en) * 2021-01-12 2022-11-08 Disney Enterprises, Inc. Automated prediction of pixel error noticeability
CN117437429A (zh) * 2022-07-15 2024-01-23 华为技术有限公司 图像数据处理方法、装置和存储介质
CN116016289A (zh) * 2023-03-23 2023-04-25 芯知科技(江苏)有限公司 一种基于移动终端数据中心检测方法
CN116843184B (zh) * 2023-07-27 2024-02-20 中国公路工程咨询集团有限公司 基于神经网络的公路施工重大风险源识别方法及预警***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648163A (zh) * 2018-05-17 2018-10-12 厦门美图之家科技有限公司 一种人脸图像的增强方法及计算设备
CN108717569A (zh) * 2018-05-16 2018-10-30 中国人民解放军陆军工程大学 一种膨胀全卷积神经网络及其构建方法
CN109671026A (zh) * 2018-11-28 2019-04-23 浙江大学 基于空洞卷积及自动编解码神经网络的灰度图像降噪方法
CN110517235A (zh) * 2019-08-19 2019-11-29 苏州大学 一种基于GCS-Net进行OCT图像脉络膜自动分割方法
US20200089998A1 (en) * 2018-09-19 2020-03-19 Abbyy Production Llc Training image-processing neural networks by synthetic photorealistic indicia-bearing images
WO2020056791A1 (zh) * 2018-09-21 2020-03-26 五邑大学 一种多尺度空洞卷积神经网络超分辨率重构方法及装置
CN111681177A (zh) * 2020-05-18 2020-09-18 腾讯科技(深圳)有限公司 视频处理方法及装置、计算机可读存储介质、电子设备
CN111787187A (zh) * 2020-07-29 2020-10-16 上海大学 利用深度卷积神经网络进行视频修复的方法、***、终端

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120316421A1 (en) * 2009-07-07 2012-12-13 The Johns Hopkins University System and method for automated disease assessment in capsule endoscopy
US11195057B2 (en) * 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
GB2539845B (en) * 2015-02-19 2017-07-12 Magic Pony Tech Ltd Offline training of hierarchical algorithms
CN111784615A (zh) * 2016-03-25 2020-10-16 北京三星通信技术研究有限公司 多媒体信息处理的方法和装置
GB201709672D0 (en) * 2017-06-16 2017-08-02 Ucl Business Plc A system and computer-implemented method for segmenting an image
US10692243B2 (en) * 2017-12-03 2020-06-23 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
CN109754402B (zh) * 2018-03-15 2021-11-19 京东方科技集团股份有限公司 图像处理方法、图像处理装置以及存储介质
RU2693916C1 (ru) * 2018-04-09 2019-07-05 Общество с ограниченной ответственностью "Аби Продакшн" Распознавание символов с использованием иерархической классификации
US10936914B2 (en) * 2018-07-31 2021-03-02 International Business Machines Corporation Convolutional neural network with augmentation features
US11501532B2 (en) * 2019-04-25 2022-11-15 International Business Machines Corporation Audiovisual source separation and localization using generative adversarial networks
CN110136136B (zh) * 2019-05-27 2022-02-08 北京达佳互联信息技术有限公司 场景分割方法、装置、计算机设备及存储介质
US10658005B1 (en) * 2019-08-19 2020-05-19 Neon Evolution Inc. Methods and systems for image and voice processing
US10949715B1 (en) * 2019-08-19 2021-03-16 Neon Evolution Inc. Methods and systems for image and voice processing
US10593021B1 (en) * 2019-09-11 2020-03-17 Inception Institute of Artificial Intelligence, Ltd. Motion deblurring using neural network architectures
US11423255B2 (en) * 2019-11-11 2022-08-23 Five AI Limited Image processing
US11210523B2 (en) * 2020-02-06 2021-12-28 Mitsubishi Electric Research Laboratories, Inc. Scene-aware video dialog
US20220160433A1 (en) * 2020-11-20 2022-05-26 Auris Health, Inc. Al-Based Automatic Tool Presence And Workflow/Phase/Activity Recognition

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717569A (zh) * 2018-05-16 2018-10-30 中国人民解放军陆军工程大学 一种膨胀全卷积神经网络及其构建方法
CN108648163A (zh) * 2018-05-17 2018-10-12 厦门美图之家科技有限公司 一种人脸图像的增强方法及计算设备
US20200089998A1 (en) * 2018-09-19 2020-03-19 Abbyy Production Llc Training image-processing neural networks by synthetic photorealistic indicia-bearing images
WO2020056791A1 (zh) * 2018-09-21 2020-03-26 五邑大学 一种多尺度空洞卷积神经网络超分辨率重构方法及装置
CN109671026A (zh) * 2018-11-28 2019-04-23 浙江大学 基于空洞卷积及自动编解码神经网络的灰度图像降噪方法
CN110517235A (zh) * 2019-08-19 2019-11-29 苏州大学 一种基于GCS-Net进行OCT图像脉络膜自动分割方法
CN111681177A (zh) * 2020-05-18 2020-09-18 腾讯科技(深圳)有限公司 视频处理方法及装置、计算机可读存储介质、电子设备
CN111787187A (zh) * 2020-07-29 2020-10-16 上海大学 利用深度卷积神经网络进行视频修复的方法、***、终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谭龙;高昂;: "感受野特征增强的SSD目标检测算法", 计算机***应用, no. 09, pages 153 - 159 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763296A (zh) * 2021-04-28 2021-12-07 腾讯云计算(北京)有限责任公司 图像处理方法、设备以及介质
CN113327203A (zh) * 2021-05-28 2021-08-31 北京百度网讯科技有限公司 图像处理网络模型、方法、设备和介质
CN113610731A (zh) * 2021-08-06 2021-11-05 北京百度网讯科技有限公司 用于生成画质提升模型的方法、装置及计算机程序产品
CN113610731B (zh) * 2021-08-06 2023-08-08 北京百度网讯科技有限公司 用于生成画质提升模型的方法、装置及计算机程序产品
WO2023179360A1 (zh) * 2022-03-24 2023-09-28 北京字跳网络技术有限公司 视频处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20220207299A1 (en) 2022-06-30
EP4020376A1 (en) 2022-06-29

Similar Documents

Publication Publication Date Title
CN112541878A (zh) 建立图像增强模型与图像增强的方法、装置
CN111182254B (zh) 一种视频处理方法、装置、设备及存储介质
CN111405316A (zh) 插帧方法、电子设备及可读存储介质
CN113014936B (zh) 视频插帧方法、装置、设备以及存储介质
CN114445831A (zh) 一种图文预训练方法、装置、设备以及存储介质
CN113014937B (zh) 视频插帧方法、装置、设备以及存储介质
CN113596442B (zh) 视频处理方法、装置、电子设备及存储介质
CN113365146B (zh) 用于处理视频的方法、装置、设备、介质和产品
CN112784897A (zh) 图像处理方法、装置、设备和存储介质
CN113538235A (zh) 图像处理模型的训练方法、装置、电子设备及存储介质
CN115861131A (zh) 基于图像生成视频、模型的训练方法、装置及电子设备
CN114913325B (zh) 语义分割方法、装置及计算机程序产品
CN113989174B (zh) 图像融合方法和图像融合模型的训练方法、装置
CN114819084A (zh) 模型推理方法、装置、设备及存储介质
CN113487524A (zh) 图像格式转换方法、装置、设备、存储介质及程序产品
CN112688991A (zh) 用于执行点云扫描操作的方法、相关装置及计算机程序产品
CN107872683A (zh) 一种视频数据处理方法、装置、设备及存储介质
CN113887435A (zh) 人脸图像处理方法、装置、设备、存储介质及程序产品
CN114078097A (zh) 图像去雾模型的获取方法、装置和电子设备
CN113556575A (zh) 用于压缩数据的方法、装置、设备、介质和产品
CN113610731A (zh) 用于生成画质提升模型的方法、装置及计算机程序产品
CN113099231B (zh) 确定亚像素插值位置的方法、装置、电子设备和存储介质
CN113542620B (zh) 一种特效处理方法、装置及电子设备
CN115037947A (zh) 视频编码方法、装置、电子设备和存储介质
CN117422612A (zh) 图像处理方法、装置、电子设备与可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240717

Address after: Rooms 501, 502, 503, and 504, No. 62 Weicheng Road, Yangpu District, Shanghai, with a budget of 200000 RMB

Applicant after: Shanghai Zhaoyan Network Technology Co.,Ltd.

Country or region after: China

Address before: 2 / F, *** building, 10 Shangdi 10th Street, Haidian District, Beijing 100085

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Country or region before: China