CN114096987A - 视频处理方法及装置 - Google Patents

视频处理方法及装置 Download PDF

Info

Publication number
CN114096987A
CN114096987A CN202080043521.9A CN202080043521A CN114096987A CN 114096987 A CN114096987 A CN 114096987A CN 202080043521 A CN202080043521 A CN 202080043521A CN 114096987 A CN114096987 A CN 114096987A
Authority
CN
China
Prior art keywords
video
neural network
video processing
model parameters
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080043521.9A
Other languages
English (en)
Inventor
金纹哲
奇世焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Korea Advanced Institute of Science and Technology KAIST
Original Assignee
Korea Advanced Institute of Science and Technology KAIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200080914A external-priority patent/KR102364628B1/ko
Application filed by Korea Advanced Institute of Science and Technology KAIST filed Critical Korea Advanced Institute of Science and Technology KAIST
Publication of CN114096987A publication Critical patent/CN114096987A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Systems (AREA)

Abstract

本发明公开一种视频处理方法及装置。根据一实施例的视频处理方法包括以下步骤:接收包括多个时间部分(temporal portions)的视频;接收与用于对所述视频进行整体处理的第一神经网络对应的第一模型参数;接收与用于分别处理所述多个时间部分的多个第二神经网络相对应的多个第二模型参数与所述第一模型参数之间的残差(residues);以及基于所述残差(residues)对所述视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。

Description

视频处理方法及装置
技术领域
以下实施例涉及一种视频处理方法及装置。
背景技术
用于超分辨率(SR,Super-Resolution)的卷积神经网络(CNN,ConvolutionalNeural Network)在图像恢复中表现出良好的性能和高保真度(fidelity)。在计算机视觉(computer vision)领域,人们对基于CNN的SR进行了许多研究。
通过SR,视频在低空间分辨率下被有效地编码并被传输,并且可以在接收端使用基于CNN的SR方法在高空间分辨率下将视频恢复为具有高恢复保真度。
此外,神经网络模型参数的内容自适应(content-adaptive)学习和传输可以提高SR性能,以具有更高的恢复保真度。在这种情况下,神经网络参数的有效传输至关重要。
发明内容
要解决的技术问题
以下实施例可以提供一种视频处理技术。
解决问题的技术方法
根据一实施例的视频处理方法,包括以下步骤:接收包括多个时间部分(temporalportions)的视频;接收与用于对所述视频进行整体处理的第一神经网络对应的第一模型参数;接收与用于分别处理所述多个时间部分的多个第二神经网络相对应的多个第二模型参数与所述第一模型参数之间的残差(residues);以及基于所述残差(residues)对所述视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
所述第一神经网络及所述多个第二神经网络中的至少一个可以包括包含至少一个卷积层的轻量残差密集块(Light-weight residual dense block)。
所述第一神经网络及所述多个第二神经网络中的至少一个可以包括多个以级联(cascade)结构配置的轻量残差密集块。
所述轻量残差密集块可以包括:深度可分离卷积(depth-wise separableconvolution)层;或1×1×d卷积层。
所述深度可分离卷积层可以包括:逐深度卷积层;逐点卷积层;以及非线性激活函数。
所述执行步骤可以包括以下步骤:通过将所述残差添加(by adding)到所述第一模型参数来恢复所述多个第二模型参数;以及基于所述多个第二模型参数对所述多个时间部分分别执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
所述视频处理方法还可以包括以下步骤:接收被包括在所述多个时间部分中的帧上的空间区域分割信息及分割后的空间区域的类别(category)信息。
所述执行步骤可以包括以下步骤:基于所述空间区域分割信息及所述类别信息将所述帧分割成多个空间区域(spatial regions);以及基于所述多个空间区域及所述类别信息对所述视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
根据一实施例的视频处理装置,包括:接收器,其接收包括多个时间部分(temporal portions)的视频,并接收与用于对所述视频进行整体处理的第一神经网络对应的第一模型参数,并接收与用于分别处理所述多个时间部分的多个第二神经网络相对应的多个第二模型参数与所述第一模型参数之间的残差(residues);以及处理器,其基于所述残差(residues)对所述视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
所述第一神经网络及所述多个第二神经网络中的至少一个可以包括包含至少一个卷积层的轻量残差密集块(Light-weight residual dense block)。
所述第一神经网络及所述多个第二神经网络中的至少一个可以包括多个以级联(cascade)结构配置的轻量残差密集块。
所述轻量残差密集块可以包括:深度可分离卷积(depth-wise separableconvolution)层;或1×1×d卷积层。
所述深度可分离卷积层可以包括:逐深度卷积层;逐点卷积层;以及非线性激活函数。
所述处理器可以将被包括在所述视频中的帧分割成多个区域,并通过将所述残差添加(by adding)到所述第一模型参数来恢复所述多个第二模型参数,并基于所述多个第二模型参数对所述多个时间部分分别执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
所述接收器还可以接收被包括在所述多个时间部分中的帧上的空间区域分割信息及分割后的空间区域的类别信息。
所述处理器可以基于所述空间区域分割信息及所述类别信息将所述帧分割成多个空间区域(spatial regions),并基于所述多个空间区域及所述类别信息对所述视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
根据另一实施例的视频处理方法,其执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种,包括以下步骤:接收包括多个时间部分(temporal portions)的视频及与用于处理所述视频的神经网络相关的模型信息;获取与用于基于所述模型信息对所述视频进行整体处理的第一神经网络相对应的第一模型参数;接收与用于基于所述模型信息分别处理所述多个时间部分的多个第二神经网络相对应的多个第二模型参数;计算所述第一模型参数与所述多个第二模型参数之间的残差(residues);以及传输所述视频及所述残差。
所述视频处理方法还可以包括以下步骤:通过分割被包括在所述多个时间部分中的帧来生成空间区域分割信息;以及基于分割后的空间区域的信号特征(signalcharacteristic)来生成所述分割后的空间区域的类别信息。
所述传输步骤还可以包括以下步骤:压缩并传输所述视频、所述残差、所述空间区域分割信息及所述类别信息中的至少一个。
所述视频处理方法还可以包括以下步骤:学习所述多个第二神经网络以最小化所述残差。
根据另一实施例的视频处理装置,其用于执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种,包括:接收器,其接收包括多个时间部分(temporal portions)的视频及与用于处理所述视频的神经网络相关的模型信息;以及处理器,其获取与用于基于所述模型信息对所述视频进行整体处理的第一神经网络相对应的第一模型参数,并接收与用于基于所述模型信息分别处理所述多个时间部分的多个第二神经网络相对应的多个第二模型参数,并计算所述第一模型参数与所述多个第二模型参数之间的残差(residues),并传输所述视频及所述残差。
所述处理器可以通过分割被包括在所述多个时间部分中的帧来生成空间区域分割信息,并基于分割后的空间区域的信号特征(signal characteristic)来生成所述分割后的空间区域的类别信息。
所述处理器可以压缩并传输所述视频、所述残差、所述空间区域分割信息及所述类别信息中的至少一个。
所述处理器可以学习所述多个第二神经网络以最小化所述残差。
附图说明
图1a为显示根据一实施例的视频处理***的示例性框图。
图1b为显示图1a的发送端的视频处理装置的示例性框图。
图1c为显示图1a的接收端的视频处理装置的示例性框图。
图2示出图1b的发送端的视频处理装置的操作的一示例。
图3示出图1b的发送端的视频处理装置的操作的另一示例。
图4示出由图1a的发送端的视频处理装置及接收端的视频处理装置使用的神经网络的结构的示例。
图5示出图4的轻量残差密集块(LwRDB)的结构的示例。
图6示出根据图1a的视频处理方法的峰值信噪比(PSNR)。
图7示出根据超参数的PSNR及位大小的减少率。
图8示出图1b的发送端的视频处理装置的操作的顺序。
图9示出图1c的接收端的视频处理装置的操作的顺序。
具体实施方式
以下,将参照附图对实施例进行详细说明。然而,能够对实施例进行多种变更,本发明的权利范围并非受到实施例的限制或限定。对于实施例的全部应变、等同物或替代物均包括在权利范围内。
实施例中使用的术语仅用于说明特定实施例,并非用于限定实施例。在内容中没有特别说明的情况下,单数表达包括复数含义。在本说明书中,“包括”或者“具有”等术语用于表达存在说明书中所记载的特征、数字、步骤、操作、构成要素、配件或其组合,并不排除还具有一个或以上的其他特征、数字、步骤、操作、构成要素、配件或其组合,或者附加功能。
在没有其他定义的情况下,包括技术或者科学术语在内的在此使用的全部术语,都具有本领域普通技术人员所理解的通常的含义。通常使用的与词典定义相同的术语,应理解为与相关技术的通常的内容相一致的含义,在本申请中没有明确言及的情况下,不能过度理想化或解释为形式上的含义。
并且,在参照附图进行说明的过程中,与附图标记无关,相同的构成要素赋予相同的附图标记,并省略对此的重复的说明。在说明实施例的过程中,当判断对于相关公知技术的具体说明会不必要地混淆实施例时,省略对其详细说明。
并且,在说明实施例的构成要素时,可以使用第一、第二、A、B、(a)、(b)等术语。这些术语仅用于将一构成要素区别于其他构成要素,并不用于限制相应构成要素的本质或顺序等。例如,第一构成要素可以被称为第二构成要素,并且类似地,第二构成要素也可以被称为第一构成要素。此外,应当理解,当说明书中说明一个构成要素“连接”、“结合”或者“接触”另一个构成要素时,第三构成要素可以“连接”、“结合”或者“接触”在第一构成要素和第二构成要素之间,尽管第一构成要素能够是直接连接、结合或接触第二构成要素。
当一个构成要素与某一实施例的构成要素具有共同功能,在其他实施例中也使用相同名称对该构成要素进行说明。在没有言及反例的情况下,某一实施例的说明能够适用于其他实施例,对重复内容省略具体说明。
图1为显示根据一实施例的视频处理***的示例性框图,图1b为显示图1的发送端的视频处理装置的示例性框图,图1c为显示图1的接收端的视频处理装置的示例性框图。
参照图1a至图1c,视频处理***10可以处理图像或视频。图像包括由光的折射或反射等形成的对象的图像,可意味着使用线或颜色来表示对象的形状。视频可以包括帧。此外,帧可以包括多个像素。
视频可以包括多个时间部分(temporal portion)。一个时间部分可以对应于一个特定时间段(certain temporal duration)的一组帧,即,可以对应于一个视频片段(每个视频片段通常是较长记录的特定时间段的一部分)。换句话说,视频可以包括根据时间流的多个时间段(multiple temporal durations)的场景。
视频处理***10可以对视频、包括在视频中的帧或图像执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
超分辨率可以指将具有低空间分辨率(spatial resolution)的输入图像转换为具有高空间分辨率的输入图像的视频处理。视频处理***10可以使用神经网络对视频、包括在视频中的帧或图像执行超分辨率。
神经网络(或人工神经网络)可以包括在机器学习和认知科学中模拟生物神经元的统计学习算法。神经网络可以是一种通用模型,其使通过突触的结合形成网络的人工神经元(节点)通过学习改变突触的结合强度,从而解决问题。的问题。
神经网络可以包括深度神经网络(Deep Neural Network)。神经网络可以包括卷积神经网络(CNN,Convolutional Neural Network)、递归神经网络(RNN,RecurrentNeural Network)、感知器(perceptron)、前馈(FF,Feed Forward)、径向基网络(RBF,Radial Basis Network)、深度前馈(DFF,Deep Feed Forward)、长短期记忆网络(LSTM,Long Short Term Memory)、门控循环单元(GRU,Gated Recurrent Unit)、自动编码器(AE,Auto Encoder)、变分自动编码器(VAE,Variational Auto Encoder)、降噪自动编码器(DAE,Denoising Auto Encoder),稀疏自动编码器(SAE,Sparse Auto Encoder)、马尔可夫链(MC,Markov Chain)、霍普菲尔网络(HN,Hopfield Network)、玻尔兹曼机(BM,BoltzmannMachine)、受限玻尔兹曼机(RBM,Restricted Boltzmann Machine)、深度信念网络(DBN,Depp Belief Network)、深层卷积网络(DCN)、反卷积网络(DN,DeconvolutionalNetwork)、深层卷积逆图形网络(DCIGN,Deep Convolutional Inverse GraphicsNetwork)、生成对抗网络(GAN,Generative Adversarial Network)、液态机(LSM,LiquidState Machine)、极限学习机(ELM,Extreme Learning Machine)、回声状态网络(ESN,EchoState Network)、深度残差网络(DRN,Deep Residual Network)、可微分神经计算机(DNC,Differentiable Neural Computer)、神经图灵机(NTM,Neural Turing Machine)、胶囊网络(CN,Capsule Network)、Kohonen网络(KN,Kohonen Network)及注意网络(AN,AttentionNetwork)。
视频处理***10可以包括发送端的视频处理装置100(以下称为视频处理装置100)和接收端的视频处理装置500(以下称为视频处理装置500)。
视频处理装置100可以基于视频及模型信息来处理视频,并将处理结果发送到视频处理装置500。处理结果可以包括用于基于视频及模型信息执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种的神经网络模型的残差、视频中包括的帧的空间区域分割信息及分割后的空间区域的类别信息。
模型信息可以包括关于神经网络的类型和结构的信息及预先学习(pre-trained)的神经网络的模型参数。
换言之,视频处理装置100可以基于视频及模型信息来生成神经网络模型的残差、视频中包括的帧的空间区域分割信息以及分割后的空间区域的类别信息,并将其发送到视频处理装置500。此外,视频处理装置100可以压缩视频并将其发送到视频处理装置500。
视频处理装置500可以基于从视频处理装置100接收的处理结果来处理视频。视频处理装置500可以基于神经网络模型的残差、视频中包括的帧的空间区域分割信息及分割后的空间区域的类别信息对视频(或压缩的视频)执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
视频处理装置100可以学习神经网络。视频处理装置100可以压缩经过学习的神经网络的信息(例如,神经网络的模型参数等)并将其发送到视频处理装置500。关于神经网络的信息可以包括神经网络的模型参数、结构或权重。例如,模型参数可以包括卷积神经网络的滤波器参数。
视频处理装置100可以向任意的视频处理装置500发送关于神经网络模型的信息。视频处理装置500可以基于神经网络模型的信息来执行超分辨率(super-resolution)、逆色调映射(reverse or inverse tone mapping)、色调映射(tone mapping)、帧插值(frameinterpolation)、运动去模糊(motion deblurring)、去噪(denoising)及压缩伪影去除(compression artifact removal)中的至少一种。
视频处理装置100可以压缩图像或视频。此外,视频处理装置100可以将压缩的图像或视频发送到视频处理装置500。视频处理装置500可以基于预先存储的神经网络的信息和/或接收到的神经网络的信息,对图像或视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
视频处理装置100可以设置在发送端。视频处理装置100可以实现在发送端,通过传输空间和/或时间分辨率降低的视频来节省带宽(bandwidth),并使用在接收端预先存储的神经网络的信息和/或接收到的神经网络的信息来对分辨率降低的视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
如图1b及图1c所示,视频处理装置100可以包括接收器110和处理器130,并且视频处理装置500可以包括接收器510和处理器530。视频处理装置100还可以包括存储器150,视频处理装置500还可以包括存储器550。
接收器100可以接收被包括在视频中的图像、视频或被包括在视频中的帧、以及用于处理视频的模型信息。例如,接收器110可以接收包括多个时间部分(temporalportions)的视频及与用于处理视频的神经网络相关的模型信息。接收器110可以将接收到的图像和/或视频输出到处理器130和存储器150。
接收器510可以接收包括多个时间部分的视频(或压缩的视频)。接收器510可以接收对应于用于处理整个视频的第一神经网络的第一模型参数与对应于用于分别处理第一模型参数和多个时间部分的多个第二神经网络的多个第二模型参数之间的残差。
接收器510可以接收被包括在多个时间部分中的帧的空间区域分割信息及分割后的空间区域的类别信息。
接收器510可以将接收到的视频、第一模型参数、残差、空间区域分割信息及类别信息输出到处理器530及存储器550。
处理器130及处理器530可以分别处理存储在存储器150及存储器550中的数据。处理器130及处理器530可以执行存储在存储器150及存储器550中的计算机可读代码(例如,软件)以及由处理器130及处理器530触发的指令(instruction)。
“处理器130及处理器530”可以是由硬件实现的数据处理装置,其中硬件包括具有执行期望操作(desired operations)的物理结构的电路。例如,期望的操作可以包括程序中包含的代码(codes)或指令(instructions)。
例如,实现为硬件的数据处理装置可以包括微处理器(microprocessor)、中央处理单元(CPU,central processing unit)、处理器核心(processor core)、多核处理器(multi-core processor)、多处理器(multiprocessor)、专用集成电路(ASIC,Application-Specific Integrated Circuit)及现场可编程门阵列(FPGA,FieldProgrammable Gate Array)中的至少一个。
处理器130可以基于模型信息获取对应于用于处理接收的整个视频的第一神经网络的第一模型参数。换言之,第一神经网络可以指针对整个场景学习的神经网络。
此外,处理器130可以从第一神经网络获取第一模型参数,以便处理所有一般视频,而不限于接收到的视频。换言之,第一神经网络可以是指针对一般视频场景学习的神经网络。
处理器130可以基于模型信息获取与用于分别处理多个时间部分的多个第二神经网络相对应的多个第二模型参数。多个时间部分的数量可以与被包括在视频的时间段(certain temporal duration)期间的视频片段(每个视频片段通常是较长记录的特定时间段的一部分)的数量相同。因此,第二神经网络的数量可以等于或小于被包括在视频中的视频片段的数量。例如,在小于的情况下,两个以上的视频片段可以对应于一个且相同的第二神经网络模型。
处理器130可以学习第一神经网络及多个第二神经网络。处理器130可以基于分割后的多个空间区域及第一模型参数与多个第二模型参数之间的残差来学习第一神经网络及多个第二神经网络,使其可针对图像和/或视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
处理器130可以使用任意的损失函数来学习第一神经网络及多个第二神经网络。
例如,处理器130可以学习多个第二神经网络以最小化第一模型参数与多个第二模型参数之间的残差。将参照图2详细描述损失函数。
第一神经网络及多个第二神经网络中的至少一个可以包括包含至少一个卷积层的轻量残差密集块(LwRDB,Light-weight residual dense block)。
例如,第一神经网络及多个第二神经网络中的至少一个可以包括以级联(cascade)结构配置的多个轻量残差密集块。
可以基于视频来确定第一神经网络的损失函数,在该视频上执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。例如,第一神经网络的损失函数可以是真值(ground truth)帧和与执行有超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种的帧之间的L1损失。
第二神经网络的损失函数可以包括针对相应时间部分视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种的帧与真值(ground truth)帧之间的L1损失函数、用于最小化基于预先学习的整个视频的第一神经网络参数与多个第二模型参数之间的差异的损失函数。
即,可以学习每个第二神经网络的第二模型参数,以最小化要传输的模型残差的值,同时优化地执行与超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种相对应的处理。将参照图2详细描述第一神经网络及第二神经网络的损失函数。
轻量残差密集块可以包括深度可分离卷积(depth-wise separableconvolution)层或1×1×d卷积层。在此,d可以表示深度方向上的卷积渠道(或特征图(feature map))的数量。深度可分离卷积层可以包括逐深度卷积层、逐点卷积层(point-wise)及非线性激活函数。
例如,非线性激活函数可以包括修正线性单元(ReLU,Rectified Linear Unit)、泄漏修正线性单元(Leaky ReLU)、参数修正线性单元(Parametric ReLU)、Softmax、Sigmoid、Tanh、指数线性单元(ELU,exponential Linear Unit)及SoftPlus函数。
处理器130可以计算第一模型参数与多个第二模型参数之间的残差,并发送视频和残差。例如,处理器130可以向视频处理装置500发送视频和残差。
处理器130可以通过分割被包括在多个时间部分中的帧来生成空间区域分割信息。空间区域分割信息可以包括与帧被分割的形状相关的信息。例如,空间区域分割信息可以包括分割区域的宽度、位置或数量。
处理器130可以基于分割后的空间区域的信号特征(signal characteristic)来生成分割后的空间区域的类别(category)信息。例如,处理器130可以基于多个分割后的空间区域的图像复杂度(image complexity)来分割多个区域,并确定分割后的多个空间区域的类别。将参照图2详细描述生成类别信息的过程。
处理器130可以压缩并传输视频、残差、空间区域分割信息及类别信息中的至少一个。例如,处理器130可以压缩第一模型参数与多个第二模型参数之间的残差,并可以发送所压缩的残差。处理器130可以向视频处理装置500发送压缩的残差。
处理器130可以压缩并传输关于分割帧的多个空间区域(spatial regions)的空间区域分割信息以及关于多个空间区域的类别的类别信息。例如,处理器130可以压缩空间区域分割信息及类别信息并将其发送到视频处理装置500。
处理器530可以基于第一模型参数与多个第二模型参数之间的残差(residues),对图像和/或视频执行超分辨率(super-resolution)、逆色调映射(reverse or inversetone mapping)、色调映射(tone mapping)、帧插值(frame interpolation)、运动去模糊(motion deblurring)、去噪(denoising)及压缩伪影去除(compression artifactremoval)中的至少一种。
处理器530可以通过将残差添加(by adding)到第一模型参数来恢复多个第二模型参数。处理器530可以基于多个第二模型参数对多个时间部分分别执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
处理器530可以基于空间区域分割信息及类别信息将所述帧分割成多个空间区域(spatial regions)。处理器530可以基于多个空间区域及所述类别信息对视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
存储器150和存储器550可以存储由处理器130和处理器530可执行的指令(或程序)。例如,指令可以包括用于执行处理器130和处理器530的操作和/或处理器130和处理器530的每个元件的操作的指令。
存储器150和存储器550可以实现为易失性存储器装置或非易失性存储器装置。
易失性存储器装置可以实现为动态随机存取存储器(DRAM,dynamic randomaccess memory)、静态随机存取存储器(SRAM,static random access memory)、晶闸管随机存取内存(T-RAM,thyristor RAM)、零电容随机存取内存(Z-RAM,zero capacitor RAM)或双晶体管随机存取内存(TTRAM,Twin Transistor RAM)。
非易失性存储器装置可以实现为电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、闪存、磁性随机存取内存(MRAM,Magnetic RAM)、自旋转移移矩(STT,Spin-Transfer Torque)-MRAM、导电桥接随机存取内存(CBRAM,Conductive Bridging RAM)、铁电随机存取内存(FeRAM)、相变随机存取内存(PRAM,Phase change RAM)、电阻式随机存取内存(RRAM,Resistive RAM)、纳米管RRAM(Nanotube RRAM)、聚合物随机存取内存(PoRAM,Polymer RAM)、纳米浮栅存储器(NFGM,Nano Floating Gate Memory)、全息存储器(holographic memory)、分子电子存储装置(Molecular Electronic Memory Device)或绝缘体电阻变化存储器(InsulatorResistance Change Memory)。
图2示出图1的发送端的视频处理装置的操作的一示例。
参照图2,接收器110可以接收包括多个时间部分(或多个视频剪辑)(110-1、110-2、…110-n)的视频。处理器130可以处理接收到的多个时间部分(110-1、110-2、…110-n)。
具体地,处理器130可以使用接收到的视频来学习第一神经网络(或,全场景(AS,All-scene)模型)210及多个第二神经网络(例如,一个场景(OS,one-scene)模型)(230-1、230-2、…、230-n)。
处理器130可以使用整个视频来学习第一神经网络210。换言之,处理器130可以更新神经网络的模型参数以最小化与整个视频相对应的损失函数,使得客户端250可以针对接收第一神经网络210的模型参数的整个视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
处理器130可以通过基于神经网络的模型参数的学习对神经网络的模型参数执行压缩,并将滤波器参数的残差(residue)及视频的损伤一起最小化。
滤波器参数的残差可以仅针对正在考虑的视频片段传送到视频处理装置500,这对于具有低复杂性、有限的计算及存储资源的接收器(例如,用户终端)中的图像恢复应用可能有利。客户端250可以包括视频处理装置500。
处理器130可以针对视频的时间部分(temporal portions)传输至少一个以上的更新的神经网络。处理器130可以使用两个神经网络模型之间的参数残差,以避免每个时间部分的神经网络模型参数的开销(overhead)。
对整个视频进行学习的第一神经网络210可以在传输视频之前进行传输,对时间部分(temporal portions)进行学习的第二神经网络模型(230-1、230-2、…、230-n)可以在传输分别相应的视频的时间部分之前进行传输。
通过该过程,处理器130可以学习神经网络以有效地执行基于神经网络的图像恢复(超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除等)。处理器130可以通过客户端250在两个神经网络模型之间传输参数残差,以执行超分辨率(super-resolution)、逆色调映射(reverse or inverse tone mapping)、色调映射(tonemapping)、帧插值(frame interpolation)、运动去模糊(motion deblurring)、去噪(denoising)及压缩伪影去除(compression artifact removal)中的至少一种。
此时,处理器130可以学习一个神经网络模型以对各个时间部分进行过拟合(over-fitting),并且可以学习另一个神经网络模型以对整个视频(entire video)进行过拟合。
处理器130可以分别使用多个时间部分(或多个场景)(110-1、110-2、…、110-n)来学习第二神经网络(230-1、230-2、…、230-n)。
例如,处理器130可以使用第一时间部分110-1来学习第二神经网络230-1(或OS-模型1),并可以使用第二时间部分110-2来学习第二神经网络(或OS-模型2)。类似地,处理器130可以使用第n时间部分100-n来学习第二神经网络(或OS-模型n)。在此,n可以是1以上的整数。
通过这一点,处理器130可以进行学习使得第一神经网络210对整个视频进行过拟合(over-fitting)。处理器130可以学习多个第二神经网络(230-1、230-2、…、230-n),使其过拟合(over-fitting)到被包括在视频中的多个时间部分(110-1、110-2、…、110-n)。
可以学习第二神经网络(230-1、230-2、…、230-n),以最小化第一神经网络210与第二神经网络(230-1、230-2、…、230-n)之间的残差(或权重的残差)。
处理器130可以计算第一神经网络210与多个第二神经网络(230-1、230-2、…、230-n)之间的残差(residues)。如图2所示,处理器130可以通过第二神经网络230-n(或OS模型n)的模型参数与第一神经网络210(AS模型)的模型参数之间的差来计算残差。
处理器130可以分别压缩学习到的第一神经网络210、学习到的第二神经网络(230-1、230-2、…、230-n)的信息及接收到的视频,从而将其发送到视频处理装置500或客户端250。
处理器130可以压缩经过学习的第一神经网络210的信息。例如,处理器130可以使用二元掩模(binary masking)及K-均值聚类(K-means clustering)来压缩经过学习的第一神经网络210的模型参数(或滤波器权重)。处理器130可以对零权重(zero weight)执行二元掩模,并可以对非零权重(non-zero weight)执行K-均值聚类。
处理器130可以将被压缩的第一神经网络210的模型参数发送到视频处理装置500或客户端250。处理器130可以压缩接收到的视频并将其发送到客户端250。处理器130可以发送经编码的视频比位流(encoded video bitstream)。例如,处理器130可以对视频执行高效视频编码(HEVC,High Efficiency Video Coding)压缩,并将其发送到接收端或客户端250。
处理器130可以对第一神经网络210与多个第二神经网络(230-1、230-2、…、230-n)之间的残差执行压缩,并发送到视频处理装置500或客户端250。如上所述,对于残差,处理器130可以对零权重执行二元掩模,并可以对非零权重执行K-均值聚类。
视频处理装置500的处理器530可以重构(reconstruct)接收到的压缩模型参数。所述接收到的压缩模型参数可以是在对应的每个时间部分(temporal portion)开始之前对应于每个时间部分的残差(或权重的残差)。
处理器530可以通过向首次接收的第一神经网络的模型参数(或权重)添加与解压缩(decompressed)的每个时间部分相对应的残差(或权重的残差),重构第二神经网络(230-1、230-2、…、230-n)的模型参数。
处理器530可以使用与被包括在视频中的时间部分相对应的每个第二神经网络来执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
以下,将详细描述由处理器130学习第一神经网络210及多个第二神经网络(230-1、230-2、…、230-n)的方法。
处理器130可以以内容自适应(content-adaptive)的方式执行神经网络训练,以过拟合到整个视频或视频的时间部分。此后,处理器130可以发送学习后的神经网络的模型参数。
作为学习数据集的示例,处理器130可以使用320帧(包括10个不同场景)的学习序列(或视频)。每个场景可以包括32个帧。学习序列具有1920×1080@24fps作为真值(groundtruth),可以通过2×下采样生成低分辨率版本。此时,编码及解码可以由HM 16.17参考软件(reference software)执行。
用于学习神经网络的总损失(total loss function)可以包括超分辨率(SR)损失及权重残差(WR,Weight Residual)成本(cost)。SR损失(loss)可以由数学式1表示。
[数学式1]
Figure GDA0003479963680000131
其中,y可以表示真值帧,
Figure GDA0003479963680000132
可以表示在其上执行超分辨率的帧。换言之,SR损失可以表示地面真值帧与执行有超分辨率的帧之间的L1损失函数。
作为数学式式1的另一示例,损失可以是与作为其他图像恢复过程的逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种相对应的损失(loss),而不是SR损失。
WR成本可以用于最小化针对整个视频序列预学习的参考权重Wref与针对时间部分的学习权重Wtrain之间的权重(或模型参数)的残差。
WR成本可以由数学式2表示。
[数学式2]
CWR=L1(Wref,Wtrain)
即,WR成本可以表示参考权重与学习权重之间的L1损失函数。第一神经网络(或,AS模型)210可以包括整个序列(或,整个视频)的预学习的参考权重。
当学习第一神经网络210时,总损失可以是对应于超分辨率(SR)、逆色调映射/色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种的损失(loss)。当针对多个时间部分学习第二神经网络(或,OS模型)(230-1、230-2、…、230-n)时,总损失可以包括SR损失和WR成本,如数学式3所示。
[数学式3]
Ltotal=LSR+λCWR
其中,λ可以表示超参数,并且可以根据经验(empirically)确定。例如,对于较小的λ值,SR性能可以会增强,但重量压缩性能可能由于WR成本的增加而降低。相反地,对于较大的λ值,SR性能可能会降低,但由于WR成本的降低,重量压缩性能可能会增强。例如,λ可以是0.003。
处理器130可以针对所有视频帧(例如,320帧)学习第一神经网络210。此时,可以部分地使用随机裁剪(crop)来过拟合(over-fitting)学习视频数据,而不使用额外的增强(augmentation)方法。
在学习期间,输入补丁(patch)大小可以是60×60,批量处理(batch)大小可以是2。处理器130可以学习第一神经网络210多达64000次迭代(iteration),此时,学习率(learning rate)可以是0.001。
处理器130可以使用多个时间部分(或场景)(110-1、110-2、…、110-n)的每个帧(例如,32帧)来学习多个第二神经网络(230-1、230-2、…、230-n)。此时,所学习的第一神经网络的模型参数可以用作参考权重。
此时,第一神经网络210及多个第二神经网络(230-1、230-2、…、230-n)可以具有相同的结构,并且可以使用不同的数据进行学习。在学习第二神经网络(230-1、230-2、…、230-n)时,输入补丁大小可以是400×400,并且第二神经网络(230-1、230-2、…、230-n)的初始模型参数可以设置为预学习的第一神经网络210的模型参数。除此之外,第一神经网络210和第二神经网络(230-1、230-2、…、230-n)的学习条件可以相同。
图3示出图1的发送端的视频处理装置的操作的另一示例。
参照图3,处理器130可以将视频中包括的帧分割成多个空间区域,并基于多个空间区域对视频执行超分辨率。处理器130可以将帧分割成多个空间区域并允许使用适合于多个空间区域的神经网络来处理与多个空间区域相对应的图像,从而增强客户端250的图像恢复性能。
客户端250不仅可以使用对于已接收的视频的时间部分进行分别更新的神经网络的信息,还可以使用对于每个时间部分的帧的空间区域(spatial region)的分割信息及与每个分割区域相对应的接收的神经网络模型来增强图像恢复性能。
单个神经网络的大小需要足够大,以实现提高质量的适当性能,并需要针对大量学习样本进行适当学习。由于大规模神经网络可能需要复杂的操作和较大的存储空间来处理输入和生成输出,因此可能难以在操作能力有限的用户终端中使用。
处理器130可以通过在图2中描述的内容自适应方式将被包括在时间部分中的帧分割成适当的空间区域(或多个区域),并另外使用用于分别处理多个区域的多个神经网络来更有效地执行超分辨率。
此时,处理器130可以规范地(normatively)定义信令(signaling),该信令识别将哪个神经网络应用于在服务中的视频的每个时间部分中每个帧的空间分割区域。
此外,处理器130可以将应用于每个帧中的分割空间区域的神经网络的配置表示(configuration representation)规范地定义为上述信令信息的组合。
例如,执行超分辨率的神经网络可以将分辨率提高为特定因子(factor)(例如,2倍)。此时,发送端可以将视频(或内容)缩小为相同因子的倒数(1/2倍),并将其发送到视频处理装置500。
如果视频处理装置500已具有神经网络,则处理器130可以发送神经网络的类型或神经网络的实际权重及拓扑(topology)。
神经网络可以针对待传输的内容(例如,视频)进行专门(dedicatedly)学习或微调(fine-tuned)。当分别针对视频的时间部分学习神经网络时,可以在发送各个相应的视频片段(时间部分)之前或发送期间将每个神经网络发送到接收端。
不仅针对视频的时间部分,还针对帧的空间区域,处理器530可以使用分别对应的神经网络来执行图像恢复(超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种)。
处理器130可以基于分割帧的多个空间区域的特征来确定多个空间区域的类别(category)。此时,多个空间区域可以表示图像的区域或帧的区域。针对具有根据多个区域的特征的详细类别的图像组,处理器130可以使用学习的多个神经网络来增强视频处理性能。
处理器530可以通过基于多个神经网络被专门(dedicatedly)学习的各个空间区域的特征类别,对被包括在视频帧中的各个图像区域选择性地应用适当的神经网络,从而增强视频处理性能。
处理器130可以发送与哪个神经网络应用于哪个空间区域有关的信息。通过这一点,视频处理装置500可以有效地应用于具有有限操作能力的用户终端中的图像恢复和质量增强(IRQE,Image Restoration and Quality Enhancement)应用。
视频处理装置100及视频处理装置500可以在发送端与接收端之间提供信令,以协商(negotiate)待由接收端(或客户端)及发送端(或服务器)与视频一起使用的模型(例如,神经网络模型)或模型更新(拓扑、架构及相关权重)。
当待处理的视频或与其时间部分相对应的神经网络模型不存在于视频处理装置500中时,视频处理装置100的处理器130可以向视频处理装置500发送有关相应神经网络模型的信息。
当针对特定视频微调模型时,视频处理装置100的处理器130可以将待应用于整个视频的模型发送到视频处理装置500。当针对视频的不同时间部分对模型进行微调时,视频处理装置100的处理器130可以将待应用于特定时间部分的模型和对应于该时间部分的视频发送到视频处理装置500。
如果视频处理装置500针对整个特定视频已具有学习的全局神经网络(GNN,Global Neural Network),则视频处理装置100可以向视频处理装置500发送GNN的模型参数(或权重参数)与局部神经网络(LNN,Local Neural Network)的模型参数之间的残差。
处理器130可以提供优化目标的显示。例如,处理器130可以使用指示适当词汇表的统一资源标识符(URI,Uniform Resource Identifier)。
视频处理装置100可以向视频处理装置500发送与选择哪个编码器和哪个编码参数进行视频压缩有关的信息。视频处理装置100可以向视频处理装置500发送指示原始数据与解码数据之间的目标错误的一个以上的值。
如果神经网络针对不同图像纹理特征的类别(categories of image texturecharacteristics)被微调,并且视频处理装置500已具有相应的神经网络,则视频处理装置100可以将待应用于帧的空间区域(或分割的区域)的神经网络模型的ID与用于IRQE应用的区域分割信息一起发送到视频处理装置500。
如果神经网络针对不同图像纹理特征的类别被微调,并且视频处理装置500没有相应的神经网络模型,则可以将神经网络模型发送到视频处理装置500。
视频处理装置100可以将视频(或内容)和低质量的微调的神经网络一起发送到装置(device)。在这种情况下,可以考虑以下四种情况。
情况A可以是针对整个视频对神经网络进行微调的情况。视频处理装置100可以在视频流化之前或期间将神经网络发送到视频处理装置500。视频和相关神经网络可以由唯一ID配对(paired)。
情况B可以是多个神经网络针对视频的不同时间部分进行优化的情况。此时,视频可以通过时间式或其他方法被分割。视频处理装置100可以在视频的每个部分的流化之前或期间,将每个神经网络或每个神经网络之间的差异发送到视频处理装置500。即使在这种情况下,视频的每个不同部分和相关神经网络也可以配对。
情况C可以是多个神经网络分别针对视频(或图像)的不同特征的类别进行优化的情况。视频处理装置100可以在对图像的流化之前或期间,将分割后的区域(或图像区域)的神经网络模型和图像的区域分割信息发送到视频处理装置500。
情况D可以是多个神经网络模型在接收端已经可用于目标IRQE应用的情况。视频处理装置100可以确定待最佳地应用于IRQE的图像的每个区域的神经网络模型,并将待应用于分割区域(或图像区域)的神经网络模型的ID及图像的区域分割信息发送到视频处理装置500。
当针对所有内容使用单个神经网络模型时,视频处理装置100的处理器130可以仅发送或更新一次神经网络,直到新版本的神经网络可用为止。例如,处理器130可以每月向视频处理装置500发送或更新一次神经网络。
当针对每个特定视频(或内容)微调神经网络模型时,视频处理装置100的处理器130可以针对每个新视频新发送或更新神经网络模型。例如,处理器130可以每天多次(multiple times per day)向视频处理装置500发送或更新神经网络模型。
当分别针对特定视频的时间部分微调神经网络时,视频处理装置100的处理器130可以将视频的所有时间部分的神经网络模型发送到视频处理装置500。在这种情况下,处理器130可以针对视频的所有时间部分发送或更新神经网络。例如,处理器130可以每1到5分钟(对应于每个时间部分)向视频处理装置500中发送或更新相应的神经网络。
当分别针对不同视频特征的类别对多个神经网络进行微调(fine-tuned)并且微调后的神经网络已经在接收端可用时,视频处理装置100的处理器130可以将待发送的视频的时间部分的各图像(或帧)和/或每个时间部分的神经网络的ID和/或仅将图像分割信息发送到视频处理装置500。
神经网络的大小可能从几千字节到几百兆字节。分销渠道(distributionchannel)的带宽可能取决于分销渠道。例如,带宽可以是第二代(2G,2nd-generation)、3G、4G及5G网络的带宽。
当针对所有视频使用单个模型时,可接受延迟(latency)可以接受任意的小延迟,也可以接受秒或分钟单位的延迟。对于针对每个内容进行微调的神经网络,最大可接受延迟可以为约1秒。
对于针对视频的每个时间部分进行微调的神经网络,最大可接受延迟可能非常小,如采样周期的一部分。例如,视频流的延迟可以是3毫秒(采样周期的1/10)。
如上所述,通过分割被包括在视频中的帧并处理图像,视频处理装置100可以通过互操作性(inter-operability)方面的神经网络表示的标准化信令来为内容检索(retrieval)和协商接口提供益处。
此外,视频处理装置100可以通过适合于人工智能(AI,ArtificialIntelligence)能力的标准化的神经网络表示向媒体消费装置(media consuming device)提供益处。
图4示出由图1的发送端的视频处理装置及接收端的视频处理装置使用的神经网络的结构的示例,图5示出图4的轻量残差密集块(LwRDB)的结构的示例。
参照图4及图5,视频处理装置100的处理器130和视频处理装置500的处理器500可以使用第一神经网络210及第二神经网络(230-1、230-2、…、230-n)来处理视频。
第一神经网络210及第二神经网络(230-1、230-2、…、230-n)中的至少一个可以包括图4所示结构中的神经网络400。神经网络400可以被称为复制的轻量残差密集超分辨率(RLRD-SR,Replicated Light-Weight Residual Dense-Super Resolution)网络。
神经网络400可以包括卷积层410、逐深度卷积层420及逐点卷积层430。神经网络400可以包括轻量残差密集块的组合440、卷积层450、逐深度卷积层460及逐点卷积层470。
此外,神经网络400可以包括转置卷积层480、卷积层490-1及卷积层490-2。
轻量残差密集块的组合440可以包括一个以上的轻量残差密集块(LwRDB,Light-weight residual dense block)441。多个轻量残差密集块441可以以级联结构连接。处理器130可以使用以复制的轻量残差密集块441配置的神经网络来执行视频处理。
多个轻量残差密集块的组合441可以具有共享参数,并可以以级联结构连接。通过使用具有共享参数的N个重复的轻量残差密集块441,处理器130可以在不增加模型参数数量的情况下提高超分辨率性能。
轻量残差密集块441中的每一个可以包括三个卷积层。轻量残差密集块441可以包括深度可分离卷积(depth-wise separable convolution)层,以减少前两层的学习参数,并在最后可以包括1×1卷积层。
由于处理器130仅发送残差权重(residual weight),因此其可以通过最小化学习期间发送的权重来提高权重压缩效率。
图6示出根据图1的视频处理方法的峰值信噪比(PSNR),图7示出根据超参数的PSNR及位大小的减少率。
参照图6及图7,可以通过实验来测量视频处理装置100的性能。可以使用64-bitWindows 10TM OS的PC平台、Intel i7-8700K 3.7GHz CPU、64GRAM、Python 3.6、PyTorch0.4.0、Cuda v9.0及CUDNN 7.0来评估性能。
可以使用三种超分辨率模型来比较性能。所述使用的三个超分辨率模型可以包括用于放大视频的场景与场景相对应的OS-模型、AS-模型及双三次插值(bicubicinterpolation)。
表1表示当λ设置为0.003,K-均值聚类的质心数(centroid)对于AS-模型设置为1000、对于OS-模型设置为300时,视频中10个场景的PSNR及bpp(每像素位(Bits PerPixel))值。
[表1]
Figure GDA0003479963680000191
Figure GDA0003479963680000201
双三次插值的bpp(bppbic)可以通过使用HM16.17将以1200kbps编码的每个场景的所有帧的位大小(bit视频)除以放大(up-scaling)视频的高度(H)、宽度(W)及帧数(n)来获得。即,双三次插值的bpp可以通过数学式4计算。
[数学式4]
Figure GDA0003479963680000202
为了计算AS-模型的bpp(bppAS),可以进一步考虑用于初始传输而学习的参数的位(bitAS)。AS-模型的位大小可以分为场景数(S),以获得分配给一个场景的大小。AS-模型的bpp可以通过数学式5计算。
[数学式5]
Figure GDA0003479963680000203
为了计算OS-模型的bpp(bppOS),可以考虑用于传输而学习的残差参数(bitOS-残差)。OS-模型的bpp可以通过数学式6计算。
[数学式6]
Figure GDA0003479963680000204
图6的曲线图可以表示双三次插值、AS-模型及OS-模型的PSNR-bpp。从图6中可以看出,OS-模型具有比双三次插值高约3dB的PSNR及高约0.7dB的PSNR。
图7的曲线图可以表示不同λ值的PSNR及权重压缩性能。λ值越大,可以实现更高的学习权重压缩性能,但PSNR性能可能会降低。因此,可能需要考虑权重压缩性能及PSNR性能来确定λ值。
图8示出图1的发送端的视频处理装置的操作的顺序。
参照图8,在步骤810中,视频处理装置100的接收器110可以接收包括多个时间部分的视频和/或与用于处理视频的神经网络相关的模型信息。
在步骤830中,处理器130可以基于模型信息获得对应于用于处理整个视频的第一神经网络的第一模型参数。
在步骤850中,处理器130可以基于模型信息获得对应于用于分别处理多个时间部分的多个第二神经网络的多个模型参数。
在步骤870中,处理器130可以计算第一模型参数与多个第二模型参数之间的残差(residues)。
在步骤890中,处理器130可以传输视频及残差。
处理器130可以通过分割被包括在多个时间部分中的帧来生成空间区域分割信息。处理器130可以基于分割后的空间区域的信号特征来生成分割后的空间区域的类别信息。
处理器130可以压缩并传输视频、第一神经网络与多个第二神经网络之间的残差、空间区域分割信息及类别信息中的至少一个。
处理器130可以学习多个第二神经网络以最小化残差。
第一神经网络及多个第二神经网络中的至少一个可以包括包含至少一个卷积层的轻量残差密集块(Light-weight residual dense block)。第一神经网络及多个第二神经网络中的至少一个可以包括配置为级联(cascade)结构的多个轻量残差密集块。
轻量残差密集块可以包括深度可分离卷积层(depth-wise separableconvolution)或1×1×d卷积层。深度可分离卷积层可以包括逐深度卷积层、逐点卷积层及非线性激活函数。
图9示出图1的接收端的视频处理装置的操作的顺序。
参照图9,在步骤910中,接收器510可以接收包括多个时间部分的视频。在步骤930中,接收器510可以接收与用于处理整个视频的第一神经网络相对应的第一模型参数。
在步骤950中,接收器510可以接收第一模型参数与对应于用于分别处理多个时间部分的多个第二神经网络的多个第二模型参数之间的残差。
接收器510可以接收与被包括在多个时间部分中的帧相关的空间区域分割信息及分割后的空间区域的类别(category)信息。空间区域分割信息及类别信息与上述说明相同。
在步骤970中,处理器530可以基于残差对视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
处理器530可以通过将残差添加到第一模型参数来恢复多个第二模型参数。处理器530可以基于多个第二模型参数对多个时间部分执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
处理器530可以基于空间区域分割信息及类别信息将帧分割成多个空间区域(spatial regions)。
处理器530可以基于多个空间区域及类别信息对视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
第一神经网络及多个第二神经网络中的至少一个可以包括包含至少一个卷积层的轻量残差密集块(Light-weight residual dense block)。第一神经网络及多个第二神经网络中的至少一个可以包括配置为级联(cascade)结构的多个轻量残差密集块。
轻量残差密集块可以包括深度可分离卷积层(depth-wise separableconvolution)或1×1×d卷积层。深度可分离卷积层可以包括逐深度卷积层、逐点卷积层及修正线性单元(ReLU,Rectified Linear Unit)。
根据实施例的方法以能够通过多种计算机手段执行的程序命令的形式体现,并记录在计算机读写介质中。所述计算机读写介质能够以单独或者组合的形式包括程序命令、数据文件、数据结构等。记录在所述介质的程序指令能够是为实现实施例而特别设计与构成的指令,或者是计算机软件领域普通技术人员能够基于公知使用的指令。计算机读写记录介质能够包括硬盘、软盘以及磁带等磁性媒介(magnetic media);与CD-ROM、DVD等类似的光学媒介(optical media);与光磁软盘(floptical disk)类似的磁光媒介(magneto-optical media),以及与只读存储器(ROM)、随机存取存储器(RAM)、闪存等类似的为存储并执行程序命令而特别构成的硬件装置。程序指令的例子不仅包括通过编译器生成的机器语言代码,还包括通过使用解释器等能够由计算机执行的高级语言代码。为执行实施例的操作,所述硬件装置能够构成为以一个以上的软件模块实现操作的方式,反之亦然。
软件能够包括计算机程序(computer program)、代码(code)、指令(instruction),或其中的一个以上的组合,能够使加工装置按照所期待的方式操作,或者,单独或共同(collectively)命令加工装置。为通过加工装置进行解释或者向加工装置提供命令或数据,软件和/或数据能够永久或临时体现于(embody)任何类型的设备、构成要素(component)、物理装置、虚拟装置(virtual equipment)、计算机存储介质或装置,或者传送的信号波(signal wave)。软件分布于通过网络连接的计算机***上,能够以分布式存储或执行。软件及数据能够存储于一个以上的计算机读写存储介质中。
综上,通过有限的附图对实施例进行了说明,本领域的普通技术人员能够对上述记载进行多种修改与变形。例如,所说明的技术以与所说明的方法不同的顺序执行,和/或所说明的构成要素以与所说明的方法不同的形态结合或组合,或者,由其他构成要素或等同物进行替换或置换也能够获得相同的效果。
由此,其他体现、其他实施例及权利要求范围的均等物全部属于专利权利要求的范围。

Claims (24)

1.一种视频处理方法,其特征在于,
包括以下步骤:
接收包括多个时间部分的视频;
接收与用于对所述视频进行整体处理的第一神经网络对应的第一模型参数;
接收与用于分别处理所述多个时间部分的多个第二神经网络相对应的多个第二模型参数与所述第一模型参数之间的残差;以及
基于所述残差对所述视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
2.根据权利要求1所述的视频处理方法,其特征在于,
所述第一神经网络及所述多个第二神经网络中的至少一个包括包含至少一个卷积层的轻量残差密集块。
3.根据权利要求1所述的视频处理方法,其特征在于,
所述第一神经网络及所述多个第二神经网络中的至少一个包括多个以级联结构配置的轻量残差密集块。
4.根据权利要求2所述的视频处理方法,其特征在于,
所述轻量残差密集块,包括:
深度可分离卷积层;或
1×1×d卷积层。
5.根据权利要求4所述的视频处理方法,其特征在于,
所述深度可分离卷积层,包括:
逐深度卷积层;
逐点卷积层;以及
非线性激活函数。
6.根据权利要求1所述的视频处理方法,其特征在于,
所述执行步骤,包括以下步骤:
通过将所述残差添加到所述第一模型参数来恢复所述多个第二模型参数;以及
基于所述多个第二模型参数对所述多个时间部分分别执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
7.根据权利要求1所述的视频处理方法,其特征在于,
还包括以下步骤:
接收被包括在所述多个时间部分中的帧的空间区域分割信息及分割后的空间区域的类别信息。
8.根据权利要求7所述的视频处理方法,其特征在于,
所述执行步骤,包括以下步骤:
基于所述空间区域分割信息及所述类别信息将所述帧分割成多个空间区域;以及
基于所述多个空间区域及所述类别信息对所述视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
9.一种视频处理装置,其特征在于,
包括:
接收器,其接收包括多个时间部分的视频,并接收与用于对所述视频进行整体处理的第一神经网络对应的第一模型参数,并接收与用于分别处理所述多个时间部分的多个第二神经网络相对应的多个第二模型参数与所述第一模型参数之间的残差;以及
处理器,其基于所述残差对所述视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
10.根据权利要求9所述的视频处理装置,其特征在于,
所述第一神经网络及所述多个第二神经网络中的至少一个包括包含至少一个卷积层的轻量残差密集块。
11.根据权利要求9所述的视频处理装置,其特征在于,
所述第一神经网络及所述多个第二神经网络中的至少一个包括多个以级联结构配置的轻量残差密集块。
12.根据权利要求10所述的视频处理装置,其特征在于,
所述轻量残差密集块,包括:
深度可分离卷积层;或
1×1×d卷积层。
13.根据权利要求12所述的视频处理装置,其特征在于,
所述深度可分离卷积层,包括:
逐深度卷积层;
逐点卷积层;以及
非线性激活函数。
14.根据权利要求9所述的视频处理装置,其特征在于,
所述处理器,
将被包括在所述视频中的帧分割成多个区域,
通过将所述残差添加到所述第一模型参数来恢复所述多个第二模型参数,
基于所述多个第二模型参数对所述多个时间部分分别执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
15.根据权利要求9所述的视频处理装置,其特征在于,
所述接收器还接收被包括在所述多个时间部分中的帧的空间区域分割信息及分割后的空间区域的类别信息。
16.根据权利要求15所述的视频处理装置,其特征在于,
所述处理器,
基于所述空间区域分割信息及所述类别信息将所述帧分割成多个空间区域,
基于所述多个空间区域及所述类别信息对所述视频执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种。
17.一种视频处理方法,其执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种,其特征在于,
包括以下步骤:
接收包括多个时间部分的视频及与用于处理所述视频的神经网络相关的模型信息;
获取与用于基于所述模型信息对所述视频进行整体处理的第一神经网络相对应的第一模型参数;
接收与用于基于所述模型信息分别处理所述多个时间部分的多个第二神经网络相对应的多个第二模型参数;
计算所述第一模型参数与所述多个第二模型参数之间的残差;以及
传输所述视频及所述残差。
18.根据权利要求17所述的视频处理方法,其特征在于,
还包括以下步骤:
通过分割被包括在所述多个时间部分中的帧来生成空间区域分割信息;以及
基于分割后的空间区域的信号特征来生成所述分割后的空间区域的类别信息。
19.根据权利要求18所述的视频处理方法,其特征在于,
所述传输步骤,包括以下步骤:
压缩并传输所述视频、所述残差、所述空间区域分割信息及所述类别信息中的至少一个。
20.根据权利要求17所述的视频处理方法,其特征在于,
还包括以下步骤:
学习所述多个第二神经网络以最小化所述残差。
21.一种视频处理装置,其用于执行超分辨率、逆色调映射、色调映射、帧插值、运动去模糊、去噪及压缩伪影去除中的至少一种,其特征在于,
包括:
接收器,其接收包括多个时间部分的视频及与用于处理所述视频的神经网络相关的模型信息;以及
处理器,其获取与用于基于所述模型信息对所述视频进行整体处理的第一神经网络相对应的第一模型参数,并接收与用于基于所述模型信息分别处理所述多个时间部分的多个第二神经网络相对应的多个第二模型参数,并计算所述第一模型参数与所述多个第二模型参数之间的残差,并传输所述视频及所述残差。
22.根据权利要求21所述的视频处理装置,其特征在于,
所述处理器,
通过分割被包括在所述多个时间部分中的帧来生成空间区域分割信息,
基于分割后的空间区域的信号特征来生成所述分割后的空间区域的类别信息。
23.根据权利要求22所述的视频处理装置,其特征在于,
所述处理器压缩并传输所述视频、所述残差、所述空间区域分割信息及所述类别信息中的至少一个。
24.根据权利要求21所述的视频处理装置,其特征在于,
所述处理器学习所述多个第二神经网络以最小化所述残差。
CN202080043521.9A 2019-07-03 2020-07-03 视频处理方法及装置 Pending CN114096987A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR20190080363 2019-07-03
KR10-2019-0080363 2019-07-03
KR1020200080914A KR102364628B1 (ko) 2019-07-03 2020-07-01 비디오 처리 방법 및 장치
KR10-2020-0080914 2020-07-01
PCT/KR2020/008704 WO2021002719A1 (ko) 2019-07-03 2020-07-03 비디오 처리 방법 및 장치

Publications (1)

Publication Number Publication Date
CN114096987A true CN114096987A (zh) 2022-02-25

Family

ID=74100939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080043521.9A Pending CN114096987A (zh) 2019-07-03 2020-07-03 视频处理方法及装置

Country Status (4)

Country Link
US (1) US20220366538A1 (zh)
KR (1) KR102642058B1 (zh)
CN (1) CN114096987A (zh)
WO (1) WO2021002719A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220405880A1 (en) * 2021-06-17 2022-12-22 Nvidia Corporation Generative neural networks with reduced aliasing
CN114554213B (zh) * 2022-02-21 2023-04-18 电子科技大学 一种运动自适应和关注细节的压缩视频质量增强方法
WO2023224320A1 (ko) * 2022-05-17 2023-11-23 삼성전자 주식회사 영상의 화질을 향상시키기 위한 영상 처리 장치 및 방법
CN114913095B (zh) * 2022-06-08 2024-03-12 西北工业大学 基于域适应的深度去模糊方法
CN115393227B (zh) * 2022-09-23 2023-06-06 南京大学 基于深度学习的微光全彩视频图像自适应增强方法及***

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1371502B (zh) * 1999-06-30 2010-05-05 夏普公司 活动图像检索信息记录装置及活动图像检索装置
EP2777250B1 (en) * 2011-11-07 2017-05-31 Intel Corporation Cross-channel residual prediction
JP6661398B2 (ja) * 2016-02-03 2020-03-11 キヤノン株式会社 情報処理装置および情報処理方法
CN109218727B (zh) * 2017-06-30 2021-06-25 书法报视频媒体(湖北)有限公司 视频处理的方法和装置
KR102034967B1 (ko) * 2017-12-06 2019-10-21 한국과학기술원 움직임 흐림 제거 방법 및 장치
US11663476B2 (en) * 2017-12-15 2023-05-30 Electronics And Telecommunications Research Institute Method and device for providing compression and transmission of training parameters in distributed processing environment
US11164067B2 (en) * 2018-08-29 2021-11-02 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for implementing a multi-resolution neural network for use with imaging intensive applications including medical imaging
US11100617B2 (en) * 2018-10-12 2021-08-24 Korea Advanced Institute Of Science And Technology Deep learning method and apparatus for automatic upright rectification of virtual reality content
CN109697741B (zh) * 2018-12-28 2023-06-16 上海联影智能医疗科技有限公司 一种pet图像重建方法、装置、设备及介质
US11240492B2 (en) * 2019-01-22 2022-02-01 Apple Inc. Neural network based residual coding and prediction for predictive coding
US10771807B1 (en) * 2019-03-28 2020-09-08 Wipro Limited System and method for compressing video using deep learning
JP7417640B2 (ja) * 2019-06-18 2024-01-18 ホアウェイ・テクノロジーズ・カンパニー・リミテッド リアルタイム映像超高解像度
US11120582B2 (en) * 2019-07-31 2021-09-14 Z2Sky Technologies Inc. Unified dual-domain network for medical image formation, recovery, and analysis
US10958869B1 (en) * 2019-11-14 2021-03-23 Huawei Technologies Co., Ltd. System, device and method for video frame interpolation using a structured neural network
US11651526B2 (en) * 2020-01-23 2023-05-16 Northeastern University Frontal face synthesis from low-resolution images
US11508037B2 (en) * 2020-03-10 2022-11-22 Samsung Electronics Co., Ltd. Systems and methods for image denoising using deep convolutional networks
US11889096B2 (en) * 2020-06-26 2024-01-30 Intel Corporation Video codec assisted real-time video enhancement using deep learning
US20220172452A1 (en) * 2020-11-30 2022-06-02 George Mason University Detecting objects non-visible in color images
EP4281928A1 (en) * 2021-01-19 2023-11-29 Alibaba Group Holding Limited Neural network based in-loop filtering for video coding
WO2022250388A1 (ko) * 2021-05-25 2022-12-01 삼성전자 주식회사 비디오 품질을 평가하는 전자 장치 및 그 동작 방법
US11830167B2 (en) * 2021-06-21 2023-11-28 Ping An Technology (Shenzhen) Co., Ltd. System and method for super-resolution image processing in remote sensing
US11778223B2 (en) * 2021-08-19 2023-10-03 Huawei Technologies Co., Ltd. Method, device, and medium for generating super-resolution video

Also Published As

Publication number Publication date
KR20220000871A (ko) 2022-01-04
KR102642058B1 (ko) 2024-03-04
WO2021002719A1 (ko) 2021-01-07
US20220366538A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
KR102332490B1 (ko) 심층 신경망용 압축 방법, 칩, 전자 장치 및 매체
US11729406B2 (en) Video compression using deep generative models
CN114096987A (zh) 视频处理方法及装置
US11388416B2 (en) Video compression using deep generative models
KR20230074137A (ko) 머신 러닝 시스템들을 이용한 인스턴스 적응적 이미지 및 비디오 압축
JP2023517846A (ja) 再帰ベースの機械学習システムを使用したビデオ圧縮
US20210021866A1 (en) Encoding and decoding image data
KR20180131073A (ko) 다채널 특징맵 영상을 처리하는 방법 및 장치
JP7168896B2 (ja) 画像符号化方法、及び画像復号方法
TW202312031A (zh) 使用機器學習系統的網路參數子空間中的實例自我調整影像和視訊壓縮
KR102642059B1 (ko) 다양한 영상 신호 특성의 다중 모델을 이용한 영상 화질 향상 방법 및 장치
US20240242467A1 (en) Video encoding and decoding method, encoder, decoder and storage medium
Zafari et al. Attention-based generative neural image compression on solar dynamics observatory
TWI826160B (zh) 圖像編解碼方法和裝置
KR20200044668A (ko) Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
Ayyoubzadeh et al. Lossless compression of mosaic images with convolutional neural network prediction
US20230306239A1 (en) Online training-based encoder tuning in neural image compression
WO2023050439A1 (zh) 编解码方法、码流、编码器、解码器、存储介质和***
Le Still image coding for machines: an end-to-end learned approach
US20230316588A1 (en) Online training-based encoder tuning with multi model selection in neural image compression
CN118055244A (zh) 一种点云数据的解码方法及装置
KR20230150274A (ko) 비디오 코딩을 위한 기계 학습 기반 플로우 결정
KR20240114684A (ko) 뉴럴 네트워크를 이용한 비디오 처리 장치 및 방법
CN117716687A (zh) 使用机器学习***的隐式图像和视频压缩

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination