CN116264606A - 用于处理视频的方法、设备和计算机程序产品 - Google Patents

用于处理视频的方法、设备和计算机程序产品 Download PDF

Info

Publication number
CN116264606A
CN116264606A CN202111531776.2A CN202111531776A CN116264606A CN 116264606 A CN116264606 A CN 116264606A CN 202111531776 A CN202111531776 A CN 202111531776A CN 116264606 A CN116264606 A CN 116264606A
Authority
CN
China
Prior art keywords
frames
instance
training
resolution
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111531776.2A
Other languages
English (en)
Inventor
P·费尔南德斯·奥雷利亚纳
陈强
贾真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dell Products LP
Original Assignee
Dell Products LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dell Products LP filed Critical Dell Products LP
Priority to CN202111531776.2A priority Critical patent/CN116264606A/zh
Priority to US17/572,203 priority patent/US11928855B2/en
Publication of CN116264606A publication Critical patent/CN116264606A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0117Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Systems (AREA)

Abstract

本公开的实施例涉及处理视频的方法、设备和计算机程序产品。该方法包括:从视频的第一实例中选择具有第一类型的特征的帧作为第一候选集,第一实例具有第一分辨率;至少基于第一候选集生成训练帧集合;获取训练帧集合在视频的第二实例中的对应帧集合,第二实例具有低于第一分辨率的第二分辨率;以及利用训练帧集合与对应帧集合来确定用于从第二分辨率向第三分辨率转换的转换参数。该方案为视频转换模型的训练提供规模更小并且质量更高的训练集,从而在节约计算资源和提高训练速度的同时,也改进了训练的质量。

Description

用于处理视频的方法、设备和计算机程序产品
技术领域
本公开的实施例涉及视频技术,并且更具体地,涉及用于处理视频的方法、设备和计算机程序产品。
背景技术
在视频内容的传输和存储等过程中,经常需要将原始视频内容通过压缩等技术转换成较低分辨率的视频以节约传输和存储等资源,并且在需要时视频将重建为更高分辨率的视频。然而,在多样的视频内容和应用场景中,提高视频的重建质量和效率常常依然是一项挑战。
发明内容
在本公开的第一方面,提供了一种处理视频的方法,包括:从视频的第一实例中选择具有第一类型的特征的帧作为第一候选集,第一实例具有第一分辨率;至少基于第一候选集生成训练帧集合;获取训练帧集合在视频的第二实例中的对应帧集合,第二实例具有低于第一分辨率的第二分辨率;以及利用训练帧集合与对应帧集合来确定用于从第二分辨率向第三分辨率转换的转换参数。
在本公开的第二方面,提供了一种电子设备,包括处理器以及与该处理器耦合的存储器,存储器具有存储于其中的指令,该指令在被处理器执行时使设备执行动作,该动作包括:从视频的第一实例中选择具有第一类型的特征的帧作为第一候选集,第一实例具有第一分辨率;至少基于第一候选集生成训练帧集合;获取训练帧集合在视频的第二实例中的对应帧集合,第二实例具有低于第一分辨率的第二分辨率;以及利用训练帧集合与对应帧集合来确定用于从第二分辨率向第三分辨率转换的转换参数。
在本公开的第三方面中,提供了一种计算机程序产品,该计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令,该机器可执行指令在被执行时使机器执行根据本发明的第一方面的方法。
请注意,提供本发明内容是为了以简化的形式来介绍对概念的选择,这些概念在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开内容的关键特征或主要特征,也无意限制本公开内容的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中:
图1图示了本公开的实施例能够在其中实现的示例环境的示意图;
图2图示了根据本公开的一些实施例的处理视频的方法的流程图;
图3图示了根据本公开的一些实施例的用于生成训练帧集合的非限制性示例管线;
图4图示了根据本公开一些实施例的更新训练帧集合的方法;以及
图5示出了可以用来实现本公开的实施例的设备的示意性框图。
在所有附图中,相同或相似的附图标记表示相同或相似的元素。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应理解,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。而是,提供这些实施例是为了更加透彻和完整地理解本公开。应理解,本公开的附图及实施例仅是示例性的,并非用于限制本公开的保护范围。
本文中使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。
术语“视频超分辨率(VSR)”是指通过技术手段从(诸如经压缩的)较低分辨率的视频数据构建或重建出较高分辨率(诸如原始分辨率)的视频数据。经压缩的视频的相比原视频要小得多(例如,对视频帧进行×4缩减可以大致将视频减少到原视频大小的1/16),因此在与视频相关的多个领域(例如,视频传输和流媒体、视频会议、远程游戏等)中,经常传输或存储较低分辨率的视频并且在需要时结合VSR技术来重建较高分辨率的视频。
在诸如VSR的应用领域中,转换模型(例如基于深度神经网络的模型)通常用于视频的不同分辨率版本之间的转换。为了训练模型以确定模型的转换参数等,需要提供包含场景和视觉模式的视频帧作为训练数据,使得模型能够学习如何转换(例如重建)其中各种特征。常规策略是从同一视频内容的高分辨率版本(诸如原始版本)和低分辨率版本(诸如经压缩的版本)提取所有帧,并且生成高分辨率帧和低分辨率帧的对来作为训练数据中的样本。然而,将视频中的原始帧直接用于训练需要大量计算资源和较长的训练时间。例如,中等尺寸的视频包含数以万计的帧(例如,10分钟60帧/秒=36000帧),大尺寸的视频/电影包含数十万帧。这些帧的原始格式可能占用多100GB的存储空间。仅将视频中提取的所有原始帧训练一遍(pass/epoch)就可能花费数小时,而完整的训练周期通常需要训练数十甚至数百遍。为此,需要配备高端图形处理器、大的存储器和存储空间的集群。
另一方面,原始帧集合通常是不平衡的并且包含大量冗余内容(例如,同一场景),这在各种现实生活中的视频的帧集合中尤其常见。这种冗余内容不像重复数据那样可以简单地使用诸如基于散列的方法来检测和消除。例如,在用于训练VSR模型的视频中,某个角色的面部可能在上千个帧中出现,但其中没有任何完全相同的帧。然而,选择其中一些代表性帧可能足以用于模型训练。
上述的不平衡也会影响模型的训练质量,使得模型在不必要地过多学习冗余内容的同时对出现频率较低的内容学习不充分。例如,几乎在所有视频中都存在一些很少出现的元素或场景。包括这些元素或场景的数据通常被称为长尾数据。长尾数据仅占整个视频的很小一部分,并且因此在利用原始帧集合来训练模型时经常无法被模型充分学习,从而导致模型转换长尾数据包含的各种特征时性能不佳。例如,VSR模型可能无法很好地重建在视频中很少出现的可乐罐上的结构。然而,长尾数据可能包含关键信息或重要元素。例如,某些字符可能在训练视频中只出现很短的时间(例如出现2秒的路标、出现3秒钟的下标等),但是当这些字符在重建的视频中质量不佳时很容易被发现并且导致糟糕的感知体验。
为至少部分地解决上述问题以及其它潜在问题,本公开的实施例提出了一种用于视频处理的方案。该方案使用一系列特征选择功能来从视频帧集合中选取与训练目标最相关的帧,并且基于这些帧来生成训练集用于视频转换模型的训练。这些功能所形成的摘要管线可以标识与训练目标相关/无关的特征并且将其保留/不保留在训练数据中。该方案可以显著降低训练帧的数目(取决于视频的特性,在一些情况下例如可以降低多达95%);同时,原始视频中出现频率较低的重要特征可以得以被保存,从而避免不平衡学习。由此,本方案在节约预处理和训练所需的计算资源和提高训练速度的同时,也提高了训练的质量。
图1示出了本公开的实施例能够在其中实现的环境100的示意图。环境100包括计算设备101,计算设备101被配置为从具有不同分辨率的视频内容的帧集合中选择训练数据,并且利用所选择的训练数据来训练视频转换模型(例如VSR模型)。计算设备101可以是诸如视频提供方的平台上的设备或者向视频提供方提供服务的第三方的设备。在一些情况下,计算设备101也可以是与视频接收方相关联的设备。尽管被示出为单个设备,但是计算设备101也可以是多个设备、虚拟设备、或者任何其他形式的适于实现本公开的实施例的设备。
为说明起见,图1中还示出了环境100中的不同视频实例,即,第一实例110和第二实例120。第一实例110是视频内容的第一版本,具有较高的第一分辨率;第二实例120是相同视频内容的另一版本,具有较低的第二分辨率。例如,在某些情况下,第一实例110可以是视频的原始版本,而第二实例120可以是使用下采样从第一实例110获取的版本。
根据本公开的实施例,计算设备101可以使用选自第一实例110的训练帧集合115中的帧和第二实例120中对应帧的对作为训练样本,并且使用这些训练样本来训练视频的转换模型,以确定模型的各种转换参数。此外,在某些实施例中,如下下文将会描述的,计算设备101还可以可选地利用所确定的转换参数来将第二实例120转换成第三实例130以供使用或者评估转换参数的质量。计算设备101可以使用根据本公开的实施例的方法来执行上述过程,下文将结合其他附图对此进行更详细的描述。
应理解,仅出于说明目的描述环境100,而不暗示对于本公开的范围的任何限制。环境100还可以包括图1中未示出的设备、组件和其他实体。并且,本公开的实施例还可以被应用在与环境100不同的环境中。
图2图示了根据本公开的一些实施例的处理视频的示例方法200的流程图。方法200可以例如由计算设备101(更具体地,计算设备101的处理器)执行。应理解,方法200还可以包括未示出的附加动作。以下参考图1来详细描述方法200。
在框210处,计算设备101从第一实例110中选择具有第一类型的特征的帧作为第一候选集。这是为了选择用于训练视频转换模型的训练数据。在一些实施例中,计算设备101可以使用相应的模式识别方法来选择具有第一类型的特征的帧。例如,在某些实施例中,计算设备101可以使用面部识别算法来从第一实例110中选择具有面部的帧。
在某些实施例中,第一类型的特征的具体类型例如可以根据第一实例120包含的内容类型(例如,电影、游戏等)、特性(例如,电影的风格)和待训练模型的应用领域(例如,在线游戏、电话会议等)等因素来确定。
例如,假设第一实例110是电影视频、并且其中字幕直接作为图像的一部分嵌入帧中(而不是作为单独的元数据)。此时,计算设备101可以使用内嵌字幕识别方法来选择第一实例110中包括字幕的帧。内嵌字幕识别可以被认为是光学字符识别(OCR)的特定示例。在其他一些实施例中,计算设备101还可以使用其他OCR方法来选择具有其他类型的字符(诸如路标)的帧。
作为另一示例,第一实例110可以是用于训练游戏视频流重构的游戏视频。此时,视频中游戏玩家最关注的感兴趣区域与训练目标高度相关。因此,在这样的一些实施例中,计算设备101可以使用感兴趣区域识别方法来从第一实例110中选择包括感兴趣区域的帧。本发明的范围不限于具体的特征类型和选择具有这些类型的帧的具体方法。
在框220处,计算设备101至少基于第一候选集来生成训练帧集合115。在最简单的实施例中,计算设备101可以将第一候选集作为训练帧集合115。在各种实施例中,在将第一候选集作为训练帧集合115或其一部分之前,方法200还可以包括计算设备101对第一候选集进行进一步的筛选,这将在下文详述。
在一些实施例中,计算设备101可以从第一候选集中标识具有另一类型(本文称为第二类型)的特征的帧,并且将不具有第二类型的特征的帧从第一候选集移除。例如,在将面部作为第一类型的特征而选择了第一候选集之后,计算设备101可以从中进一步标识具有蓝眼的帧,并且仅将这些帧保留在第一候选集中。将理解,以同样的方式,计算设备101还可以仅将同时具有更多类型的特征的帧保留在第一候选集中。
在一些实施例中,计算设备101还可以从第一候选集中标识出具有另一类型(本文称为第三类型)的特征的帧,并且将这些帧从第一候选集中移除。这种操作在视频中具有大量冗余内容的实施例中尤其有益。例如,计算设备101可以使用最常见对象/背景识别方法来标识第一候选集中大量重复出现的一种或多种特征(诸如在上千帧中出现的仅有细微差别的同一人的面部),并且将包括这些特征的冗余帧从第一候选集中移除。通过这种方式,计算设备101可以避免在基于第一候选集生成的训练帧集合115中提供太多相同特征而导致稍后不平衡的训练。
训练帧集合115中常常需要包括多个类型的特征以供模型学习。例如,用于重建在线会议的视频流的模型可能需要充分学习视频中参会者的面部以及会议现场用于书写的白板。在这样的一些实施例中,方法200还可以包括计算设备101从第一实例110中选择具有第四类型的特征的帧作为第二候选集,并且基于第一候选集和第二候选集来生成训练帧集合115。计算设备101可以以与上文所述的选择第一候选集的方式类似的方式来选择第二候选集合以及对第二候选集进行进一步的筛选。
在一些实施例中,以如上所述的方式,计算设备101还可以从第一实例110中选择更多候选集作为训练帧集合115的部分。在这些实施例中,计算设备101可以使用特定于应用的多种不同识别方法以及上述选择步骤的适当组合从第一实例110中选择训练帧集合115。从高层级来看,这样的生成训练帧集合115的整个过程可以被视为一系列级联的选择功能形成的摘要管线。在管线的每个步骤(即,选择功能)中,计算设备101可以以如上所述的各种方式来对第一实例110的一部分帧进行标识和选择。稍后将参考图3更详细地介绍根据本公开的实施例来生成训练帧集合115的示例管线300。
继续参考图2,在框230处,计算设备101获取训练帧集合115在第二实例120中的对应帧集合。在某些情况下,为了提高训练质量,计算设备101可以将训练帧集合115中的(分辨率较高的)一个帧与(分辨率较低的)第二实例120中的多个帧对应。作为示例,计算设备101可以使用移动窗口来在第二实例120的帧时间序列中选择对应帧。例如,对于训练帧集合115中的在第一实例110的帧时间序列中为第N个的帧,计算设备110可以获取第二实例120的时间序列中顺序在[N-a,N+b]区间中的帧作为其对应帧。指定移动窗口大小的整数a、b可以随具体实现而变化。应理解,选择对应帧集合的方法也可以随具体实现而变化,本公开的方法不受此限制。
在框240处,计算设备101利用训练帧集合115与对应帧集合来确定用于从第二分辨率向第三分辨率转换的转换参数。第三分辨率是与第二分辨率不同的分辨率。例如,在VSR重建中,计算设备101可以使用训练帧集合115中的帧与其对应帧的对作为训练样本来训练视频重建模型以确定其参数,该视频重建模型用于将具有第二分辨率的视频(例如经压缩的视频)重建为具有高于第二分辨率的第三分辨率(例如原始分辨率)的视频。第三分辨率可以与第一分辨率相同,也可以与第一分辨率不同。本公开的方法不受转换模型的具体形式和分辨率的具体数值限制。在一些实施例中,计算设备101可以将训练样本打乱顺序,并且以小批量的形式向待训练的视频模型馈送训练对直到模型收敛,从而确定模型的转换参数。
图3图示了根据本公开的一些实施例的非限制性示例管线300,该示例管线300用于从图1的第一实例110生成训练帧集合115。示例管线300可以由***101在例如图2的方法200的框210和框220中使用。以下将参考图1来详细描述示例管线300。
使用选择功能1 310,计算设备101从第一实例110的帧中选择具有第一类型特征的帧作为第一候选集。以视频会议为例,这些帧可以是具有面部的帧。
然后,计算设备101将第一实例110和从选择功能1中所选择的第一候选集传递给选择功能2 320。取决于具体实现,选择功能2 320可以是由计算设备101执行的以下任何一种操作:从第一候选集中标识具有第二类型的特征(例如,蓝眼)的帧,并且将不具有第二类型的特征的帧从第一候选集移除;从第一候选集中标识出具有第三类型的特征(例如,大量重复出现的某人的脸)的帧,并且将这些帧从第一候选集移除;或者从第一实例110中选择具有第四类型的特征的帧(例如,书写白板)作为第二候选集。
省略号330表示管线300还可以包括在图3中未示出的多个选择功能,例如,选择功能3、选择功能4、…、以及选择功能N-1,其中N的数目取决于具体应用。在生成训练帧集合115的过程中,计算设备101使用每个选择功能从已选择的候选集中进一步标识具有附加特征的帧以供保留在候选集中或从候选集移除,或者从第一实例110选择附加候选集以加入已选择的候选集。例如,***101可以使用选择功能3来在包括书写白板特征的第二候选集中移除白板上没有字符的帧。例如,***101可以使用选择功能4来从第一实例110选择具有显示屏的帧。最后,在使用最终的选择功能N进行选择之后,计算设备101基于管线101的输出来生成训练帧集合。例如,计算设备101可以将管线300最终输出的多个候选集的合集去除重复帧之后作为训练帧集合。
应理解,上文提及的管线300中的各个选择功能和这些功能被使用的顺序仅作为示例。取决于第一实例115的类型和性质、以及待训练模型将被应用的领域等,***101可以构建具有不同选择功能和/或选择功能的不同使用顺序的管道。也应理解,在管线300中,选择多个相关联特征的多个功能可以被实现为一个功能,从多个候选集中保留或移除相同类型特征的多个功能等也可以被实现一个功能,并且一个功能可以包括多个子功能。除了选择功能以外,管线300中还可以包括未示出的附加功能,诸如,在从第一实例110初步选择每个候选集之前对第一实例110进行初步的去冗余操作。
根据本公开的实施例所构建的摘要管线使得能够以多种模式识别方法来从初始的视频帧集合中向下选择应当用于训练的帧。与这样的识别方法常规被用于选择从人类角度来看“最有信息量”的内容不同,在本公开中,这些识别方法在摘要管线中被用来选择最可能使待训练模型学习到转换所需的所有特征并且尽量简洁的帧集合。该管线允许在训练数据中保留出现频率较低的独特特征、添加之前未被选择的所需特征、以及移除不会影响或会对模型的训练产生负面影响的帧,从而提高了训练数据的质量。
在使用根据本公开的实施例的方法确定了视频转换模型的转换参数之后,可以对所确定的模型进行质量评估,并且基于评估结果来更新训练帧集合,以对模型进行迭代训练。图4图示了根据本公开一些实施例的更新已选择的训练帧集合的示例方法400。方法400可以例如由图1所示的计算设备101来执行,并且可以在计算设备101通过图2的方法200确定了转换参数之后被执行。以下参考图1来详细描述方法400。
在框410处,计算设备101可以利用已确定的转换参数,将第二实例120转换成视频的具有第三分辨率的第三实例130。以VSR重建为例,计算设备可以为相应的超分辨率重建模型设置已确定的转换参数,向该模型馈送需要被重建的分辨率较低的第二实例120并且运行模型,以获取经重建的分辨率更高的第三实例130。
在框420处,计算设备101可以确定第三实例130中质量低于阈值质量的帧的数目是否超过阈值数目。在一些实施例中,计算设备101可以使用结构性相似(SSIM)、PSNR(峰值信噪比)、MSE(均方误差)或者任何适用的其他算法来测量第二实例120的帧与第三实例130的帧之间的关系,以评估第三实例130中的帧的质量。
如果在框420处确定第三实例130中质量低于阈值质量的帧的数目超过阈值数目,则方法400进行到框430。在框430处,设备101可以更新训练帧集合115。在一些实施例中,计算设备101可以确定第三实例130中质量低于阈值质量的帧在第一实例110中的对应帧,并且将这些对应帧添加到训练帧集合115作为更新的训练帧集合。例如,计算设备101可以利用如前文结合图2所述的移动窗口来确定第一实例110中的对应帧。本公开的方法不限于确定此处对应帧的具体方法。接下来,更新的训练帧集合可以被计算设备101用来重新生成训练对以训练模型,从而确定更新的转换参数。
在一些实施例中,如果确定第三实例130中质量低于阈值质量的帧的数目,则计算设备101可以使用根据本公开的实施例的方法从第一实例110中重新选择训练帧集合115,以用于重新训练视频转换模型。例如,计算设备101可以使用与先前使用的识别方法和/或管线不同的识别方法和/或管线来从第一实例110中重新选择训练帧集合115。在框420处获取的评估信息可以被用来调整所使用的模型和/或管线。
图5示出了可以用来实施本公开的实施例的设备500的示意性框图,设备500可以是本公开的实施例所描述的设备或装置。如图5所示,设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。虽然未在图5中示出,设备500还可以包括协处理器。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个方法或过程可由处理单元501来执行。例如,在一些实施例中,方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序被加载到RAM 503并由CPU 501执行时,可以执行上文描述的方法或过程中的一个或多个步骤或动作。
在一些实施例中,以上所描述的方法和过程可以被实现为计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言,以及常规的过程式编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这取决于所涉及的功能。也要注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进,或者使得本技术领域的其它普通技术人员能理解本文公开的各实施例。

Claims (13)

1.一种处理视频的方法,包括:
从视频的第一实例中选择具有第一类型的特征的帧作为第一候选集,所述第一实例具有第一分辨率;
至少基于所述第一候选集生成训练帧集合;
获取所述训练帧集合在所述视频的第二实例中的对应帧集合,所述第二实例具有低于所述第一分辨率的第二分辨率;以及
利用所述训练帧集合与所述对应帧集合来确定用于从所述第二分辨率向第三分辨率转换的转换参数。
2.根据权利要求1所述的方法,其中生成所述训练帧集合包括:
至少通过从所述第一候选集移除不具有第二类型的特征的帧来生成所述训练帧集合。
3.根据权利要求1所述的方法,其中生成所述训练帧集合包括:
至少通过从所述第一候选集移除具有第三类型的特征的帧来生成所述训练帧集合。
4.根据权利要求1所述的方法,其中生成所述训练帧集合包括:
从所述第一实例中选择具有第四类型的特征的帧,作为第二候选集;以及
基于所述第一候选集和所述第二候选集,生成所述训练帧集合。
5.根据权利要求1所述的方法,还包括:
利用所述转换参数将所述第二实例转换成所述视频的具有所述第三分辨率的第三实例;以及
如果确定所述第三实例中质量低于阈值质量的帧的数目超过阈值数目,则更新所述训练帧集合。
6.根据权利要求5所述的方法,更新所述训练帧集合包括:
确定所述第三实例中质量低于所述阈值质量的帧在所述第一实例中的对应帧;以及
将所述第一实例中的所述对应帧添加到所述训练帧集合,以对所述训练帧集合进行更新。
7.一种电子设备,包括:
处理器;以及
与所述处理器耦合的存储器,所述存储器具有存储于其中的指令,所述指令在被处理器执行时使所述设备执行动作,所述动作包括:
从视频的第一实例中选择具有第一类型的特征的帧作为第一候选集,所述第一实例具有第一分辨率;
至少基于所述第一候选集生成训练帧集合;
获取所述训练帧集合在所述视频的第二实例中的对应帧集合,所述第二实例具有低于所述第一分辨率的第二分辨率;以及
利用所述训练帧集合与所述对应帧集合来确定用于从所述第二分辨率向第三分辨率转换的转换参数。
8.根据权利要求7所述的电子设备,其中生成所述训练帧集合包括:
通过从所述第一候选集移除不具有第二类型的特征的帧来生成所述训练帧集合。
9.根据权利要求7所述的方法,其中生成所述训练帧集合包括:
通过从所述第一候选集移除具有第三类型的特征的帧来生成所述训练帧集合。
10.根据权利要求7所述的电子设备,其中生成所述训练帧集合包括:
从所述第一实例中选择具有第四类型的特征的帧,作为第二候选集;以及
基于所述第一候选集和所述第二候选集,生成所述训练帧集合。
11.根据权利要求7所述的电子设备,其中所述动作还包括:
利用所述转换参数将所述第二实例转换成所述视频的具有所述第三分辨率的第三实例;以及
如果确定所述第三实例中质量低于阈值质量的帧的数目超过阈值数目,则更新所述训练帧集合。
12.根据权利要求11所述的电子设备,更新所述训练帧集合包括:
确定所述第三实例中质量低于所述阈值质量的帧在所述第一实例中的对应帧;以及
将所述第一实例中的所述对应帧添加到所述训练帧集合,以对所述训练帧集合进行更新。
13.一种计算机程序产品,所述计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行根据权利要求1至5中任一项所述的方法。
CN202111531776.2A 2021-12-14 2021-12-14 用于处理视频的方法、设备和计算机程序产品 Pending CN116264606A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111531776.2A CN116264606A (zh) 2021-12-14 2021-12-14 用于处理视频的方法、设备和计算机程序产品
US17/572,203 US11928855B2 (en) 2021-12-14 2022-01-10 Method, device, and computer program product for video processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111531776.2A CN116264606A (zh) 2021-12-14 2021-12-14 用于处理视频的方法、设备和计算机程序产品

Publications (1)

Publication Number Publication Date
CN116264606A true CN116264606A (zh) 2023-06-16

Family

ID=86694770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111531776.2A Pending CN116264606A (zh) 2021-12-14 2021-12-14 用于处理视频的方法、设备和计算机程序产品

Country Status (2)

Country Link
US (1) US11928855B2 (zh)
CN (1) CN116264606A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116264606A (zh) * 2021-12-14 2023-06-16 戴尔产品有限公司 用于处理视频的方法、设备和计算机程序产品

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201603144D0 (en) * 2016-02-23 2016-04-06 Magic Pony Technology Ltd Training end-to-end video processes
US10621695B2 (en) * 2017-10-31 2020-04-14 Disney Enterprises, Inc. Video super-resolution using an artificial neural network
EP3864839A1 (en) * 2019-12-31 2021-08-18 Google LLC Optimal format selection for video players based on predicted visual quality using machine learning
US11445168B1 (en) * 2020-09-30 2022-09-13 Amazon Technologies, Inc. Content-adaptive video sampling for cost-effective quality monitoring
WO2022221205A1 (en) * 2021-04-13 2022-10-20 Headroom, Inc. Video super-resolution using deep neural networks
CN116264606A (zh) * 2021-12-14 2023-06-16 戴尔产品有限公司 用于处理视频的方法、设备和计算机程序产品

Also Published As

Publication number Publication date
US11928855B2 (en) 2024-03-12
US20230186608A1 (en) 2023-06-15

Similar Documents

Publication Publication Date Title
Pan et al. Efficient in-loop filtering based on enhanced deep convolutional neural networks for HEVC
Gu et al. Image processing using multi-code gan prior
Zhang et al. Semantic image inpainting with progressive generative networks
CN112102212B (zh) 一种视频修复方法、装置、设备及存储介质
CN111985281B (zh) 图像生成模型的生成方法、装置及图像生成方法、装置
CN113066034A (zh) 人脸图像的修复方法与装置、修复模型、介质和设备
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及***
CN116681584A (zh) 一种多级扩散图像超分辨算法
CN110852980A (zh) 交互式图像填充方法及***、服务器、设备及介质
CN117576264B (zh) 图像生成方法、装置、设备及介质
CN111327946A (zh) 视频质量评价和特征字典的训练方法、装置和介质
CN116264606A (zh) 用于处理视频的方法、设备和计算机程序产品
CN110689498A (zh) 一种基于对非关注点部分分级模糊的高清视频优化方法
CN112559868A (zh) 信息召回方法、装置、存储介质及电子设备
CN117336527A (zh) 视频编辑的方法和装置
CN112995673A (zh) 一种样本图像处理方法、装置、电子设备以及介质
CN113542780B (zh) 一种网络直播视频的压缩伪影去除方法及装置
CN112950501B (zh) 基于噪声场的图像降噪方法、装置、设备及存储介质
CN115311152A (zh) 图像处理方法、装置、电子设备以及存储介质
Jia et al. Learning rich information for quad bayer remosaicing and denoising
CN113177483A (zh) 视频目标分割方法、装置、设备以及存储介质
CN116051662B (zh) 图像处理方法、装置、设备和介质
US11647153B1 (en) Computer-implemented method, device, and computer program product
Liu et al. Soft-introVAE for continuous latent space image super-resolution
CN112807689B (zh) 游戏视频处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination