CN112528780B

CN112528780B - 通过混合时域自适应的视频动作分割

Info

Publication number: CN112528780B
Application number: CN202011371776.6A
Authority: CN
Inventors: 李抱朴; 陈敏弘; 包英泽
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2019-12-06
Filing date: 2020-11-30
Publication date: 2023-11-21
Anticipated expiration: 2040-11-30
Also published as: EP3832534A1; US11138441B2; US20210174093A1; CN112528780A; JP2021093150A; EP3832534B1; JP6998440B2

Abstract

本申请涉及通过混合时域自适应的视频动作分割，并公开了用于训练视频分割***的计算机实施的方法。视频分割***用于将一组动作标签分配给视频的帧。方法包括：对于来自第一组视频数据和来自第二组视频数据的每个输入视频，将输入视频的帧的一组帧级特征输入至视频分割网络，第一组视频数据包括具有关联的动作标签的视频，第二组视频数据包括不具有关联的动作标签的视频；对于来自第一组视频数据和来自第二组视频数据的每个输入视频，输出最终组帧级预测，其中来自输入视频的一组帧中的至少一些帧的每个帧具有关联的标签预测；计算视频分割网络的损失；以及使用计算的损失更新视频分割网络。

Description

通过混合时域自适应的视频动作分割

技术领域

本公开总体上涉及用于可以提供改进的计算机性能、特征和用途的计算机学习的***和方法。更具体地，本公开涉及用于视频动作分割的***和方法。

背景技术

视频动作分割对于包括视频监视和人类活动的分析的广泛应用是重要的。给定视频，典型的目标是按时间同时分割视频，并预测具有对应动作类别的每个分段。尽管鉴于深度神经网络的近期成功，视频分类已经显示了巨大的进步，但是在长期未修剪的视频中在时间上定位和识别动作片段仍然具有挑战性。

动作分割方法可以被分解为使用卷积神经网络提取低级特征和应用高级时间模型。受到语音合成的进步的鼓舞，最近的方法依赖于时间卷积以使用时间卷积滤波器的层次结构来捕获跨帧的远距离依赖性。

尽管这些时间模型的成功，但是性能增益来自于用于完全监督学习的密集注释的数据。由于逐帧手动精确注释动作既费时又极具挑战性，这些方法不容易扩展到大规模的现实世界应用。因此，越来越多地关注利用辅助数据来缓解该问题，辅助数据在某种程度上更容易获得。例如，一些研究人员使用动作抄本获得动作发生顺序的先验知识。然而，即使在这些辅助数据的情况下，数据量也可能受到限制。

因此，需要用于使用未标记数据的视频动作分割的***和方法。

发明内容

本申请涉及一种用于训练视频分割***的计算机实施的方法，该视频分割***用于将一组动作标签分配给视频的帧。其中，方法包括：对于来自第一组视频数据和来自第二组视频数据的每个输入视频，将输入视频的帧的一组帧级特征输入至视频分割网络。第一组视频数据包括具有关联的动作标签的视频，第二组视频数据包括不具有关联的动作标签的视频。该视频分割网络包括：至少一个域自适应时间卷积网络。至少一个域自适应时间卷积网络包括：多层时间卷积网络，接收与输入视频的一组帧级特征相关的输入，并输出一组时空细化的帧级特征；分类层，接收一组时空细化的帧级特征，并输出一组帧级预测；局部时域自适应模型，接收一组时空细化的帧级特征，并输出一组时空细化的帧级特征来自于第一组视频数据还是第二组视频数据的输入视频的域预测；域关注池化组件，接收一组时空细化的帧级特征和域预测，并使用域关注权重将一组时空细化的帧级特征组合为视频级特征；以及全局时域自适应模型，接收视频级特征，并输出视频级特征来自于第一组视频数据还是第二组视频数据的输入视频的视频级域预测。方法还包括：对于来自第一组视频数据和来自第二组视频数据的每个输入视频，输出最终组帧级预测，其中来自输入视频的一组帧中的至少一些帧的每个帧具有关联的标签预测；计算视频分割网络的损失；以及使用计算的损失更新视频分割网络。计算的损失包括以下中的至少一个：响应于输入视频来自第一组视频数据，与相对于输入视频的关联的动作标签的最终组帧级预测有关的预测损失；局部域损失，表示在预测一组时空细化的帧级特征来自于第一组视频数据还是第二组视频数据的输入视频时的错误；以及全局域损失，表示在预测视频级特征来自于第一组视频数据还是第二组视频数据的输入视频时的错误。

本申请还涉及一种用于使用视频分割***将标签分配给视频的至少一些帧的计算机实施的方法。其中，方法包括：将视频输入至视频分割***，其中，视频分割网络包括：特征生成器，接收视频并将视频转换为一组帧级特征；和视频分割网络，包括至少一个域自适应时间卷积网络。至少一个域自适应时间卷积网络包括：多层时间卷积网络，接收与输入视频的一组帧级特征有关的输入，并输出一组时空细化的帧级特征；分类层，接收一组时空细化的帧级特征，并输出一组帧级预测。方法还包括：针对视频，输出最终组帧级预测，其中来自视频的一组帧的至少一些帧的每个帧具有关联的标签预测。其中，至少一个域自适应时间卷积网络通过如上所述的方法而被训练。

本申请还涉及非暂时性计算机可读介质，包括一个或多个指令序列，当由一个或多个处理器执行时，指令序列导致上述用于训练视频分割***的计算机实施的方法。视频分割***用于将一组动作标签分配给视频的帧。

附图说明

将参考本公开的实施例，其示例可以在附图中示出。这些图旨在说明性的，而非限制性的。尽管一般在这些实施例的上下文中描述本公开，应当理解的是，并不旨在将本公开的范围限制为这些特定实施例。图中的项可能未按比例。

图1描绘根据本公开的实施例的用于视频分割的混合时域自适应(mixedtemporal domain adaption，MTDA)方法的概述。

图2描绘根据本公开的实施例的包括单阶段时间卷积网络(temporalconvolutional network，TCN)和局部时域适配器(local temporal domain adaptor，LT-DA)的域自适应时间卷积网络(domain adaptive temporal convolutional network，DA-TCN)的视图。

图3图形地描绘根据本公开的实施例的具有域关注机制的全局时域适配器的概述。

图4描绘根据本公开的实施例的包括两个模块(域关注时间池化和域关注熵)的域关注机制。

图5描绘根据本公开的实施例的混合时域自适应***的整体架构。

图6描绘根据本公开的实施例的用于训练混合时域自适应(MTDA)网络/视频分割网络的方法。

图7描绘根据本公开的实施例的训练的MTDA/视频分割***。

图8描绘根据本公开的实施例的用于将训练的MTDA/视频分割***用于视频动作预测推断的方法。

图9示出根据本公开的实施例的针对活动的对输入视频的时间动作分割的定性结果。

图10描绘根据本公开的实施例的计算设备/信息处理***的简化框图。

具体实施方式

在以下描述中，出于解释的目的，阐述具体细节以提供对本公开的理解。然而，对于本领域的技术人员将明显的是，可以在没有这些细节的情况下实践本公开。此外，本领域的技术人员将认识到，以下描述的本公开的实施例可以多种方式来实施，诸如过程、装置、***、设备或有形计算机可读介质上的方法。

图中示出的组件或模块是本公开的示例性实施例的说明，并且意在避免使本公开模糊。还应当理解的是，在整个讨论中，组件可以被描述为单独的功能单元，其可以包括子单元，但是本领域技术人员将认识到，各种组件或其的部分可以被划分为单独的组件或者可以集成在一起，包括集成在单个***或组件中。应当注意，本文讨论的功能或操作可以被实施为组件。组件可以以软件、硬件或其组合来实施。

此外，附图内的组件或***之间的连接不旨在限于直接连接。相反，这些组件之间的数据可以由中间组件修改、重新格式化或以其他方式更改。此外，可以使用附加的或更少的连接。还应注意，术语“耦接”、“连接”或“通信耦接”应被理解为包括直接连接、通过一个或多个中间设备的间接连接、以及无线连接。

在说明书中对“一个实施例”，“优选实施例”，“一实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构、特性或功能包括在本公开的至少一个实施例中，并可以在一个以上的实施例中。此外，上述短语在说明书中各个地方的出现不一定全部指代一个或多个相同的实施例。

在说明书中的各个地方使用某些术语是为了说明，且不应被解释为限制性的。服务、功能或资源不限于单个服务、功能或资源；这些术语的使用可以指相关服务、功能或资源的分组，其可以是分布式的或聚合的。

术语“包括”、“包含”，“具有”和“含有”应被理解为开放式术语，并且以下任何列表都是示例，并不意味着限于所列出的项。“层”可以包括一个或多个操作。词语“最佳”、“优化”、“最优化”等指对结果或过程的改进，并不要求指定的结果或过程已达到“最佳”或峰值状态。

本文使用的任何标题仅用于组织目的，并且不应被用来限制说明书或权利要求的范围。本专利文件中提及的每个参考文献/文件均通过引用来整体地并入本文。

此外，本领域技术人员将认识到：(1)可以可选地执行某些步骤；(2)步骤可能不限于本文阐述的特定顺序；(3)某些步骤可以不同的顺序执行；(4)某些步骤可以同时进行。

应当注意，本文提供的任何实验和结果均以说明方式提供，并且是在使用一个或多个特定实施例的特定条件下执行的；因此，这些实验及其结果均不应当用于限制当前专利文件的公开范围。

A.一般介绍

本文实施例将动作分割视为域自适应(DA)问题，并通过使用辅助未标记视频执行无监督DA来减少域差异。为减少空间和时间方向的域差异，提出混合时域自适应(MTDA)方法的实施例以跨域联合对齐帧级和视频级嵌入特征空间，并且进一步与域关注机制结合，以集中于对准具有更高域差异的帧级特征，导致更有效的域自适应。综合实验结果验证实施例优于先前的现有技术水平方法。实施例可以通过使用辅助未标记视频来有效地调整模型，导致诸如视频监视和人类活动分析的大规模问题的进一步应用。

在本文的一个或多个实施例中，鉴于观察到主要挑战是由跨域的时空变化引起的分布差异，将动作分割视为域自适应(domain adaptation，DA)问题。例如，就空间位置和时间持续而言，不同的人(也可以称为主体)可以以不同的样式执行相同的动作。背景环境中的变化也可以导致总体域差异。为解决域差异问题，本文的实施例利用更容易获得的辅助未标记视频。

如上所述，视频可能遭受沿空间方向、时间方向或两者的域差异，需要对嵌入特征空间沿两个方向的对齐。然而，大多数DA方法仅针对图像而非视频开发。因此，本文提出混合时域自适应(MTDA)实施例，以跨域联合对齐帧级和视频级嵌入特征空间。图1描绘根据本公开的实施例的用于视频分割的混合时域自适应(MTDA)***和方法的概述。实施例可以进一步与域关注机制集成，以集中于对齐具有更高域差异的帧级特征，导致更有效的域自适应。

图1图形地描绘根据本公开的实施例的用于动作分割的混合时域自适应(MTDA)实施100的概述。源数据集105指的是具有标签的视频数据，且目标数据集110指的是没有标签(或不使用标签)的视频数据。如图所描绘的，使用时间卷积(例如时间卷积模块115和120)提取局部时间特征(例如帧级特征125和130)。然后，利用域关注帧聚合(例如，域关注帧聚合模块135和140)获得全局时间特征(例如，视频级特征145和150)。应当注意，时间卷积模块115和120对于源数据集和目标数据集两者可以是相同的模块。类似地，域关注帧聚合模块135和140对于源数据集和目标数据集两者可以是相同的模块。最后，通过共同执行局部和全局时域自适应(例如，局部时域自适应模块132和全局时域自适应模块152)来减小域差异。在一个或多个实施例中，***100输出(160)用于视频的一组帧的分类标签。在一个或多个实施例中，在训练阶段，用于源数据集视频的输出分类标签与用于源数据集105的基本事实标签比较，以获得用于更新***100的预测损失。在实施例中，训练***时也可以使用其他损失。

对具有高时空域差异的三个数据集(数据集A、数据集B和数据集C)测试了实施例，并且对所有三个数据集实现了最新现有技术水平的性能。由于本文的实施例可以仅使用未标记视频而将在一个环境中训练的模型适应于新环境，而无需额外的手动注释，其适用于大规模的现实世界场景，例如视频监视。

一些贡献包括但不限于：

1、局部时域自适应：本文提出学习域不变帧级特征的有效的基于对抗的DA方法的实施例。据作者所知，这是用于动作分割的利用未标记视频作为辅助数据来减少时空变化的第一项工作。

2、混合时域自适应(MTDA)：在一个或多个实施例中，通过集成对齐视频级特征空间的附加DA机制实施例，局部和全局嵌入特征空间被跨域联合对齐。此外，域关注机制实施例可以被集成以聚合域特定的帧以形成全局视频表示，导致更有效的域自适应。

3、实验和分析：对三个具有挑战性的现实世界数据集执行了评估，发现本公开的实施例优于所有先前的现有技术水平方法。还对不同的设计选择执行了分析和消融研究，以识别各种组件的贡献。

B.相关工作

在本部分中，回顾动作分割的一些近期工作，包括完全监督和弱监督设置。下面还讨论了用于图像和视频的一些最相关的域自适应工作。

1、动作分割

受语音合成进步的鼓舞，最近的方法依靠时间卷积以使用时间卷积滤波器的层次结构来捕获跨帧的远程依赖性。编码器-解码器时间卷积网络(encoder-decoder temporalconvolutional network，ED-TCN)(C.Lea，MD Flynn，R.Vidal，A.Reiter和GD Hager，Temporal convolutional networks for action segmentation and detection，IEEEConference on Computer Vision and Pattern Recognition(CVPR)，2017)遵循编码器-解码器架构，其中在编码器中具有时间卷积和池化，并在解码器中执行升采样并随后执行解卷积。TricorNet(L.Ding和C.Xu，Tricornet:A hybrid temporal convolutional andrecurrent network for video action segmentation，arXiv preprint arXiv：1705.07818，2017年)用双向LSTM(Bi-LSTM)替代ED-TCN中的卷积解码器。TDRN(P.Lei和S.Todorovic，Temporal deformable residual networks for action segmentation invideos，IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018)在ED-TCN上建立并使用可变形卷积替代正常卷积并向编码器-解码器模型加入残差流。MS-TCN(Y.A.Farha和J.Gall，MS-TCN:Multi-Stage Temporal Convolutional Network forAction Segmentation，IEEE Conference on Computer Vision and PatternRecognition(CVPR),2019)堆叠多个阶段的时间卷积网络(TCN)，其中每个TCN包含执行因果扩张的一维(1D)卷积的多个时间卷积层。使用多阶段架构，每个阶段从上一阶段获取并细化初始预测。本文的实施例利用MS-TCN的方面，但集中于有效地利用未标记视频而不是修改架构的开发方法。由于密集标注的困难性，越来越多的关注于通过利用辅助数据来缓解此问题的弱监督设置。HTK(H.Kuehne，A.Richard和J.Gall，Weakly supervisedlearning of actions from transcripts，Computer Vision and Image Understanding(CVIU)，163：78-89，2017年)和GRU(A.Richard，H.Kuehne和J.Gall，Weakly supervisedaction learning with RNN based fine-to-coarse modeling,IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2017)基于辅助视频抄本，在从线性对齐开始的迭代过程中训练模型。TCFPN(L.Ding和C.Xu，Weakly-supervised actionsegmentation with iterative soft boundary assignment，IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2018)使用时间卷积特征金字塔网络和边界处的软标签机制，进一步提高性能。与这些方法相反，使用容易获得的未标记视频，而不使用视频抄本。

2、域自适应

鉴于不使用任何DA方法的深度CNN特征已经显示出优于使用手工制作的特征的传统DA方法的事实，最新的DA方法是基于被设计为解决域转移问题的深度学***均差异(maximummeandiscrepancy，MMD)和相关对齐(correlation alignment，CORAL)函数的变化。通过减小分布的距离，基于差异的DA方法缩小跨域的间隙。另一方法(基于对抗的DA)通过将域区分器集成到架构中，采用与生成对抗网络(generative adversarial network，GAN)类似的概念。通过对抗目标，优化区分器以分类不同的域，同时在相反方向中优化特征提取器。对抗区分域自适应(adversarial discriminative domain adaptation，ADDA)(E.Tzeng，J.Hoffman，K.Saenko和T.Darrell，Adversarial Discriminative Domain Adaptation，IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017)使用倒置的标记GAN损失将优化分为两部分：一个用于区分器，另一个用于生成器。相反，在某些工作中采用梯度反转层(gradient reversal layer，GRL)来反转梯度，以便区分器和生成器被同时优化。最近，域自适应的可转移关注(transferable attention for domainadaptation，TADA)(X.Wang，L.Li，W.Ye，M.Long和J.Wang，AAAI Conference onArtificial Intelligence(AAAI),2019)采用关注机制来适应可转移区域和图像。

3、动作的域自适应

与基于图像的DA不同，基于视频的DA仍是未开发的领域。一些工作专注于只具有少数重叠类别的小规模视频DA。W.Sultani和I.Saleemi(Human action recognitionacross datasets by foreground-weighted histogram decomposition，IEEEconference on Computer Vision and Pattern Recognition(CVPR),2014)通过降低背景的影响来提高域普遍性。T.Xu，F.Zhu，E.K.Wong和Y.Fang(Dual Many-To-One-Encoder-Based Transfer Learning For Cross-Dataset Human Action Recognition,Image andVision Computing,55:127–137,2016)使用浅神经网络将源特征和目标特征映射至公共特征空间。潜在子空间上的动作建模(action modeling on latent subspace，AMLS)(A.Jamal，V.P.Namboodiri，D.Deodhare和K.Venkatesh，Deep Domain Adaptation InAction Space,British Machine Vision Conference(BMVC),2018)在使用PCA获得的Grassmann流形上采用预提取的C3D(卷积3D)特征(D.Tran，L.Bourdev，R.Fergus，L.Torresani和M.Paluri，Learning spatiotemporal features with 3D convolutionalnetworks，IEEE International Conference on Computer Vision(ICCV),2015)。然而，以上工作中使用的数据集太小而无法具有足够的域偏移来评估DA性能。最近，Chen等(M.-H.Chen，Z.Kira，G.AlRegib，J.Woo，R.Chen和J.Zheng，Temporal Attentive Alignmentfor Large-Scale Video Domain Adaptation，IEEE International Conference onComputer Vision(ICCV),2019)提出两个更大的跨域数据集用于动作识别和现有技术水平方法TA₃N。然而，这些工作仅集中于分类任务，而本文的实施例解决更具挑战性的时间分割任务。

C.视频动作分割的实施例

首先介绍基线模型的实施例，其涉及用于动作分割的当前现有技术水平方法，多阶段时间卷积网络(multi-stage temporal convolution network，MS-TCN)(C.1部分)。然后，在C.2部分中提出如何结合未标记视频以对齐帧级特征空间的实施例。最后，在C.3部分中提出具有基于关注的视频级域自适应的方法的实施例。

1、时间卷积网络(TCN)和多阶段时间卷积网络(MS-TCN)的实施例

在一个或多个实施例中，基线模型实施例的基本组件是时间卷积网络(TCN)205，如图2所示。图2描绘根据本公开的实施例的包括时间卷积网络(TCN)205和局部时域适配器(LT-DA)250的域自适应时间卷积网络(DA-TCN)。如下所讨论的，DA-TCN可以包括图2所示的实施例中未示出的附加组件。

在一个或多个实施例中，TCN模块205包括执行因果扩张的1D卷积的多个时间卷积层215。扩张卷积用于指数地增加时间感受野，而无需增加参数的数量，这可以防止模型过度拟合训练数据。在一个或多个实施例中，数个域自适应时间卷积网络或其的不同实施例被堆叠以形成多阶段TCN(MS-TCN)。例如，在一个或多个实施例中，前一个或多个阶段可以是实际上仅包括TCN模块205的DA-TCN模块，然后后一个或多个阶段可以是包括更多模块(诸如TCN、局部时域适配器(LT-DA)250、全局时域适配器(如下所讨论的)、其他组件(诸如一个或多个关注模块)或其组合)的DA-TCN实施例。因此，在实施例中，TCN模块可以被认为是DA-TCN的实施例。在一个或多个实施例中，每个阶段从前一阶段取得预测，并利用多层时间卷积特征生成器G_f 215来获得帧级特征f＝{f₁,f₂,…f_T}220，其中f_i表示帧级特征，然后由全连接层G_y 225将其转换为帧级预测

在一个或多个实施例中，每个TCN阶段的总体预测损失函数235是分类损失和平滑损失的组合，其可以表示如下：

其中，是交叉熵损失，/>是用于减少相邻帧级预测之间的差异以提高平滑度的被截断的均方误差，α是平滑损失的权衡权重。为训练完整的模型，在一个或多个实施例中，所有阶段的损失之和被最小化。

2、局部时域自适应的实施例

尽管MS-TCN在动作分割上的进步，仍存在改进空间。一个主要挑战是由跨域的时空变化引起的分布差异。例如，由于个性化时空风格，不同主体可以完全不同地执行同一动作。因此，跨域推广模型是一个问题。在本文的实施例中，通过使用辅助未标记视频执行非监督DA来减少域差异。

为实施基于对抗的DA，在一个或多个实施例中，对于每个阶段，将帧级特征f 220馈入附加的浅二进制分类器(称为局部域分类器G_ld)260中，以区分数据来自源域还是目标域。在一个或多个实施例中，局部域分类器包括一个或多个全连接层和输出视频来自源数据集还是目标数据集的二进制分类层。在一个或多个实施例中，这些操作可以由局部时域适配器(LT-DA)执行。

图2中描绘的域自适应时间卷积网络200实施例包括局部时域适配器(LT-DA)250的实施例。如上所述，在一个或多个实施例中，可以通过在一个阶段将域分类器G_ld 260应用至最终的嵌入特征f 220来执行局部时域自适应。在一个或多个实施例中，在域分类器G_ld260和f 220之间加入梯度反转层(GRL)255，以便f可以被训练为域不变的。是每个阶段的帧级预测，且/>和/>分别是将基本事实数据用于源数据的预测损失和局部域损失。

在将梯度反向传播到主模型之前，将梯度反转层(GRL)255***到G_ld 260和TCN模型205之间以反转梯度，如图2所示。在对抗训练期间，通过最大化域区分损失来学习G_f215，同时通过使用域标签d(即视频是源视频还是目标视频)最小化/>来学习G_ld 260。因此，将优化特征生成器G_f以逐渐对齐两个域之间的特征分布。

在一个或多个实施例中，对抗局部域分类器G_ld是GRL 255和域分类器G_ld 260的组合。研究针对不同阶段的G_ld的集成。在一个或多个实施例中，从实验中发现使用在中间阶段(例如，四阶段***的阶段2和3)包括G_ld模块的DA-TCN模块产生了更好的性能。

在一个或多个实施例中，网络200的总体损失函数是基线预测损失和局部域损失/>的组合，其可以表示如下：

其中，Ns是阶段总数，是选择的阶段的数量，T是来自每个视频的帧的数量。/>是二元交叉熵损失函数，β_l是局部域损失/>的权衡权重。在一个或多个实施例中，β_l是从0至1的浮点数。

3、混合时域自适应(MTDA)/视频分割***的实施例

将DA集成到局部帧级特征f的缺点在于：视频级特征空间仍未完全对齐。尽管使用来自相邻帧的上下文和依赖性来学习f，仍不保证时间感受野覆盖整个视频长度。此外，对齐视频级特征空间还帮助生成用于动作分割的域自适应帧级预测。因此，实施例包括联合对齐局部帧级特征空间和全局视频级特征空间。将在下面更详细讨论的图5描绘联合对齐局部帧级特征空间和全局视频级特征空间的示例实施例。

a)全局时域自适应实施例

(i)时间池化实施例

为实现联合对齐局部帧级特征空间和全局视频级特征空间的这一目标，在一个或多个实施例中，使用时间池化聚合帧级特征f＝{f₁,f₂,…f_T}来形成视频级特征V。由于每个特征f_t通过时间卷积在不同时间处捕获上下文，尽管采用朴素的时间池化方法，V仍包含时间信息。在获得V之后，实施例加入另一域分类器(称为全局域分类器G_gd)以显式地对齐视频级特征的嵌入特征空间。

因此，可以将全局域损失加入到总体损失中，其可以表示为：

其中，也是二元交叉熵损失函数，且β_g是全局域损失/>的权衡权重。在一个或多个实施例中，G_tf可以是图4中的时间池化模块440。

(ii)域关注实施例

尽管跨域对齐视频级特征空间有益于动作分割，但是并非所有帧级特征对于对齐都同等重要。为有效地对齐总体时间动态，优选的是更加关注对齐具有较大域差异的帧级特征。因此，在一个或多个实施例中，将较大的关注权重分配给具有较大的域差异的那些特征。

图3图形地描绘根据本公开的实施例的具有域关注机制的全局时域适配器350的概述。在一个或多个实施例中，全局时域自适应模块350具有与局部时域自适应模块(诸如，图2中描绘的模块250)相同或相似的结构。

在一个或多个实施例中，全局时域自适应模块包括域分类器G_gd 360，该域分类器G_gd 360操作视频级特征以做出视频级特征是来自源域还是目标域的视频的域预测365。在一个或多个实施例中，当反向传播时，将梯度反转层(GRL)355加入到域分类器G_gd 360中。在实施例中，损失表示全局域损失。

如图3所示，帧级特征(例如，来自源视频的特征310-S和来自目标视频的特征310-T)以不同的关注权重315(被图形地表示为不同厚度的箭头)被聚合，以形成视频级特征h(例如，用于来自源视频的视频级特征的h^S 320-S和用于来自目标视频的视频级特征的h^T320-T)，用于全局时间DA。较厚的箭头描绘较大的关注权重。作为说明，基于域关注机制，来自源视频数据集的第一组帧级特征的权重315-S1相比于第n组帧级特征被更少地加权；类似地，来自目标视频数据集的第一组帧级特征的权重315-T1相比于第m组帧级特征被更多地加权。

在一个或多个实施例中，一个或多个阶段与域关注机制集成在一起，该域关注机制可以包括域关注机制和时间池化两者，图4中描绘其的实施例。在一个或多个实施例中，域关注时间池化模块405利用熵准则为每个帧级特征420生成域关注值415，如下所示：

其中，是来自G_ld(例如，局部时域适配器250中的域分类器260)的域预测。H(p)＝–∑p_k·log(p_k)可以用作域熵模块410或455的熵函数来测量不确定性；当/>减小时，w_j增大，这意味着可以很好地区分域。在一个或多个实施例中，还可以加入残差连接(例如，跳跃连接432)以用于更稳定的优化。最后，将关注的帧级特征与时间池化440聚合以生成视频级特征h 445。该过程可以被称为域关注时间池化(domain attentive temporalpooling，DATP)，并且可以表示为：

图4描绘根据本公开的实施例的包括两个模块的域关注机制：域关注时间池化405和域关注熵450。两个模块都使用可以从局部时域自适应模块获得的域预测(例如，从图2中的局部时域自适应模块250获得的域预测265)，以使其输入域关注残差连接(例如，残差连接432和残差连接472)。在一个或多个实施例中，域关注熵模块输出关注熵损失/>

在一个或多个实施例中，加入最小熵正则化，以细化分类器自适应。然而，在一个或多个实施例中，期望最小化跨域相似的视频的熵。因此，域关注熵模块450关注具有低域差异的视频，以便其能够更加集中于最小化这些视频的熵。在一个或多个实施例中，关注熵损失可以表示如下：

其中，和/>分别是G_ld(例如，局部时域适配器250中的域分类器260)和G_y(例如，图2中的全连接网络225)的输出。在一个或多个实施例中，采用残差连接472用于稳定性。

b)总体MTDA实施例

(i)总体MTDA架构实施例

图5描绘根据本公开的实施例的混合时域自适应***或视频分割***500的总体架构。

在图5中描绘的，通过使用局部对抗域分类器模块(其可以被实施为局部时域自适应模块，诸如图2中描绘的实施例250)、全局对抗域分类器/>(可以被实施为全局时域自适应模块，例如图3中描绘的实施例350)、以及域关注机制(可以被实施为域关注时间池化模块(诸如图4中描绘的实施例405)和域关注熵模块(诸如图4中描绘的实施例450))来装备时间卷积网络(诸如图2中描绘的205)，TCN可以被转换为域自适应TCN(DA-TCN)520。

和/>分别是局部域损失和全局域损失。/>是预测损失，且是关注熵损失。通过将等式(8)加入等式(4)中，并由等式(7)将G_ld(f)替换为h，最终视频分割***/混合时域自适应(MTDA)***500的总体损失可以表示如下：

其中，μ是关注熵损失的权重。在一个或多个实施例中，β_l、β_g和μ可以是从0至1的浮点数。

在一个或多个实施例中，包括一个或多个TCN和一个或多个DA-TCN的多个阶段被堆叠以建立视频分割网络。即，在一个或多个实施例中，视频分割网络包括多个阶段的TCN或DA-TCN(其可以是堆叠的)，其中来自一个阶段的输入是来自先前阶段的输出。如图5所描绘的，用于第一阶段520-1的输入是来自特征提取器510的输入帧级特征。在一个或多个实施例中，第二阶段或后续阶段的TCN/DA-TCN可以包括初始处理步骤(例如，内核大小为1的卷积)，该初始处理步骤将来自前一阶段的输入转换为可以被视为一组帧级特征的内容。

在一个或多个实施例中，可以通过将多阶段视频分割网络与一个或多个特征提取器或特征生成器510相结合来形成最终的视频分割***，该特征提取器或特征生成器510接收输入视频，并对每个输入视频，将输入视频转换为一组帧级特征515。

c)MTDA训练实施例

图6描绘根据本公开的实施例的用于训练混合时域自适应网络/视频分割网络的方法。在一个或多个实施例中，用于训练用于将一组动作标签分配给视频帧的视频分割***的方法包括以下步骤。

作为初步事项，来自第一组视频数据(例如，源数据集，其中视频具有关联的动作标签)或第二组视频数据(例如，目标数据集，其中视频没有关联的动作标签)的每个输入视频被转换为帧级特征向量或一组帧级特征。在一个或多个实施例中，预训练的I3D特征提取器可以用于从视频中提取帧级特征；尽管应当注意，可以使用其他特征提取器/特征生成器。在一个或多个实施例中，视频分割网络中可以包括一个或多个特征提取器，以形成视频分割***。

给定输入视频的帧的一组帧级特征，将其输入(605)至视频分割网络(诸如图5中所描绘的视频分割网络)中。在一个或多个实施例中，视频分割网络包括至少一个域自适应时间卷积网络，其可以包括：多层时间卷积网络，其接收与输入视频的一组帧级特征有关的输入，并输出一组时空细化的帧级特征；分类层，其接收一组时空细化的帧级特征，并输出一组帧级预测；局部时域自适应模型，其接收一组时空细化的帧级特征，并输出该组时空细化的帧级特征来自第一组视频数据还是第二组视频数据的输入视频的域预测；域关注池化组件，其接收一组时空细化的帧级特征和域预测，并使用域关注权重来将该组时空细化的帧级特征组合为视频级特征；全局时域自适应模型，其接收视频级特征，并输出该视频级特征来自第一组视频数据还是来自第二组视频数据的输入视频的视频级域预测；以及域关注熵组件，其接收一组帧级预测和域预测，并输出关注熵损失。

在一个或多个实施例中，视频分割网络可以包括至少一个时间卷积网络，其可以分阶段与一个或多个域自适应时间卷积网络阶段组合。在实施例中，视频分割网络包括第一时间卷积网络阶段、两个域自适应时间卷积网络阶段、然后是最终时间卷积网络阶段，该最终时间卷积网络阶段输出最终组帧级预测；在此多阶段配置中，来自一个阶段的输出可以用作下一阶段的输入。

返回图6，对于来自第一组视频数据和第二组视频数据的每个输入视频，视频分割网络输出(610)最终组帧级预测，其中来自输入视频的一组帧中的至少一些帧的每个帧具有关联的标签预测。

为训练视频分割网络的阶段，可以计算各种损失(615)。在一个或多个实施例中，计算的损失可以包括：预测损失(如果输入视频来自源数据集域)，其与相对于输入视频的关联的动作标签的最终组帧级预测有关；局部域损失，其表示预测一组时空细化的帧级特征来自第一组视频数据还是第二组视频数据的输入视频的错误；全局域损失，其表示预测视频级特征来自第一组视频数据还是第二组视频数据的输入视频的错误；以及关注熵损失。在实施例中，计算的损失中的一个或多个可以用于更新(620)视频分割网络。在一个或多个实施例中，TCN或DA-TCN阶段的局部时域自适应模块可以包括梯度反转层，该梯度反转层在更新网络时反转局部域损失的梯度符号。相似地，TCN或DA-TCN阶段的全局时域自适应模块可以包括梯度反转层，该梯度反转层在更新网络时反转全局域损失的梯度符号。

一旦训练完成，输出最终的训练的视频分割网络。当已经达到停止条件时，训练可以完成。在包括停止条件的本文的一个或多个实施例中，停止条件可以包括以下中的一个或多个：(1)已经执行了设定数量的迭代；(2)已经达到处理时间的量；(3)收敛性(例如，连续迭代之间的差小于第一阈值)；(4)发散；(5)已经达到可接受的结果。

d)MTDA推断实施例

图7描绘根据本公开的实施例的训练的MTDA/视频分割***。图8描绘根据本公开的实施例的用于将部署的训练的MTDA/视频分割***用于视频动作推断的方法800。

在一个或多个实施例中，训练的***700接收(805)作为输入的视频，该视频待被动作分割。在一个或多个实施例中，训练的***700包括特征生成器/特征提取器710，其接收输入视频的视频帧705并将视频转换成一组帧级特征715。在一个或多个实施例中，训练的I3D特征提取器可以用于从视频中提取帧级特征；尽管应当注意，可以使用其他特征提取器/特征生成器。在一个或多个实施例中，训练的***700还包括至少一个训练的域自适应时间卷积网络(例如，720-x)，其包括：接收与输入视频的一组帧级特征有关的输入并输出一组时空细化的帧级特征的多层时间卷积网络，以及接收该组时空细化的帧级特征并输出一组帧级预测的分类层。使用局部对抗域分类器和全局对抗域分类器训练至少一个训练的时间卷积网络(例如，720-x)，且还可以使用域关注机制训练至少一个训练的时间卷积网络。例如，使用先前部分中公开的实施例来训练至少一个训练的时间卷积网络。应当注意，***700可以包括多个阶段(例如，阶段720)，其初始可以是TCN阶段或DA-TCN阶段(可以在训练后被修改以类似于图7中公开的实施例，项720-x)，或其组合。最终，***700输出(810)针对输入视频的最终的帧级预测730。

D.实验结果

为评估本文讨论的实施例如何减小用于动作分割的时空差异，使用了三个数据集：数据集A、数据集B和数据集C。应当注意，这些实验和结果以说明的方式提供，并且是使用一个或多个特定实施例在特定条件下执行的；因此，这些实验及其结果都不应当用于限制当前专利文件的公开的范围。

1、数据集

数据集A包含28个视频，其中包括4个主体执行的7个活动。包括背景，总共有11个动作类。平均地，每个视频具有20个动作实例，且时长约为一分钟。通过排除一个主体，将4倍交叉验证用于评估。数据集B包含由25个主体执行的有关活动的50个视频。总共有17个动作类。平均地，每个视频包含20个动作实例，且时长约为6分钟。为进行评估，通过排除5个主体，使用5倍交叉验证。数据集C具有由大约50个主体执行的活动的大约1700个视频。这些视频是在18种不同但相关的环境中记录的，具有48个动作类，每个视频平均包含6个动作实例，且时长约为3分钟。为进行评估，通过排除13个主体，使用标准的4倍交叉验证。这三个数据集符合评估目标，因为训练和测试集由不同的主体分隔开，这意味着应该通过减少跨视频的时空变化来适应不同人的同一动作。

2、评估指标

关于所有三个数据集，如文献[3]中的以下评估指标(见以下D.3.d部分)：逐帧准确性(Acc)、分段编辑得分、以及IoU阈值k％处的分段F1得分，表示为F1@k(k＝f10；25；50g)。尽管逐帧准确性是用于动作分割的最常见评估指标之一，但是其没有考虑预测的时间依赖性，导致在相似的逐帧准确性下的大的定性的差异。此外，相比于短动作类别，长动作类别对此指标的影响更大，使该指标无法反映过度分割错误。

为解决以上限制，分段编辑分数独立于轻微的时间偏移，通过测量预测动作分段的顺序来惩罚过度分割。最后，另一合适的指标，分段F1分数(F1@k)最近变得流行，原因是发现分数数字更好地表明定性分割结果。F1@k还惩罚过度分割错误，同时忽略预测和基本事实之间的微小时间偏移。F1@k由动作总数确定，但不取决于每个动作实例的持续时间，这类似于具有交并比(intersection-over-union，IoU)重叠准则的均值平均精度(meanaverage precision，mAP)。

3、实验结果

测试实施例首先与基线模型MS-TCN(文献[7])比较，以了解这些测试实施例如何有效地利用未标记视频用于动作分割。“仅源”是指仅使用源标记视频来训练模型。然后对于所有三个数据集，实施例方法与现有技术水平方法比较。

a)局部时域自适应

通过将域分类器与帧级特征f集成，相对于所有指标，所有三个数据集的结果都显著改善，如表1中的“DA(L)”行所示。例如，对于数据集A，测试的实施例对于F1@50以4.6％、对于编辑分数以5.5％、对于逐帧准确性以3.8％优于基线。尽管“DA(L)”主要作用于帧级特征，但是帧级特征是使用来自相邻帧的上下文来学习的，因此其仍然包含时间信息，这对于减少跨域动作的时间变化是重要的。

b)混合时域自适应

尽管局部时间DA的改进，仍不能保证帧级特征的时间感受野覆盖整个视频长度。因此，在实施例中，帧级特征被聚合以为每个视频生成视频级特征，并将附加域分类器应用至其。然而，在不考虑每个帧的重要性的情况下通过时间池化来聚合帧不能确保较好的性能，尤其对于包括比其他两个更高的域差异的数据集C。F1分数和逐帧准确性均具有稍差的结果，如表1中的“DA(L+G)”行所示。因此，应用域关注机制以更有效地聚集帧，导致更好的全局时间DA性能。例如，对于数据集C，“DA(L+G+A)”对于F1@50以1.4％、对于编辑分数以1.9％、对于逐帧准确性以0.7％优于“DA(L)”，如表1所示。在实施例中，“DA(L+G+A)”(其也是MTDA)以大幅度优于基线(例如，关于数据集A，对于F1@50以6.4％，对于编辑分数以6.8％、对于逐帧准确性以3.7％优于基线；关于数据集B，对于F1@50以8.0％、对于编辑分数以7.3％、对于逐帧准确性以2.5％优于基线)，如表1所证实的。

表1：对于数据集A、数据集B和数据集C的不同测试实施例的实验结果(L：局部时间DA，G：不具有域关注的全局时域DA，A：域关注机制)。

/>

c)比较

这里，比较MTDA方法的实施例与现有技术水平方法，并且相对于三个评估指标(F1分数，编辑距离和逐帧准确性)，MTDA实施例在三个数据集上的性能优于所有先前的方法，如表2所示。

对于数据集A，MS-TCN的作者(文献[7])还微调I3D功能以改善性能(例如，对于F1@10，从85.8％到87.5％)。测试的MTDA实施例甚至在没有任何微调过程的情况下优于微调的MS-TCN，原因是从未标记视频中更有效地学习了时间特征，这对于动作分割更为重要。

对于数据集C，MS-TCN的作者(文献[7])还使用了改进的密集轨迹(improveddense trajectories，IDT)功能，其仅编码运动信息并优于I3D功能，原因是编码的空间信息不是数据集C的关键因素。具有相同I3D功能的测试的MTDA实施例以大幅度优于MS-TCN的IDT版本。这表明DATP模块实施例通过考虑用于动作分割的时间结构而有效地聚合帧。

表2：关于数据集A，数据集B和数据集C，与现有技术水平的比较。ycGAN(文献[6])利用附加模态，而不仅仅是RGB。

/>

d)文献

[1]C.Lea,A.Reiter,R.Vidal,和G.D.Hager.Segmental spatiotemporal CNNSfor fine-grained action segmentation.European Conference on Computer Vision(ECCV),2016年。

[2]B.Singh,T.K.Marks,M.Jones,O.Tuzel,和M.Shao.A multi-stream bi-directional recurrent neural network for fine-grained action detection.IEEEConference on Computer Vision and Pattern Recognition(CVPR),2016年。

[3]C.Lea,M.D.Flynn,R.Vidal,A.Reiter,和G.D.Hager.Temporalconvolutional networks for action segmentation and detection.IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),2017年。

[4]L.Ding和C.Xu.Tricornet:A hybrid temporal convolutional andrecurrent network for video action segmentation.arXiv preprint arXiv:1705.07818,2017年。

[5]P.Lei和S.Todorovic.Temporal deformable residual networks foraction segmentation in videos.In IEEE Conference on Computer Vision andPattern Recognition(CVPR),2018年。

[6]H.Gammulle,T.Fernando,S.Denman,S.Sridharan,和C.Fookes.Coupledgenerative adversarial network for continuous fine-grained actionsegmentation.IEEE Winter Conference on Applications of Computer Vision(WACV),2019年。

[7]Y.A.Farha和J.Gall.MS-TCN:Multi-stage temporal convolutionalnetwork for action segmentation.IEEE Conference on Computer Vision andPattern Recognition(CVPR),2019年。

[8]A.Richard和J.Gall.Temporal action detection using a statisticallanguage model.IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016年。

[9]H.Kuehne,A.Richard,和J.Gall.Weakly supervised learning of actionsfrom transcripts.Computer Vision and Image Understanding(CVIU),163:78–89,2017年。

[10]L.Ding和C.Xu.Weakly-supervised action segmentation with iterativesoft boundary assignment.IEEE Conference on Computer Vision and PatternRecognition(CVPR),2018年。

[11]H.Kuehne,J.Gall，和T.Serre.An end-to-end generative framework forvideo segmentation and recognition.IEEE Winter Conference on Applications ofComputer Vision(WACV),2016年。

[12]A.Richard,H.Kuehne,和J.Gall.Weakly supervised action learningwith RNN-based fine-to-coarse modeling.In IEEE Conference on Computer Visionand Pattern Recognition(CVPR),2017年。

e)定性结果

除了使用以上指标来评估定量性能外，通常还评估定性性能以确保预测结果与人类视觉一致。在此，实施例与MS-TCN模型(文献[7])和基本事实比较，如图9所示。

图9示出根据本公开实施例的针对活动的输入视频的时间动作分割的定性结果。第一行中的视频帧表示时间顺序(从左到右)。“仅源”是指MS-TCN模型(文献[7])。MS-TCN无法预测视频中间部分的长的倾倒动作之前的打开，且错误地预测视频结束处搅拌之前的倾倒，如“仅源”行中所示。使用局部和全局时间DA，测试的实施例可以检测视频中发生的全部动作，如“DA(L+G)”行所示。最终，使用域关注机制，测试的MTDA实施例还消除错误预测的倾倒动作。

E.计算***实施例

在一个或多个实施例中，本专利文件的各方面可以针对、可以包括或可以在一个或多个信息处理***/计算***上实现。计算***可以包括或聚合可操作用于估算、计算、确定、分类、处理、传输、接收、检索、发起、路由、切换、存储、显示、通信、表明、检测、记录、再现、处理或利用任何形式的信息、情报或数据的任何工具。例如，计算***可以是或可以包括个人计算机(例如，膝上计算机)、平板计算机、平板手机、个人数字助理(PDA)、智能电话、智能手表、智能包裹、服务器(例如，刀片服务器或机架服务器)、网络存储设备、相机或任何其他合适的设备，并且其大小、形状、性能、功能和价格可以变化。计算***可以包括随机存取存储器(RAM)、一个或多个处理资源(诸如中央处理单元(CPU)或硬件或软件控制逻辑)、ROM和/或其他类型的存储器。计算***的附加组件可以包括一个或多个磁盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(I/O)设备(诸如键盘、鼠标、触摸屏和/或视频显示器)。计算***还可以包括可操作以在各种硬件组件之间传输通信的一个或多个总线。

图10描绘根据本公开的实施例的计算设备/信息处理***(或计算***)的简化框图。将理解的是，针对***1000示出的功能可以操作以支持计算***的各种实施例——尽管应当理解，计算***可以被不同地配置并且包括不同的组件，包括具有比图10中描绘的更少或更多的组件。

如图10所示，计算***1000包括提供计算资源并控制计算机的一个或多个中央处理单元(CPU)1001。CPU 1001可以使用微处理器等来实施，并且还可以包括一个或多个图形处理单元(GPU)1019和/或用于数学计算的浮点协处理器。***1000还可以包括***存储器1002，其可以是随机存取存储器(RAM)、只读存储器(ROM)或两者的形式。

如图10所示，还可以提供多个控制器和***设备。输入控制器1003表示到诸如键盘、鼠标、触摸屏和/或手写笔的各种输入设备1004的接口。计算***1000还可以包括用于与一个或多个存储设备1008接口的存储控制器1007，每个存储设备1008包括诸如磁带或磁盘的存储介质，或可以用于记录用于操作***、实体和应用程序的指令的程序的光学介质，其可以包括实施本公开的各个方面的程序的实施例。根据本公开，存储设备1008还可以用于存储处理的数据或待处理的数据。***1000还可以包括用于向显示设备1011提供接口的显示控制器1009，该显示设备可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子体面板或其他类型的显示器。计算***1000还可以包括用于一个或多个***设备1006的一个或多个***设备控制器或接口1005。***设备的示例可以包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器1014可以与一个或多个通信设备1015接口，使能***1000通过包括因特网、云资源(例如，以太网云、以太网光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网(SAN)或通过任何合适的电磁载波信号(包括红外信号)的各种网络中的任一个连接到远程设备。

在所示的***中，所有主要***组件可以连接到总线1016，该总线可以表示多于一个的物理总线。然而，各种***组件可以在物理上彼此接近，也可以不在物理上彼此接近。例如，输入数据和/或输出数据可以从一个物理位置远程地传输到另一物理位置。另外，可以通过网络从远程位置(例如，服务器)访问实施本公开的各个方面的程序。这样的数据和/或程序可以通过各种机器可读介质中的任何一种来传送，机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；和专门被配置为存储或存储并执行程序代码的硬件设备，诸如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备、以及ROM和RAM设备。

本公开的各方面可以在具有用于一个或多个处理器或处理单元来使步骤被执行的指令的一种或多种非暂时性计算机可读介质上编码。应当注意，一个或多个非暂时性计算机可读介质可以包括易失性和/或非易失性存储器。应当注意，替代实施方式是可能的，包括硬件实施方式或软件/硬件实施方式。可以使用ASIC、可编程阵列、数字信号处理电路等来实施硬件实施的功能。因此，任何权利要求中的“装置”术语旨在涵盖软件和硬件实施方式。类似地，本文使用的术语“一种或多种计算机可读介质”包括软件和/或其上体现有指令的程序的硬件，或其组合。考虑这些实现方式的替代，应当理解，附图和随附的描述提供本领域技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执要求的处理而所需的功能信息。

应当注意，本公开的实施例可以进一步涉及具有非暂时性、有形计算机可读介质的计算机产品，计算机可读介质上具有用于执行各种计算机实施的操作的计算机代码。介质和计算机代码可以是出于本公开的目的而专门设计和构造的，或者其可以是相关领域技术人员已知或可获得的种类。有形的计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门被配置为存储或存储并执行程序代码的硬件设备，诸如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如由编译器生成的机器代码)以及包含由计算机使用解释器执行的更高级别代码的文件。本公开的实施例可以全部或部分地被实施为机器可执行指令，该机器可执行指令可以在由处理设备执行的程序模块中。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布式计算环境中，程序模块可能物理地位于本地、远程或两者的设置中。

本领域技术人员将认识到计算***或编程语言对于本公开的实践不是重要的。本领域技术人员还将认识到，上述许多元件可以在物理和/或功能上分离为子模块或组合在一起。

本领域技术人员将理解，前述示例和实施例是示例性的，且不限制本公开的范围。意图是，对本领域技术人员而言，在阅读说明书和研究附图之后显而易见的所有排列、增强、等同、组合和改进均包括在本公开的真实精神和范围内。还应当注意，任何权利要求的元素可以被不同地布置，包括具有多个从属性、配置和组合。

Claims

1.一种用于训练视频分割***的计算机实施的方法，所述视频分割***用于将一组动作标签分配给视频的帧，所述方法包括：

对于来自第一组视频数据和来自第二组视频数据的每个输入视频，将所述输入视频的帧的一组帧级特征输入至视频分割网络，所述第一组视频数据包括具有关联的动作标签的视频，所述第二组视频数据包括不具有关联的动作标签的视频，且所述视频分割网络包括：

至少一个域自适应时间卷积网络，包括：

多层时间卷积网络，接收与所述输入视频的一组帧级特征相关的输入，并输出一组时空细化的帧级特征；

分类层，接收所述一组时空细化的帧级特征，并输出一组帧级预测；

局部时域自适应模型，接收所述一组时空细化的帧级特征，并输出所述一组时空细化的帧级特征来自于所述第一组视频数据还是所述第二组视频数据的输入视频的域预测；

域关注池化组件，接收所述一组时空细化的帧级特征和所述域预测，并使用域关注权重将所述一组时空细化的帧级特征组合为视频级特征；以及

全局时域自适应模型，接收所述视频级特征，并输出所述视频级特征来自于所述第一组视频数据还是所述第二组视频数据的输入视频的视频级域预测；

对于来自所述第一组视频数据和来自所述第二组视频数据的每个输入视频，输出最终组帧级预测，其中来自所述输入视频的一组帧中的至少一些帧的每个帧具有关联的标签预测；计算所述视频分割网络的损失，计算的损失包括以下中的至少一个：

响应于输入视频来自所述第一组视频数据，与相对于所述输入视频的所述关联的动作标签的所述最终组帧级预测有关的预测损失；

局部域损失，表示在预测所述一组时空细化的帧级特征来自于所述第一组视频数据还是所述第二组视频数据的输入视频时的错误；以及

全局域损失，表示在预测所述视频级特征来自于所述第一组视频数据还是所述第二组视频数据的输入视频时的错误；以及

使用所述计算的损失更新所述视频分割网络。

2.根据权利要求1所述的计算机实施的方法，其中：

所述局部时域自适应模块还包括梯度反转层，所述梯度反转层在更新所述多层时间卷积网络时反转局部域损失的梯度符号；以及

所述全局时域自适应模块还包括梯度反转层，所述梯度反转层在更新所述多层时间卷积网络时反转全局域损失的梯度符号。

3.根据权利要求1所述的计算机实施的方法，其中，所述视频分割***还包括：

特征生成器，接收所述输入视频，并针对每个输入视频将所述输入视频转换为一组帧级特征。

4.根据权利要求1所述的计算机实施的方法，其中，所述视频分割网络还包括至少一个时间卷积网络阶段，所述至少一个时间卷积网络阶段包括：

多层时间卷积网络，接收与所述输入视频的所述一组帧级特征有关的输入，并输出一组时空细化的帧级特征；以及

分类层，接收所述一组时空细化的帧级特征，并输出一组帧级预测。

5.根据权利要求4所述的计算机实施的方法，其中所述视频分割网络包括：

至少一个时间卷积网络阶段；以及

多个域自适应时间卷积网络阶段。

6.根据权利要求5所述的计算机实施的方法，其中所述视频分割网络包括：

第一时间卷积网络阶段；

第一域自适应时间卷积网络阶段；

第二域自适应时间卷积网络阶段；以及

第二时间卷积网络阶段，输出所述最终组帧级预测，

其中，一个阶段的输出用作下一阶段的输入。

7.根据权利要求6所述的计算机实施的方法，其中与所述输入视频的所述一组帧级特征有关的输入包括：

如果所述多层时间卷积网络是所述视频分割网络的第一个多层时间卷积网络，所述输入视频的所述一组帧级特征；以及

如果所述多层时间卷积网络不是所述视频分割网络的第一个多层时间卷积网络，来自先前阶段的一组帧级预测。

8.根据权利要求1所述的计算机实施的方法，其中对于至少一个域自适应时间卷积网络，与所述输入视频的所述一组帧级特征有关的输入包括：

来自先前阶段的一组帧级预测。

9.根据权利要求1至8中任一项所述的计算机实施的方法，其中所述至少一个域自适应时间卷积网络还包括：

域关注熵组件，接收所述一组帧级预测和所述域预测，并输出关注熵损失；以及

其中使用所述计算的损失来更新所述视频分割网络的步骤包括所述关注熵损失。

10.一种用于使用视频分割***将标签分配给视频的至少一些帧的计算机实施的方法，所述方法包括：

将视频输入至所述视频分割***，所述视频分割***包括：

特征生成器，接收所述视频，并将所述视频转换为一组帧级特征；

视频分割网络，包括至少一个域自适应时间卷积网络，所述至少一个域自适应时间卷积网络包括：

多层时间卷积网络，接收与输入视频的一组帧级特征有关的输入，并输出一组时空细化的帧级特征；

分类层，接收所述一组时空细化的帧级特征，并输出一组帧级预测；以及

针对所述视频，输出最终组帧级预测，其中来自所述视频的一组帧的至少一些帧的每个帧具有关联的标签预测，

其中，所述至少一个域自适应时间卷积网络通过根据权利要求1至9中任一项所述的方法而被训练。

11.一种非暂时性计算机可读介质，包括一个或多个指令序列，当由一个或多个处理器执行时，所述指令序列导致根据权利要求1至9中任一项所述的用于训练视频分割***的计算机实施的方法，所述视频分割***用于将一组动作标签分配给视频的帧。

12.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如权利要求1至9中任一项所述的用于训练视频分割***的计算机实施的方法，所述视频分割***用于将一组动作标签分配给视频的帧。