CN117616471A

CN117616471A - 样本自适应3d特征校准和关联代理

Info

Publication number: CN117616471A
Application number: CN202180099834.0A
Authority: CN
Inventors: 蔡东琪; 姚安邦; 陈玉荣
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2024-02-27
Also published as: WO2023060459A1; TW202316324A

Abstract

用于进行图像序列/视频分析的***包括处理器(40)，以及与处理器(40)耦合的存储器(41)。该存储器(41)存储神经网络(110)。该神经网络(110)包括多个卷积层(120)。网络深度中继结构(132,310)包括多个网络深度校准层(222,272,312,314,316)，其中每个网络深度校准层(222,272,312,314,316)耦合到多个卷积层中相应的一个卷积层(221,271,302,304,306)的输出，以及包括多个特征维度校准切片(225,292,412,414,416)的特征维度中继结构(134,410)，其中每个特征维度校准切片(225,292,412,414,416)耦合到多个卷积层中的另一层(224,291,402)的输出。每个网络深度校准层(222,272,312,314,316)经由第一隐藏状态和单元状态信号({h_k‑1,c_k‑1},{h_k,c_k},{h_k+1,c_k+1})耦合到先前网络深度校准层(222,272,312,314,316)，并且每个特征维度校准切片(225,292,412,414,416)经由第二隐藏状态和单元状态信号({h_t‑1,c_t‑1},{h_t,c_t},{h_t+1,c_t+1})耦合到先前特征维度校准切片(225,292,412,414,416)。

Description

样本自适应3D特征校准和关联代理

技术领域

实施例概括而言涉及计算***。更具体而言，实施例涉及利用卷积神经网络进行图像序列/视频分析的性能增强型深度学习技术。

背景技术

深度学习网络，例如卷积神经网络(convolutional neural network，CNN)，已成为一种重要的候选技术，以被考虑用于图像序列/视频分析任务中，包括与图形相关的任务，比如视频渲染、视频动作识别、视频光线追踪，等等。与仅在空间空间中执行卷积和池化操作的二维(2D)CNN不同，三维(3D)CNN是利用在空间-时间空间中执行的3D卷积和3D池化操作来构造的。然而，使用3D CNN在应用中会带来困难的挑战。例如，一方面，输入数据维度的增大表现出复杂得多的特征分布变化。另一方面，与2D CNN相比，3D CNN的模型大小具有立方增长可能性。这些因素导致3D CNN体系结构面临巨大的存储器和计算需求(从数据和模型两个角度来看)，使得3D CNN的利用与基于2D CNN的任务相比困难得多，从而有效地阻止了通用3D CNN体系结构用于高性能图像序列/视频分析。

附图说明

通过阅读以下说明书和所附权利要求，并且通过参考以下附图，实施例的各种优点对于本领域技术人员而言将变得清楚，附图中：

图1A-1B提供了图示出根据一个或多个实施例的用于图像序列/视频分析的***的示例的概述的示意图；

图2A-2D提供了根据一个或多个实施例的神经网络结构的示例的示意图；

图3A提供了根据一个或多个实施例的神经网络的网络深度校准结构的示例的框图；

图3B是图示出根据一个或多个实施例的神经网络的网络深度校准层的示例的示意图；

图3C-3D是图示出根据一个或多个实施例的神经网络的网络深度校准层的元门控中继(MGR)单元的示例的示意图；

图4A提供了根据一个或多个实施例的神经网络的特征维度校准结构的示例的框图；

图4B是图示出根据一个或多个实施例的神经网络的特征维度校准切片的示例的示意图；

图4C-4D是图示出根据一个或多个实施例的神经网络的特征维度校准切片的MGR单元的示例的示意图；

图5A-5B是图示出根据一个或多个实施例的构造神经网络的方法的示例的流程图；

图6A-6F是根据一个或多个实施例的用于图像序列/视频分析的***中的示例输入图像序列和相应激活图谱的图示；

图7是图示出根据一个或多个实施例的用于图像序列/视频分析的计算***的示例的框图；

图8是图示出根据一个或多个实施例的半导体装置的示例的框图；

图9是图示出根据一个或多个实施例的处理器的示例的框图；并且

图10是图示出根据一个或多个实施例的基于多处理器的计算***的示例的框图。

具体实施方式

如本文所述的性能增强型计算***改善了用于图像序列/视频分析的CNN——尤其是3D CNN——的性能。该技术通过样本自适应特征校准和关联代理(sample-adaptivefeature calibration and association agent，SA-FCAA)，从特征表示校准和关联的角度帮助改善深度学习计算***的整体性能。本文描述的SA-FCAA技术可被应用到任何深度CNN——尤其是3D CNN——以至少通过两种方式向图像序列/视频分析任务提供显著的性能提升。首先，本文描述的SA-FCAA技术是依样本而定的，并且使用统计数据来校准给定的3D特征图谱，不仅以当前输入示例为条件，而且以来自沿着额外维度——经常可能是时间维度——的相邻卷积层和相邻特征切片的特征图谱的统计数据为条件。其次，SA-FCAA技术经由共享的轻量级元门控中继单元，将校准后的3D特征图谱沿着两个正交维度关联起来。通过采用这些动态学习和跨层中继能力——包括沿着网络深度和特征维度的校准后特征的关联，该技术增强了3D CNN的联合时空特征学习能力，从而显著改善了3D CNN的推理准确性和训练速度。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图1A-1B提供了图示出根据一个或多个实施例的用于图像序列/视频分析的***100的示例的概述的示意图。***100包括神经网络110，该神经网络的布置如本文所述，其包含一种样本自适应机制，该机制以输入特征图谱为条件动态地生成校准参数，以克服在CNN(例如，3D CNN)中的受限批量大小设置下可能出现的不准确的校准统计估计。神经网络110可以是包括多个卷积层120的CNN，例如3D CNN。在一些实施例中，神经网络110可包括其他类型的神经网络结构。如图1A所示，神经网络110还包括元门控中继(meta-gating relay，MGR)结构130，以跨两个正交维度(例如，时间维度和网络深度维度)关联经校准的特征图谱，以增强3D CNN中的3D特征的时空依从性建模。MGR结构130可包括网络深度中继结构132和特征维度中继结构134，下文将对其每一者进行进一步描述。

神经网络110接收图像序列140作为输入。图像序列140可包括，例如，包括与一段时间相关联的图像的序列的视频。神经网络110产生输出特征图谱150。输出特征图谱150表示经由神经网络110处理输入图像序列140的结果，这些结果可包括对来自输入图像序列140的对象、特征等等的分类、检测和/或分割。

如图1B所示，神经网络110的卷积层120和MGR结构130可以(至少部分地)被布置成区块。图1B中的图示描绘了3个区块(Blk)，即区块(k-1)、区块(k)和区块(k+1)。虽然图1B中图示了3个区块，但将会理解，神经网络110的卷积层120和MGR结构130可以(至少部分地)被布置成更多或更少数目的区块。关于神经网络110的更多细节在本文中参考图2A-2D、图3A-3D、图4A-4D和图5A-5B来提供。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图2A提供了根据一个或多个实施例的神经网络结构200的示例的示意图。神经网络结构200可用于神经网络110(图1A-1B，已经论述过)中。神经网络结构200可包括多个区块，其中包括区块210、区块220和区块230。分别参考范围从(k-1)到(k)再到(k+1)的区块编号来指示区块210、区块220和区块230。每个区块可包括若干层，其中包括一个或多个卷积层、网络深度校准层(表示为“FCAA-D”)和特征维度校准层(表示为“FCAA-T”)。此外，神经网络结构200中的一个或多个区块可包括一个或多个可选激活层(如虚线所示)，和/或一个或多个额外/可选层，例如卷积层、正规化层，等等(如虚线所示)；区块中还可包括其他可选的神经网络层。

每个网络深度校准层(FCAA-D)通常跟随在一个卷积层之后，并且类似地，每个特征维度校准层(FCAA-T)通常跟随在另一个卷积层之后。此外，网络深度校准层被布置成跨区块网络深度中继结构，这样，一个区块中的网络深度校准层接收来自先前区块中的网络深度校准层的隐藏状态信号和单元状态信号。从而，例如，区块(k+1)中的网络深度校准层从区块(k)中的网络深度校准层接收隐藏状态信号h_k和单元状态信号c_k，区块(k)中的网络深度校准层从区块(k-1)中的网络深度校准层接收隐藏状态信号h_k-1和单元状态信号c_k-1，等等，一直延伸回到神经网络中具有网络深度校准层的初始区块(对于这样的初始区块，不存在具有网络深度校准层的先前区块)。

虽然在图2A中图示出了三个区块，但将会理解，神经网络结构200中的区块数目可以多于或少于三个。神经网络结构200可被***在任何神经网络(例如神经网络110)中，尤其是***在3D CNN中，***在神经网络中的几乎任何位置。神经网络结构200接收输入(图2A中未示出)，该输入例如可以来自神经网络110的任何部分，并且提供输出以便在神经网络110的任何部分使用。在一些实施例中，神经网络结构200可被***在神经网络中的多个点。在一些实施例中，神经网络结构200可包括用于神经网络中的残差区块。关于区块(例如区块210、区块220和/或区块230)的更多细节在本文中参考图2B-2D提供。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图2B提供了根据一个或多个实施例的用于神经网络结构200中的示例区块220的示意图240。区块220表示区块(k)并且与区块220(图2A)相对应。对于区块220示出的结构也可适用于其他区块(例如图2A中的区块210和/或区块230)。区块220包括第一卷积层221、网络深度校准层(FCAA-D)222、第二卷积层224和特征维度校准层(FCAA-T)225。网络深度校准层222跟随在第一卷积层221之后，并且特征维度校准层225跟随在第二卷积层224之后。在一些实施例中，网络深度校准层222和特征维度校准层225的顺序可以颠倒，这样特征维度校准层225跟随在第一卷积层221之后，并且网络深度校准层222跟随在第二卷积层224之后。

区块(k)的网络深度校准层222从先前区块(k-1)中的网络深度校准层接收隐藏状态信号h_k-1和单元状态信号c_k-1，并且将隐藏状态信号h_k和单元状态信号c_k传递给后继区块(k+1)中的网络深度校准层。区块220还可包括一个或多个可选激活层，例如激活层223，它跟随在网络深度校准层222之后，和/或激活层226，它跟随在特征维度校准层225之后。(一个或多个)激活层223和/或226的每一者可包括对CNN有用的激活函数，例如，修正线性单元(rectified linear unit，ReLU)函数、SoftMax函数，等等。区块220还可包括其他额外的、可选的层，例如额外的卷积层、正规化层和/或激活层(在图2B中总体标注为227)。区块220从先前区块或神经网络110的另一部分接收输入，并且向后继区块或神经网络110的另一部分提供输出。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图2C提供了根据一个或多个实施例的用于神经网络结构200中的替代示例区块270的示意图260。区块270表示区块(k)，并且可以替代区块220(图2A-2B)。对于区块270示出的结构也可替代其他区块(例如图2A中的区块210和/或区块230)。区块270包括卷积层271和跟随在卷积层271之后的网络深度校准层(FCAA-D)272。区块(k)的网络深度校准层272从先前区块(k-1)中的网络深度校准层接收隐藏状态信号和单元状态信号，并且将隐藏状态信号和单元状态信号传递给后继区块(k+1)中的网络深度校准层。区块270还可包括可选的激活层，例如激活层273，它跟随在网络深度校准层272之后。激活层273可包括对CNN有用的激活函数，例如，修正线性单元(ReLU)函数、SoftMax函数，等等。区块270还可包括其他额外的、可选的层，例如额外的卷积层、正规化层和/或激活层(在图2C中总体标注为274)。区块270从先前区块或神经网络110的另一部分接收输入，并且向后继区块或神经网络110的另一部分提供输出。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图2D提供了根据一个或多个实施例的用于神经网络结构200中的另一替代示例区块290的示意图280。区块290表示区块(k)，并且可以替代区块220(图2A-2B)。对于区块290示出的结构也可替代其他区块(例如图2A中的区块210和/或区块230)。区块290包括卷积层291和跟随在卷积层291之后的特征维度校准层(FCAA-T)292。区块290还可包括可选的激活层，例如激活层293，它跟随在特征维度校准层292之后。激活层293可包括对CNN有用的激活函数，例如，修正线性单元(ReLU)函数、SoftMax函数，等等。区块290还可包括其他额外的、可选的层，例如额外的卷积层、正规化层和/或激活层(在图2D中总体标注为294)。区块290从先前区块或神经网络110的另一部分接收输入，并且向后继区块或神经网络110的另一部分提供输出。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图3A提供了根据一个或多个实施例的网络深度校准结构300的示例的框图。网络深度校准结构300可用于神经网络110(图1A-1B，已经论述过)的全部或一部分中。网络深度校准结构300包括多个卷积层，其中包括卷积层302(表示区块k-1)、卷积层304(表示区块k)和卷积层306(表示区块k+1)。卷积层302进行操作来提供输出特征图谱x_k-1。类似地，卷积层304进行操作来提供输出特征图谱x_k，并且卷积层306进行操作来提供输出特征图谱x_k+1。卷积层(例如卷积层302、卷积层304和卷积层306)对应于卷积层120(图1A-1B，已经论述过)和/或图2A所示的一个或多个卷积层，并且具有通过神经网络训练过程确定的参数和权重。卷积层304对应于图2B中的卷积层221。

网络深度校准结构300还包括布置在跨区块网络深度中继结构310中的多个网络深度校准层(FCAA-D)，其中包括网络深度校准层312(针对区块k-1)、网络深度校准层314(针对区块k)和网络深度校准层316(针对区块k+1)。每个网络深度校准层耦合到多个卷积层中的相应的卷积层并且跟随在其后，这样，每个网络深度校准层从相应的卷积层接收输入，并且向后继层提供输出。每个网络深度校准层(即，神经网络中的初始网络深度校准层之后的每个网络深度校准层)还经由从相应的先前区块的网络深度校准层接收的隐藏状态信号和单元状态信号，来耦合到相应的先前区块中的网络深度校准层。从而，如图3A的示例中所示，跨区块中继结构包括为每个区块(k)布置区块(k)的网络深度校准层，该网络深度校准层与先前区块(k-1)的网络深度校准层耦合。网络深度中继结构310对应于网络深度中继结构132(如图1所示，已经论述过)。

例如，网络深度校准层312(针对区块k-1)接收来自卷积层302的特征图谱x_k-1作为输入。除非网络深度校准层312是神经网络中的初始网络深度校准层(在这种情况下，先前区块中将没有网络深度校准层)，否则网络深度校准层312还从先前区块(图3A中未示出)中的网络深度校准层接收隐藏状态信号和单元状态信号。网络深度校准层312产生输出特征图谱y_k-1。如对于图3A的示例所示，输出y_k-1可以被馈送到后继区块(例如，区块(k))或另一个神经网络层中。

类似地，网络深度校准层314(针对区块k)接收来自卷积层304的特征图谱x_k作为输入，并且还接收来自先前区块(k-1)中的网络深度校准层312的隐藏状态信号h_k-1和单元状态信号c_k-1，并且产生输出特征图谱y_k。如对于图3A的示例所示，输出y_k可以被馈送到后继区块(例如，区块(k+1))或另一个神经网络层中。对于下一个区块，网络深度校准层316(针对区块k+1)接收来自卷积层306的特征图谱x_k+1作为输入，并且还接收来自先前区块(k)中的网络深度校准层314的隐藏状态信号h_k和单元状态信号c_k，并且产生输出特征图谱y_k+1。如对于图3A的示例所示，输出y_k+1可以被馈送到后继区块(图3A中未示出)或另一个神经网络层中。图3A中所示的网络深度校准结构300可以对神经网络的全部或部分剩余部分反复继续。

网络深度校准结构300可包括一个或多个可选的激活层，例如(一个或多个)激活层303、305和/或307。(一个或多个)激活层303、305和/或307的每一者可包括对CNN有用的激活函数，例如，修正线性单元(ReLU)函数、SoftMax函数，等等。

(一个或多个)激活层303、305和/或307可以接收相应的相邻网络深度校准层312、314和/或316的输出作为输入。例如，如图3A中所示，激活层303接收来自网络深度校准层312的输出y_k-1作为输入，并且激活层303的输出馈送到后继区块或另一个神经网络层中。类似地，如图3A中所示，激活层305接收来自网络深度校准层314的输出y_k作为输入，并且激活层305的输出馈送到后继区块或另一个神经网络层中。同样地，如图3A中所示，激活层307接收来自网络深度校准层316的输出y_k+1作为输入，并且激活层256的输出馈送到后继区块或另一个神经网络层(如果存在的话)中。

在一些实施例中，(一个或多个)激活层303、305和/或307的激活函数可以被并入到相应的相邻网络深度校准层312、314和/或316中。在一些实施例中，(一个或多个)激活层303、305和/或307的每一者可以被布置在相应的卷积层和随后的网络深度校准层之间。网络深度校准结构300可包括一个或多个额外/可选的神经网络层，例如卷积层(图3A中未示出)。

网络深度校准结构300的一些或所有组件和特征可以使用中央处理单元(centralprocessing unit，CPU)、图形处理单元(graphics processing unit，GPU)、人工智能(artificial intelligence，AI)加速器、现场可编程门阵列(field programmable gatearray，FPGA)加速器、专用集成电路(application specific integrated circuit，ASIC)中的一个或多个来实现，和/或经由带有软件的处理器来实现，或者以带有软件的处理器和FPGA或ASIC的组合来实现。更具体而言，网络深度校准结构300的组件和特征可被实现在作为存储在诸如随机访问存储器(random access memory，RAM)、只读存储器(read onlymemory，ROM)、可编程ROM(programmable ROM，PROM)、固件、闪存等等之类的非暂态机器或计算机可读存储介质中的逻辑指令集的一个或多个模块中，实现在诸如可编程逻辑阵列(programmable logic array，PLA)、FPGA、复杂可编程逻辑器件(complex programmablelogic device，CPLD)之类的可配置逻辑中，利用诸如ASIC、互补金属氧化物半导体(complementary metal oxide semiconductor，CMOS)或晶体管-晶体管逻辑(transistor-transistor logic，TTL)技术之类的电路技术实现在固定功能逻辑硬件中，或者这些的组合。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图3B提供了图示出根据一个或多个实施例的神经网络的网络深度校准层(FCAA-D)350的示例的示意图。网络深度校准层350可以对应于网络深度校准层222(图2B，已经论述过)、网络深度校准层272(图2C，已经论述过)和/或任何网络深度校准层312、314和/或316(图3A，已经论述过)。如图3B中所示，将参考区块(k)(例如，对应于图3A的网络深度校准层314)来描述网络深度校准层350。网络深度校准层350接收区块k的卷积层(例如，图3A中所示的卷积层304，已经论述过)的输出特征图谱x_k作为输入。特征图谱x_k例如可以表示视频(或图像序列)特征图谱，它是具有时间维度T以及与图像相关联的其他维度的特征张量：

其中，N,C,T,H,W分别表示张量x_k的批量大小、通道数、时间长度、高度和宽度。

网络深度校准层350可包括第一全局平均池化(global average pooling，GAP)函数352、第一元选通中继(MGR)单元354、第一标准化(standardization，STD)函数356和第一线性变换(linear transformation，LNT)函数358。GAP函数352是已知用于CNN中的函数。GAP函数352通过计算特征图谱x_k的平均输出来对特征图谱x_k(例如，由图3A的区块(k)的卷积层304生成的特征图谱x_k)进行操作，以生成输出

其表示输入特征图谱x_k的时空聚合。对于具有维度(N×C×T×H×W)的输入特征图谱，GAP函数352产生维度(N×C×1)的结果输出。

GAP函数352的输出馈送到第一MGR单元354中。第一MGR单元354是共享的轻量级结构，使得能够动态生成特征校准参数，并且沿着神经网络深度在耦合的层之间中继这些参数。网络深度校准层350的第一MGR单元354以隐藏状态信号h_k-1和单元状态信号c_k-1的形式接收来自先前区块(k-1)的网络深度校准层的额外输入，并且生成更新后的隐藏状态信号h_k和更新后的单元状态信号c_k：

更新后的隐藏状态信号h_k和更新后的单元状态信号c_k馈送到LNT函数358中，并且还馈送到后继区块(k+1)的网络深度校准层中。关于第一MGR单元354的更多细节在本文中参考图3C-3D提供。

STD函数356通过按下式计算标准化特征来对输入特征图谱x_k进行操作：

其中，μ和σ是在输入特征图谱的非重叠子集内计算的均值和标准偏差，并且∈是小常数，用于保持数值稳定性。STD函数356的输出是标准化特征，预期其分布具有零均值和单位方差。标准化特征/>馈送到LNT函数358中。

LNT函数358对标准化特征进行操作，以校准和关联特征图谱的特征表示能力。LNT函数358使用隐藏状态信号h_k和单元状态信号c_k(如本文所述，它们由第一MGR单元354生成)作为缩放和移位参数来计算输出y_k如下：

其中，y_k是区块(k)的网络深度校准层的输出，h_k和c_k分别是第一MGR单元354生成的隐藏状态信号和单元状态信号，并且是STD函数356生成的标准化特征。这样，校准后的3D特征y_k接收先前层的特征分布动态，并且经由共享的网络深度中继结构将其校准统计数据中继给下一层。

网络深度校准层350的一些或所有组件和特征可以使用CPU、GPU、AI加速器、FPGA加速器、ASIC中的一个或多个来实现，和/或经由带有软件的处理器来实现，或者以带有软件的处理器和FPGA或ASIC的组合来实现。更具体而言，网络深度校准层350的组件和特征可作为存储在诸如RAM、只读存储器ROM、PROM、固件、闪存等等之类的非暂态机器或计算机可读存储介质中的逻辑指令集合被实现在一个或多个模块中，被实现在诸如PLA、FPGA、CPLD之类的可配置逻辑中，利用诸如ASIC、CMOS或TTL技术之类的电路技术被实现在固定功能逻辑硬件中，或者这些的组合。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图3C提供了图示出根据一个或多个实施例的神经网络的网络深度校准层(区块k)的元门控中继(MGR)单元360的示例的示意图。MGR单元360可对应于第一MGR单元354(图3B，已经论述过)。MGR单元360包括修改后的长短期记忆(long-short term memory，LSTM)单元370。修改后的LSTM单元370可以从神经网络中使用的LSTM单元生成；本文将参考图3D提供修改后的LSTM单元的示例。修改后的LSTM单元370接收时空聚合(式2)以及来自先前区块(k-1)的网络深度校准层的隐藏状态信号h_k-1和单元状态信号c_k-1作为输入，以生成更新后隐藏状态信号h_k和更新后单元状态信号c_k。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图3D提供了图示出根据一个或多个实施例的神经网络的网络深度校准层(区块k)的MGR单元380的示例的示意图。MGR单元380可以对应于第一MGR单元354(图3B，已经论述过)和/或MGR单元360(图3C，已经论述过)。具体地，MGR单元380包括修改后的LSTM单元的示例，例如修改后的LSTM单元370(图3C，已经论述过)。MGR单元380提供可以由以下式子表示的门控机制：

其中，φ(·)是用于处理时空聚合(式2)和来自网络深度校准层(k-1)的隐藏状态信号h_k-1的瓶颈单元，并且b是偏置。例如，瓶颈单元φ(·)可以是收缩-扩展瓶颈单元，该单元具有完全连接(fully connected，FC)层，其以缩减比率r将输入映射到低维度空间；ReLU激活层；以及另一个FC层，其将输入映射回到原始维度空间。在一些实施例中，可以用4的缩减比率来实现瓶颈单元φ(·)。在一些实施例中，瓶颈单元φ(·)可以被实现为任何形式的线性或非线性映射。动态生成的参数f_k,i_k,g_k,o_k形成一组门，用来对区块(k)的MGR单元380的单元状态信号c_k和隐藏状态信号h_k的更新进行正则化，如下：

c_k＝σ(f_k)⊙c_k-1+σ(i_k)⊙tanh(g_k) 式(7)

以及

h_k＝σ(o_k)⊙σ(c_k) 式(8)

其中，c_k是更新后的单元状态信号，h_k是更新后的隐藏状态信号，c_k-1是来自区块(k-1)的先前网络深度校准层的单元状态信号，σ(·)是S型函数，并且⊙是哈达马乘积算子。

MGR单元360和/或MGR单元380的一些或所有组件和特征可以使用CPU、GPU、AI加速器、FPGA加速器、ASIC中的一个或多个来实现，和/或经由带有软件的处理器来实现，或者以带有软件的处理器和FPGA或ASIC的组合来实现。更具体而言，MGR单元360和/或MGR单元380的组件和特征可作为存储在诸如RAM、只读存储器ROM、PROM、固件、闪存等等之类的非暂态机器或计算机可读存储介质中的逻辑指令集合被实现在一个或多个模块中，被实现在诸如PLA、FPGA、CPLD之类的可配置逻辑中，利用诸如ASIC、CMOS或TTL技术之类的电路技术被实现在固定功能逻辑硬件中，或者这些的组合。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图4A提供了根据一个或多个实施例的特征维度校准结构400的示例的框图。特征维度校准结构400可用于神经网络110(图1A-1B，已经论述过)的全部或一部分中。特征维度校准结构400包括卷积层402(表示层n)。卷积层402进行操作来提供输出特征图谱x_n。卷积层402对应于图2A中所示的一个或多个卷积层以及图2B中的卷积层224，并且具有通过神经网络训练过程确定的参数和权重。特征图谱x_n例如可以表示视频(或图像序列)特征图谱，类似于上文参考图3A-3D描述的特征图谱x_k。

作为卷积层402的输出的特征图谱x_n可以沿着时间维度被分割成一组T个切片404{x_n,1,x_n,2,...x_n,t...,x_n,T}，这样，每个切片x_n,t表示与一个或多个帧(例如，第t切片的一个或多个输入帧)相对应的特征切片。在一些实施例中，特征切片404{x_n,1,x_n,2,...x_n,t-1,x_n,t,x_n,t+1,...,x_n,T}可以表示沿着除了时间维度以外的特征维度分割的特征图谱。

特征维度校准结构400包括布置在特征维度中继结构410中的多个特征维度校准切片(例如，FCAA-T(切片t))。特征维度中继结构410包括特征维度校准切片412(用于切片t-1)、特征维度校准切片414(用于切片t)和特征维度校准切片416(用于切片t+1)，等等。每个特征维度校准切片接收来自相应特征切片的输入(例如，x_n,t)，并且产生输出切片(例如，y_n,t)。输出是一组T个切片406{y_n,1,y_n,2,...y_n,t-1,y_n,t,y_n,t+1,...,y_n,T}。

每个特征维度校准切片(即，除了初始切片t＝1以外的每个特征维度校准切片)还经由从相应的先前切片的特征维度校准切片接收的隐藏状态信号和单元状态信号，与相应的先前切片中的特征维度校准切片耦合。从而，如图4A的示例中所示，特征维度中继结构410包括为每个切片(t)布置与先前切片(t-1)的特征维度校准切片耦合的特征维度校准切片。特征维度中继结构410对应于特征维度中继结构134(如图1所示，已经论述过)。特征维度中继结构410还对应于特征维度校准层225(图2B，已经论述过)，和/或特征维度校准层292(图2D，已经论述过)。

例如，特征维度校准切片412(用于切片t-1)接收来自切片x_n,t-1的输入，并且还接收来自先前切片(图4A中未示出)中的特征校准切片的隐藏状态信号和单元状态信号，除非切片t-1是初始切片(在这种情况下，没有先前特征校准切片)。特征维度校准切片412(用于切片t-1)产生输出切片y_n,t-1。

类似地，特征维度校准切片414(用于切片t)接收来自切片x_n,t的输入，并且还接收来自特征维度校准切片412(用于切片t-1)的隐藏状态信号h_t-1和单元状态信号c_t-1，并且产生输出切片y_n,t。对于下一个切片，特征维度校准切片416(用于切片t+1)接收来自切片x_n,t+1的输入，并且还接收来自特征维度校准切片414(用于切片t)的隐藏状态信号h_t和单元状态信号c_t，并且产生输出切片y_n,t+1。输出切片406{y_n,1,y_n,2,...y_n,t-1,y_n,t,y_n,t+1,...,y_n,T}可以被组合成特征图谱y_n，并且如对于图4A的示例所示，被提供给神经网络的另一层或另一部分。可以在神经网络的一个或多个区块中重复图4A中所示的特征维度校准结构400。

特征维度校准结构400可包括一个或多个可选的激活层，例如激活层408。每个激活层408可包括对CNN有用的激活函数，例如，修正线性单元(ReLU)函数、SoftMax函数，等等。在一些实施例中，激活层408的激活函数可以被并入到特征维度校准切片412、414和/或416中。特征维度校准结构400可包括一个或多个额外/可选的神经网络层，例如卷积层(图4A中未示出)。

特征维度校准结构400的一些或所有组件和特征可以使用中央处理单元(CPU)、图形处理单元(GPU)、人工智能(AI)加速器、现场可编程门阵列(FPGA)加速器、专用集成电路(ASIC)中的一个或多个来实现，和/或经由带有软件的处理器来实现，或者以带有软件的处理器和FPGA或ASIC的组合来实现。更具体而言，特征维度校准结构400的组件和特征可被实现在作为存储在诸如随机访问存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、固件、闪存等等之类的非暂态机器或计算机可读存储介质中的逻辑指令集的一个或多个模块中，实现在诸如可编程逻辑阵列(PLA)、FPGA、复杂可编程逻辑器件(PLD)之类的可配置逻辑中，利用诸如ASIC、互补金属氧化物半导体(CMOS)或晶体管-晶体管逻辑(TTL)技术之类的电路技术实现在固定功能逻辑硬件中，或者这些的组合。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图4B提供了图示出根据一个或多个实施例的神经网络的特征维度校准切片(FCAA-T)450的示例的示意图。特征维度校准切片450可以对应于特征维度校准切片412、414和/或416的任何一者(图4A，已经论述过)。如图4B中所示，将参考切片(t)来描述特征维度校准切片450(例如，对应于图4A的特征维度校准切片414)。特征维度校准切片450接收特征图谱x_n的切片x_n,t作为输入(例如，图4A中所示的特征图谱x_n的切片x_n,t，已经论述过)。

特征维度校准切片450可包括第二GAP函数452、第二MGR单元454、第二STD函数456和第二LNT函数458。GAP函数452是已知用于CNN中的函数，并且其形式与GAP函数352(图3B，已经论述过)相同。GAP函数452通过计算特征切片x_n,t的平均输出来对特征切片x_n,t进行操作，以生成输出

其表示输入特征切片x_n,t的空间聚合。对于具有维度(N×C×T×H×W)的输入特征图谱，GAP函数452产生维度(N×C×1)的结果输出。

GAP函数452的输出馈送到第二MGR单元454中。第二MGR单元454是共享的轻量级结构，使得能够动态生成特征校准参数，并且沿着时间维度在耦合的切片之间中继这些参数。特征维度校准切片450的第二MGR单元454以隐藏状态信号h_t-1和单元状态信号c_t-1的形式接收来自先前切片(t-1)的特征维度校准切片的额外输入，并且生成更新后的隐藏状态信号h_t和更新后的单元状态信号c_t：

更新后的隐藏状态信号h_t和更新后的单元状态信号c_t馈送到LNT函数458中，并且还馈送到后继切片(t+1)的特征维度校准切片中。关于第二MGR单元454的更多细节在本文中参考图4C-4D提供。

STD函数456的形式与STD函数356(图3B，已经论述过)相同。STD函数456通过按下式计算标准化特征来对输入特征切片x_n,t进行操作：

其中，μ和σ是在输入特征图谱的非重叠子集内计算的均值和标准偏差，并且∈是小常数，用于保持数值稳定性。STD函数456的输出是标准化特征，预期其分布具有零均值和单位方差。标准化特征/>馈送到LNT函数458中。

LNT函数458的形式与LNT函数358(图3B，已经论述过)相同。LNT函数458对标准化特征进行操作，以校准和关联特征切片的特征表示能力。LNT函数458使用隐藏状态信号h_t和单元状态信号c_t(如本文所述，它们由第二MGR单元454生成)作为缩放和移位参数来计算输出y_n,t如下：

其中，y_n,t是切片(t)的特征维度校准切片的输出，h_t和c_t分别是第二MGR单元454生成的隐藏状态信号和单元状态信号，并且是STD函数456生成的标准化特征。这样，校准后的3D特征y_n,t接收先前时间切片(例如，时间戳)的特征分布动态，并且经由共享的特征维度中继结构将其校准统计数据中继给下一时间切片(例如，时间戳)。

特征维度校准切片450的一些或所有组件和特征可以使用CPU、GPU、AI加速器、FPGA加速器、ASIC中的一个或多个来实现，和/或经由带有软件的处理器来实现，或者以带有软件的处理器和FPGA或ASIC的组合来实现。更具体而言，特征维度校准切片450的组件和特征可作为存储在诸如RAM、只读存储器ROM、PROM、固件、闪存等等之类的非暂态机器或计算机可读存储介质中的逻辑指令集合被实现在一个或多个模块中，被实现在诸如PLA、FPGA、CPLD之类的可配置逻辑中，利用诸如ASIC、CMOS或TTL技术之类的电路技术被实现在固定功能逻辑硬件中，或者这些的组合。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图4C提供了图示出根据一个或多个实施例的特征维度校准切片的MGR单元460的示例的示意图。MGR单元460可对应于第二MGR单元454(图4B，已经论述过)。MGR单元460包括修改后的LSTM单元470。修改后的LSTM单元470可以从神经网络中使用的LSTM单元生成；本文将参考图4D提供修改后的LSTM单元的示例。修改后的LSTM单元470接收时空聚合(式9)以及来自先前切片(t-1)的特征维度校准切片的隐藏状态信号h_t-1和单元状态信号c_t-1作为输入，以生成更新后隐藏状态信号h_t和更新后单元状态信号c_t。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图4D提供了图示出根据一个或多个实施例的特征维度校准切片的MGR单元480的示例的示意图。MGR单元480可以对应于第二MGR单元454(图4B，已经论述过)和/或MGR单元460(图4C，已经论述过)。具体地，MGR单元480包括修改后的LSTM单元的示例，例如修改后的LSTM单元470(图4C，已经论述过)。MGR单元480提供可以由以下式子表示的门控机制：

其中，φ(·)是用于处理时空聚合(式9)和来自先前特征维度校准切片(t-1)的隐藏状态信号h_t-1的瓶颈单元，并且b是偏置。例如，瓶颈单元φ(·)可以是收缩-扩展瓶颈单元，该单元具有完全连接(FC)层，其以缩减比率r将输入映射到低维度空间；ReLU激活层；以及另一个FC层，其将输入映射回到原始维度空间。在一些实施例中，瓶颈单元φ(·)可以被实现为任何形式的线性或非线性映射。动态生成的参数f_t,i_t,g_t,o_t形成一组门，用来对切片(t)的MGR单元480的单元状态信号c_t和隐藏状态信号h_t的更新进行正则化，如下：

c_t＝σ(f_t)⊙c_t-1+σ(i_t)⊙tanh(g_t) 式(14)

以及

h_t＝σ(o_t)⊙σ(c_t) 式(15)

其中，c_t是更新后的单元状态信号，h_t是更新后的隐藏状态信号，c_t-1是来自先前切片(t-1)的单元状态信号，σ(·)是S型函数，并且⊙是哈达马乘积算子。

MGR单元460和/或MGR单元480的一些或所有组件和特征可以使用CPU、GPU、AI加速器、FPGA加速器、ASIC中的一个或多个来实现，和/或经由带有软件的处理器来实现，或者以带有软件的处理器和FPGA或ASIC的组合来实现。更具体而言，MGR单元460和/或MGR单元480的组件和特征可作为存储在诸如RAM、只读存储器ROM、PROM、固件、闪存等等之类的非暂态机器或计算机可读存储介质中的逻辑指令集合被实现在一个或多个模块中，被实现在诸如PLA、FPGA、CPLD之类的可配置逻辑中，利用诸如ASIC、CMOS或TTL技术之类的电路技术被实现在固定功能逻辑硬件中，或者这些的组合。

本文描述的神经网络结构和/或(一个或多个)网络深度校准层和(一个或多个)特征维度校准层(例如，图2A-2D、图3A-3D和图4A-4D)可被交错应用到任何现有3D CNN(例如，如图2A-2D所示)，从而增强3DCNN模型的容量。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图5A是图示出根据一个或多个实施例的构造神经网络的方法500的流程图。方法500例如可被用于构造神经网络110(图1A-1B，已经论述过)和/或神经网络结构200(图2A-2D，已经论述过)，并且可利用网络深度校准结构300(图3A，已经论述过)、特征维度校准结构400(图4A，已经论述过)和/或其任何组件(图3A-3D，已经论述过，或者图4A-4D，已经论述过)。方法500一般可以在***100(图1A-1B，已经论述过)中实现，和/或使用CPU、GPU、AI加速器、FPGA加速器、ASIC中的一个或多个来实现，和/或经由带有软件的处理器来实现，或者以带有软件的处理器和FPGA或ASIC的组合来实现。更具体而言，方法500可作为存储在诸如RAM、只读存储器ROM、PROM、固件、闪存等等之类的非暂态机器或计算机可读存储介质中的逻辑指令集合被实现在一个或多个模块中，被实现在诸如PLA、FPGA、CPLD之类的可配置逻辑中，利用诸如ASIC、CMOS或TTL技术之类的电路技术被实现在固定功能逻辑硬件中，或者这些的任何组合。

图示处理块502提供了生成神经网络中的多个卷积层。图示处理块504提供了在神经网络中布置网络深度中继结构，该结构包括多个网络深度校准层，其中每个网络深度校准层耦合到多个卷积层中相应的一个卷积层的输出。图示处理块506提供了在神经网络中布置特征维度中继结构，该结构包括多个特征维度校准切片，其中特征维度中继结构耦合到多个卷积层中的另一层的输出。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图5B是图示出根据一个或多个实施例的构造神经网络的方法520的流程图。方法520例如可被用于构造神经网络110(图1A-1B，已经论述过)和/或神经网络结构200(图2A-2D，已经论述过)，并且可利用网络深度校准结构300(图3A，已经论述过)、特征维度校准结构400(图4A，已经论述过)和/或其任何组件(图3A-3D，已经论述过，或者图4A-4D，已经论述过)。方法520一般可以在***100(图1A-1B，已经论述过)中实现，和/或使用CPU、GPU、AI加速器、FPGA加速器、ASIC中的一个或多个来实现，和/或经由带有软件的处理器来实现，或者以带有软件的处理器和FPGA或ASIC的组合来实现。更具体而言，方法520可作为存储在诸如RAM、只读存储器ROM、PROM、固件、闪存等等之类的非暂态机器或计算机可读存储介质中的逻辑指令集合被实现在一个或多个模块中，被实现在诸如PLA、FPGA、CPLD之类的可配置逻辑中，利用诸如ASIC、CMOS或TTL技术之类的电路技术被实现在固定功能逻辑硬件中，或者这些的任何组合。

在图示处理块522，每个网络深度校准层包括第一元门控中继(MGR)单元，其中在图示处理块524，每个网络深度校准层经由第一隐藏状态信号和第一单元状态信号耦合到先前网络深度校准层，第一隐藏状态信号和第一单元状态信号的每一者由先前网络深度校准层的相应的第一MGR单元生成。图示处理块524一般可替代图示处理块504的至少一部分。

在图示处理块526，每个特征维度校准切片包括第二元门控中继(MGR)单元，其中在图示处理块528，每个特征维度校准切片经由第二隐藏状态信号和第二单元状态信号耦合到先前特征维度校准切片，第二隐藏状态信号和第二单元状态信号的每一者由先前特征维度校准单元的相应的第二MGR单元生成。图示处理块528一般可替代图示处理块506的至少一部分。

在图示处理块530，第一MGR单元和第二MGR单元的每一者包括修改后的长短期记忆(LSTM)单元。在一些实施例中，修改后的LSTM单元可包括采用瓶颈单元的门控机制。

在图示处理块532，每个网络深度校准层校准单元还包括第一全局平均池化(GAP)函数、第一标准化(STD)函数和第一线性变换(LNT)函数。第一GAP函数作用于特征图谱，第一STD函数作用于特征图谱，并且第一LNT函数作用于第一STD函数的输出，其中第一LNT函数基于第一MGR单元生成的第一隐藏状态信号并且基于第一MGR单元生成的第一单元状态信号。

在图示处理块534，每个特征维度校准单元还包括第二GAP函数、第二STD函数和第二LNT函数。第二GAP函数作用于特征切片，第二STD函数作用于特征切片，并且第二LNT函数作用于第二STD函数的输出，其中第二LNT函数基于第二MGR单元生成的第二隐藏状态信号并且基于第二MGR单元生成的第二单元状态信号。

从而，所公开的技术提供了网络深度中继结构和特征维度中继结构的组合，该组合用于既沿着时间维度也沿着网络深度(例如，在相邻层或区块之间)关联3D特征分布依从性。通过采用本文参考图1A-1B、图2A-2D、图3A-3D、图4A-4D和图5A-5B描述的神经网络技术，将MGR结构与元学习相结合，从而使得隐藏状态h_k和单元状态c_k被设置为用于校准第k区块视频特征张量x_k的缩放和移位参数(沿着网络深度)，并且隐藏状态h_t和单元状态c_t被设置为用于校准第t输入切片x_n,t的特征切片的缩放和移位参数(沿着时间维度)。通过使用网络深度中继结构、特征维度中继结构和各MGR单元的门控机制，第k层特征图谱和第t帧特征切片的校准参数不仅可以以当前输入特征图谱x_k和当前输入特征切片x_n,t为条件，而且还可以以先前(k-1)层的估计校准参数c_k-1和h_k-1以及先前(t-1)特征切片的估计校准参数c_t-1和h_t-1为条件。另外，如本文所述的神经网络技术利用了观察到的特征分布来指导当前特征校准层的学习动态。中间特征分布作为一个整体***是隐式地相互依赖的，并且利用所公开的SA-FCAA技术中的共享MGR单元，这些潜在条件可被提取用于校准参数的学习。此外，所公开的技术显式地利用了跨层和沿着时间维度的特征相关性，并且在训练和推理中都为每个个体视频样本生成以自适应中继方式关联的校准参数。由于这些参数的计算流程是完全可区分的，因此可以将其与主网络的那些参数一起在后向遍历(pass)中同时优化。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图6A-6F提供了根据一个或多个实施例的用于图像序列/视频分析的***中的示例输入图像序列和相应激活图谱的图示。输入图像序列(在图6A、6C和6E中示为转换到灰度的图像)是从Kinetics-200数据集中的样本图像序列获得的。图6A、6C和6E中的每个输入序列被示为具有八个帧，而使用的输入序列包括具有三十二个帧的视频剪辑。激活图谱(在图6B、6D和6F中示为堆叠在来自图6A、6C和6E的各个输入图像上并且被转换到灰度)是通过使用本文描述的神经网络技术的示例处理输入图像序列来生成的。图6A提供了小号演奏的输入图像序列的示例，如标签602处所示。图6B提供了一组激活图谱，如标签604处所示，每个激活图谱被示为堆叠在图6A的输入图像之一上并且与之相对应。图6C提供了霹雳舞的输入图像序列的示例，如标签612处所示。图6D提供了一组激活图谱，如标签614处所示，每个激活图谱被示为堆叠在图6C的输入图像之一上并且与之相对应。图6E提供了杂耍球的输入图像序列的示例，如标签622处所示。图6F提供了一组激活图谱，如标签624处所示，每个激活图谱被示为堆叠在图6E的输入图像之一上并且与之相对应。

如图6B、6D和6F所示的每个激活图谱的亮区域示出了被神经网络识别为运动区域的区域，并且在序列期间所识别的运动区域被突出显示。如每组示例所示，本文描述的神经网络技术提供了以较高的置信精确度一致地强调图像序列或视频剪辑内与整体运动相关的注意区域。所公开的技术从而可用于增强3D CNN的时空特征学习，并且为高性能图像序列/视频分析任务提供图像序列/视频表示学习的关键改善。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图7示出了图示出根据一个或多个实施例的用于图像序列/视频分析的示例计算***10的框图。***10一般可以是电子设备/平台的一部分，具有计算和/或通信功能(例如，服务器、云基础设施控制器、数据库控制器、笔记本计算机、桌面型计算机、个人数字助理/PDA、平板计算机、可转换平板设备、智能电话，等等)、成像功能(例如，相机、摄像机)、媒体播放功能(例如，智能电视/TV)、可穿戴功能(例如，手表、眼镜、头饰、鞋类、珠宝)、车辆功能(例如，汽车、卡车、摩托车)、机器人功能(例如，自主机器人)、物联网(Internet of Things，IoT)功能，等等，或者这些的任何组合。在图示的示例中，***10可包括主机处理器12(例如，中央处理单元/CPU)，其具有可与***存储器20相耦合的集成存储器控制器(integrated memorycontroller，IMC)14。主机处理器12可包括任何类型的处理设备，例如，微控制器、微处理器、RISC处理器、ASIC，等等，以及关联的处理模块或电路。***存储器20可包括诸如RAM、ROM、PROM、EEPROM、固件、闪存之类的任何非暂态机器或计算机可读存储介质，诸如PLA、FPGA、CPLD之类的可配置逻辑，使用诸如ASIC、CMOS或TTL技术之类的电路技术的固定功能硬件逻辑，或者适合用于存储指令28的其任何组合。

***10还可包括输入/输出(I/O)子***16。I/O子***16可与例如一个或多个输入/输出(I/O)设备17、网络控制器(例如，有线和/或无线NIC)和存储装置22通信。存储装置22可包括任何适当的非暂态机器或计算机可读存储器类型(例如，闪速存储器、DRAM、SRAM(静态随机访问存储器)、固态驱动器(solid state drive，SSD)、硬盘驱动器(hard diskdrive，HDD)、光盘，等等)。存储装置22可包括大容量存储装置。在一些实施例中，主机处理器12和/或I/O子***16可经由网络控制器24与存储装置22(全部或者其一部分)通信。在一些实施例中，***10还可包括图形处理器26(例如，图形处理单元/GPU)和AI加速器27。在一实施例中，***10还可包括没有示出的视觉处理单元(vision processing unit，VPU)。

主机处理器12和I/O子***16可作为包在实线中示出的片上***(system onchip，SoC)11一起实现在半导体管芯上。SoC 11因此可作为用于图像序列/视频分析的计算装置来操作。在一些实施例中，SoC 11还可包括***存储器20、网络控制器24和/或图形处理器26(包在虚线中示出)中的一个或多个。在一些实施例中，SoC 11还可包括***10的其他组件。

主机处理器12和/或I/O子***16可以执行从***存储器20和/或存储装置22取回的程序指令28，以执行本文参考图5A-5B描述的过程500和/或过程520的一个或多个方面。***10可以实现如本文参考图1A-1B、图2A-2D、图3A-3D和图4A-4D所述的***100、神经网络110、神经网络结构200、网络深度校准结构300、网络深度中继结构310、网络深度校准层350、MGR单元360、MGR单元380、特征维度校准结构400、特征维度中继结构410、特征维度校准切片450、MGR单元460和/或MGR单元480的一个或多个方面。因此，至少就提供一致地识别图像序列/视频内的运动相关注意区域的能力的技术而言，***10被认为是性能增强的。

可以用一种或多种编程语言的任何组合来编写用于执行上文描述的过程的计算机程序代码并且将其实现为程序指令28，所述编程语言包括面向对象的编程语言，比如JAVA、JAVASCRIPT、PYTHON、SMALLTALK、C++等等，和/或传统的过程式编程语言，比如“C”编程语言或者类似的编程语言。此外，程序指令28可包括汇编指令、指令集体系结构(instruction set architecture，ISA)指令、机器指令、机器相关指令、微代码、状态设置数据、用于集成电路的配置数据、个性化电子电路和/或硬件原生的其他结构组件(例如，主机处理器、中央处理单元/CPU、微控制器、微处理器，等等)的状态信息。

I/O设备17可包括一个或多个输入设备，比如触摸屏、键盘、鼠标、光标控制设备、触摸屏、麦克风、数字相机、视频记录器、摄像机、生物计量扫描器和/或传感器；输入设备可用于输入信息和与***10和/或与其他设备进行交互。I/O设备17还可包括一个或多个输出设备，比如显示器(例如，触摸屏、液晶显示器/LCD、发光二极管/LED显示器、等离子面板，等等)、扬声器和/或其他视觉或音频输出设备。输入和/或输出设备可用于例如提供用户界面。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图8示出了图示出根据一个或多个实施例的用于图像序列/视频分析的示例半导体装置30的框图。半导体装置30可例如实现为芯片、管芯或者其他半导体封装。半导体装置30可包括由例如硅、蓝宝石、砷化镓等等构成的一个或多个衬底32。半导体装置30还可包括与(一个或多个)衬底32耦合的逻辑34，其由例如(一个或多个)晶体管阵列和(一个或多个)其他集成电路(IC)组件构成。逻辑34可至少部分在可配置逻辑或固定功能逻辑硬件中实现。逻辑34可实现上文参考图7描述的片上***(SoC)11。逻辑34可实现上文描述的过程的一个或多个方面，包括过程500和/或过程520。逻辑34可以实现如本文参考图1A-1B、图2A-2D、图3A-3D和图4A-4D所述的***100、神经网络110、神经网络结构200、网络深度校准结构300、网络深度中继结构310、网络深度校准层350、MGR单元360、MGR单元380、特征维度校准结构400、特征维度中继结构410、特征维度校准切片450、MGR单元460和/或MGR单元480的一个或多个方面。因此，至少就提供一致地识别图像序列/视频内的运动相关注意区域的能力的技术而言，装置30被认为是性能增强的。

可利用任何适当的半导体制造工艺或技术来构造半导体装置30。例如，逻辑34可包括被定位(例如，嵌入)在(一个或多个)衬底32内的晶体管沟道区域。从而，逻辑34和(一个或多个)衬底32之间的界面可能不是突变结。逻辑34也可被认为包括在(一个或多个)衬底34的初始晶圆上生长的外延层。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图9是图示出根据一个或多个实施例的示例处理器核心40的框图。处理器核心40可以是用于任何类型的处理器的核心，例如微处理器、嵌入式处理器、数字信号处理器(digital signal processor，DSP)、网络处理器、图形处理单元(graphics processing unit，GPU)、或者其他执行代码的设备。虽然在图9中只图示了一个处理器核心40，但处理元件可改为包括多于一个图9所示的处理器核心40。处理器核心40可以是单线程核心，或者对于至少一个实施例，处理器核心40可以是多线程的，因为其对于每个核心可包括多于一个硬件线程上下文(或者说“逻辑处理器”)。

图9还图示了与处理器核心40相耦合的存储器41。存储器41可以是本领域技术人员已知的或者以其他方式可获得的各种存储器(包括存储器层次体系的各种层)中的任何一者。存储器41可包括要被处理器核心40执行的一个或多个代码42指令。代码42可以实现上文描述的过程500和/或520的一个或多个方面。处理器核心40可以实现如本文参考图1A-1B、图2A-2D、图3A-3D和图4A-4D所述的***100、神经网络110、神经网络结构200、网络深度校准结构300、网络深度中继结构310、网络深度校准层350、MGR单元360、MGR单元380、特征维度校准结构400、特征维度中继结构410、特征维度校准切片450、MGR单元460和/或MGR单元480的一个或多个方面。处理器核心40可遵循由代码42指示的指令的程序序列。每个指令可进入前端部分43并且被一个或多个解码器44处理。解码器44可生成诸如预定格式的固定宽度微操作之类的微操作作为其输出，或者可生成其他指令、微指令或者反映原始代码指令的控制信号。图示的前端部分43还包括寄存器重命名逻辑46和调度逻辑48，它们一般分配资源并且对与转换指令相对应的操作进行排队以便执行。

处理器核心40被示为包括具有一组执行单元50-1至55-N的执行逻辑50。一些实施例可包括专用于特定功能或功能集合的若干个执行单元。其他实施例可只包括一个执行单元或者可执行特定功能的一个执行单元。图示的执行逻辑50执行由代码指令指定的操作。

在由代码指令指定的操作的执行完成之后，后端逻辑58让代码42的指令引退。在一个实施例中，处理器核心40允许指令的无序执行，但要求指令的有序引退。引退逻辑59可采取本领域技术人员已知的多种形式(例如，重排序缓冲器之类的)。这样，处理器核心40在代码42的执行期间被变换，至少就由解码器生成的输出、被寄存器重命名逻辑46利用的硬件寄存器和表格以及被执行逻辑50修改的任何寄存器(未示出)而言。

虽然在图9中没有图示，但处理元件可包括与处理器核心40一起在芯片上的其他元件。例如，处理元件可包括与处理器核心40一起的存储器控制逻辑。处理元件可包括I/O控制逻辑和/或可包括与存储器控制逻辑相集成的I/O控制逻辑。处理元件也可包括一个或多个缓存。

参考本文描述的组件和特征(包括但不限于附图和关联的描述)，图10是图示出根据一个或多个实施例的基于多处理器的计算***60的示例的框图。多处理器***60包括第一处理元件70和第二处理元件80。虽然示出了两个处理元件70和80，但要理解，***60的实施例也可只包括一个这样的处理元件。

***60被图示为点到点互连***，其中第一处理元件70和第二处理元件80经由点到点互连71耦合。应当理解，图10中所示的任何或所有互连可被实现为多点分支总线，而不是点到点互连。

如图10中所示，处理元件70和80的每一者可以是多核处理器，包括第一和第二处理器核心(即，处理器核心74a和74b和处理器核心84a和84b)。这种核心74a、74b、84a、84b可被配置为以与上文联系图9所述类似的方式来执行指令代码。

每个处理元件70、80可包括至少一个共享缓存99a、99b。共享缓存99a、99b可存储被处理器的一个或多个组件利用的数据(例如，指令)，所述组件例如分别是核心74a、74b和84a、84b。例如，共享缓存99a、99b可以在本地缓存存储器62、63中存储的数据，以供处理器的组件更快速访问。在一个或多个实施例中，共享缓存99a、99b可包括一个或多个中间级别缓存，例如第2级(L2)、第3级(L3)、第4级(L4)或其他级别的缓存，末级缓存(last levelcache，LLC)，和/或这些的组合。

虽然示为只具有两个处理元件70、80，但要理解，实施例的范围不限于此。在其他实施例中，一个或多个额外的处理元件可存在于给定的处理器中。或者，处理元件70、80中的一个或多个可以是除了处理器以外的元件，例如加速器或者现场可编程门阵列。例如，(一个或多个)额外的处理元件可包括与第一处理器70相同的(一个或多个)额外处理器，与第一处理器70异构或非对称的(一个或多个)额外处理器，加速器(例如，图形加速器或者数字信号处理(DSP)单元)，现场可编程门阵列，或者任何其他处理元件。在处理元件70、80之间，就包括体系结构特性、微体系结构特性、热特性、功率消耗特性等等在内的价值度量的范围而言，可以有多种差异。这些差异可实际上将其自身展现为处理元件70、80之间的非对称性和异构性。对于至少一个实施例，各种处理元件70、80可存在于相同的管芯封装中。

第一处理元件70还可包括存储器控制器逻辑(MC)72和点到点(P-P)接口76和78。类似地，第二处理元件80可包括MC 82和P-P接口86和88。如图10所示，MC 72和82将处理器耦合到相应的存储器，即存储器62和存储器63，这些存储器可以是在本地附接到各个处理器的主存储器的一部分。虽然MC 72和82被示为集成到处理元件70、80中，但对于替代实施例，MC逻辑可以是在处理元件70、80之外的分立逻辑，而不是集成在其中。

第一处理元件70和第二处理元件80可分别经由P-P互连76和86耦合到I/O子***90。如图10所示，I/O子***90包括P-P接口94和98。此外，I/O子***90包括接口92来将I/O子***90与高性能图形引擎64耦合。在一个实施例中，总线73可用于将图形引擎64耦合到I/O子***90。或者，点到点互连可耦合这些组件。

进而，I/O子***90可经由接口96耦合到第一总线65。在一个实施例中，第一总线65可以是***组件互连(Peripheral Component Interconnect，PCI)总线，或者诸如快速PCI总线或另一种第三代I/O互连总线之类的总线，虽然实施例的范围不限于此。

如图10所示，各种I/O设备65a(例如，生物计量扫描仪、扬声器、相机和/或传感器)可耦合到第一总线66，以及可将第一总线65耦合到第二总线67的总线桥66。在一个实施例中，第二总线67可以是低引脚数(low pin count，LPC)总线。各种设备可耦合到第二总线67，例如包括键盘/鼠标67a、(一个或多个)通信设备67b、以及数据存储单元68(例如，盘驱动器或者其他大容量存储设备)，其中该数据存储单元在一个实施例中可包括代码69。图示的代码69可实现上文描述的过程的一个或多个方面，包括过程500和/或过程520。图示的代码69可与已经论述过的代码42(图9)类似。另外，音频I/O 67c可耦合到第二总线67，并且电池61可向计算***60供应电力。***60可以实现如本文参考图1A-1B、图2A-2D、图3A-3D和图4A-4D所述的***100、神经网络110、神经网络结构200、网络深度校准结构300、网络深度中继结构310、网络深度校准层350、MGR单元360、MGR单元380、特征维度校准结构400、特征维度中继结构410、特征维度校准切片450、MGR单元460和/或MGR单元480的一个或多个方面。

注意，设想了其他实施例。例如，取代图10的点到点体系结构，***可实现多点分支总线或者另外的这种通信拓扑。另外，图10的元件可改为利用比图10所示更多或更少的集成芯片来划分。

上述***、设备、组件和/或方法中的每一者的实施例，包括***100、神经网络110、神经网络结构200、网络深度校准结构300、网络深度中继结构310、网络深度校准层350、MGR单元360、MGR单元380、特征维度校准结构400、特征维度中继结构410、特征维度校准切片450、MGR单元460、MGR单元480、过程500、和/或过程520、和/或任何其他***组件，可以用硬件、软件或者其任何适当的组合来实现。例如，硬件实现方式可包括可配置逻辑，例如PLA、FPGA、CPLD，或者利用诸如ASIC、CMOS或TTL技术之类的电路技术之类的固定功能逻辑硬件，或者这些的任何组合。

替代地或者额外地，前述***和/或组件和/或方法的全部或一些部分可作为存储在机器或计算机可读存储介质中的逻辑指令的集合被实现在一个或多个模块中以被处理器或计算设备执行，所述介质例如是RAM、ROM、PROM、固件、闪存，等等。例如，可以用一种或多种操作***(operating system，OS)适用/适当的编程语言的任何组合来编写用于执行组件的操作的计算机程序代码，所述编程语言包括面向对象的编程语言，比如PYTHON、PERL、JAVA、SMALLTALK、C++、C#等等，还包括传统的过程式编程语言，比如“C”编程语言或者类似的编程语言。

附加注释和示例：

示例1包括一种计算***，该计算***包括处理器，以及与所述处理器相耦合的存储器，所述存储器存储神经网络，所述神经网络包括多个卷积层，包括多个网络深度校准层的网络深度中继结构，其中每个网络深度校准层耦合到所述多个卷积层中相应的一个卷积层的输出，以及包括多个特征维度校准切片的特征维度中继结构，其中所述特征维度中继结构耦合到所述多个卷积层中的另一层的输出。

示例2包括如示例1所述的计算***，其中，每个网络深度校准层包括第一元门控中继(MGR)单元，并且其中，每个网络深度校准层经由第一隐藏状态信号和第一单元状态信号耦合到先前网络深度校准层，所述第一隐藏状态信号和所述第一单元状态信号的每一者由所述先前网络深度校准层的相应的第一MGR单元生成。

示例3包括如示例2所述的计算***，其中，每个特征维度校准切片包括第二元门控中继(MGR)单元，并且其中，每个特征维度校准切片经由第二隐藏状态信号和第二单元状态信号耦合到先前特征维度校准切片，所述第二隐藏状态信号和所述第二单元状态信号的每一者由所述先前特征维度校准单元的相应的第二MGR单元生成。

示例4包括如示例3所述的计算***，其中，所述第一MGR单元和所述第二MGR单元的每一者包括修改后的长短期记忆(LSTM)单元。

示例5包括如示例4所述的计算***，其中，每个网络深度校准层还包括作用于特征图谱的第一全局平均池化(GAP)函数，作用于所述特征图谱的第一标准化(STD)函数，以及作用于所述第一STD函数的输出的第一线性变换(LNT)函数，所述第一LNT函数是基于由所述第一MGR单元生成的第一隐藏状态信号并且基于由所述第一MGR单元生成的第一单元状态信号的，并且其中，每个特征维度校准切片还包括作用于特征切片的第二GAP函数，作用于所述特征切片的第二STD函数，以及作用于所述第二STD函数的输出的第二LNT函数，所述第二LNT函数是基于由所述第二MGR单元生成的第二隐藏状态信号并且基于由所述第二MGR单元生成的第二单元状态信号的。

示例6包括如示例1-5中的任一项所述的计算***，其中，所述特征维度中继结构沿着时间维度关联校准后的特征。

示例7包括一种半导体装置，该装置包括一个或多个衬底，以及与所述一个或多个衬底耦合的逻辑，其中，所述逻辑被至少部分实现在可配置逻辑或者固定功能硬件逻辑之中的一个或多个中，与所述一个或多个衬底耦合的所述逻辑包括神经网络，所述神经网络包括多个卷积层，包括多个网络深度校准层的网络深度中继结构，其中每个网络深度校准层耦合到所述多个卷积层中相应的一个卷积层的输出，以及包括多个特征维度校准切片的特征维度中继结构，其中所述特征维度中继结构耦合到所述多个卷积层中的另一层的输出。

示例8包括如示例7所述的装置，其中，每个网络深度校准层包括第一元门控中继(MGR)单元，并且其中，每个网络深度校准层经由第一隐藏状态信号和第一单元状态信号耦合到先前网络深度校准层，所述第一隐藏状态信号和所述第一单元状态信号的每一者由所述先前网络深度校准层的相应的第一MGR单元生成。

示例9包括如示例8所述的装置，其中，每个特征维度校准切片包括第二元门控中继(MGR)单元，并且其中，每个特征维度校准切片经由第二隐藏状态信号和第二单元状态信号耦合到先前特征维度校准切片，所述第二隐藏状态信号和所述第二单元状态信号的每一者由所述先前特征维度校准单元的相应的第二MGR单元生成。

示例10包括如示例9所述的装置，其中，所述第一MGR单元和所述第二MGR单元的每一者包括修改后的长短期记忆(LSTM)单元。

示例11包括如示例10所述的装置，其中，每个网络深度校准层还包括作用于特征图谱的第一全局平均池化(GAP)函数，作用于所述特征图谱的第一标准化(STD)函数，以及作用于所述第一STD函数的输出的第一线性变换(LNT)函数，所述第一LNT函数是基于由所述第一MGR单元生成的第一隐藏状态信号并且基于由所述第一MGR单元生成的第一单元状态信号的，并且其中，每个特征维度校准切片还包括作用于特征切片的第二GAP函数，作用于所述特征切片的第二STD函数，以及作用于所述第二STD函数的输出的第二LNT函数，所述第二LNT函数是基于由所述第二MGR单元生成的第二隐藏状态信号并且基于由所述第二MGR单元生成的第二单元状态信号的。

示例12包括如示例7-11中的任一项所述的装置，其中，所述特征维度中继结构沿着时间维度关联校准后的特征。

示例13包括如示例7所述的装置，其中，与所述一个或多个衬底耦合的所述逻辑包括定位在所述一个或多个衬底内的晶体管沟道区域。

示例14包括至少一个计算机可读存储介质，该介质包括一组指令，所述指令当被计算***执行时，使得所述计算***生成神经网络中的多个卷积层，在所述神经网络中布置包括多个网络深度校准层的网络深度中继结构，其中每个网络深度校准层耦合到所述多个卷积层中相应的一个卷积层的输出，并且在所述神经网络中布置包括多个特征维度校准切片的特征维度中继结构，其中所述特征维度中继结构耦合到所述多个卷积层中的另一层的输出。

示例15包括如示例14所述的至少一个计算机可读存储介质，其中，每个网络深度校准层包括第一元门控中继(MGR)单元，并且其中，每个网络深度校准层经由第一隐藏状态信号和第一单元状态信号耦合到先前网络深度校准层，所述第一隐藏状态信号和所述第一单元状态信号的每一者由所述先前网络深度校准层的相应的第一MGR单元生成。

示例16包括如示例15所述的至少一个计算机可读存储介质，其中，每个特征维度校准切片包括第二元门控中继(MGR)单元，并且其中，每个特征维度校准切片经由第二隐藏状态信号和第二单元状态信号耦合到先前特征维度校准切片，所述第二隐藏状态信号和所述第二单元状态信号的每一者由所述先前特征维度校准单元的相应的第二MGR单元生成。

示例17包括如示例16所述的至少一个计算机可读存储介质，其中，所述第一MGR单元和所述第二MGR单元的每一者包括修改后的长短期记忆(LSTM)单元。

示例18包括如示例17所述的至少一个计算机可读存储介质，其中，每个网络深度校准层还包括作用于特征图谱的第一全局平均池化(GAP)函数，作用于所述特征图谱的第一标准化(STD)函数，以及作用于所述第一STD函数的输出的第一线性变换(LNT)函数，所述第一LNT函数是基于由所述第一MGR单元生成的第一隐藏状态信号并且基于由所述第一MGR单元生成的第一单元状态信号的，并且其中，每个特征维度校准切片还包括作用于特征切片的第二GAP函数，作用于所述特征切片的第二STD函数，以及作用于所述第二STD函数的输出的第二LNT函数，所述第二LNT函数是基于由所述第二MGR单元生成的第二隐藏状态信号并且基于由所述第二MGR单元生成的第二单元状态信号的。

示例19包括如示例14-18中的任一项所述的至少一个计算机可读存储介质，其中，所述特征维度中继结构沿着时间维度关联校准后的特征。

示例20包括一种方法，该方法包括生成神经网络中的多个卷积层，在所述神经网络中布置包括多个网络深度校准层的网络深度中继结构，其中每个网络深度校准层耦合到所述多个卷积层中相应的一个卷积层的输出，并且在所述神经网络中布置包括多个特征维度校准切片的特征维度中继结构，其中所述特征维度中继结构耦合到所述多个卷积层中的另一层的输出。

示例21包括如示例20所述的方法，其中，每个网络深度校准层包括第一元门控中继(MGR)单元，并且其中，每个网络深度校准层经由第一隐藏状态信号和第一单元状态信号耦合到先前网络深度校准层，所述第一隐藏状态信号和所述第一单元状态信号的每一者由所述先前网络深度校准层的相应的第一MGR单元生成。

示例22包括如示例21所述的方法，其中，每个特征维度校准切片包括第二元门控中继(MGR)单元，并且其中，每个特征维度校准切片经由第二隐藏状态信号和第二单元状态信号耦合到先前特征维度校准切片，所述第二隐藏状态信号和所述第二单元状态信号的每一者由所述先前特征维度校准单元的相应的第二MGR单元生成。

示例23包括如示例22所述的方法，其中，所述第一MGR单元和所述第二MGR单元的每一者包括修改后的长短期记忆(LSTM)单元。

示例24包括如示例23所述的方法，其中，每个网络深度校准层还包括作用于特征图谱的第一全局平均池化(GAP)函数，作用于所述特征图谱的第一标准化(STD)函数，以及作用于所述第一STD函数的输出的第一线性变换(LNT)函数，所述第一LNT函数是基于由所述第一MGR单元生成的第一隐藏状态信号并且基于由所述第一MGR单元生成的第一单元状态信号的，并且其中，每个特征维度校准切片还包括作用于特征切片的第二GAP函数，作用于所述特征切片的第二STD函数，以及作用于所述第二STD函数的输出的第二LNT函数，所述第二LNT函数是基于由所述第二MGR单元生成的第二隐藏状态信号并且基于由所述第二MGR单元生成的第二单元状态信号的。

示例25包括如示例20-24中的任一项所述的方法，其中，所述特征维度中继结构沿着时间维度关联校准后的特征。

示例26包括一种装置，该装置包括用于执行如权利要求20-24中的任一项所述的方法的装置。

从而，就训练的显著加速和准确性的改善而言，本文描述的技术都改善了图像序列/视频分析任务中使用的计算***的性能。本文描述的技术可适用于任何数目的计算场景中，包括例如在边缘/云设备上以及在高性能分布式/并行计算***中部署深度视频模型。

实施例适用于与所有类型的半导体集成电路(“IC”)芯片一起使用。这些IC芯片的示例包括但不限于处理器、控制器、芯片组组件、PLA、存储器芯片、网络芯片，片上***(systems on chip，SoC)、SSD/NAND控制器ASIC，等等。此外，在一些附图中，用线条来表示信号导线。某些可能是不同的，以表明更多的构成信号路径，具有数字标注，以表明构成信号路径的数目，和/或在一端或多端具有箭头，以表明主要信息流方向。然而，这不应当被以限制方式来解释。更确切地说，可以联系一个或多个示范性实施例使用这种添加的细节来促进对电路的更容易理解。任何表示的信号线，无论是否具有附加信息，都可实际上包括一个或多个信号，这一个或多个信号可在多个方向上行进并且可利用任何适当类型的信号方案来实现，例如用差动对实现的数字或模拟线路、光纤线路、和/或单端线路。

可能给出了示例大小/型号/值/范围，虽然实施例不限于此。随着制造技术(例如，光刻术)随着时间流逝而成熟，预期能够制造具有更小尺寸的器件。此外，为了图示和论述的简单，并且为了不模糊实施例的某些方面，在附图内可能示出或不示出到IC芯片和其他组件的公知电源/接地连接。另外，可能以框图形式示出布置以避免模糊实施例，并且同时也考虑到了如下事实：关于这种框图布置的实现的具体细节是高度依赖于在其内实现实施例的平台的，即，这种具体细节应当完全在本领域技术人员的视野内。在阐述具体细节(例如，电路)以便描述示例实施例的情况下，本领域技术人员应当清楚，没有这些具体细节，或者利用这些具体细节的变体，也可实现实施例。说明书从而应当被认为是说明性的，而不是限制性的。

术语“耦合”在本文中可用于指所涉及的组件之间的任何类型的关系，无论是直接的还是间接的，并且可应用到电的、机械的、液体的、光的、电磁的、机电的或者其他的连接，包括经由中间组件的逻辑连接(例如，设备A可经由设备B耦合到设备C)。此外，除非另外指出，否则术语“第一”、“第二”等等在本文中可只被用于促进论述，而不带有特定的时间或先后意义。

就在本申请中和权利要求中使用的而言，由术语“……中的一个或多个”联接的项目的列表可意指所列出的术语的任何组合。例如，短语“A、B或C中的一个或多个”可意指A、B、C；A和B；A和C；B和C；或者A、B和C。

本领域技术人员从前述描述将会明白，可按各种形式来实现实施例的宽广技术。因此，虽然已联系其特定示例描述了实施例，但实施例的真实范围不应当限于此，因为本领域技术人员在研习了附图、说明书和所附权利要求后，将清楚其他修改。

Claims

1.一种计算***，包括：

处理器；以及

与所述处理器耦合的存储器，所述存储器存储神经网络，所述神经网络包括：

多个卷积层；

包括多个网络深度校准层的网络深度中继结构，其中每个网络深度校准层耦合到所述多个卷积层中相应的一个卷积层的输出；以及

包括多个特征维度校准切片的特征维度中继结构，其中所述特征维度中继结构耦合到所述多个卷积层中的另一层的输出。

2.如权利要求1所述的计算***，其中，每个网络深度校准层包括第一元门控中继(MGR)单元，并且其中，每个网络深度校准层经由第一隐藏状态信号和第一单元状态信号耦合到先前网络深度校准层，所述第一隐藏状态信号和所述第一单元状态信号的每一者由所述先前网络深度校准层的相应的第一MGR单元生成。

3.如权利要求2所述的计算***，其中，每个特征维度校准切片包括第二元门控中继(MGR)单元，并且其中，每个特征维度校准切片经由第二隐藏状态信号和第二单元状态信号耦合到先前特征维度校准切片，所述第二隐藏状态信号和所述第二单元状态信号的每一者由所述先前特征维度校准单元的相应的第二MGR单元生成。

4.如权利要求3所述的计算***，其中，所述第一MGR单元和所述第二MGR单元的每一者包括修改后的长短期记忆(LSTM)单元。

5.如权利要求4所述的计算***，其中，每个网络深度校准层还包括：

作用于特征图谱的第一全局平均池化(GAP)函数；

作用于所述特征图谱的第一标准化(STD)函数；以及

作用于所述第一STD函数的输出的第一线性变换(LNT)函数，所述第一LNT函数是基于由所述第一MGR单元生成的所述第一隐藏状态信号并且基于由所述第一MGR单元生成的所述第一单元状态信号的；并且

其中，每个特征维度校准切片还包括：

作用于特征切片的第二GAP函数；

作用于所述特征切片的第二STD函数；以及

作用于所述第二STD函数的输出的第二LNT函数，所述第二LNT函数是基于由所述第二MGR单元生成的所述第二隐藏状态信号并且基于由所述第二MGR单元生成的所述第二单元状态信号的。

6.如权利要求1-5中的任一项所述的计算***，其中，所述特征维度中继结构沿着时间维度关联校准后的特征。

7.一种半导体装置，包括：

一个或多个衬底；以及

与所述一个或多个衬底耦合的逻辑，其中，所述逻辑被至少部分实现在可配置逻辑或者固定功能硬件逻辑之中的一个或多个中，与所述一个或多个衬底耦合的所述逻辑包括神经网络，所述神经网络包括：

多个卷积层；

8.如权利要求7所述的装置，其中，每个网络深度校准层包括第一元门控中继(MGR)单元，并且其中，每个网络深度校准层经由第一隐藏状态信号和第一单元状态信号耦合到先前网络深度校准层，所述第一隐藏状态信号和所述第一单元状态信号的每一者由所述先前网络深度校准层的相应的第一MGR单元生成。

9.如权利要求8所述的装置，其中，每个特征维度校准切片包括第二元门控中继(MGR)单元，并且其中，每个特征维度校准切片经由第二隐藏状态信号和第二单元状态信号耦合到先前特征维度校准切片，所述第二隐藏状态信号和所述第二单元状态信号的每一者由所述先前特征维度校准单元的相应的第二MGR单元生成。

10.如权利要求9所述的装置，其中，所述第一MGR单元和所述第二MGR单元的每一者包括修改后的长短期记忆(LSTM)单元。

11.如权利要求10所述的装置，其中，每个网络深度校准层还包括：

作用于特征图谱的第一全局平均池化(GAP)函数；

作用于所述特征图谱的第一标准化(STD)函数；以及

其中，每个特征维度校准切片还包括：

作用于特征切片的第二GAP函数；

作用于所述特征切片的第二STD函数；以及

12.如权利要求7-11中的任一项所述的装置，其中，所述特征维度中继结构沿着时间维度关联校准后的特征。

13.如权利要求7所述的装置，其中，与所述一个或多个衬底耦合的所述逻辑包括定位在所述一个或多个衬底内的晶体管沟道区域。

14.至少一个计算机可读存储介质，该介质包括一组指令，所述指令当被计算***执行时，使得所述计算***：

生成神经网络中的多个卷积层；

在所述神经网络中布置包括多个网络深度校准层的网络深度中继结构，其中每个网络深度校准层耦合到所述多个卷积层中相应的一个卷积层的输出；并且

在所述神经网络中布置包括多个特征维度校准切片的特征维度中继结构，其中所述特征维度中继结构耦合到所述多个卷积层中的另一层的输出。

15.如权利要求14所述的至少一个计算机可读存储介质，其中，每个网络深度校准层包括第一元门控中继(MGR)单元，并且其中，每个网络深度校准层经由第一隐藏状态信号和第一单元状态信号耦合到先前网络深度校准层，所述第一隐藏状态信号和所述第一单元状态信号的每一者由所述先前网络深度校准层的相应的第一MGR单元生成。

16.如权利要求15所述的至少一个计算机可读存储介质，其中，每个特征维度校准切片包括第二元门控中继(MGR)单元，并且其中，每个特征维度校准切片经由第二隐藏状态信号和第二单元状态信号耦合到先前特征维度校准切片，所述第二隐藏状态信号和所述第二单元状态信号的每一者由所述先前特征维度校准单元的相应的第二MGR单元生成。

17.如权利要求16所述的至少一个计算机可读存储介质，其中，所述第一MGR单元和所述第二MGR单元的每一者包括修改后的长短期记忆(LSTM)单元。

18.如权利要求17所述的至少一个计算机可读存储介质，其中，每个网络深度校准层还包括：

作用于特征图谱的第一全局平均池化(GAP)函数；

作用于所述特征图谱的第一标准化(STD)函数；并且

其中，每个特征维度校准切片还包括：

作用于特征切片的第二GAP函数；

作用于所述特征切片的第二STD函数；以及

19.如权利要求14-18中的任一项所述的至少一个计算机可读存储介质，其中，所述特征维度中继结构沿着时间维度关联校准后的特征。

20.一种方法，包括：

生成神经网络中的多个卷积层；

21.如权利要求20所述的方法，其中，每个网络深度校准层包括第一元门控中继(MGR)单元，并且其中，每个网络深度校准层经由第一隐藏状态信号和第一单元状态信号耦合到先前网络深度校准层，所述第一隐藏状态信号和所述第一单元状态信号的每一者由所述先前网络深度校准层的相应的第一MGR单元生成。

22.如权利要求21所述的方法，其中，每个特征维度校准切片包括第二元门控中继(MGR)单元，并且其中，每个特征维度校准切片经由第二隐藏状态信号和第二单元状态信号耦合到先前特征维度校准切片，所述第二隐藏状态信号和所述第二单元状态信号的每一者由所述先前特征维度校准单元的相应的第二MGR单元生成。

23.如权利要求22所述的方法，其中，所述第一MGR单元和所述第二MGR单元的每一者包括修改后的长短期记忆(LSTM)单元。

24.如权利要求23所述的方法，其中，每个网络深度校准层还包括：

作用于特征图谱的第一全局平均池化(GAP)函数；

作用于所述特征图谱的第一标准化(STD)函数；以及

其中，每个特征维度校准切片还包括：

作用于特征切片的第二GAP函数；

作用于所述特征切片的第二STD函数；以及

25.如权利要求20-24中的任一项所述的方法，其中，所述特征维度中继结构沿着时间维度关联校准后的特征。