TWI795447B

TWI795447B - 基於關注提議進行視訊動作定位

Info

Publication number: TWI795447B
Application number: TW107135210A
Authority: TW
Inventors: 維特奧格斯托艾斯寇西亞; 米希爾加影; 埃米爾侯賽因哈比比安; 柯奈利斯格拉爾杜斯瑪瑞亞史諾艾克
Original assignee: 美商高通公司
Priority date: 2017-10-06
Filing date: 2018-10-05
Publication date: 2023-03-11
Also published as: WO2019071094A1; US10776628B2; TW201923662A; US20190108399A1; CN111052151A; CN111052151B

Abstract

一種用於處理訊框序列的方法包括以下步驟：接收該訊框序列以及關於該訊框序列的多個動作提議。該方法亦包括以下步驟：產生該訊框序列的表示，並圍繞該等動作提議中的每一個動作提議對該表示進行池化。該方法進一步包括以下步驟：基於經池化表示來對該等動作提議進行分類，並基於該分類來控制設備。

Description

基於關注提議進行視訊動作定位

本專利申請案主張於2017年10月6日提出申請的題為「VIDEO ACTION LOCALIZATION FROM PROPOSAL-ATTENTION（基於關注提議進行視訊動作定位）」的美國臨時專利申請案第62/569,245的權益，其揭示內容經由援引全部明確納入於此。

本案的各態樣大體而言係關於動作定位，尤其係關於用於訊框序列中的動作定位的系統和方法。

可包括一群互連的人工神經元（例如，神經元模型）的人工神經網路是一種計算設備或者表示將由計算設備執行的方法。

人工神經網路（ANN）可被指定成標識對應於訊框序列（例如，視訊）中的動作（例如，動作提議）的時空位置集。亦即，在給定動作提議的情況下，ANN可標識訊框中動作的時空位置。標識動作的時空位置可被稱為動作定位或定位動作。動作可基於分類來定位。動作分類可被用於網際網路協定（IP）相機、物聯網路（IoT）、自主駕駛，及/或服務機器人中的各種應用。動作分類應用可提高對物件路徑的理解以進行規劃。例如，在自主駕駛期間，動作分類被用於避免與步行者和騎行者碰撞。

習知系統可使用受監督式學習來訓練神經網路以進行動作分類。受監督式學習使用訓練視訊、類別標籤和真實框經由後向傳播來訓練神經網路。具體地，對於受監督式學習，真實框是從由使用者在視訊的每一訊框中註釋的動作產生的。在訓練期間，將經分類的訊框與真實框進行比較。網路的權重可被調整成最小化真實與分類之間的差異。

將受監督式學習用於神經網路常常是耗時且易出錯的。例如，註釋是耗時、麻煩且易出錯的。弱監督式學習可減少訓練時間。然而，弱監督式學習比受監督式學習具有更低的效能（例如，更低的分類精度）。此外，弱監督式學習不能與特徵提取器所獲得的視訊表示相耦合。需要改良用於視訊定位的方法和系統。

在本案的一個態樣，一種用於處理訊框序列的方法包括以下步驟：接收該訊框序列以及多個動作提議。該方法亦包括以下步驟：產生該訊框序列的表示。該方法進一步包括以下步驟：圍繞該等動作提議中的每一個動作提議對該表示進行池化。該方法進一步包括以下步驟：基於經池化表示來對該等動作提議進行分類。該方法亦包括以下步驟：基於該分類來控制設備。

本案的另一態樣係關於一種裝置，該裝置包括用於接收訊框序列以及關於該訊框序列的多個動作提議的構件。該裝置亦包括用於產生該訊框序列的表示的構件。該裝置進一步包括用於圍繞該等動作提議中的每一個動作提議對該表示進行池化的構件。該裝置進一步包括用於基於經池化表示來對該等動作提議進行分類的構件。該裝置亦包括用於基於該分類來控制設備的構件。

在本案的另一態樣，一種非暫時性電腦可讀取媒體記錄了用於處理訊框序列的程式碼。該程式碼由處理器執行，並且包括用於接收該訊框序列以及關於該訊框序列的多個動作提議的程式碼。該程式碼亦包括用於產生該訊框序列的表示的程式碼。該程式碼進一步包括用於圍繞該等動作提議中的每一個動作提議對該表示進行池化的程式碼。該程式碼又進一步包括用於基於經池化表示來對該等動作提議進行分類的程式碼。該程式碼亦包括用於基於該分類來控制設備的程式碼。

本案的另一態樣係關於一種用於處理訊框序列的裝置。該裝置具有記憶體以及耦合至該記憶體的一或多個處理器。（諸）處理器被配置成接收訊框序列以及關於該訊框序列的多個動作提議。（諸）處理器亦被配置成產生該訊框序列的表示。（諸）處理器被進一步配置成圍繞該等動作提議中的每一個動作提議對該表示進行池化。（諸）處理器被又進一步配置成基於經池化表示來對該等動作提議進行分類。（諸）處理器亦配置成基於該分類來控制設備。

此舉已較寬泛地勾勒出本案的特徵和技術優勢以便下文的詳細描述可被更好地理解。本案的附加特徵和優點將在下文描述。熟習此項技術者應當領會，本案可容易地被用作修改或設計用於實施與本案相同的目的的其他結構的基礎。熟習此項技術者亦應認識到，此種等效構造並不脫離所附請求項中所闡述的本案的教示。被認為是本案的特性的新穎特徵在其組織和操作方法兩態樣連同進一步的目的和優點在結合附圖來考慮以下描述時將被更好地理解。然而，要清楚理解的是，提供每一幅附圖均僅用於說明和描述目的，且無意作為對本案的限定的定義。

以下結合附圖闡述的詳細描述意欲作為各種配置的描述，而無意表示可實踐本文中所描述的概念的僅有配置。本詳細描述包括具體細節以便提供對各種概念的透徹理解。然而，對於熟習此項技術者將顯而易見的是，沒有該等具體細節亦可實踐該等概念。在一些實例中，以方塊圖形式圖示眾所周知的結構和元件以避免湮沒此類概念。

基於本教示，熟習此項技術者應領會，本案的範疇意欲覆蓋本案的任何態樣，不論其是與本案的任何其他態樣相獨立地還是組合地實現的。例如，可以使用所闡述的任何數目的態樣來實現裝置或實踐方法。另外，本案的範疇意欲覆蓋使用作為所闡述的本案的各個態樣的補充或者與之不同的其他結構、功能性，或者結構及功能性來實踐的此類裝置或方法。應當理解，所揭示的本案的任何態樣可由請求項的一或多個元素來實施。

措辭「示例性」在本文中用於表示「用作示例、實例，或說明」。本文中描述為「示例性」的任何態樣不必被解釋為優於或勝過其他態樣。

儘管本文描述了特定態樣，但該等態樣的眾多變體和置換落在本案的範疇之內。儘管提到了較佳態樣的一些益處和優點，但本案的範疇並非意欲被限定於特定益處、用途或目標。相反，本案的各態樣意欲能寬泛地應用於不同的技術、系統配置、網路和協定，其中一些作為實例在附圖以及以下對較佳態樣的描述中說明。詳細描述和附圖僅僅說明本案而非限定本案，本案的範疇由所附請求項及其等效技術方案來定義。

動作定位涉及對動作提議中所標識的動作進行分類的程序。神經網路和其他類型的系統可經由受監督式學習或弱監督式學習來訓練。亦即，神經網路可被訓練成標識在提議處發生的動作。習知訓練程序可能是麻煩且易出錯的。

本案的各態樣係關於基於動作提議（諸如行動方變形不變數動作提議）的視訊動作定位框架。動作提議指示每個訊框中可能的動作位置。動作提議可從動作提議產生器獲得，諸如在於2017年10月5日提出申請的題為「ACTOR DEFORMATION INVARIANT ACTION PROPOSALS（行動方變形不變數動作提議）」的美國臨時專利申請案第62/568,762中描述的動作提議產生器，該專利申請案的揭示內容經由援引全部明確納入於此。在一種配置中，動作定位是在沒有框級監督的情況下執行的。

圖1圖示了晶片上系統（SOC）100的示例性實現，其可包括根據本案的某些態樣配置成基於關注提議來執行視訊動作定位的中央處理單元（CPU）102或多核CPU。變數（例如，神經信號和突觸權重）、與計算設備相關聯的系統參數（例如，帶有權重的神經網路）、延遲、頻率頻段資訊，以及任務資訊可被儲存在與神經處理單元（NPU）108相關聯的記憶體區塊中、與CPU 102相關聯的記憶體區塊中、與圖形處理單元（GPU）104相關聯的記憶體區塊中、與數位信號處理器（DSP）106相關聯的記憶體區塊中、記憶體區塊118中，或可跨多個區塊分佈。在CPU 102處執行的指令可從與CPU 102相關聯的程式記憶體載入或可從記憶體區塊118載入。

SOC 100亦可包括為具體功能定製的附加處理區塊（諸如GPU 104、DSP 106、連接性區塊110（其可包括第五代（5G）連接性、***長期進化（4G LTE）連接性、Wi-Fi連接性、USB連接性、藍芽連接性等））以及例如可偵測和辨識姿勢的多媒體處理器112。在一種實現中，NPU實現在CPU、DSP，及/或GPU中。SOC 100亦可包括感測器處理器114、圖像信號處理器（ISP）116，及/或導航模組120（其可包括全球定位系統）。

SOC 100可基於ARM指令集。在本案的一態樣，載入到通用處理器102中的指令可包括用於接收訊框序列以及關於該訊框序列的複數個動作提議的代碼。載入到通用處理器102中的指令亦可包括用於產生訊框序列的表示的代碼。載入到通用處理器102中的指令可進一步包括用於圍繞動作提議中的每一個動作提議對表示進行池化的代碼。載入到通用處理器102中的指令亦可包括用於基於經池化表示來對動作提議進行分類的代碼。

深度學習架構可經由學習在每一層中以逐次更高的抽象程度來表示輸入、藉此構建輸入資料的有用特徵表示來執行物件辨識任務。以此方式，深度學習解決了傳統機器學習的主要瓶頸。在深度學習出現之前，用於物件辨識問題的機器學習辦法可能嚴重依賴人類工程設計的特徵，或許與淺分類器相結合。淺分類器可以是兩類線性分類器，例如，其中可將特徵向量分量的加權和與閾值作比較以預測輸入屬於何種類別。人類工程設計的特徵可以是由擁有領域專業知識的工程師針對特定問題領域定製的模版或核心。相比之下，深度學習架構可學習以表示與人類工程師可能會設計的類似的特徵，但該表示是經由訓練來學習的。此外，深度網路可以學習以表示和辨識人類可能還沒有考慮過的新類型的特徵。

深度學習架構可以學習特徵階層。例如，若向第一層呈遞視覺資料，則第一層可學習以辨識輸入串流中的相對簡單的特徵（諸如邊）。在另一實例中，若向第一層呈遞聽覺資料，則第一層可學習以辨識特定頻率中的頻譜功率。取第一層的輸出作為輸入的第二層可以學習以辨識特徵組合，諸如對於視覺資料辨識簡單形狀或對於聽覺資料辨識聲音組合。例如，更高層可學習以表示視覺資料中的複雜形狀或聽覺資料中的詞語。再高層可學習以辨識常見視覺物件或口語短語。

深度學習架構在被應用於具有自然階層結構的問題時可能表現特別好。例如，機動車輛的分類可受益於首先學習以辨識輪子、擋風玻璃，以及其他特徵。該等特徵可在更高層以不同方式被組合以辨識轎車、卡車和飛機。

神經網路可被設計成具有各種連接性模式。在前饋網路中，資訊從較低層被傳遞到較高層，其中給定層之每一者神經元向更高層中的神經元進行傳達。如前述，可在前饋網路的相繼層中構建階層式表示。神經網路亦可具有遞迴或回饋（亦被稱為自頂向下（top-down））連接。在遞迴連接中，來自給定層中的神經元的輸出可被傳達給相同層中的另一神經元。遞迴架構可有助於辨識跨越多於一個按順序遞送給該神經網路的輸入資料組塊的模式。從給定層中的神經元到較低層中的神經元的連接被稱為回饋（或自頂向下）連接。當高層級概念的辨識可輔助辨別輸入的特定低層級特徵時，具有許多回饋連接的網路可能是有助益的。

神經網路的各層之間的連接可以是全連接的或局部連接的。圖2A圖示了全連接神經網路202的實例。在全連接神經網路202中，第一層中的神經元可將其輸出傳達給第二層之每一者神經元，從而第二層之每一者神經元將從第一層之每一者神經元接收輸入。圖2B圖示了局部連接的神經網路204的實例。在局部連接的神經網路204中，第一層中的神經元可連接到第二層中有限數目的神經元。更一般化地，局部連接的神經網路204的局部連接層可被配置成使得一層之每一者神經元將具有相同或相似的連接性模式，但其連接強度可具有不同的值（例如，210、212、214和216）。局部連接的連接性模式可能在更高層中產生空間上相異的感受野，此情形是由於給定區域中的更高層神經元可接收到經由訓練被調諧為到網路的總輸入的受限部分的性質的輸入。

局部連接的神經網路的一個實例是迴旋神經網路。圖2C圖示了迴旋神經網路206的實例。迴旋神經網路206可被配置成使得與第二層之每一者神經元的輸入相關聯的連接強度被共享（例如，208）。迴旋神經網路可能非常適合於其中輸入的空間位置有意義的問題。

一種類型的迴旋神經網路是深度迴旋網路（DCN）。圖2D圖示了DCN 200的詳細實例，其被設計成從來自圖像擷取設備230（諸如車載相機）的圖像226輸入中辨識視覺特徵。可對該實例的DCN 200進行訓練以標識交通標誌以及在交通標誌上提供的數值。當然，DCN 200可被訓練用於其他任務，諸如標識車道標記或標識交通信號燈。

可以用受監督式學習來訓練DCN 200。在訓練期間，可向DCN 200呈遞圖像（諸如限速標誌的圖像226），並且隨後可計算「前向傳遞（forward pass）」以產生輸出222。DCN 200可包括特徵提取部分和分類部分。在接收到圖像226之後，迴旋層232可將迴旋核（未圖示）應用於圖像226以產生第一組特徵圖218。作為實例，迴旋層232的迴旋核可以是產生28x28特徵圖的5x5核。在本實例中，由於在第一組特徵圖218中產生四個不同的特徵圖，因此在迴旋層232處四個不同的迴旋核被應用於圖像226。迴旋核亦可被稱為濾波器或迴旋濾波器。

第一組特徵圖218可由最大池化層（未圖示）進行子取樣以產生第二組特徵圖220。最大池化層減小第一組特徵圖218的大小。亦即，第二組特徵圖220的大小（諸如14x14）小於第一組特徵圖218的大小（諸如28x28）。經減小的大小向後續層提供類似的資訊，同時減小記憶體消耗。第二組特徵圖220可經由一或多個後續的迴旋層（未圖示）進行進一步迴旋以產生一或多個後續各組特徵圖（未圖示）。

在圖2D的實例中，第二組特徵圖220被迴旋以產生第一特徵向量224。此外，第一特徵向量224被進一步迴旋以產生第二特徵向量228。第二特徵向量228的每個特徵可包括與圖像226的可能特徵（諸如「標誌」、「60」和「100」）相對應的數值。softmax函數（未圖示）可將第二特徵向量228中的數值轉換成概率。如此，DCN 200的輸出222是圖像226包括一或多個特徵的概率。

在本實例中，輸出222中「標誌」和「60」的概率比其他輸出222（諸如「30」、「40」、「50」、「70」、「80」、「90」和「100」）的概率更高。在進行訓練之前，由DCN 200產生的輸出222很可能是不正確的。由此，可在輸出222與目標輸出之間計算誤差。目標輸出是圖像226的真實（例如，「標誌」和「60」）。DCN 200的權重隨後可被調整以使得DCN 200的輸出222與目標輸出更緊密地對準。

為了調整權重，學習演算法可為權重計算梯度向量。該梯度可指示在權重被調整情況下誤差將增加或減少的量。在頂層，該梯度可直接對應於連接倒數第二層中的活化神經元與輸出層中的神經元的權重的值。在較低層，該梯度可取決於權重的值以及所計算出的較高層的誤差梯度。權重可隨後被調整以減小誤差。此種調整權重的方式可被稱為「後向傳播」，因為其涉及在神經網路中的「後向傳遞（backward pass）」。

在實踐中，權重的誤差梯度可能是在少量實例上計算的，從而計算出的梯度近似於真實誤差梯度。此種近似方法可被稱為隨機梯度下降法。隨機梯度下降法可被重複，直到整個系統可達成的誤差率已停止下降或直到誤差率已達到目標水平。在學習之後，可向DCN呈遞新圖像（例如，圖像226的限速標誌）並且在網路中的前向傳遞可產生輸出222，其可被認為是該DCN的推斷或預測。

深度置信網路（DBN）是包括多層隱藏節點的概率性模型。DBN可被用於提取訓練資料集的階層式表示。DBN可經由堆疊多層受限波爾茲曼機（RBM）來獲得。RBM是一類可在輸入集上學習概率分佈的人工神經網路。由於RBM可在沒有關於每個輸入應該被分類到何者類別的資訊的情況下學習概率分佈，因此RBM經常被用於無監督式學習中。使用混合無監督式和受監督式範式，DBN的底部RBM可按無監督方式被訓練並且可以用作特徵提取器，而頂部RBM可按受監督方式（在來自先前層的輸入和目標類別的聯合分佈上）被訓練並且可用作分類器。

深度迴旋網路（DCN）是迴旋網路的網路，其配置有附加的池化和正規化層。DCN已在許多任務上達成現有最先進的效能。DCN可使用受監督式學習來訓練，其中輸入和輸出目標兩者對於許多典範是已知的並被用於經由使用梯度下降法來修改網路的權重。

DCN可以是前饋網路。另外，如前述，從DCN的第一層中的神經元到下一更高層中的神經元群組的連接跨第一層中的神經元被共享。DCN的前饋和共享連接可被利用於進行快速處理。DCN的計算負擔可比例如類似大小的包括遞迴或回饋連接的神經網路的計算負擔小得多。

迴旋網路的每一層的處理可被認為是空間不變模版或基礎投影。若輸入首先被分解成多個通道，諸如彩色圖像的紅色、綠色和藍色通道，則在該輸入上訓練的迴旋網路可被認為是三維的，其具有沿著該圖像的軸的兩個空間維度以及擷取顏色資訊的第三維度。迴旋連接的輸出可被認為在後續層中形成特徵圖，其中該特徵圖（例如，220）之每一者元素從先前層（例如，特徵圖218）中一定範圍的神經元以及從該多個通道中的每一個通道接收輸入。特徵圖中的值可以用非線性（諸如矯正max(0,x)）進一步處理。來自毗鄰神經元的值可被進一步池化（此舉對應於降取樣）並可提供附加的局部不變性以及維度縮減。亦可經由特徵圖中神經元之間的側向抑制來應用正規化，其對應於白化。

深度學習架構的效能可隨著有更多被標記的資料點變為可用或隨著計算能力提高而提高。現代深度神經網路用比僅僅十五年前可供典型研究者使用的計算資源多數千倍的計算資源來例行地訓練。新的架構和訓練範式可進一步推升深度學習的效能。經矯正的線性單元可減少被稱為梯度消失的訓練問題。新的訓練技術可減少過度擬合（over-fitting）並因此使更大的模型能夠達成更好的普遍化。封裝技術可抽象出給定的感受野中的資料並進一步提升整體效能。

圖3是圖示深度迴旋網路350的方塊圖。深度迴旋網路350可包括多個基於連接性和權重共享的不同類型的層。如圖3中所示，深度迴旋網路350包括迴旋區塊354A、354B。迴旋區塊354A、354B中的每一個迴旋區塊可被配置有迴旋層（CONV）356、正規化層（LNorm）358和最大池化層（MAX POOL（最大池化））360。

迴旋層356可包括一或多個迴旋濾波器，其可被應用於輸入資料以產生特徵圖。儘管僅圖示兩個迴旋區塊354A、354B，但本案並不限於此，而是根據設計偏好，任何數目的迴旋區塊354A、354B可被包括在深度迴旋網路350中。正規化層358可對迴旋濾波器的輸出進行正規化。例如，正規化層358可提供白化或側向抑制。最大池化層360可提供在空間上的降取樣聚集以實現局部不變性和維度縮減。

例如，深度迴旋網路的平行濾波器組可被載入到SOC 100的CPU 102或GPU 104上以達成高效能和低功耗。在替換實施例中，平行濾波器組可被載入到SOC 100的DSP 106或ISP 116上。另外，深度迴旋網路350可存取可存在於SOC 100上的其他處理區塊，諸如分別專用於感測器和導航的感測器處理器114和導航模組120。

深度迴旋網路350亦可包括一或多個全連接層362（FC1和FC2）。深度迴旋網路350可進一步包括邏輯回歸（LR）層364。深度迴旋網路350的每一層356、358、360、362、364之間是要被更新的權重（未圖示）。每一層（例如，356、358、360、362、364）的輸出可用作深度迴旋網路350中層（例如，356、358、360、362、364）的後續層的輸入，以從在第一迴旋區塊354A處供應的輸入資料352（例如，圖像、音訊、視訊、感測器資料及/或其他輸入資料）學習階層式特徵表示。深度迴旋網路350的輸出是輸入資料352的分類得分366。分類得分366可以是概率集，其中每個概率是輸入資料包括來自特徵集的特徵的概率。

圖4圖示了用於動作定位的神經網路的習知受監督式訓練程序400的實例。如圖4中所示，在初始訓練階段420期間，神經網路404接收經標記的訓練視訊集（例如，訓練視訊412和類別標籤414）。在初始訓練階段420之後，在受監督式訓練階段422，包含N 個訓練視訊的集合402被輸入到神經網路404。神經網路404為N 個訓練視訊402中的每一個訓練視訊產生動作提議。圖4圖示了為N 個訓練視訊402的一個訓練視訊424產生動作提議406的實例。基於初始訓練，神經網路404輸出動作提議的所提議描述（例如，分類）的向量表示408。

將向量表示408與真實框416進行比較。神經網路404基於與真實框416的比較來更新網路參數。例如，該等網路參數可經由後向傳播來更新。在訓練之後，在測試階段424，神經網路404可被用來對視訊進行分類。神經網路404的輸出是視訊418中的動作的分類410。

如前述，習知受監督式學習將神經網路的輸出與真實邊界框進行比較，並且該神經網路的參數被更新以最小化該神經網路的輸出與真實邊界框之間的差異。本案的各態樣係關於在動作定位系統中使用動作提議，該動作定位系統在不使用真實邊界框（例如，框級監督）的情況下對輸入進行分類。

如所論述的，動作提議指示每個訊框中可能的動作位置。該動作提議可從動作提議產生器獲得。該動作提議可由邊界框來標識。隨著時間推移，邊界框的序列產生管道。圖5A圖示了根據本案的各態樣的由動作提議產生器產生的管道500的實例。如圖5A中所示，管道500是基於訊框序列的初始訊框502與訊框序列的最後訊框504之間的邊界框序列產生的。當動作的位置在各訊框之間改變時，與該動作相對應的邊界框的位置亦在各訊框之間改變。例如，該動作的位置可從第一訊框502改變到第二訊框506。同樣，該動作的位置可從第二訊框506改變到第三訊框508。邊界框隨著訊框序列的移動經由管道500來追蹤。

圖5B圖示了根據本案的各態樣的動作定位系統550的實例。如圖5B中所示，動作定位系統550接收訊框序列532（例如，視訊）和動作提議集524作為輸入。動作提議集524可由動作提議產生器（APG）520從訊框序列532產生。動作提議產生器520可與動作定位系統550分開。本案的各態樣並不限於訊框序列532。可針對其他類型的輸入來執行動作定位。

訊框序列532經由神經網路526（諸如迴旋神經網路）來編碼，以獲得該訊框序列的特徵。該等特徵可被儲存在向量中。該等特徵可被稱為視訊表示。如此，特徵的向量亦可被稱為表示向量540。可對神經網路526進行預訓練以進行視訊分類或其他類型的分類。在一種配置中，由神經網路526從訊框序列532產生啟用集。該等啟用可與訊框序列532的各個區域相對應。為了改良分類，自我調整池化被用來關注與動作提議相對應的啟用區域。

如圖5B中所示，感興趣的池化層538的提議從神經網路526接收表示向量540。感興趣的池化層538亦接收動作提議集524。感興趣的池化層538可以是遞迴神經網路。池化可以是簡單池化，諸如平均或級聯。作為附加或替換，池化可以是複雜的，諸如經由遞迴神經網路進行時間池化。

平均池化跨向量表示540聚集由動作提議集524（例如，行動方管道）包圍的時空資訊。在一些情形中，訊框序列532可包括多個行動方。當訊框序列532包括多個行動方時，可為每個行動方產生動作提議集524。亦即，可為每個行動方產生不同的行動方管道。此外，當訊框序列532包括多個行動方時，平均池化可跨與每個行動方相對應的向量表示540聚集由動作提議集524（例如，行動方管道）包圍的時空資訊。

級聯對動作提議集524之每一者框的向量表示540進行堆疊，從而形成比先前向量表示540具有更高維度的新向量表示。最終，時間池化在動作提議集524中的所有框上應用非線性遞迴變換（例如，長短期記憶）。基於該時間池化，可對該行動方狀態的辨別序列進行建模，而不增加架構的參數數目。

視訊表示圍繞動作提議524進行池化。例如，若動作提議524將體操運動員指定為感興趣區域，則感興趣的池化層538僅關注從與體操運動員相對應的區域產生的表示。經池化表示隨後在分類層530處進行分類。動作定位系統550的輸出是視訊標籤，諸如「自由體操」。在測試時間（例如，現實世界部署），分類層530亦可對動作提議集524之每一者動作提議進行排序。亦即，每個訊框可包括多個動作提議（例如，邊界框）。對每個訊框的動作提議可基於每個動作提議與標籤的相關性進行排序。對每個訊框的最高排序的動作提議可被用來定位該訊框中的動作。此種排序提高了定位的精度。

動作定位系統550可以是端到端系統。亦即，在訓練期間，動作定位系統550的神經網路526是使用視訊標籤進行訓練的，並且不使用真實框。可關於輔助資料集對視訊表示進行預訓練，若需要的話。例如，可關於有特定類型動作（例如，打籃球）的視訊對神經網路526進行預訓練來細調視訊表示。仍然，對動作定位系統550進行端到端訓練。亦即，神經網路526和分類層530（例如，基於關注的分類器）的權重及/或可學習參數可在訓練階段期間被更新。

圖6圖示了根據本案的各態樣的訓練動作定位系統600的實例。如圖6中所示，在訓練期間，動作定位系統600接收訓練視訊622和對應的真實類別標籤624。為每個視訊622產生動作提議604。動作提議604可從與動作定位系統600分開的動作提議產生器620產生。或者，動作提議產生器620是動作定位系統600的元件。

動作定位系統600使用神經網路608（諸如迴旋神經網路）產生視訊表示。池化層612將動作提議604與視訊表示進行池化以產生經池化視訊表示。提議描述集610是從經池化視訊表示產生的。提議描述集610之每一者提議描述提供動作以及該動作在動作提議604中的置信度。基於提議描述集610，動作定位系統600對每個訓練視訊622進行分類，並輸出與訓練視訊622相對應的類別標籤614（例如，分類）。每個訓練視訊622可具有不同的類別標籤614。

在訓練期間，誤差模組616將類別標籤614與真實類別標籤624進行比較。類別標籤614與真實類別標籤624之間的差異被視為誤差。誤差模組616使用該誤差來調整動作定位系統600的參數以最小化該誤差。基於經調整參數，動作定位系統600可修改池化、提議描述集610，或如所論述的其他參數。訓練可繼續，直到誤差處於或低於誤差閾值。注意到，真實類別標籤624不同於真實邊界框。訓練更新神經網路的參數以及基於關注的分類器中的全連接層。

本案的各態樣亦關於基於關注的分類器，其選擇最相關的提議以改良分類。在訓練期間，參數可被調整以改良對最相關的提議的選擇。可基於動作提議來對分類器進行預訓練以進行視訊分類。如前述，訓練可在沒有真實框的情況下使用視訊級註釋。在一種配置中，分類器基於該分類器的全連接層的輸出來對動作提議進行排序。該等動作提議可在沒有顯式監督的情況下進行排序。

圖7圖示了根據本案的各態樣的基於關注的分類器700的實例。如在圖7中所示，基於關注的分類器700從感興趣的池化層702的提議接收輸入，並輸出標籤（例如，分類）。感興趣的池化層702的提議是從訊框序列以及訊框序列的表示向量產生的（見圖5B和圖6）。如先前所論述的，感興趣的提議的池化層702圍繞動作提議對表示進行池化以提高分類的精度。該等表示可被稱為特徵或啟用。

提議描述集714（例如，每個提議的描述符）是針對每個動作提議從經池化的視訊表示產生的。每個提議描述符可基於處於動作提議的區域（例如，邊界框）內的經池化啟用（例如，表示）來產生的。另外，每個提議描述對動作提議中的每一個動作提議中的動作進行分類。每個分類可具有提議得分（例如，分類得分）。提議得分是指示分類與訊框序列的感興趣類別的相關性的得分。例如，在籃球遊戲的視訊中，動作提議可包括關於「搶籃板」的描述符以及關於「扣籃」的另一描述符。儘管該兩個描述符均關於籃球，但是若感興趣類別是運動員扣球，則關於「扣籃」的描述符應當比關於「搶籃板」的描述符具有更高的提議得分。

分類器700亦包括全連接層704，其接收關於每個提議714的描述符。亦即，全連接層704以矩陣N xD 的形式接收所有動作提議的描述符，其中N 是動作提議的數目，而D 是來自關於每個提議714的描述符的特徵維度。全連接層704輸出矩陣N xC ，其表示所有提議的C 個感興趣動作的分類得分。N 個動作提議中的每一個動作提議的C 個感興趣動作可以向量來表示。對於每個動作提議，感興趣的動作的高分類得分與存在特定動作的高置信度相關。

基於關注的融合層706接收全連接層704的輸出（例如，表示所有提議的C 個感興趣動作之中的分類得分的矩陣N xC ）。Softmax層708從基於關注的融合層706接收輸入，並基於所接收輸入來執行分類。Softmax層708可接收每個類別的平均得分。圖7圖示了根據本案的各態樣的基於關注的融合層706的展開視圖。基於關注的融合層706基於硬關注模型，以使得僅將k 個最相關的動作提議用於分類。如圖7中所示，基於關注的融合層706包括前k（top-k）層710和平均層712。

在一種配置中，並非基於所有動作提議中的分類來對視訊進行分類，而是基於包含k 個動作提議的集合來執行分類。前k層710選擇具有大於提議得分閾值的動作的提議得分的動作提議，以使得前k個動作提議被選擇。例如，若提議得分閾值為80，則對於給定動作，前k層710選擇具有大於或等於80的提議得分的每個動作提議。

如前述，提議得分經由全連接層704輸出。提議得分表示提議屬於特定類別的置信度。動作提議可基於來自前k層710的選擇進行排序。所選提議的得分在平均層712處被平均，該平均層712計算視訊在感興趣區域的動作中的全域置信度得分。可在前k個提議上針對每個動作類別執行平均。

圖8圖示了根據本案的一態樣的用於處理訊框序列的方法800。在方塊802，動作提議分類系統接收訊框序列以及關於該訊框序列的多個動作提議。該等動作提議可由與動作定位系統分開或包括在動作定位系統中的動作提議產生器產生。在方塊804，該動作提議分類系統產生該訊框序列的一或多個表示。該等表示可包括特徵圖。該等表示亦可被稱為啟用。

該等表示可由空間時間迴旋神經網路產生。例如，空間時間迴旋神經網路可以是迴旋神經網路、三維迴旋神經網路，或長短期記憶迴旋神經網路。該空間時間迴旋神經網路可接收紅綠藍輸入或光流輸入。可關於所標記視訊或圖像對空間時間迴旋神經網路進行預訓練，而無需使用真實邊界框。動作定位系統可進行端到端訓練。亦即，空間時間迴旋神經網路和分類層的權重及/或可學習參數可在訓練階段期間被更新。

在方塊806，該動作提議分類系統圍繞該等動作提議中的每一個動作提議對該表示進行池化。池化可在接收表示向量（例如，啟用）的感興趣的池化層的提議處執行。該向量可從迴旋神經網路接收。圍繞動作提議對視訊表示進行池化。例如，若動作提議將體操運動員指定為感興趣區域，則感興趣的池化層僅關注從與體操運動員相對應的區域產生的表示。池化可以是簡單池化，諸如平均或級聯。作為附加或替換，池化可以是複雜的，諸如經由遞迴神經網路進行時間池化。

在方塊808，該動作提議分類系統基於經池化表示來對該等動作提議進行分類。在可任選配置中，在方塊810，該動作提議分類系統基於該分類來對該等動作提議進行排序。此外，在另一可任選配置中，在方塊812，該動作提議分類系統基於與該等動作提議中的每一個動作提議相對應的動作的提議得分來決定該排序。每個提議得分可以是動作提議關於動作類別的置信度。亦即，每個動作提議的提議得分是基於與訊框序列的所標識類別的相關性來決定的。在對動作提議進行排序之後，在可任選配置中，該動作提議分類系統可在方塊814基於該分類來定位該訊框序列中的動作。此種定位指的是標識訊框序列中感興趣的動作的位置。此種定位可在沒有排序的情況下執行。

在方塊816，該動作提議分類系統基於該分類來控制設備。該設備可進一步基於所定位的動作來控制。例如，自主車輛（例如，設備）可從視覺感測器（例如，紅綠藍（RGB）相機）接收訊框序列。動作提議分類系統可對訊框序列中的行動方的動作進行分類。例如，動作提議分類系統可標識訊框序列中的人並將此人的動作分類為行走。自主車輛可基於該分類來執行動作。例如，自主車輛可避開具有行走的人（例如，行人）的區域，或者自主車輛可在有行人的區域中降低其速度。有行人的區域可基於動作的定位來標識。

在一些態樣，方法800可由SOC 100（圖1）來執行。亦即，舉例而言但不作為限定，方法800的每個元素可由SOC 100或者一或多個處理器（例如，CPU 102），及/或所包括的其他元件來執行。

上述方法的各種操作可由能夠執行相應功能的任何合適的構件來執行。該等構件可包括各種硬體及/或（諸）軟體元件及/或（諸）模組，包括但不限於電路、特殊應用積體電路（ASIC），或處理器。一般而言，在附圖中有圖示的操作的場合，彼等操作可具有帶相似編號的相應配對手段功能元件。

如本文中所使用的，術語「決定」涵蓋各種各樣的動作。例如，「決定」可包括演算、計算、處理、推導、研究、檢視（例如，在表、資料庫或其他資料結構中檢視）、探知及諸如此類。另外，「決定」可包括接收（例如接收資訊）、存取（例如存取記憶體中的資料），及類似動作。此外，「決定」可包括解析、選擇、選取、確立及類似動作。

如本文中所使用的，引述一列項目中的「至少一個」的短語是指該等項目的任何組合，包括單個成員。作為實例，「a、b或c中的至少一個」意欲涵蓋：a、b、c、a-b、a-c、b-c，以及a-b-c。

結合本案所描述的各種說明性邏輯區塊、模組，以及電路可用設計成執行本文中所描述的功能的通用處理器、數位信號處理器（DSP）、特殊應用積體電路（ASIC）、現場可程式設計閘陣列信號（FPGA）或其他可程式設計邏輯設備（PLD）、個別閘門或電晶體邏輯、個別的硬體元件或其任何組合來實現或執行。通用處理器可以是微處理器，但在替換方案中，處理器可以是任何市售的處理器、控制器、微控制器，或狀態機。處理器亦可被實現為計算設備的組合，例如，DSP與微處理器的組合、複數個微處理器、與DSP核心協同的一或多個微處理器，或任何其他此類配置。

結合本案描述的方法或演算法的步驟可直接在硬體中、在由處理器執行的軟體模組中，或在該兩者的組合中實施。軟體模組可常駐在本領域所知的任何形式的儲存媒體中。可使用的儲存媒體的一些實例包括隨機存取記憶體（RAM）、唯讀記憶體（ROM）、快閃記憶體、可抹除可程式設計唯讀記憶體（EPROM）、電可抹除可程式設計唯讀記憶體（EEPROM）、暫存器、硬碟、可移除磁碟、CD-ROM等。軟體模組可包括單一指令，或許多個指令，且可分佈在若干不同的程式碼片段上，分佈在不同的程式間以及跨多個儲存媒體分佈。儲存媒體可被耦合到處理器以使得該處理器能從/向該儲存媒體讀寫資訊。或者，儲存媒體可被整合到處理器。

本文中所揭示的方法包括用於達成所描述的方法的一或多個步驟或動作。該等方法步驟及/或動作可以彼此互換而不會脫離請求項的範疇。換言之，除非指定了步驟或動作的特定次序，否則具體步驟及/或動作的次序及/或使用可以改動而不會脫離請求項的範疇。

所描述的功能可在硬體、軟體、韌體或其任何組合中實現。若以硬體實現，則示例性硬體配置可包括設備中的處理系統。處理系統可以用匯流排架構來實現。取決於處理系統的具體應用和整體設計約束，匯流排可包括任何數目的互連匯流排和橋接器。匯流排可將包括處理器、機器可讀取媒體，以及匯流排介面的各種電路連結在一起。匯流排介面可用於尤其將網路配接器等經由匯流排連接至處理系統。網路配接器可被用於實現信號處理功能。對於某些態樣，使用者介面（例如，按鍵板、顯示器、滑鼠、操縱桿等）亦可被連接至匯流排。匯流排亦可連結各種其他電路（諸如定時源、周邊設備、穩壓器、功率管理電路等），該等電路在本領域中是眾所周知的，因此將不再贅述。

處理器可負責管理匯流排和一般處理，包括執行儲存在機器可讀取媒體上的軟體。處理器可用一或多個通用及/或專用處理器來實現。實例包括微處理器、微控制器、DSP處理器，以及其他能執行軟體的電路系統。軟體應當被寬泛地解釋成意指指令、資料，或其任何組合，無論是被稱作軟體、韌體、中間軟體、微代碼、硬體描述語言，或其他。作為實例，機器可讀取媒體可包括隨機存取記憶體（RAM）、快閃記憶體、唯讀記憶體（ROM）、可程式設計唯讀記憶體（PROM）、可抹除可程式設計唯讀記憶體（EPROM）、電可抹除可程式設計唯讀記憶體（EEPROM）、暫存器、磁碟、光碟、硬驅動器，或者任何其他合適的儲存媒體，或其任何組合。機器可讀取媒體可被實施在電腦程式產品中。該電腦程式產品可包括封裝材料。

在硬體實現中，機器可讀取媒體可以是處理系統中與處理器分開的一部分。然而，如熟習此項技術者將容易領會的，機器可讀取媒體或其任何部分可在處理系統外部。作為實例，機器可讀取媒體可包括傳輸線、由資料調制的載波，及/或與設備分開的電腦產品，所有該等項皆可由處理器經由匯流排介面來存取。替換地或補充地，機器可讀取媒體或其任何部分可被整合到處理器中，諸如快取記憶體及/或通用暫存器檔案可能就是此種情形。儘管所論述的各種元件可被描述為具有特定位置，諸如局部元件，但該等元件亦可按各種方式來配置，諸如某些元件被配置成分散式計算系統的一部分。

處理系統可被配置成通用處理系統，該通用處理系統具有一或多個提供處理器功能性的微處理器，以及提供機器可讀取媒體中的至少一部分的外部記憶體，該等項皆經由外部匯流排架構與其他支援電路系統連結在一起。或者，該處理系統可包括一或多個神經元形態處理器以用於實現本文中所描述的神經元模型和神經系統模型。作為另一替換方案，處理系統可以用帶有整合在單塊晶片中的處理器、匯流排介面、使用者介面、支援電路系統和至少一部分機器可讀取媒體的特殊應用積體電路（ASIC）來實現，或者用一或多個現場可程式設計閘陣列（FPGA）、可程式設計邏輯設備（PLD）、控制器、狀態機、閘控邏輯、個別硬體元件，或者任何其他合適的電路系統，或者能執行本案通篇所描述的各種功能性的電路的任何組合來實現。取決於具體應用和加諸於整體系統上的整體設計約束，熟習此項技術者將認識到如何最佳地實現關於處理系統所描述的功能性。

機器可讀取媒體可包括數個軟體模組。該等軟體模組包括當由處理器執行時使處理系統執行各種功能的指令。該等軟體模組可包括傳輸模組和接收模組。每個軟體模組可以常駐在單個儲存設備中或者跨多個儲存設備分佈。作為實例，當觸發事件發生時，可以從硬驅動器中將軟體模組載入到RAM中。在軟體模組執行期間，處理器可以將一些指令載入到快取記憶體中以提高存取速度。可隨後將一或多個快取列載入到通用暫存器檔案中以供處理器執行。在以下述及軟體模組的功能性時，將理解此類功能性是在處理器執行來自該軟體模組的指令時由該處理器來實現的。此外，應領會，本案的各態樣產生對處理器、電腦、機器或實現此類態樣的其他系統的機能的改良。

若以軟體實現，則各功能可作為一或多個指令或代碼儲存在電腦可讀取媒體上或藉其進行傳輸。電腦可讀取媒體包括電腦儲存媒體和通訊媒體兩者，該等媒體包括促進電腦程式從一地向另一地轉移的任何媒體。儲存媒體可以是能被電腦存取的任何可用媒體。作為實例而非限定，此類電腦可讀取媒體可包括RAM、ROM、EEPROM、CD-ROM或其他光碟儲存、磁碟儲存或其他磁儲存設備，或能用於攜帶或儲存指令或資料結構形式的期望程式碼且能被電腦存取的任何其他媒體。另外，任何連接亦被正當地稱為電腦可讀取媒體。例如，若軟體是使用同軸電纜、光纖電纜、雙絞線、數位用戶線（DSL），或無線技術（諸如紅外（IR）、無線電，以及微波）從web網站、伺服器，或其他遠端源傳輸而來，則該同軸電纜、光纖電纜、雙絞線、DSL或無線技術（諸如紅外、無線電，以及微波）就被包括在媒體的定義之中。如本文中所使用的磁碟（disk）和光碟（disc）包括壓縮光碟（CD）、鐳射光碟、光碟、數位多功能光碟（DVD）、軟碟和藍光®光碟，其中磁碟（disk）常常磁性地再現資料，而光碟（disc）用鐳射來光學地再現資料。因此，在一些態樣，電腦可讀取媒體可包括非暫時性電腦可讀取媒體（例如，有形媒體）。另外，對於其他態樣，電腦可讀取媒體可包括暫時性電腦可讀取媒體（例如，信號）。上述的組合應當亦被包括在電腦可讀取媒體的範疇內。

因此，某些態樣可包括用於執行本文中提供的操作的電腦程式產品。例如，此類電腦程式產品可包括其上儲存（及/或編碼）有指令的電腦可讀取媒體，該等指令能由一或多個處理器執行以執行本文中所描述的操作。對於某些態樣，電腦程式產品可包括封裝材料。

此外，應當領會，用於執行本文中所描述的方法和技術的模組及/或其他合適構件能由使用者終端及/或基地站在適用的場合下載及/或以其他方式獲得。例如，此類設備能被耦合至伺服器以促進用於執行本文中所描述的方法的構件的轉移。或者，本文中所描述的各種方法能經由儲存構件（例如，RAM、ROM、諸如壓縮光碟（CD）或軟碟等實體儲存媒體等）來提供，以使得一旦將該儲存構件耦合至或提供給使用者終端及/或基地站，該設備就能獲得各種方法。此外，可利用適於向設備提供本文中所描述的方法和技術的任何其他合適的技術。

將理解，請求項並不被限於以上所說明的精確配置和元件。可在上述方法和裝置的佈置、操作和細節上作出各種修改、變更和變型而不會背離請求項的範疇。

100‧‧‧晶片上系統（SOC）102‧‧‧中央處理單元（CPU）104‧‧‧圖形處理單元（GPU）106‧‧‧數位信號處理器（DSP）108‧‧‧神經處理單元（NPU）110‧‧‧連接性區塊112‧‧‧多媒體處理器114‧‧‧感測器處理器116‧‧‧圖像信號處理器（ISP）118‧‧‧記憶體區塊120‧‧‧導航模組200‧‧‧DCN202‧‧‧全連接神經網路204‧‧‧局部連接的神經網路206‧‧‧迴旋神經網路208‧‧‧神經元210‧‧‧神經元212‧‧‧神經元214‧‧‧神經元216‧‧‧神經元218‧‧‧第一組特徵圖220‧‧‧第二組特徵圖222‧‧‧輸出224‧‧‧第一特徵向量226‧‧‧圖像228‧‧‧第二特徵向量230‧‧‧圖像擷取設備232‧‧‧迴旋層350‧‧‧深度迴旋網路352‧‧‧輸入資料354A‧‧‧迴旋區塊354B‧‧‧迴旋區塊356‧‧‧迴旋層358‧‧‧正規化層360‧‧‧最大池化層362‧‧‧全連接層364‧‧‧邏輯回歸（LR）層366‧‧‧分類得分400‧‧‧習知受監督式訓練程序402‧‧‧訓練視訊404‧‧‧神經網路406‧‧‧動作提議408‧‧‧向量表示410‧‧‧分類412‧‧‧訓練視訊414‧‧‧類別標籤416‧‧‧真實框418‧‧‧視訊420‧‧‧初始訓練階段422‧‧‧受監督式訓練階段424‧‧‧訓練視訊500‧‧‧管道502‧‧‧初始訊框504‧‧‧最後訊框506‧‧‧第二訊框508‧‧‧第三訊框520‧‧‧動作提議產生器（APG）524‧‧‧動作提議集526‧‧‧神經網路530‧‧‧分類層532‧‧‧訊框序列538‧‧‧感興趣的池化層540‧‧‧表示向量550‧‧‧動作定位系統600‧‧‧動作定位系統604‧‧‧動作提議608‧‧‧神經網路610‧‧‧提議描述集612‧‧‧池化層614‧‧‧類別標籤616‧‧‧誤差模組620‧‧‧動作提議產生器622‧‧‧訓練視訊624‧‧‧真實類別標籤700‧‧‧基於關注的分類器702‧‧‧感興趣的池化層704‧‧‧全連接層706‧‧‧基於關注的融合層708‧‧‧Softmax層710‧‧‧前k（top-k）層712‧‧‧平均層714‧‧‧提議描述集800‧‧‧方法802‧‧‧方塊804‧‧‧方塊806‧‧‧方塊808‧‧‧方塊810‧‧‧方塊812‧‧‧方塊814‧‧‧方塊816‧‧‧方塊

在結合附圖理解下文闡述的詳細描述時，本案的特徵、本質和優點將變得更加明顯，在附圖中，相同元件符號始終作相應標識。

圖1圖示了根據本案的某些態樣的使用晶片上系統（SOC）（包括通用處理器）來設計神經網路的示例性實現。

圖2A、圖2B和圖2C是圖示根據本案的各態樣的神經網路的示圖。

圖2D是圖示根據本案的各態樣的示例性深度迴旋網路（DCN）的示圖。

圖3是圖示根據本案的各態樣的示例性深度迴旋網路（DCN）的方塊圖。

圖4圖示了用於動作定位的神經網路的受監督式訓練程序的實例。

圖5A圖示了根據本案的各態樣的由動作提議產生器產生的動作提議管道的實例。

圖5B和圖6圖示了根據本案的各態樣的動作定位系統的實例。

圖7圖示了根據本案的各態樣的基於關注的分類器的實例。

圖8圖示了根據本案的一態樣的用於處理訊框序列的方法。

國內寄存資訊 (請依寄存機構、日期、號碼順序註記) 無

國外寄存資訊 (請依寄存國家、機構、日期、號碼順序註記) 無

700‧‧‧基於關注的分類器

702‧‧‧感興趣的池化層

704‧‧‧全連接層

706‧‧‧基於關注的融合層

708‧‧‧Softmax層

710‧‧‧前k(top-k)層

712‧‧‧平均層

714‧‧‧提議描述集

Claims

一種用於處理一訊框序列的電腦實施之方法，包括以下步驟：接收該訊框序列以及關於該訊框序列的複數個動作提議；產生該訊框序列的一表示；透過選擇性地施加平均池化、級聯池化、時間池化或其組合中的至少一者，圍繞該複數個動作提議中的每一個動作提議對該表示進行池化；基於該經池化表示來對該複數個動作提議進行分類；及基於該分類來控制一設備。
如請求項1之電腦實施之方法，進一步包括以下步驟：基於該分類來定位該訊框序列中的一動作。
如請求項1之電腦實施之方法，進一步包括以下步驟：基於該分類來對該複數個動作提議進行排序。
如請求項3之電腦實施之方法，進一步包括以下步驟：基於與該複數個動作提議中的每一個動作提議相對應的一動作的一提議得分來決定該排序。
如請求項4之電腦實施之方法，其中該提議得分是基於與該訊框序列的一感興趣類別的一相關性來決定的。
如請求項1之電腦實施之方法，進一步包括以下步驟：使用一空間時間迴旋神經網路產生該表示，該空間時間迴旋神經網路包括一迴旋神經網路、一三維迴旋神經網路，或一長短期記憶迴旋神經網路中的至少一者。
如請求項6之電腦實施之方法，其中該空間時間神經網路接收一紅綠藍輸入或一光流輸入。
如請求項1之電腦實施之方法，其中該等表示包括特徵圖。
一種用於處理一訊框序列的裝置，包括：用於接收該訊框序列以及關於該訊框序列的複數個動作提議的構件；用於產生該訊框序列的一表示的構件；用於透過選擇性地施加平均池化、級聯池化、時間池化或其組合中的至少一者，圍繞該複數個動作提議中的每一個動作提議對該表示進行池化的構件；用於基於該經池化表示來對該複數個動作提議進行分類的構件；及用於基於該分類來控制一設備的構件。
如請求項9之裝置，進一步包括用於基於該分類來定位該訊框序列中的一動作的構件。
如請求項9之裝置，進一步包括用於基於該分類來對該複數個動作提議進行排序的構件。
如請求項11之裝置，進一步包括用於基於與該複數個動作提議中的每一個動作提議相對應的一動作的一提議得分來決定該排序的構件。
如請求項12之裝置，其中該提議得分是基於與該訊框序列的一感興趣類別的一相關性來決定的。
如請求項9之裝置，進一步包括用於使用一空間時間迴旋神經網路產生該表示的構件，該空間時間迴旋神經網路包括一迴旋神經網路、一三維迴旋神經網路，或一長短期記憶迴旋神經網路中的至少一者。
如請求項14之裝置，其中該空間時間神經網路接收一紅綠藍輸入或一光流輸入。
如請求項9之裝置，其中該等表示包括特徵圖。
一種用於處理一訊框序列的裝置，該裝置包括：一記憶體；及耦合至該記憶體的至少一個處理器，該至少一個處理器被配置成：接收該訊框序列以及關於該訊框序列的複數個動作提議；產生該訊框序列的一表示；透過選擇性地施加平均池化、級聯池化、時間池化或其組合中的至少一者，圍繞該複數個動作提議中的每一個動作提議對該表示進行池化；基於該經池化表示來對該複數個動作提議進行分類；及基於該分類來控制一設備。
如請求項17之裝置，其中該至少一個處理器被進一步配置成基於該分類來定位該訊框序列中的一動作。
如請求項17之裝置，其中該至少一個處理器被進一步配置成基於該分類來對該複數個動作提議進行排序。
如請求項19之裝置，其中該至少一個處理器被進一步配置成基於與該複數個動作提議中的每一個動作提議相對應的一動作的一提議得分來決定該排序。
如請求項20之裝置，其中該提議得分是基於與該訊框序列的一感興趣類別的一相關性來決定的。
如請求項17之裝置，其中該至少一個處理器被進一步配置成使用一空間時間迴旋神經網路產生該表示，該空間時間迴旋神經網路包括一迴旋神經網路、一三維迴旋神經網路，或一長短期記憶迴旋神經網路中的至少一者。
如請求項22之裝置，其中該空間時間神經網路接收一紅綠藍輸入或一光流輸入。
如請求項17之裝置，其中該等表示包括特徵圖。
一種其上記錄有用於處理一訊框序列的程式碼的非暫時性電腦可讀取媒體，該程式碼由一處理器執行並且包括：用於接收該訊框序列以及關於該訊框序列的複數個動作提議的程式碼；用於產生該訊框序列的一表示的程式碼；用於透過選擇性地施加平均池化、級聯池化、時間池化或其組合中的任一者，圍繞該複數個動作提議中的每一個動作提議對該表示進行池化的程式碼；用於基於該經池化表示來對該複數個動作提議進行分類的程式碼；及用於基於該分類來控制一設備的程式碼。
如請求項25之非暫時性電腦可讀取媒體，其中該程式碼進一步包括：用於基於該分類來定位該訊框序列中的一動作的程式碼。
如請求項25之非暫時性電腦可讀取媒體，其中該程式碼進一步包括：用於基於該分類來對該複數個動作提議進行排序的程式碼。
如請求項27之非暫時性電腦可讀取媒體，其中該程式碼進一步包括：用於基於與該複數個動作提議中的每一個動作提議相對應的一動作的一提議得分來決定該排序的程式碼。
如請求項28之非暫時性電腦可讀取媒體，其中該提議得分是基於與該訊框序列的一感興趣類別的一相關性來決定的。
如請求項25之非暫時性電腦可讀取媒體，其中該程式碼進一步包括：用於使用一空間時間迴旋神經網路產生該表示的程式碼，該空間時間迴旋神經網路包括一迴旋神經網路、一三維迴旋神經網路，或一長短期記憶迴旋神經網路中的至少一者。