JP2023549579A - ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ - Google Patents

ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ Download PDF

Info

Publication number
JP2023549579A
JP2023549579A JP2023553162A JP2023553162A JP2023549579A JP 2023549579 A JP2023549579 A JP 2023549579A JP 2023553162 A JP2023553162 A JP 2023553162A JP 2023553162 A JP2023553162 A JP 2023553162A JP 2023549579 A JP2023549579 A JP 2023549579A
Authority
JP
Japan
Prior art keywords
attention
video
frames
applying
clip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023553162A
Other languages
English (en)
Inventor
アール. カルバリョ、シューベルト
エム. ベルタニョッリ、ニコラス
フォルクマン、タイラー
レイ バトラー、リチャード
Original Assignee
ベン グループ、インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベン グループ、インコーポレイテッド filed Critical ベン グループ、インコーポレイテッド
Publication of JP2023549579A publication Critical patent/JP2023549579A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本発明は、解析のためのビデオ・クリップを受け取ることであって、ビデオ・クリップが時系列のビデオ・フレームを含む、受け取ることと、クリップ内のフレームにボトルネック・アテンション・メカニズムを適用して、キーフレームの削減シーケンスを生成することと、キーフレームのシーケンスに2次元、2D、畳み込みニューラル・ネットワークを適用して、各キーフレームに対して3D埋め込みテンソルを取得することと、3D埋め込みテンソルにマルチヘッド・アテンション・メカニズムを適用して、最終的な行動コンテキストを生成することと、最終的な行動コンテキストに分類メカニズムを適用して、行動クラスで指定された行動がビデオ・クリップ内で発生した尤度を示す、各行動クラスに対する確率を取得することとを行うことにより、ビデオ・クリップ内で実行される行動を分類する。

Description

様々な実施例は、一般に、ボトルネック・アテンション・メカニズムを用いて畳み込みニューラル・ネットワーク(CNN:convolutional neural network)モデルを拡張する、ビデオ内の行動を分類するための方法及びシステムに関する。
ビデオ・コンテンツの量は、指数関数的に増加している。そのため、ビデオ・コンテンツを解析するための技術は、効率的にスケーリングできることが必要となる。ハードウェア要件を制限しつつ高レベルの性能を維持することにより、これらの大量のビデオ・データを処理することが可能となる。これに関連して、ビデオベースの人物行動認識(VHAR:video-based human action recognition)のための深層ニューラル・ネットワーク・アーキテクチャは、ビデオ・データの理解及び分類、ビデオ監視、エンターテインメント、並びに自動運転など、多くの実世界の応用を可能にする。
VHARに関して、畳み込みニューラル・ネットワーク(CNN)に基づくアルゴリズムにおける幅広い研究が提案されている。2次元(2D:two dimensional)CNNモデルの1つの主な利点は、畳み込みの使用により、高速画像計算を実行し、高解像度画像から有意義な特徴量を抽出できることである。しかしながら、2D CNNは、ビデオ・クリップに対してフレーム単位の演算を実行し、フレーム間の時空間関係を探索することはない。時間モデリングの欠如を補償するために、集約アルゴリズム又は回帰型ニューラル・ネットワーク・モデル(RNN:recurrent neural network)、例えば、RNNの一種である長・短期記憶(LSTM:Long Short Term Memory)が2D CNNと組み合わせられている。2D CNN+LSTMアーキテクチャは、空間パターン及び長期依存性の獲得において期待できる結果を示している。ビデオは、複数のフレームを有するため、畳み込みの特徴量抽出能力を保持すると共に、運動力学のモデル化も行うために、3次元(3D:three-dimensional)CNNアーキテクチャが使用される。3D CNNは、LSTMを必要とすることなく、ビデオ・データの階層的な時空間表現を迅速に作成する。これに関連して、VHARのための現況技術のアーキテクチャは、残差接続(例えば、ResNet)を使用する2D CNNバックボーン、膨張畳み込み、同じく残差ネットワークに基づくがシフト畳み込みを使用する時間セグメントネットワーク、及び3D CNNに依拠している。それでも、3D CNN及びLSTMのどちらとも、ビデオ・クリップのフレーム数が増加するにつれて、計算コストが高くなっていく。
時間的依存性をモデル化するための効率的な方法は、アテンション・メカニズムを使用することである。当初は、言語タスクにおける長いシーケンスを解析するために導入されたアテンションを伴うモデルは、VHARに関する幅広い研究が行われる分野となっている。アテンション・メカニズムは、ニューラル・ネットワークのための処理技法であり、これは、ネットワークがデータ入力の特定の側面に焦点を当てることを可能にする。ビデオ・データの場合には、アテンション・メカニズムは、クリップ内のフレーム又は画像内の領域の相対的重要度を示す、アテンション・スコア又は重みを生成する。
アテンションを伴うモデルは、LSTMと組み合わせられている。これにより、LSTMが、純粋なアテンション・メカニズムでは見逃される場合がある、ビデオ・クリップ内のフレームの時間的順序を捕捉することが可能となる。
近年、自然言語処理(NLP:natural language processing)において使用されるアテンション・モデル、例えば、Google社のTransformerが、視覚タスクにおいて効果的であることが示されている。画像に対するTransformerの使用は、部分的には、ボトルネック・アテンション技法の開発により可能となっている。これらの解決策は、画像の次元(寸法)を削減し、それらをベクトル化する、例えば、2D画像から1Dベクトルを作成する。ボトルネック技法は、2D CNNモデルにおいて使用される標準的なビルディング・ブロックであり、深層ニューラル・ネットワークの計算性能を増大させることを目的としている。
現行のボトルネック・アテンション・メカニズムは、画像次元(寸法)の削減に対して効率的であるが、全く同じ画像サイズを維持しながら、ビデオの時間次元を迅速に削減するためのボトルネック型の解決策はない。そのような解決策は、生のビデオ入力からキーフレーム・シーケンスを生成することにより、入力データ・ボリュームを削減するために使用される可能性がある。
VHARに関する初期の研究は、本明細書ではキーフレームと呼ばれる、入力ビデオストリームからの小規模な厳選したフレームのセットが、効果的に人物行動を判別できることを示唆している。キーフレーム選択は、ビデオ・クリップ内の複数の有益でない情報を持つフレームを破棄することで、スパースなシーケンス表現を構築し、この表現は、後で行動分類を実行するために使用され得る。しかしながら、特定のフレームを選択するためにビデオ全体の詳細なフレーム知識(例えば、人物姿勢記述)を有していることが求められるため、そのようなキーフレームを見つけることは困難である。一般に、画像にラベル付けを行うためには、人間のドメイン専門知識を要するため、個々のフレームを記述するのには時間がかかり得る。さらに、選択されたフレームが過剰にスパースである場合を想定されたい。そのような場合、運動力学が破綻してしまうことがある。これは、動作に、また、その結果としてモデル・パラメータに加算された高周波数により、行動認識性能を低下させ得る。
現行のボトルネック・アテンション・メカニズムは、古典的なTransformerの網羅的なアテンションの二次スケーリング問題を補償することを試みる。これらの解決策は、視覚的分類には効率的であるが、本明細書でクリップ・サイズ・ジレンマと呼ばれる、ビデオ分類モデルが直面する時間的問題に対処することはない。ビデオ・クリップが長くなるほど、精度は向上するが、訓練時間がより多くなる。短いビデオ・クリップの使用は、VHARにおける最新の研究結果に反しているということを指摘しておきたい。はるかに長いビデオ・クリップ(32個又は128個のフレームのクリップ)に対して実行される現行の長期時間畳み込みは、性能利得のために必要であると信じられている。これは事実であるが、本明細書では、フレーム間のよりコンテキスト性の高い関係を持つコンパクトなキーフレーム・シーケンス(ビデオ・クリップ)が、以下の2つの主な利点を有することを提案する。1)ビデオ認識モデルは、データ分布をより迅速且つ正確に学習及びモデル化することによってコンパクトな入力表現から利益を得ることができる。2)テストにおいて、より短いが有益な情報を持つビデオ・クリップに対して訓練されたネットワークは、より長いシーケンスからの人物行動予測を利用して認識精度を向上させることができる。
したがって、本発明は、これらの考慮事項などを鑑みてなされたものである。
本発明は、ビデオ人物行動認識(VHAR)と呼ばれる、ビデオ・クリップ内で発生する人間による行動を分類(認識)するための新規なエンドツーエンドの深層学習アーキテクチャを使用する。このアーキテクチャは、より長いビデオからスパースなキーフレーム・シーケンスを構成する、本明細書ではTBoTと呼ばれる、時間ボトルネック(temporal bottleneck)アテンション・メカニズムを導入する。これらのスパースなシーケンスは、許容可能な結果を維持しながら、計算時間を大幅に短縮するため、結果として畳み込みベースのモデルに対するより有用な表現となる。
運動力学をより良好にモデル化するために、平均フレームを中心としてアテンション重みが計算及び中心化される。その結果、平均からの短い変位を伴う動作は、小さいスコアを有し、逆もまた同様である。最終的に、複雑な行動のアテンション表現を強化するために、特定のフレームに注意を払うように学習する残差メカニズムを開発する。ここで、全結合(FC:fully-connected)層又はドット積演算を使用する代わりに、畳み込み及びプーリング統計量を使用してソフト残差セルフアテンション・メカニズムを構築し、行動予測のための効果的なコンテキストを計算する。
TBoTは、学習可能なパラメータを持たないソフト・プーリング・セルフアテンション・メカニズムに依拠しているため、異なるネットワーク位置において使用するのに十分な柔軟性を持つ。これにより、大規模なデータセット、例えば、視覚的物体認識研究において使用するために設計された大規模な視覚データベースである、ImageNetに対して事前訓練されたモデルを使用することが可能となる。実際、TBoTは、ネットワークの入力側に追加されて、フル・セットのフレームではなく、使用される各クリップに対して、コンパクトでコンテキスト化されたキーフレームのシーケンスを構築することを目的とし、これらのキーフレームは、後でモデルを訓練するために使用される。この場合、TBoTは、データ入力を混合し、データの変動性を生成するため、効果的なデータ拡張戦略として振る舞う。
TBoTは、畳み込みニューラル・ネットワーク(CNN)がフレーム間の時間的関係を見つけることを可能にする、アテンション・メカニズムを組み込んでいる。畳み込み層は、ビデオ認識のための有用な画像特徴量を抽出することによりアテンション・メカニズムを補完する。TBoTは、キーフレーム・シーケンス入力を構築するために、人間の介入を必要としない。任意のビデオ・クリップ・サイズからコンテキスト化された短いキーフレーム・シーケンスを構築するのに要する時間は、比較的短い。アテンション・メカニズムは、GPUのテンソル・コアによって効率的に計算されるテンソル加算及びスカラー乗算を実行する。アテンション・メカニズムは、2D CNNモデルによって生成された結果を処理する、残差セルフアテンション・プロシージャ及びプーリング・セルフアテンション・プロシージャを含む。一緒になると、2つのアテンション・メカニズムは、マルチヘッドとして機能し、分類及び予測のための最終的な説得力のある行動コンテキストを構築する。
特定の実施例では、本発明は、解析のためのビデオ・クリップを受け取ることであって、ビデオ・クリップが時系列のビデオ・フレームを含む、受け取ることと、クリップ内のフレームにボトルネック・アテンション・メカニズムを適用して、キーフレームの削減シーケンスを生成することと、キーフレームのシーケンスに2次元(2D)畳み込みニューラル・ネットワークを適用して、各キーフレームに対して3D埋め込みテンソルを取得することと、3D埋め込みテンソルにマルチヘッド・アテンション・メカニズムを適用して、最終的な行動コンテキストを生成することと、最終的な行動コンテキストに分類メカニズムを適用して、行動クラスで指定された行動がビデオ・クリップ内で発生した尤度を示す、各行動クラスに対する確率を取得することとを行うことにより、ビデオ・クリップ内で実行される行動を分類する。
本発明の非限定的且つ非網羅的な実施例は、以下の図面を参照して説明される。図面において、同様の参照符号は、特に指定されない限り様々な図面を通して同様の部分を指す。
本発明をより良く理解するために、添付の図面と関連付けて読まれるべきである、以下の発明を実施するための形態を参照されたい。
ビデオベースの人物行動認識(VHAR)を実行する、TBoTNetと呼ばれるCNNベースのシステムの一般化ブロック図である。 視覚的アテンションを伴う時間ボトルネック・ネットワーク・アーキテクチャ(TBoTNet:temporal bottleneck network)と呼ばれる機械学習システムの一実施例を示す図である。 34個のフレームのビデオ・クリップを16個のキーフレームに削減する方法を示す図である。 34個のフレームのビデオ・クリップを11個のキーフレームに削減する方法を示す図である。 TBoTNetに組み込まれたソフト・プーリング・セルフアテンション法の一実施例を示す図である。 TBoTNetに組み込まれた残差アテンション・メカニズムの一実施例を示す図である。
図面は、例示の目的で本発明の実施例を示しているに過ぎない。当業者は、本明細書で示される構造及び方法の代替実施例が、本明細書で説明される本発明の原理から逸脱することなく採用され得ることを、以下の説明から容易に認識するであろう。
本発明は、ここで、本明細書の一部を形成し、例示のために、本発明が実行され得る特定の例示的な実施例を示す、添付の図面を参照して以下でより完全に説明される。しかしながら、本発明は、多くの異なる形態で具現化されてよく、本明細書に記載の実施例を限定するものとして解釈されるべきではない。むしろ、これらの実施例は、本開示が徹底的且つ完全となり、本発明の範囲を当業者に完全に伝えるように提供される。とりわけ、本発明は、方法、プロセス、システム、ビジネス方法又はデバイスとして具現化され得る。したがって、本発明は、完全にハードウェアである実施例、完全にソフトウェアである実施例、又はソフトウェアの態様とハードウェアの態様とを組み合わせた実施例の形態を取ることができる。したがって、以下の詳細な説明は、限定的な意味で取られるべきではない。
本明細書で使用される場合、次の用語は、以下で与えられる意味を有する。
ビデオ・クリップ、クリップ、又はビデオ-複数のフレームを含むビデオのセグメントを指す。本明細書で使用される場合、ビデオは、一次行動を含む。
人物行動又は行動-人によるビデオ・クリップ内の動きを指す。他の実施例では、行動は、別の動物又は無生物物体による行動を指し得る。
VHAR-ビデオ内で実行される行動に基づいて人物行動を認識又は分類することを目的とする、コンピュータ・ビジョンにおける基本タスクである、ビデオ人物行動認識を指す。
機械学習モデル-構造化及び/又は非構造化データ入力を取り、予測又は結果を生成する、アルゴリズム又はアルゴリズムの集合を指す。予測は、典型的には、値、又は値のセットである。機械学習モデルは、やり取りを行い結果を生み出す、1つ又は複数のコンポーネント・モデルをそれ自体が含んでもよい。本明細書で使用される場合、機械学習モデルは、ビデオ・クリップを入力データとして受け取り、既知の検証データ・セットに対する推定値又は予測を生成する、畳み込みニューラル・ネットワーク又は別のタイプの機械学習メカニズムを含む、ニューラル・ネットワークを指す。典型的には、モデルは、モデルの連続的な実行を通して訓練される。典型的には、モデルは、訓練段階中は連続的に実行され、成功裏に訓練された後は、新規のデータを評価し、予測を行うために、操作上で使用される。この訓練段階は、成功指標を予測できる許容可能なモデルを得るために、数千回実行され得るということを強調しておかねばならない。また、モデルは、数千、又は数万にも上る特徴量を発見する場合がある。そして、これらの特徴量の多くは、入力データとして提供される特徴量とは全く異なり得る。したがって、モデルは、事前に知られておらず、精神的努力のみで算出を行うことは不可能である。
予測-本明細書では、ビデオ・クリップ内の行動が、行動の特定のクラス又はカテゴリに属する、統計的推定値又は推定確率を指す。予測はまた、多くの個々のクラスを含む分類システム内の各クラス又はカテゴリに割り当てられた推定値又は確率を指してもよい。例えば、DeepMind社のデータ・セットであるKinetics 400は、400の異なる人物行動に分類される、最大650,000のビデオ・クリップを提供する。これは、一般に使用されている訓練データセットの一実例である。
アーキテクチャ-本明細書で使用される場合、入力データから出力データまで連続的に実行されるステージ、プロシージャ、又はプロセスの全体的なセットを指す。これは、以下の図2に示されており、データがCNN又は他の機械学習モデルにサブミットされる前に実行されるボトルネック・アテンション処理などの前処理ステップを含む。
一般化された操作
以下で、本発明のいくつかの態様の操作が、図1~図5に関して説明される。
図1は、ビデオベースの人物行動認識(VHAR)を実行する機械学習システム100の一般化ブロック図である。TBoTNetサーバ120は、TBoTNetアーキテクチャ125(又は単にTBoTNet125)をコンピュータで実行する。
TBoTNetサーバ120は、解析のためのビデオ・クリップを提供するデータ・ソース130にアクセスする。ビデオ・クリップは、モデルの訓練中に使用されてもよいし、解析及び分類のための操作上で使用されるライブ入力データであってもよい。例えば、GOOGLE社によって運営されるウェブサイトであるYOUTUBE(登録商標).COMが、データ・ソース130のうちの1つであってもよい。他のデータ・ソース130は、テレビ・チャンネル、映画、及びビデオ・アーカイブを含んでもよい。典型的には、TBoTNetサーバ120は、ネットワーク140にわたるデータ・ソース130からのビデオ・クリップにアクセスするが、特定の実施例では、クリップは、USBドライブ、ハード・ドライブのような物理媒体上、及び直リンクなどの他の電子通信媒体にわたって提供されてもよい。TBoTNetサーバ120は、プロセッサ、ビデオ・クリップ及び中間結果を記憶するためのデータ・ストレージ、並びにプログラム・コード及びデータを記憶するための不揮発性メモリを含む。
TBoTNetサーバ120は、単一のサーバ・コンピュータによって、協働して機能する複数のサーバ・コンピュータによって、又はネットワークサービス、若しくは、AMAZON AWSなどのクラウド・サービス・プロバイダによって提供される「クラウド」サービスによって実装されてもよい。TBoTNetサーバ120として動作し得るデバイスは、限定されないが、パーソナル・コンピュータ、デスクトップ・コンピュータ、マルチプロセッサ・システム、マイクロプロセッサベースの又はプログラム可能な家電製品、ネットワークPC、サーバ、ネットワーク機器などを含む。
TBoTNet125によって使用されるビデオ・クリップは、とりわけ、(1)ライブ・ビデオ・データ、分類の目的で機械学習モデルを訓練するために使用されるKinetics 400のデータセットなどの訓練用データセット、及び大量の画像を提供し、機械学習モデルを事前訓練するために使用され得るImageNetなどの訓練用データセットを含む。
ユーザは、TBoTNetモデル125を訓練するために、TBoTNetサーバ120とやり取りを行い、訓練用のビデオやクリップを特定及び提供する。典型的には、ユーザは、ユーザ・コンピュータ110上で実行されるユーザ・アプリケーション115とやり取りを行う。ユーザ・アプリケーション115は、ネイティブ・アプリケーション、又はMOZILLA社のFIREFOX、若しくはGOOGLE社のCHROMEなどのウェブ・ブラウザ内で実行するウェブ・アプリケーションであってもよい。
ユーザ・コンピュータ110は、ラップトップ・コンピュータ、デスクトップ・パーソナル・コンピュータ、スマートフォンなどのモバイル・デバイス、又はネットワーク140上でやり取りを行い、TBoTNetサーバ120にアクセスできるプログラムを実行する任意の他のコンピュータであってもよい。一般に、ユーザ・コンピュータ110は、スマート・フォン、パーソナル・コンピュータ、タブレット・コンピュータ、又は、プロセッサ、プログラム命令及びデータを記憶するための非一時的メモリ、ディスプレイ、並びにキーボード及びマウスなどの対話型装置を備えた他のコンピュータ・システムであってもよい。
TBoTNet130は、典型的には、データを記憶し、図2及び図3A~図3Bを参照して以下に説明されるTBoTNet125を実行する。
ネットワーク140は、ユーザ・コンピュータ110及びTBoTNetサーバ120が、データ及びメッセージを交換することを可能にする。ネットワーク140は、ローカル・エリア・ネットワーク(LAN:local area network)、ワイド・エリア・ネットワーク(WAN:wide area network)、直接接続、それらの組合せなどに加えてインターネットを含んでもよい。
行動モデリング及びMRモデル
教師あり機械学習モデルは、分類セットにおける各クラスに対してスコア又は確率推定値を提供する。スコア(確率)は、ビデオ・クリップがクラス・メンバによって表される行動を含む尤度を示す。最も高いスコアを持つクラスは、単一の予測が必要とされる場合に選択され得る。このクラスは、対象者によって実行される、ビデオ・クリップ内で発生した可能性が最も高い行動を表すとみなされる。各クリップに対して一次クラスが分かっているビデオ・クリップの検証データセットは、モデルをデータセットからの異なるクリップによって連続的に操作し、各連続的モデル実行によってモデルを調整して誤差を最小限に抑えることでモデルを訓練するために使用される。本明細書で使用される場合、対象(者)(subject)という用語は、ビデオ・クリップ内の人、動物、又は他の物体によって実行される行動を指すために総称的に用いられる。本発明は、人間の対象者によって実行される行動に適用されることが主に意図されているが、そのように限定されておらず、動物などの他の動く物体に適用されてもよく、自動車、ボールなどの無生物物体に適用されてもよい。
VHARボトルネック・アーキテクチャ
図2は、ボトルネック・アテンション・メカニズム及びマルチヘッド・アテンション・メカニズムによって畳み込みニューラル・ネットワーク(CNN)を拡張する、TBoTNet125と呼ばれる機械学習アーキテクチャの一実施例を示す。TBoTNet125は、ビデオベースの人物行動認識(VHAR)に対して特に好適である。一般に、TBoTNet125は、視覚的アテンションを伴う時間ボトルネック・ネットワーク・アーキテクチャである。TBoTNet125は、まず、各入力ビデオ・クリップのスパース又はコンパクトな表現、すなわち、時間次元が削減された表現を構成し、次いで、この削減された入力を使用して、ビデオ・クリップ内で表現される人物行動を効率的に学習及び分類する。以下では、単一のビデオ・クリップに対する処理が説明されているが、典型的には、大量のビデオ・クリップが処理されることが諒解され得る。
生のビデオXが入力としてTBoTNet125に提供される。生の入力ビデオは、前処理されて、ビデオ・クリップ内のビデオ・フレームのシーケンスであるビデオ入力X,X,…,Xを生成し、これらのビデオ・フレームは、TBoTNet125によって処理され、出力

は、クラス・スコアの予測された行動ベクトル(ロジット)である。行動ベクトルは、行動データセットによって定義された各行動クラスに対するスコアを提供し、ベクトルにおける各値は、行動クラスによって定義された行動がビデオ・クリップ内で発生した尤度を示すスコア又は確率である。行動クラスのセットを定義する行動データ・セットは、幅広く使用されているKinetics 400、600又は700のデータセットなどのよく知られているセットから選択されてもよいし、別の知られている又はカスタム開発された行動データ・セットであってもよい。
まず、ステップ202において、生のビデオ・ファイルが、前処理されて一連のビデオ・クリップを生成する。ビデオ・クリップは、典型的には、高スループットを達成するために、TBoTNet125によって並列で処理されるが、逐次的に処理されることもある。前処理は、典型的には、(1)所望のビデオ・フレーム・サイズに達するように、平均化、サブサンプリング、又は別のプロセスを通してビデオの解像度を削減することと、(2)さらなる処理を行うために、削減された解像度フレーム内の矩形領域を切り抜く又は選択することとを含む。結果として得られた、より小さいビデオ・クリップは、次いで、ボトルネック・アテンション・メカニズム204(又は単にTBoT204)に入力として提供される。
TBoT204と呼ばれる時間ボトルネック・アテンションは、入ってくるビデオ・フレームのシーケンスに適用されて、ビデオ・クリップの削減された代表的なシーケンスを構築することを目的としている。TBoT204の処理について、図3A、図3Bを参照して以下でさらに詳細に説明する。TBoT204は、ボトルネック・アテンション・プロシージャを使用してクリップ内のフレーム数を削減してキーフレームの小さいシーケンスを構成し、これにより、性能を向上させる。一般に、TBoT204は、ボトルネック・アテンション・メカニズムを使用して生の入力データのよりコンパクトな時間表現を構築して、重要な画像詳細を保持しながら、データのボリュームを削減する。従来では、アテンションは、フレーム及びクリップを重み付けて、それにより結果を改善するために使用されていたが、後続の処理のために、ニューラル・ネットワークに提供されたデータのボリュームを削減するためには使用されていなかった。
次に、2D畳み込みニューラル・ネットワーク(2D CNN)206は、クリップの新規なシーケンスに適用される。2D CNN206は、各フレーム

に対して3D埋め込みテンソルを作成する。各埋め込みテンソルは、キーフレームの特徴量の抽出された特性を表す。特定の実施例では、CNNの一種である、ResNet、すなわち、残差ネットワーク(residual network)が使用される。ResNetは、画像認識及び分類に対して効果的であることが確認されている。しかしながら、様々な市販のCNNモデル、バックボーン・アーキテクチャ、又は後で画像分類に使用され得る画像特徴量を抽出する他の処理システムが使用されてもよい。
次に、加法プーリング・セルフアテンション・プロシージャ208及び残差セルフアテンション・プロシージャ210が、埋め込み出力に適用されて、ソフト・コンテキスト(ctx)と残差コンテキスト(ctx)とをそれぞれ構成する。
次いで、連結プロシージャ212は、各クリップに対して、2つのコンテキストを、単一の効果的な行動コンテキスト(ctx)に結合する。
最後に、行動コンテキストctxは、分類器214に投入されて、ロジット

と呼ばれるスコアのベクトルを予測する。各スコアは、行動クラスの重要度を測定する。特定の実施例では、ロジットを確率に変換するソフトマックス関数が適用される。
CNNの訓練は、本発明の範囲外であると考えられるが、全体的なシステムは、クロスエントロピー損失又は平均自乗誤差(MSE:mean square error)などの損失関数を使用して訓練される。
一般に、図2のアーキテクチャは、4つの全体的なコンポーネント、すなわち、(1)ビデオ・クリップ及び埋め込み表現、(2)早期アテンション、(3)加法セルフアテンション、並びに(4)行動認識にグループ化することができる。4つのコンポーネントのそれぞれについて以下で論じる。
図2のボックスのそれぞれは、完全にソフトウェア若しくはハードウェアで、又はハードウェアの組合せで実行される全体的な方法のステップであるプロシージャを表し得ることが諒解され得る。さらに、場合によっては、同じ参照符号を持つ2つ以上のボックス、例えば、TBoTアテンション204は、処理が並列で実行され得るということを示唆するように示されているが、そのような処理はまた、逐次的に実行されてもよい。
ビデオ・クリップ及び埋め込み表現
まず、画像、すなわち、フレームのシーケンスとしてのビデオ・クリップの表現について検討する。形式的には、4Dテンソルとして表されるビデオ・クリップは、

のように定義され、ここでXは、ビデオ・クリップであり、xは、クリップ内のフレーム番号tであり、τは、クリップ内のフレーム数であり、Cは、チャネル数であり(ここではC=3であり、チャネルは赤、緑、青(RGB)である)、(M,M)はフレーム・サイズ、すなわち、高さ=幅=M個のピクセルである。本発明は、正方形フレーム、特に矩形に限定されていないこと、又は任意の形状及びサイズが処理され得るということに留意されたい。Mという用語は、画像又はフレーム寸法(次元)と呼ばれる場合がある。
通常操作において、いくつかのクリップがクリップのバッチでTBoTNet125に渡される。例えば、8個、16個、32個、及び64個のクリップがバッチとして渡され得る。したがって、フル・ビデオ又はビデオのシーケンスを表現するために、バッチにおけるシーケンス番号を示す追加のインデックスが追加され得る。これにより、次元B×C×τ×M×Mのテンソルが得られ、ここで、Bは、処理するバッチ内のクリップ数である。バッチのインデックスは、ここでは、表記を簡略化するために省略されている。クリップ単位の空間解像度又はサイズは、典型的には、M=112又はM=224であるが、任意の解像度が使用され得る。
時間ボトルネック・アテンション・メカニズム
キー・フレームのシーケンスを計算するために、時間ボトルネック・アテンション・プロシージャ又はメカニズムTBoT204が採用される。TBoT204は、人間の介入なしにコンパクト且つコンテキスト化されたビデオ・クリップを自動的に構築する。結果として、ネットワークは、より小さいクリップから人物行動を学習することができ、訓練段階が迅速且つ正確に発生することを可能にする。
形式的には、TBoT204は、s個のフレームを持つビデオ・クリップを処理し、以下の式2に公式化される、サイズ

の新規なキーフレーム・シーケンスを構築する。

ここで、

は、s個のフレームを持つビデオ・クリップからの時間tにおけるTBoT アテンションから計算されるキーフレームである。
特定の実施例では、以下で図4を参照して説明されるプーリング・セルフアテンション・メカニズム208は、時間アテンション重みを計算し、この時間アテンション重みは、次いで、時間的に連続するフレームのシーケンスを結合するときに適用されて、キーフレームを生成する。他の実施例では、図5を参照して説明される残差セルフアテンション・メカニズム210が使用される。さらに他の実施例では、他のアテンション・メカニズムが使用される。
図3Aは、クリップ内のフレーム数を34個から16個に削減するためにTBOT204によって実行される方法の一実施例を示し、図3Bは、クリップ内のフレーム数を34個から11個に削減するためにTBOT204によって実行される方法の一実施例を示す。一般に、ビデオ入力ストリームのサイズを削減するための様々な方法が、本発明の範囲内である。図3Aでは、3つの連続的な、すなわち、時間的に連続する入力フレームが結合されて、一緒になって第1のキーフレームTBoTを生ずるシーケンスx,x,xにより開始する、各キーフレームを作り出す。一方、図3Bでは、4つの連続的な入力フレームが結合されて各キーフレームを作り出す。
各キーフレームは、3つのフレーム(図3A)又は4つのフレーム(図3Bの場合)の重み付けられた平均であり、重みは、ボトルネック・アテンション・メカニズムによって計算された時間アテンション重みである。
TBoT204は、以下の式3において定義される、フレームの新規なシーケンス、すなわち、新規なビデオ・クリップを生成し、これは次いで、ステップ206において、2D CNNモデルに提供又は投入される。入力と出力との違いは、キーフレーム数対入力ビデオ・クリップにおけるフレーム数である。
埋め込み表現
入力クリップXに予備アテンションを適用した後、式3において定義されるフレーム・シーケンス

がResNetなどのCNNモデルに投入される。残差ネットワーク(residual network)の短縮形であるResNetは、画像分類問題において成功実績のある特定のタイプのニューラル・ネットワークである。ResNetは、様々なオープン・ソース及び商業ソースから入手可能であるため、深層学習の解決策をベンチマークするための標準とみなすことができる。また、より正確な結果を得るために、より複雑な特徴量抽出器、例えば、ResNet101若しくはResNet152、又はオプティカル・フロー技法が使用されてもよい。一般に、ステップ206では、市販の、又はオープン・ソースから入手可能なものを含む、様々なCNNメカニズムが使用され得る。
特定の実施例では、各フレーム・クリップの埋め込み表現のために、ResNet50の最後の畳み込み層の出力が使用される。CNNは、広く入手可能なデータセットであるImageNetなどのデータセットに対して事前訓練されてもよいということに留意され得る。
次いで、標的データセットに対してファイン・チューニングが行われる。ファイン・チューニングは、モデルの全層を更新し、バッチノルム層を解凍させることによって実行される。
ステップ206の出力の埋め込み表現は、以下の式4において説明される。

これは、入力クリップ

と同じフレーム数を有し、その空間解像度又は次元は、M’=4又は7である。
アテンション・メカニズム
2D CNNは、画像特徴量を抽出するのに優れ、3D CNNよりも高速で計算を実行するが、ビデオ・フレームを等しく扱うことが、ビデオ解析に関して言えば弱点となる。言い換えれば、2D CNNは、ビデオ・シーケンスからコンテキスト性のある情報を定量化することに制限されている。この問題を軽減するために、図4及び図5に示すように、時間的コンテキスト性のあるフレーム依存性とソフト及び残差セルフアテンティブ・メカニズムとの組合せが使用される。
残差セルフアテンション
図4は、TBoTNet125に組み込まれている、プーリング統計量に基づく、ソフト・プーリング・セルフアテンション又はプーリング・セルフアテンション208と呼ばれるアテンション・メカニズムの一実施例を示す。この手法は、きめ細かい分類問題に対して性能が向上しているために使用される。一般に、全結合(FC:fully-connected)及びドット積アテンション・メカニズムと比較すると、プーリングは、テンソル加算及びスカラー乗算のみを実行するため、より効率的である。さらに、TBoTNet125におけるアテンション・メカニズムとして使用されるとき、キーフレームがCPUによって生成されるため、モデルが縮小されたビデオ・クリップ表現、すなわち、キーフレーム・シーケンスの解析を制約なく行うことができ、GPUメモリを節約し、訓練時間を短縮する。
より形式的には、埋め込み出力が与えられると、プーリング・セルフアテンション208は、まず、チャネル及び空間ロケーション(C’M’M’)に対して3D平均プーリングを適用することによって、重みベクトルαを計算する。
α=AvgPool3D(e) 式5
ここで、

は、クリップ内の各フレームの相対的重要度を定義する、アテンショナル・プーリング重みを指す。AvgPool3d()は、tensorflow.orgによって提供される、機械学習モデル及び深層学習モデルを実行するためのオープンソース・ライブラリであるTensorflow.jsにおける関数であることに留意されたい。この関数は、テンソルの要素の3D平均プーリングを計算するために使用される。
次に、クリップ間の動作変位をより良好にモデル化するために、アテンション重みが、平均フレームを中心として中心化され、平均フレームμαは、以下の式6において定義される。
結果として、平均からの僅かな変位を伴う動きは、小さい値を有し、逆もまた同様である。
次に、中心化された重みが、ソフトマックス関数によって処理されて、0と1との間でそれらの値を正規化する。これは、以下の式7において次のように公式化されている。
ここで、

という用語は、正規化されたアテンション・ベクトルである。構成上、

である。これは、モデル・パラメータにスケールが加算されていないことを意味する。これは、バックプロパゲーション中の勾配計算を平滑化する。このとき、各行動フレームは、そのアテンション重みによってより良好に判別され得る。
最後のステップとして、各重みを、その対応するフレームで乗算して同じクリップ又はサブクリップにおけるフレーム間の差分を拡張する、加法メカニズムが以下の式8において公式化されている。

ここでctxは、ソフト行動コンテキストである。
残差セルフアテンション
アテンション・メカニズムが複雑な行動を表現する重みベクトルを保持及び学習する能力は、メカニズム全体を通して入力がどのように変換されるのかに依拠している。特徴量の表現力の増大に線形写像(例えば、全結合(FC)層)が広く受け入れられているにも関わらず、画像表現の抽出には、畳み込みニューラル・ネットワーク(CNN)が幅広く使用されている。したがって、複雑な行動のアテンション表現を強化するために、すべてのフレームに対するアテンション重みを算出する残差アテンション・メカニズムがTBoTNet125に組み込まれる。
図5は、TBoTNet125に組み込まれた残差アテンション・メカニズム210の一実施例を示す。モデルの埋め込み出力Eは、1のストライドで、2次元の1×1カーネルで、

回畳み込まれて同じ長さ及び空間解像度を持つEの3Dテンソルを生成する。次に、畳み込まれたテンソルは、以下の式9で公式化されるように、2D平均プーリング関数に投入されて有意義なアテンション重みを計算する。
β=AvgPool2D(conv(e)) 式9

は、学習されたアテンション重みである。conv()は、C’次元入力フィルタを、サイズ1の出力フィルタに写像する畳み込み演算を示す。この写像を実行するために1つの畳み込み層のみが使用される。
次に、βが以下の式10に与えられるように、ソフトマックス関数に投入される。

ここで、出力又は結果

は、正規化されたアテンション・ベクトルである。
最後に、残差アテンション・ベクトルが、式11において、以下のように公式化される。

ここで、ctxは、残差アテンション・コンテキストと呼ばれる。スケール1/τが、ctxをクリップ・サイズに対して不変にするために必要である。結果として、残差アテンションありのモデルの精度は、アテンションなしのモデルと比較しても悪くない。
行動認識
アテンションは、マルチヘッド・アテンション・メカニズムとして計算されたとき、コンテキスト性のある意味表現をより良好に捕捉することができる。ヘッドという用語は、最終的な結果を生ずるニューラル・ネットワーク・アーキテクチャにおける最終処理ステップを指す。本明細書で使用される場合、マルチヘッド・アテンションは、並列の少なくとも2つの異なるアテンション・メカニズムを通して実行される。次いで、独立するアテンション出力が連結、又は別法で結合されて、単一の出力を得る。異なるアテンション・ヘッドは、入力シーケンスの部分を異なる方法で解析するために使用され得る(例えば、長期依存性と短期依存性)。図2の実施例では、プーリング・セルフアテンション208及び残差アテンション210を並列で実行した後、ステップ212において、それぞれの出力を連結して、最終的な行動コンテキストと呼ばれるアテンション重みの単一ベクトルを作り出すマルチヘッド・アテンションが使用される。最終的な行動コンテキストは、

で、ctx=concat[ctx,ctx]となるように計算される。そして、最終ステップとして分類が実行される。
図2のステップ214において、バッチ正規化(BN:Batch Normalization)層にctxを投入した後、conv(2*C’,C’/2)、ReLU[38]、グローバル平均プーリング、及びロジット・ベクトル

、すなわち、ソフトマックス関数前のクラス・スコアを作り出すFC層を実行して、クラス確率を計算することによって、クラス予測、すなわち、分類が生成される。特定の実装では、1×1 conv(2C’,C’/2)が使用される。FCは、1024次元の入力を受け取り、その要素が、分類データセットにおけるクラスのそれぞれに対するクラス・スコアである分類ベクトルを出力する。したがって、Kinetics-400のデータセットが使用される場合、400次元のベクトルが生成される。特定の実施例では、入力ビデオX内で発生した可能性が最も高い人物行動を表すものとして、単一のクラス、すなわち、分類ベクトルにおける最も大きいスコアを持つクラスが選択される。
標的データセットに対する誤差を低減するためにCNNの重みを訓練するバック・プロパゲーション処理は、本発明の一部として考えられていないが、最小自乗誤差(MSE:minimum square error)のクロスエントロピー損失などの損失関数が採用される。
訓練及びテスト
前述した通り、特定の実施例では、TBoTNet125は、畳み込みニューラル・ネットワーク(CNN)モデルを含む。このモデルは、ImageNetのデータセットに対して事前訓練されてもよい。CNNモデルは、有効にされたBN層で、ドロップアウトなしでファイン・チューニングされる。入力ビデオ・クリップ・フレームは、スケール拡張のために128×240にリサイズされる。112×112ピクセルの切り抜きが直交座標系の同じ位置上の各フレーム-クリップからランダムにサンプリングされる。これらの切り抜きはまた、ランダムな水平反転、並びに、0.5の確率及び0.2の色歪みによるランダムなRGB及びグレースケール拡張を経る。各訓練用ビデオの連続するフレームから、いくつかの連続するフレームτがサンプリングされ、残ったフレームは破棄される。8個、11個、及び16個のキーフレームのクリップに対してテストを行った。テストした入力クリップの数は、τ=34、ストライド={3,4,5}であった。サイズ8及び11のクリップに対して、GPU当たり128個のクリップのバッチ・サイズを使用し、GPUのメモリ容量のために、16個のフレームのクリップに対しては、120個のクリップのバッチ・サイズを使用した。
TBoTNet125の予測は、Kinetics 400のデータセットなどの訓練用データセットと比較され、損失関数に従って誤差が決定される。
全般として、TBoTNet125アーキテクチャの性能は、複数のアブレーション実験を使用してテストされ、行動認識率の大幅な向上を示した。
上記の明細書、実例、及びデータは、本発明の構成物の製造及び使用の完全な説明を提供する。本発明の精神及び範囲から逸脱することなく本発明の多くの実施例がなされ得るため、本発明は、以下に添付される特許請求の範囲に存在する。

Claims (20)

  1. ビデオ・クリップ内で実行される行動を分類するためのコンピュータ実施方法であって、
    解析のためのビデオ・クリップを受け取るステップであって、前記ビデオ・クリップが、時系列のビデオ・フレームを含む、ステップと、
    前記クリップ内の前記フレームにボトルネック・アテンション・メカニズムを適用して、キーフレームの削減シーケンスを生成するステップと、
    キーフレームの前記シーケンスに2次元(2D)畳み込みニューラル・ネットワークを適用して、各キーフレームに対して3D埋め込みテンソルを取得するステップと、
    前記3D埋め込みテンソルにマルチヘッド・アテンション・メカニズムを適用して、最終的な行動コンテキストを生成するステップと、
    前記最終的な行動コンテキストに分類メカニズムを適用して、各行動クラスに対する確率を取得するステップであって、前記確率が、前記行動クラスで指定された行動が前記ビデオ・クリップ内で発生した尤度を示す、ステップと
    を含む、コンピュータ実施方法。
  2. 各キーフレームが、前記ビデオ・クリップ内の時間的に連続するフレームの異なるサブセットを表す、請求項1に記載の方法。
  3. 前記ボトルネック・アテンション・メカニズムが、34個のビデオ・フレームのビデオ・クリップから、16個のキーフレーム又は11個のキーフレームのいずれかを生成する、請求項2に記載の方法。
  4. 前記マルチヘッド・アテンション・メカニズムが、
    プーリング・セルフアテンション・プロシージャを適用することと、
    残差セルフアテンション・プロシージャを適用することと、
    前記プーリング・セルフアテンション・プロシージャの結果と前記残差セルフアテンション・プロシージャの結果とを連結して前記最終的な行動コンテキストを取得することと
    を含む、請求項1に記載の方法。
  5. 前記プーリング・セルフアテンション・プロシージャが、
    3D平均プーリングに基づいてクリップ内の各キーフレームに対してアテンション重みを計算することと、
    平均フレームを中心として前記アテンション重みを中心化することと、
    中心化された前記アテンション重みを正規化して、正規化されたアテンション・ベクトルを作成することと、
    正規化された前記アテンション重みを、前記アテンション重みのそれぞれのキーフレームで乗算して、前記クリップ内の前記キーフレーム間の差分を拡張することと
    を含む、請求項4に記載の方法。
  6. 前記ボトルネック・アテンション・メカニズムが、
    前記ビデオ・フレームのそれぞれに対して時間アテンション重みを算出することと、
    各キーフレームが時間的に連続するフレームのサブセットの重み付けられた平均であり、前記重みが算出された前記時間アテンション重みである、前記キーフレームを計算することと
    を含む、請求項4に記載の方法。
  7. 前記時間アテンション重みが、前記プーリング・セルフアテンション・プロシージャによって生成される、請求項6に記載の方法。
  8. 前記残差セルフアテンション・プロシージャが、
    2次元の1×1カーネルで前記埋め込みテンソル出力を畳み込むことと、
    2D平均プーリングに基づいて各畳み込まれたテンソルに対してアテンション重みを計算することと、
    前記アテンション重みにソフトマックスを適用して、正規化されたアテンション・ベクトルを生成することと、
    前記重みを前記埋め込みテンソルによって乗算し、結果をスケーリングして残差行動コンテキストを取得することと
    を含む、請求項4に記載の方法。
  9. 前記時間アテンション重みが、前記残差セルフアテンション・プロシージャによって生成される、請求項4に記載の方法。
  10. 前記ビデオ内で発生した可能性が最も高い行動を予測するために、前記行動コンテキストの確率から最も高い確率を選択するステップをさらに含む、請求項1に記載の方法。
  11. サーバ・コンピュータであって、
    プロセッサと、
    前記プロセッサと通信状態にある通信インタフェースと、
    ビデオ・クリップを記憶するためのデータ・ストレージと、
    前記プロセッサと通信状態にある、命令を記憶するためにメモリであって、前記命令が、前記プロセッサによって実行されると、前記サーバに、
    解析のためのビデオ・クリップであって、時系列のビデオ・フレームを含むビデオ・クリップを受け取ることと、
    前記クリップ内の前記フレームにボトルネック・アテンション・メカニズムを適用して、キーフレームの削減シーケンスを生成することと、
    キーフレームの前記シーケンスに2次元(2D)畳み込みニューラル・ネットワークを適用して、各キーフレームに対して3D埋め込みテンソルを取得することと、
    前記3D埋め込みテンソルにマルチヘッド・アテンション・メカニズムを適用して、最終的な行動コンテキストを生成することと、
    前記最終的な行動コンテキストに分類メカニズムを適用して、各行動クラスに対する確率であって、前記行動クラスで指定された行動が前記ビデオ・クリップ内で発生した尤度を示す、各行動クラスに対する確率を取得することと
    を行わせる、メモリと
    を備える、サーバ・コンピュータ。
  12. 各キーフレームが、前記ビデオ・クリップ内の時間的に連続するフレームの異なるサブセットを表す、請求項11に記載のサーバ・コンピュータ。
  13. 前記ボトルネック・アテンション・メカニズムが、34個のビデオ・フレームのビデオ・クリップから、16個のキーフレーム又は11個のキーフレームのいずれかを生成する、請求項12に記載のサーバ・コンピュータ。
  14. 前記マルチヘッド・アテンション・メカニズムが、
    プーリング・セルフアテンション・プロシージャを適用することと、
    残差セルフアテンション・プロシージャを適用することと、
    前記プーリング・セルフアテンション・プロシージャの結果と前記残差セルフアテンション・プロシージャの結果とを連結して前記最終的な行動コンテキストを取得することと
    を含む、請求項11に記載のサーバ・コンピュータ。
  15. 前記プーリング・セルフアテンション・プロシージャが、
    3D平均プーリングに基づいてクリップ内の各キーフレームに対してアテンション重みを計算することと、
    平均フレームを中心として前記アテンション重みを中心化することと、
    中心化された前記アテンション重みを正規化して、正規化されたアテンション・ベクトルを作成することと、
    正規化された前記アテンション重みを、前記アテンション重みのそれぞれのキーフレームで乗算して、前記クリップ内の前記キーフレーム間の差分を拡張することと
    を含む、請求項14に記載のサーバ・コンピュータ。
  16. 前記ボトルネック・アテンション・メカニズムが、
    前記ビデオ・フレームのそれぞれに対して時間アテンション重みを算出することと、
    各キーフレームが時間的に連続するフレームのサブセットの重み付けられた平均であり、前記重みが算出された前記時間アテンション重みである、前記キーフレームを計算することと
    を含む、請求項14に記載のサーバ・コンピュータ。
  17. 前記時間アテンション重みが、前記プーリング・セルフアテンション・プロシージャによって生成される、請求項16に記載のサーバ・コンピュータ。
  18. 前記残差セルフアテンション・プロシージャが、
    2次元の1×1カーネルで前記埋め込みテンソル出力を畳み込むことと、
    2D平均プーリングに基づいて各畳み込まれたテンソルに対してアテンション重みを計算することと、
    前記アテンション重みにソフトマックスを適用して、正規化されたアテンション・ベクトルを生成することと、
    前記重みを前記埋め込みテンソルによって乗算し、結果をスケーリングして残差行動コンテキストを取得することと
    を含む、請求項14に記載のサーバ・コンピュータ。
  19. 前記時間アテンション重みが、前記残差セルフアテンション・プロシージャによって生成される、請求項14に記載のサーバ・コンピュータ。
  20. 前記ビデオ内で発生した可能性が最も高い行動を予測するために、前記行動コンテキストの確率から最も高い確率を選択することをさらに含む、請求項11に記載のサーバ・コンピュータ。
JP2023553162A 2020-11-16 2021-11-15 ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ Pending JP2023549579A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063114344P 2020-11-16 2020-11-16
US63/114,344 2020-11-16
US17/350,283 2021-06-17
US17/350,283 US11270124B1 (en) 2020-11-16 2021-06-17 Temporal bottleneck attention architecture for video action recognition
PCT/US2021/059372 WO2022104202A1 (en) 2020-11-16 2021-11-15 A temporal bottleneck attention architecture for video action recognition

Publications (1)

Publication Number Publication Date
JP2023549579A true JP2023549579A (ja) 2023-11-27

Family

ID=80473483

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2023553162A Pending JP2023549579A (ja) 2020-11-16 2021-11-15 ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ
JP2023553165A Pending JP2023549582A (ja) 2020-11-16 2021-11-16 ビデオ行動認識のための多重解像度アテンション・ネットワーク

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023553165A Pending JP2023549582A (ja) 2020-11-16 2021-11-16 ビデオ行動認識のための多重解像度アテンション・ネットワーク

Country Status (10)

Country Link
US (2) US11270124B1 (ja)
EP (2) EP4244762A1 (ja)
JP (2) JP2023549579A (ja)
KR (2) KR20230104738A (ja)
CN (2) CN116686017A (ja)
AU (2) AU2021379758A1 (ja)
CA (2) CA3197846A1 (ja)
GB (2) GB2617710A (ja)
MX (2) MX2023005637A (ja)
WO (2) WO2022104202A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230169794A1 (en) * 2021-11-30 2023-06-01 Irina Kezele Method, device, and medium for adaptive inference in compressed video domain
CN114783053A (zh) * 2022-03-24 2022-07-22 武汉工程大学 基于空间注意力和分组卷积的行为识别方法及***
CN114979302B (zh) * 2022-04-22 2024-07-05 长江大学 一种自适应的基于熵的快速工人动作图像传输方法及***
CN115063833B (zh) * 2022-05-16 2024-05-14 国网冀北电力有限公司信息通信分公司 一种基于图像分层视觉的机房人员检测方法
WO2023226951A1 (en) * 2022-05-23 2023-11-30 Beijing Bytedance Network Technology Co., Ltd. Method, apparatus, and medium for video processing
TWI812255B (zh) * 2022-06-01 2023-08-11 大陸商星宸科技股份有限公司 智慧處理單元與三維池化運算方法
CN114818989B (zh) * 2022-06-21 2022-11-08 中山大学深圳研究院 基于步态的行为识别方法、装置、终端设备及存储介质
CN114783003B (zh) 2022-06-23 2022-09-20 之江实验室 一种基于局部特征注意力的行人重识别方法和装置
CN115240249B (zh) * 2022-07-07 2023-06-06 湖北大学 人脸识别的特征提取分类度量学习方法、***及存储介质
CN115953842A (zh) * 2022-12-29 2023-04-11 中国电信股份有限公司 视频的动作识别方法、装置、电子设备和可读介质
CN115880647A (zh) * 2023-02-22 2023-03-31 山东山大鸥玛软件股份有限公司 一种考生考场异常行为分析方法、***、设备及存储介质
CN116758621B (zh) * 2023-08-21 2023-12-05 宁波沃尔斯软件有限公司 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050238102A1 (en) * 2004-04-23 2005-10-27 Samsung Electronics Co., Ltd. Hierarchical motion estimation apparatus and method
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
US10628675B2 (en) * 2017-02-07 2020-04-21 Fyusion, Inc. Skeleton detection and tracking via client-server communication
EP3602397A1 (en) * 2017-05-15 2020-02-05 Deepmind Technologies Limited Neural network systems for action recognition in videos
US10861168B2 (en) * 2017-09-07 2020-12-08 Comcast Cable Communications, Llc Relevant motion detection in video
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
US10885345B2 (en) * 2019-04-29 2021-01-05 Tencent America LLC End-to-end video captioning with multi-task reinforcement learning
US11669743B2 (en) * 2019-05-15 2023-06-06 Huawei Technologies Co., Ltd. Adaptive action recognizer for video
US11126855B2 (en) * 2019-08-08 2021-09-21 Robert Bosch Gmbh Artificial-intelligence powered ground truth generation for object detection and tracking on image sequences
US10713493B1 (en) * 2020-02-06 2020-07-14 Shenzhen Malong Technologies Co., Ltd. 4D convolutional neural networks for video recognition

Also Published As

Publication number Publication date
EP4244762A1 (en) 2023-09-20
WO2022104281A1 (en) 2022-05-19
KR20230104737A (ko) 2023-07-10
MX2023005637A (es) 2023-07-31
GB2617710A (en) 2023-10-18
AU2021379758A1 (en) 2023-06-22
GB202308247D0 (en) 2023-07-19
EP4244763A1 (en) 2023-09-20
GB2616167A (en) 2023-08-30
AU2021377335A1 (en) 2023-06-22
CA3197841A1 (en) 2022-05-19
WO2022104202A1 (en) 2022-05-19
GB202308248D0 (en) 2023-07-19
US11270124B1 (en) 2022-03-08
MX2023005638A (es) 2023-07-31
GB2617710A8 (en) 2023-11-08
CA3197846A1 (en) 2022-05-19
CN116686017A (zh) 2023-09-01
KR20230104738A (ko) 2023-07-10
AU2021379758A9 (en) 2024-07-04
JP2023549582A (ja) 2023-11-27
US11842541B1 (en) 2023-12-12
CN117256019A (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
JP2023549579A (ja) ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ
Giraldo et al. Graph moving object segmentation
Huang et al. Efficient uncertainty estimation for semantic segmentation in videos
US20210374553A1 (en) Systems and methods for noise-robust contrastive learning
US11514694B2 (en) Teaching GAN (generative adversarial networks) to generate per-pixel annotation
Alqahtani et al. Pruning CNN filters via quantifying the importance of deep visual representations
US11501110B2 (en) Descriptor learning method for the detection and location of objects in a video
Lin et al. Structure-coherent deep feature learning for robust face alignment
US11790492B1 (en) Method of and system for customized image denoising with model interpretations
US11816185B1 (en) Multi-view image analysis using neural networks
CN111523421A (zh) 基于深度学习融合各种交互信息的多人行为检测方法及***
JP2019086979A (ja) 情報処理装置、情報処理方法及びプログラム
Parthasarathy et al. Self-supervised video pretraining yields human-aligned visual representations
Wu et al. Facial emotion recognition using deep learning
Zhao et al. Towards image-to-video translation: A structure-aware approach via multi-stage generative adversarial networks
Yang et al. A novel patch-based nonlinear matrix completion algorithm for image analysis through convolutional neural network
Norouzi et al. Exploiting uncertainty of deep neural networks for improving segmentation accuracy in MRI images
Parthasarathy et al. Self-supervised video pretraining yields robust and more human-aligned visual representations
WO2022205416A1 (zh) 一种基于生成式对抗网络的人脸表情生成方法
KR102178238B1 (ko) 회전 커널을 이용한 머신러닝 기반 결함 분류 장치 및 방법
Gouizi et al. Nested-Net: a deep nested network for background subtraction
Atallah et al. NEURAL NETWORK WITH AGNOSTIC META-LEARNING MODEL FOR FACE-AGING RECOGNITION
Kalirajan et al. Deep learning for moving object detection and tracking
Sethi et al. Video Anomaly Detection using GAN
Swarnkar et al. A paradigm shift for computational excellence from traditional machine learning to modern deep learning-based image steganalysis