JP2023549579A

JP2023549579A - ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ

Info

Publication number: JP2023549579A
Application number: JP2023553162A
Authority: JP
Inventors: アール．カルバリョ、シューベルト; エム．ベルタニョッリ、ニコラス; フォルクマン、タイラー; レイバトラー、リチャード
Original assignee: ベングループ、インコーポレイテッド
Priority date: 2020-11-16
Filing date: 2021-11-15
Publication date: 2023-11-27
Also published as: EP4244762A1; WO2022104281A1; KR20230104737A; MX2023005637A; GB2617710A; AU2021379758A1; GB202308247D0; EP4244763A1; GB2616167A; AU2021377335A1; CA3197841A1; WO2022104202A1; GB202308248D0; US11270124B1; MX2023005638A; GB2617710A8; CA3197846A1; CN116686017A; KR20230104738A; AU2021379758A9

Abstract

本発明は、解析のためのビデオ・クリップを受け取ることであって、ビデオ・クリップが時系列のビデオ・フレームを含む、受け取ることと、クリップ内のフレームにボトルネック・アテンション・メカニズムを適用して、キーフレームの削減シーケンスを生成することと、キーフレームのシーケンスに２次元、２Ｄ、畳み込みニューラル・ネットワークを適用して、各キーフレームに対して３Ｄ埋め込みテンソルを取得することと、３Ｄ埋め込みテンソルにマルチヘッド・アテンション・メカニズムを適用して、最終的な行動コンテキストを生成することと、最終的な行動コンテキストに分類メカニズムを適用して、行動クラスで指定された行動がビデオ・クリップ内で発生した尤度を示す、各行動クラスに対する確率を取得することとを行うことにより、ビデオ・クリップ内で実行される行動を分類する。

Description

様々な実施例は、一般に、ボトルネック・アテンション・メカニズムを用いて畳み込みニューラル・ネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）モデルを拡張する、ビデオ内の行動を分類するための方法及びシステムに関する。

ビデオ・コンテンツの量は、指数関数的に増加している。そのため、ビデオ・コンテンツを解析するための技術は、効率的にスケーリングできることが必要となる。ハードウェア要件を制限しつつ高レベルの性能を維持することにより、これらの大量のビデオ・データを処理することが可能となる。これに関連して、ビデオベースの人物行動認識（ＶＨＡＲ：ｖｉｄｅｏ－ｂａｓｅｄｈｕｍａｎａｃｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ）のための深層ニューラル・ネットワーク・アーキテクチャは、ビデオ・データの理解及び分類、ビデオ監視、エンターテインメント、並びに自動運転など、多くの実世界の応用を可能にする。

ＶＨＡＲに関して、畳み込みニューラル・ネットワーク（ＣＮＮ）に基づくアルゴリズムにおける幅広い研究が提案されている。２次元（２Ｄ：ｔｗｏｄｉｍｅｎｓｉｏｎａｌ）ＣＮＮモデルの１つの主な利点は、畳み込みの使用により、高速画像計算を実行し、高解像度画像から有意義な特徴量を抽出できることである。しかしながら、２ＤＣＮＮは、ビデオ・クリップに対してフレーム単位の演算を実行し、フレーム間の時空間関係を探索することはない。時間モデリングの欠如を補償するために、集約アルゴリズム又は回帰型ニューラル・ネットワーク・モデル（ＲＮＮ：ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）、例えば、ＲＮＮの一種である長・短期記憶（ＬＳＴＭ：ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）が２ＤＣＮＮと組み合わせられている。２ＤＣＮＮ＋ＬＳＴＭアーキテクチャは、空間パターン及び長期依存性の獲得において期待できる結果を示している。ビデオは、複数のフレームを有するため、畳み込みの特徴量抽出能力を保持すると共に、運動力学のモデル化も行うために、３次元（３Ｄ：ｔｈｒｅｅ－ｄｉｍｅｎｓｉｏｎａｌ）ＣＮＮアーキテクチャが使用される。３ＤＣＮＮは、ＬＳＴＭを必要とすることなく、ビデオ・データの階層的な時空間表現を迅速に作成する。これに関連して、ＶＨＡＲのための現況技術のアーキテクチャは、残差接続（例えば、ＲｅｓＮｅｔ）を使用する２ＤＣＮＮバックボーン、膨張畳み込み、同じく残差ネットワークに基づくがシフト畳み込みを使用する時間セグメントネットワーク、及び３ＤＣＮＮに依拠している。それでも、３ＤＣＮＮ及びＬＳＴＭのどちらとも、ビデオ・クリップのフレーム数が増加するにつれて、計算コストが高くなっていく。

時間的依存性をモデル化するための効率的な方法は、アテンション・メカニズムを使用することである。当初は、言語タスクにおける長いシーケンスを解析するために導入されたアテンションを伴うモデルは、ＶＨＡＲに関する幅広い研究が行われる分野となっている。アテンション・メカニズムは、ニューラル・ネットワークのための処理技法であり、これは、ネットワークがデータ入力の特定の側面に焦点を当てることを可能にする。ビデオ・データの場合には、アテンション・メカニズムは、クリップ内のフレーム又は画像内の領域の相対的重要度を示す、アテンション・スコア又は重みを生成する。

アテンションを伴うモデルは、ＬＳＴＭと組み合わせられている。これにより、ＬＳＴＭが、純粋なアテンション・メカニズムでは見逃される場合がある、ビデオ・クリップ内のフレームの時間的順序を捕捉することが可能となる。

近年、自然言語処理（ＮＬＰ：ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ）において使用されるアテンション・モデル、例えば、Ｇｏｏｇｌｅ社のＴｒａｎｓｆｏｒｍｅｒが、視覚タスクにおいて効果的であることが示されている。画像に対するＴｒａｎｓｆｏｒｍｅｒの使用は、部分的には、ボトルネック・アテンション技法の開発により可能となっている。これらの解決策は、画像の次元（寸法）を削減し、それらをベクトル化する、例えば、２Ｄ画像から１Ｄベクトルを作成する。ボトルネック技法は、２ＤＣＮＮモデルにおいて使用される標準的なビルディング・ブロックであり、深層ニューラル・ネットワークの計算性能を増大させることを目的としている。

現行のボトルネック・アテンション・メカニズムは、画像次元（寸法）の削減に対して効率的であるが、全く同じ画像サイズを維持しながら、ビデオの時間次元を迅速に削減するためのボトルネック型の解決策はない。そのような解決策は、生のビデオ入力からキーフレーム・シーケンスを生成することにより、入力データ・ボリュームを削減するために使用される可能性がある。

ＶＨＡＲに関する初期の研究は、本明細書ではキーフレームと呼ばれる、入力ビデオストリームからの小規模な厳選したフレームのセットが、効果的に人物行動を判別できることを示唆している。キーフレーム選択は、ビデオ・クリップ内の複数の有益でない情報を持つフレームを破棄することで、スパースなシーケンス表現を構築し、この表現は、後で行動分類を実行するために使用され得る。しかしながら、特定のフレームを選択するためにビデオ全体の詳細なフレーム知識（例えば、人物姿勢記述）を有していることが求められるため、そのようなキーフレームを見つけることは困難である。一般に、画像にラベル付けを行うためには、人間のドメイン専門知識を要するため、個々のフレームを記述するのには時間がかかり得る。さらに、選択されたフレームが過剰にスパースである場合を想定されたい。そのような場合、運動力学が破綻してしまうことがある。これは、動作に、また、その結果としてモデル・パラメータに加算された高周波数により、行動認識性能を低下させ得る。

現行のボトルネック・アテンション・メカニズムは、古典的なＴｒａｎｓｆｏｒｍｅｒの網羅的なアテンションの二次スケーリング問題を補償することを試みる。これらの解決策は、視覚的分類には効率的であるが、本明細書でクリップ・サイズ・ジレンマと呼ばれる、ビデオ分類モデルが直面する時間的問題に対処することはない。ビデオ・クリップが長くなるほど、精度は向上するが、訓練時間がより多くなる。短いビデオ・クリップの使用は、ＶＨＡＲにおける最新の研究結果に反しているということを指摘しておきたい。はるかに長いビデオ・クリップ（３２個又は１２８個のフレームのクリップ）に対して実行される現行の長期時間畳み込みは、性能利得のために必要であると信じられている。これは事実であるが、本明細書では、フレーム間のよりコンテキスト性の高い関係を持つコンパクトなキーフレーム・シーケンス（ビデオ・クリップ）が、以下の２つの主な利点を有することを提案する。１）ビデオ認識モデルは、データ分布をより迅速且つ正確に学習及びモデル化することによってコンパクトな入力表現から利益を得ることができる。２）テストにおいて、より短いが有益な情報を持つビデオ・クリップに対して訓練されたネットワークは、より長いシーケンスからの人物行動予測を利用して認識精度を向上させることができる。

したがって、本発明は、これらの考慮事項などを鑑みてなされたものである。

本発明は、ビデオ人物行動認識（ＶＨＡＲ）と呼ばれる、ビデオ・クリップ内で発生する人間による行動を分類（認識）するための新規なエンドツーエンドの深層学習アーキテクチャを使用する。このアーキテクチャは、より長いビデオからスパースなキーフレーム・シーケンスを構成する、本明細書ではＴＢｏＴと呼ばれる、時間ボトルネック（ｔｅｍｐｏｒａｌｂｏｔｔｌｅｎｅｃｋ）アテンション・メカニズムを導入する。これらのスパースなシーケンスは、許容可能な結果を維持しながら、計算時間を大幅に短縮するため、結果として畳み込みベースのモデルに対するより有用な表現となる。

運動力学をより良好にモデル化するために、平均フレームを中心としてアテンション重みが計算及び中心化される。その結果、平均からの短い変位を伴う動作は、小さいスコアを有し、逆もまた同様である。最終的に、複雑な行動のアテンション表現を強化するために、特定のフレームに注意を払うように学習する残差メカニズムを開発する。ここで、全結合（ＦＣ：ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄ）層又はドット積演算を使用する代わりに、畳み込み及びプーリング統計量を使用してソフト残差セルフアテンション・メカニズムを構築し、行動予測のための効果的なコンテキストを計算する。

ＴＢｏＴは、学習可能なパラメータを持たないソフト・プーリング・セルフアテンション・メカニズムに依拠しているため、異なるネットワーク位置において使用するのに十分な柔軟性を持つ。これにより、大規模なデータセット、例えば、視覚的物体認識研究において使用するために設計された大規模な視覚データベースである、ＩｍａｇｅＮｅｔに対して事前訓練されたモデルを使用することが可能となる。実際、ＴＢｏＴは、ネットワークの入力側に追加されて、フル・セットのフレームではなく、使用される各クリップに対して、コンパクトでコンテキスト化されたキーフレームのシーケンスを構築することを目的とし、これらのキーフレームは、後でモデルを訓練するために使用される。この場合、ＴＢｏＴは、データ入力を混合し、データの変動性を生成するため、効果的なデータ拡張戦略として振る舞う。

ＴＢｏＴは、畳み込みニューラル・ネットワーク（ＣＮＮ）がフレーム間の時間的関係を見つけることを可能にする、アテンション・メカニズムを組み込んでいる。畳み込み層は、ビデオ認識のための有用な画像特徴量を抽出することによりアテンション・メカニズムを補完する。ＴＢｏＴは、キーフレーム・シーケンス入力を構築するために、人間の介入を必要としない。任意のビデオ・クリップ・サイズからコンテキスト化された短いキーフレーム・シーケンスを構築するのに要する時間は、比較的短い。アテンション・メカニズムは、ＧＰＵのテンソル・コアによって効率的に計算されるテンソル加算及びスカラー乗算を実行する。アテンション・メカニズムは、２ＤＣＮＮモデルによって生成された結果を処理する、残差セルフアテンション・プロシージャ及びプーリング・セルフアテンション・プロシージャを含む。一緒になると、２つのアテンション・メカニズムは、マルチヘッドとして機能し、分類及び予測のための最終的な説得力のある行動コンテキストを構築する。

特定の実施例では、本発明は、解析のためのビデオ・クリップを受け取ることであって、ビデオ・クリップが時系列のビデオ・フレームを含む、受け取ることと、クリップ内のフレームにボトルネック・アテンション・メカニズムを適用して、キーフレームの削減シーケンスを生成することと、キーフレームのシーケンスに２次元（２Ｄ）畳み込みニューラル・ネットワークを適用して、各キーフレームに対して３Ｄ埋め込みテンソルを取得することと、３Ｄ埋め込みテンソルにマルチヘッド・アテンション・メカニズムを適用して、最終的な行動コンテキストを生成することと、最終的な行動コンテキストに分類メカニズムを適用して、行動クラスで指定された行動がビデオ・クリップ内で発生した尤度を示す、各行動クラスに対する確率を取得することとを行うことにより、ビデオ・クリップ内で実行される行動を分類する。

本発明の非限定的且つ非網羅的な実施例は、以下の図面を参照して説明される。図面において、同様の参照符号は、特に指定されない限り様々な図面を通して同様の部分を指す。

本発明をより良く理解するために、添付の図面と関連付けて読まれるべきである、以下の発明を実施するための形態を参照されたい。

ビデオベースの人物行動認識（ＶＨＡＲ）を実行する、ＴＢｏＴＮｅｔと呼ばれるＣＮＮベースのシステムの一般化ブロック図である。視覚的アテンションを伴う時間ボトルネック・ネットワーク・アーキテクチャ（ＴＢｏＴＮｅｔ：ｔｅｍｐｏｒａｌｂｏｔｔｌｅｎｅｃｋｎｅｔｗｏｒｋ）と呼ばれる機械学習システムの一実施例を示す図である。３４個のフレームのビデオ・クリップを１６個のキーフレームに削減する方法を示す図である。３４個のフレームのビデオ・クリップを１１個のキーフレームに削減する方法を示す図である。ＴＢｏＴＮｅｔに組み込まれたソフト・プーリング・セルフアテンション法の一実施例を示す図である。ＴＢｏＴＮｅｔに組み込まれた残差アテンション・メカニズムの一実施例を示す図である。

図面は、例示の目的で本発明の実施例を示しているに過ぎない。当業者は、本明細書で示される構造及び方法の代替実施例が、本明細書で説明される本発明の原理から逸脱することなく採用され得ることを、以下の説明から容易に認識するであろう。

本発明は、ここで、本明細書の一部を形成し、例示のために、本発明が実行され得る特定の例示的な実施例を示す、添付の図面を参照して以下でより完全に説明される。しかしながら、本発明は、多くの異なる形態で具現化されてよく、本明細書に記載の実施例を限定するものとして解釈されるべきではない。むしろ、これらの実施例は、本開示が徹底的且つ完全となり、本発明の範囲を当業者に完全に伝えるように提供される。とりわけ、本発明は、方法、プロセス、システム、ビジネス方法又はデバイスとして具現化され得る。したがって、本発明は、完全にハードウェアである実施例、完全にソフトウェアである実施例、又はソフトウェアの態様とハードウェアの態様とを組み合わせた実施例の形態を取ることができる。したがって、以下の詳細な説明は、限定的な意味で取られるべきではない。

本明細書で使用される場合、次の用語は、以下で与えられる意味を有する。

ビデオ・クリップ、クリップ、又はビデオ－複数のフレームを含むビデオのセグメントを指す。本明細書で使用される場合、ビデオは、一次行動を含む。

人物行動又は行動－人によるビデオ・クリップ内の動きを指す。他の実施例では、行動は、別の動物又は無生物物体による行動を指し得る。

ＶＨＡＲ－ビデオ内で実行される行動に基づいて人物行動を認識又は分類することを目的とする、コンピュータ・ビジョンにおける基本タスクである、ビデオ人物行動認識を指す。

機械学習モデル－構造化及び／又は非構造化データ入力を取り、予測又は結果を生成する、アルゴリズム又はアルゴリズムの集合を指す。予測は、典型的には、値、又は値のセットである。機械学習モデルは、やり取りを行い結果を生み出す、１つ又は複数のコンポーネント・モデルをそれ自体が含んでもよい。本明細書で使用される場合、機械学習モデルは、ビデオ・クリップを入力データとして受け取り、既知の検証データ・セットに対する推定値又は予測を生成する、畳み込みニューラル・ネットワーク又は別のタイプの機械学習メカニズムを含む、ニューラル・ネットワークを指す。典型的には、モデルは、モデルの連続的な実行を通して訓練される。典型的には、モデルは、訓練段階中は連続的に実行され、成功裏に訓練された後は、新規のデータを評価し、予測を行うために、操作上で使用される。この訓練段階は、成功指標を予測できる許容可能なモデルを得るために、数千回実行され得るということを強調しておかねばならない。また、モデルは、数千、又は数万にも上る特徴量を発見する場合がある。そして、これらの特徴量の多くは、入力データとして提供される特徴量とは全く異なり得る。したがって、モデルは、事前に知られておらず、精神的努力のみで算出を行うことは不可能である。

予測－本明細書では、ビデオ・クリップ内の行動が、行動の特定のクラス又はカテゴリに属する、統計的推定値又は推定確率を指す。予測はまた、多くの個々のクラスを含む分類システム内の各クラス又はカテゴリに割り当てられた推定値又は確率を指してもよい。例えば、ＤｅｅｐＭｉｎｄ社のデータ・セットであるＫｉｎｅｔｉｃｓ４００は、４００の異なる人物行動に分類される、最大６５０，０００のビデオ・クリップを提供する。これは、一般に使用されている訓練データセットの一実例である。

アーキテクチャ－本明細書で使用される場合、入力データから出力データまで連続的に実行されるステージ、プロシージャ、又はプロセスの全体的なセットを指す。これは、以下の図２に示されており、データがＣＮＮ又は他の機械学習モデルにサブミットされる前に実行されるボトルネック・アテンション処理などの前処理ステップを含む。

一般化された操作
以下で、本発明のいくつかの態様の操作が、図１～図５に関して説明される。

図１は、ビデオベースの人物行動認識（ＶＨＡＲ）を実行する機械学習システム１００の一般化ブロック図である。ＴＢｏＴＮｅｔサーバ１２０は、ＴＢｏＴＮｅｔアーキテクチャ１２５（又は単にＴＢｏＴＮｅｔ１２５）をコンピュータで実行する。

ＴＢｏＴＮｅｔサーバ１２０は、解析のためのビデオ・クリップを提供するデータ・ソース１３０にアクセスする。ビデオ・クリップは、モデルの訓練中に使用されてもよいし、解析及び分類のための操作上で使用されるライブ入力データであってもよい。例えば、ＧＯＯＧＬＥ社によって運営されるウェブサイトであるＹＯＵＴＵＢＥ（登録商標）．ＣＯＭが、データ・ソース１３０のうちの１つであってもよい。他のデータ・ソース１３０は、テレビ・チャンネル、映画、及びビデオ・アーカイブを含んでもよい。典型的には、ＴＢｏＴＮｅｔサーバ１２０は、ネットワーク１４０にわたるデータ・ソース１３０からのビデオ・クリップにアクセスするが、特定の実施例では、クリップは、ＵＳＢドライブ、ハード・ドライブのような物理媒体上、及び直リンクなどの他の電子通信媒体にわたって提供されてもよい。ＴＢｏＴＮｅｔサーバ１２０は、プロセッサ、ビデオ・クリップ及び中間結果を記憶するためのデータ・ストレージ、並びにプログラム・コード及びデータを記憶するための不揮発性メモリを含む。

ＴＢｏＴＮｅｔサーバ１２０は、単一のサーバ・コンピュータによって、協働して機能する複数のサーバ・コンピュータによって、又はネットワークサービス、若しくは、ＡＭＡＺＯＮＡＷＳなどのクラウド・サービス・プロバイダによって提供される「クラウド」サービスによって実装されてもよい。ＴＢｏＴＮｅｔサーバ１２０として動作し得るデバイスは、限定されないが、パーソナル・コンピュータ、デスクトップ・コンピュータ、マルチプロセッサ・システム、マイクロプロセッサベースの又はプログラム可能な家電製品、ネットワークＰＣ、サーバ、ネットワーク機器などを含む。

ＴＢｏＴＮｅｔ１２５によって使用されるビデオ・クリップは、とりわけ、（１）ライブ・ビデオ・データ、分類の目的で機械学習モデルを訓練するために使用されるＫｉｎｅｔｉｃｓ４００のデータセットなどの訓練用データセット、及び大量の画像を提供し、機械学習モデルを事前訓練するために使用され得るＩｍａｇｅＮｅｔなどの訓練用データセットを含む。

ユーザは、ＴＢｏＴＮｅｔモデル１２５を訓練するために、ＴＢｏＴＮｅｔサーバ１２０とやり取りを行い、訓練用のビデオやクリップを特定及び提供する。典型的には、ユーザは、ユーザ・コンピュータ１１０上で実行されるユーザ・アプリケーション１１５とやり取りを行う。ユーザ・アプリケーション１１５は、ネイティブ・アプリケーション、又はＭＯＺＩＬＬＡ社のＦＩＲＥＦＯＸ、若しくはＧＯＯＧＬＥ社のＣＨＲＯＭＥなどのウェブ・ブラウザ内で実行するウェブ・アプリケーションであってもよい。

ユーザ・コンピュータ１１０は、ラップトップ・コンピュータ、デスクトップ・パーソナル・コンピュータ、スマートフォンなどのモバイル・デバイス、又はネットワーク１４０上でやり取りを行い、ＴＢｏＴＮｅｔサーバ１２０にアクセスできるプログラムを実行する任意の他のコンピュータであってもよい。一般に、ユーザ・コンピュータ１１０は、スマート・フォン、パーソナル・コンピュータ、タブレット・コンピュータ、又は、プロセッサ、プログラム命令及びデータを記憶するための非一時的メモリ、ディスプレイ、並びにキーボード及びマウスなどの対話型装置を備えた他のコンピュータ・システムであってもよい。

ＴＢｏＴＮｅｔ１３０は、典型的には、データを記憶し、図２及び図３Ａ～図３Ｂを参照して以下に説明されるＴＢｏＴＮｅｔ１２５を実行する。

ネットワーク１４０は、ユーザ・コンピュータ１１０及びＴＢｏＴＮｅｔサーバ１２０が、データ及びメッセージを交換することを可能にする。ネットワーク１４０は、ローカル・エリア・ネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ワイド・エリア・ネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、直接接続、それらの組合せなどに加えてインターネットを含んでもよい。

行動モデリング及びＭＲモデル
教師あり機械学習モデルは、分類セットにおける各クラスに対してスコア又は確率推定値を提供する。スコア（確率）は、ビデオ・クリップがクラス・メンバによって表される行動を含む尤度を示す。最も高いスコアを持つクラスは、単一の予測が必要とされる場合に選択され得る。このクラスは、対象者によって実行される、ビデオ・クリップ内で発生した可能性が最も高い行動を表すとみなされる。各クリップに対して一次クラスが分かっているビデオ・クリップの検証データセットは、モデルをデータセットからの異なるクリップによって連続的に操作し、各連続的モデル実行によってモデルを調整して誤差を最小限に抑えることでモデルを訓練するために使用される。本明細書で使用される場合、対象（者）（ｓｕｂｊｅｃｔ）という用語は、ビデオ・クリップ内の人、動物、又は他の物体によって実行される行動を指すために総称的に用いられる。本発明は、人間の対象者によって実行される行動に適用されることが主に意図されているが、そのように限定されておらず、動物などの他の動く物体に適用されてもよく、自動車、ボールなどの無生物物体に適用されてもよい。

ＶＨＡＲボトルネック・アーキテクチャ
図２は、ボトルネック・アテンション・メカニズム及びマルチヘッド・アテンション・メカニズムによって畳み込みニューラル・ネットワーク（ＣＮＮ）を拡張する、ＴＢｏＴＮｅｔ１２５と呼ばれる機械学習アーキテクチャの一実施例を示す。ＴＢｏＴＮｅｔ１２５は、ビデオベースの人物行動認識（ＶＨＡＲ）に対して特に好適である。一般に、ＴＢｏＴＮｅｔ１２５は、視覚的アテンションを伴う時間ボトルネック・ネットワーク・アーキテクチャである。ＴＢｏＴＮｅｔ１２５は、まず、各入力ビデオ・クリップのスパース又はコンパクトな表現、すなわち、時間次元が削減された表現を構成し、次いで、この削減された入力を使用して、ビデオ・クリップ内で表現される人物行動を効率的に学習及び分類する。以下では、単一のビデオ・クリップに対する処理が説明されているが、典型的には、大量のビデオ・クリップが処理されることが諒解され得る。

生のビデオＸが入力としてＴＢｏＴＮｅｔ１２５に提供される。生の入力ビデオは、前処理されて、ビデオ・クリップ内のビデオ・フレームのシーケンスであるビデオ入力Ｘ_１，Ｘ_２，…，Ｘ_ｔを生成し、これらのビデオ・フレームは、ＴＢｏＴＮｅｔ１２５によって処理され、出力

は、クラス・スコアの予測された行動ベクトル（ロジット）である。行動ベクトルは、行動データセットによって定義された各行動クラスに対するスコアを提供し、ベクトルにおける各値は、行動クラスによって定義された行動がビデオ・クリップ内で発生した尤度を示すスコア又は確率である。行動クラスのセットを定義する行動データ・セットは、幅広く使用されているＫｉｎｅｔｉｃｓ４００、６００又は７００のデータセットなどのよく知られているセットから選択されてもよいし、別の知られている又はカスタム開発された行動データ・セットであってもよい。

まず、ステップ２０２において、生のビデオ・ファイルが、前処理されて一連のビデオ・クリップを生成する。ビデオ・クリップは、典型的には、高スループットを達成するために、ＴＢｏＴＮｅｔ１２５によって並列で処理されるが、逐次的に処理されることもある。前処理は、典型的には、（１）所望のビデオ・フレーム・サイズに達するように、平均化、サブサンプリング、又は別のプロセスを通してビデオの解像度を削減することと、（２）さらなる処理を行うために、削減された解像度フレーム内の矩形領域を切り抜く又は選択することとを含む。結果として得られた、より小さいビデオ・クリップは、次いで、ボトルネック・アテンション・メカニズム２０４（又は単にＴＢｏＴ２０４）に入力として提供される。

ＴＢｏＴ２０４と呼ばれる時間ボトルネック・アテンションは、入ってくるビデオ・フレームのシーケンスに適用されて、ビデオ・クリップの削減された代表的なシーケンスを構築することを目的としている。ＴＢｏＴ２０４の処理について、図３Ａ、図３Ｂを参照して以下でさらに詳細に説明する。ＴＢｏＴ２０４は、ボトルネック・アテンション・プロシージャを使用してクリップ内のフレーム数を削減してキーフレームの小さいシーケンスを構成し、これにより、性能を向上させる。一般に、ＴＢｏＴ２０４は、ボトルネック・アテンション・メカニズムを使用して生の入力データのよりコンパクトな時間表現を構築して、重要な画像詳細を保持しながら、データのボリュームを削減する。従来では、アテンションは、フレーム及びクリップを重み付けて、それにより結果を改善するために使用されていたが、後続の処理のために、ニューラル・ネットワークに提供されたデータのボリュームを削減するためには使用されていなかった。

次に、２Ｄ畳み込みニューラル・ネットワーク（２ＤＣＮＮ）２０６は、クリップの新規なシーケンスに適用される。２ＤＣＮＮ２０６は、各フレーム

に対して３Ｄ埋め込みテンソルを作成する。各埋め込みテンソルは、キーフレームの特徴量の抽出された特性を表す。特定の実施例では、ＣＮＮの一種である、ＲｅｓＮｅｔ、すなわち、残差ネットワーク（ｒｅｓｉｄｕａｌｎｅｔｗｏｒｋ）が使用される。ＲｅｓＮｅｔは、画像認識及び分類に対して効果的であることが確認されている。しかしながら、様々な市販のＣＮＮモデル、バックボーン・アーキテクチャ、又は後で画像分類に使用され得る画像特徴量を抽出する他の処理システムが使用されてもよい。

次に、加法プーリング・セルフアテンション・プロシージャ２０８及び残差セルフアテンション・プロシージャ２１０が、埋め込み出力に適用されて、ソフト・コンテキスト（ｃｔｘ_ｓ）と残差コンテキスト（ｃｔｘ_ｒ）とをそれぞれ構成する。

次いで、連結プロシージャ２１２は、各クリップに対して、２つのコンテキストを、単一の効果的な行動コンテキスト（ｃｔｘ）に結合する。

最後に、行動コンテキストｃｔｘは、分類器２１４に投入されて、ロジット

と呼ばれるスコアのベクトルを予測する。各スコアは、行動クラスの重要度を測定する。特定の実施例では、ロジットを確率に変換するソフトマックス関数が適用される。

ＣＮＮの訓練は、本発明の範囲外であると考えられるが、全体的なシステムは、クロスエントロピー損失又は平均自乗誤差（ＭＳＥ：ｍｅａｎｓｑｕａｒｅｅｒｒｏｒ）などの損失関数を使用して訓練される。

一般に、図２のアーキテクチャは、４つの全体的なコンポーネント、すなわち、（１）ビデオ・クリップ及び埋め込み表現、（２）早期アテンション、（３）加法セルフアテンション、並びに（４）行動認識にグループ化することができる。４つのコンポーネントのそれぞれについて以下で論じる。

図２のボックスのそれぞれは、完全にソフトウェア若しくはハードウェアで、又はハードウェアの組合せで実行される全体的な方法のステップであるプロシージャを表し得ることが諒解され得る。さらに、場合によっては、同じ参照符号を持つ２つ以上のボックス、例えば、ＴＢｏＴアテンション２０４は、処理が並列で実行され得るということを示唆するように示されているが、そのような処理はまた、逐次的に実行されてもよい。

ビデオ・クリップ及び埋め込み表現
まず、画像、すなわち、フレームのシーケンスとしてのビデオ・クリップの表現について検討する。形式的には、４Ｄテンソルとして表されるビデオ・クリップは、

のように定義され、ここでＸは、ビデオ・クリップであり、ｘ_ｔは、クリップ内のフレーム番号ｔであり、τは、クリップ内のフレーム数であり、Ｃは、チャネル数であり（ここではＣ＝３であり、チャネルは赤、緑、青（ＲＧＢ）である）、（Ｍ，Ｍ）はフレーム・サイズ、すなわち、高さ＝幅＝Ｍ個のピクセルである。本発明は、正方形フレーム、特に矩形に限定されていないこと、又は任意の形状及びサイズが処理され得るということに留意されたい。Ｍという用語は、画像又はフレーム寸法（次元）と呼ばれる場合がある。

通常操作において、いくつかのクリップがクリップのバッチでＴＢｏＴＮｅｔ１２５に渡される。例えば、８個、１６個、３２個、及び６４個のクリップがバッチとして渡され得る。したがって、フル・ビデオ又はビデオのシーケンスを表現するために、バッチにおけるシーケンス番号を示す追加のインデックスが追加され得る。これにより、次元Ｂ×Ｃ×τ×Ｍ×Ｍのテンソルが得られ、ここで、Ｂは、処理するバッチ内のクリップ数である。バッチのインデックスは、ここでは、表記を簡略化するために省略されている。クリップ単位の空間解像度又はサイズは、典型的には、Ｍ＝１１２又はＭ＝２２４であるが、任意の解像度が使用され得る。

時間ボトルネック・アテンション・メカニズム
キー・フレームのシーケンスを計算するために、時間ボトルネック・アテンション・プロシージャ又はメカニズムＴＢｏＴ２０４が採用される。ＴＢｏＴ２０４は、人間の介入なしにコンパクト且つコンテキスト化されたビデオ・クリップを自動的に構築する。結果として、ネットワークは、より小さいクリップから人物行動を学習することができ、訓練段階が迅速且つ正確に発生することを可能にする。

形式的には、ＴＢｏＴ２０４は、ｓ個のフレームを持つビデオ・クリップを処理し、以下の式２に公式化される、サイズ

の新規なキーフレーム・シーケンスを構築する。

ここで、

は、ｓ個のフレームを持つビデオ・クリップからの時間ｔにおけるＴＢｏＴ_ｔ ^ｓアテンションから計算されるキーフレームである。

特定の実施例では、以下で図４を参照して説明されるプーリング・セルフアテンション・メカニズム２０８は、時間アテンション重みを計算し、この時間アテンション重みは、次いで、時間的に連続するフレームのシーケンスを結合するときに適用されて、キーフレームを生成する。他の実施例では、図５を参照して説明される残差セルフアテンション・メカニズム２１０が使用される。さらに他の実施例では、他のアテンション・メカニズムが使用される。

図３Ａは、クリップ内のフレーム数を３４個から１６個に削減するためにＴＢＯＴ２０４によって実行される方法の一実施例を示し、図３Ｂは、クリップ内のフレーム数を３４個から１１個に削減するためにＴＢＯＴ２０４によって実行される方法の一実施例を示す。一般に、ビデオ入力ストリームのサイズを削減するための様々な方法が、本発明の範囲内である。図３Ａでは、３つの連続的な、すなわち、時間的に連続する入力フレームが結合されて、一緒になって第１のキーフレームＴＢｏＴ_１を生ずるシーケンスｘ_１，ｘ_２，ｘ_３により開始する、各キーフレームを作り出す。一方、図３Ｂでは、４つの連続的な入力フレームが結合されて各キーフレームを作り出す。

各キーフレームは、３つのフレーム（図３Ａ）又は４つのフレーム（図３Ｂの場合）の重み付けられた平均であり、重みは、ボトルネック・アテンション・メカニズムによって計算された時間アテンション重みである。

ＴＢｏＴ２０４は、以下の式３において定義される、フレームの新規なシーケンス、すなわち、新規なビデオ・クリップを生成し、これは次いで、ステップ２０６において、２ＤＣＮＮモデルに提供又は投入される。入力と出力との違いは、キーフレーム数対入力ビデオ・クリップにおけるフレーム数である。

埋め込み表現
入力クリップＸに予備アテンションを適用した後、式３において定義されるフレーム・シーケンス

がＲｅｓＮｅｔなどのＣＮＮモデルに投入される。残差ネットワーク（ｒｅｓｉｄｕａｌｎｅｔｗｏｒｋ）の短縮形であるＲｅｓＮｅｔは、画像分類問題において成功実績のある特定のタイプのニューラル・ネットワークである。ＲｅｓＮｅｔは、様々なオープン・ソース及び商業ソースから入手可能であるため、深層学習の解決策をベンチマークするための標準とみなすことができる。また、より正確な結果を得るために、より複雑な特徴量抽出器、例えば、ＲｅｓＮｅｔ１０１若しくはＲｅｓＮｅｔ１５２、又はオプティカル・フロー技法が使用されてもよい。一般に、ステップ２０６では、市販の、又はオープン・ソースから入手可能なものを含む、様々なＣＮＮメカニズムが使用され得る。

特定の実施例では、各フレーム・クリップの埋め込み表現のために、ＲｅｓＮｅｔ５０の最後の畳み込み層の出力が使用される。ＣＮＮは、広く入手可能なデータセットであるＩｍａｇｅＮｅｔなどのデータセットに対して事前訓練されてもよいということに留意され得る。

次いで、標的データセットに対してファイン・チューニングが行われる。ファイン・チューニングは、モデルの全層を更新し、バッチノルム層を解凍させることによって実行される。

ステップ２０６の出力の埋め込み表現は、以下の式４において説明される。

これは、入力クリップ

と同じフレーム数を有し、その空間解像度又は次元は、Ｍ’＝４又は７である。

アテンション・メカニズム
２ＤＣＮＮは、画像特徴量を抽出するのに優れ、３ＤＣＮＮよりも高速で計算を実行するが、ビデオ・フレームを等しく扱うことが、ビデオ解析に関して言えば弱点となる。言い換えれば、２ＤＣＮＮは、ビデオ・シーケンスからコンテキスト性のある情報を定量化することに制限されている。この問題を軽減するために、図４及び図５に示すように、時間的コンテキスト性のあるフレーム依存性とソフト及び残差セルフアテンティブ・メカニズムとの組合せが使用される。

残差セルフアテンション
図４は、ＴＢｏＴＮｅｔ１２５に組み込まれている、プーリング統計量に基づく、ソフト・プーリング・セルフアテンション又はプーリング・セルフアテンション２０８と呼ばれるアテンション・メカニズムの一実施例を示す。この手法は、きめ細かい分類問題に対して性能が向上しているために使用される。一般に、全結合（ＦＣ：ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄ）及びドット積アテンション・メカニズムと比較すると、プーリングは、テンソル加算及びスカラー乗算のみを実行するため、より効率的である。さらに、ＴＢｏＴＮｅｔ１２５におけるアテンション・メカニズムとして使用されるとき、キーフレームがＣＰＵによって生成されるため、モデルが縮小されたビデオ・クリップ表現、すなわち、キーフレーム・シーケンスの解析を制約なく行うことができ、ＧＰＵメモリを節約し、訓練時間を短縮する。

より形式的には、埋め込み出力が与えられると、プーリング・セルフアテンション２０８は、まず、チャネル及び空間ロケーション（Ｃ’Ｍ’Ｍ’）に対して３Ｄ平均プーリングを適用することによって、重みベクトルαを計算する。
α_ｔ＝ＡｖｇＰｏｏｌ３Ｄ（ｅ_ｔ）式５
ここで、

は、クリップ内の各フレームの相対的重要度を定義する、アテンショナル・プーリング重みを指す。ＡｖｇＰｏｏｌ３ｄ（）は、ｔｅｎｓｏｒｆｌｏｗ．ｏｒｇによって提供される、機械学習モデル及び深層学習モデルを実行するためのオープンソース・ライブラリであるＴｅｎｓｏｒｆｌｏｗ．ｊｓにおける関数であることに留意されたい。この関数は、テンソルの要素の３Ｄ平均プーリングを計算するために使用される。

次に、クリップ間の動作変位をより良好にモデル化するために、アテンション重みが、平均フレームを中心として中心化され、平均フレームμ_αは、以下の式６において定義される。

結果として、平均からの僅かな変位を伴う動きは、小さい値を有し、逆もまた同様である。

次に、中心化された重みが、ソフトマックス関数によって処理されて、０と１との間でそれらの値を正規化する。これは、以下の式７において次のように公式化されている。

ここで、

という用語は、正規化されたアテンション・ベクトルである。構成上、

である。これは、モデル・パラメータにスケールが加算されていないことを意味する。これは、バックプロパゲーション中の勾配計算を平滑化する。このとき、各行動フレームは、そのアテンション重みによってより良好に判別され得る。

最後のステップとして、各重みを、その対応するフレームで乗算して同じクリップ又はサブクリップにおけるフレーム間の差分を拡張する、加法メカニズムが以下の式８において公式化されている。

ここでｃｔｘ_ｓは、ソフト行動コンテキストである。

残差セルフアテンション
アテンション・メカニズムが複雑な行動を表現する重みベクトルを保持及び学習する能力は、メカニズム全体を通して入力がどのように変換されるのかに依拠している。特徴量の表現力の増大に線形写像（例えば、全結合（ＦＣ）層）が広く受け入れられているにも関わらず、画像表現の抽出には、畳み込みニューラル・ネットワーク（ＣＮＮ）が幅広く使用されている。したがって、複雑な行動のアテンション表現を強化するために、すべてのフレームに対するアテンション重みを算出する残差アテンション・メカニズムがＴＢｏＴＮｅｔ１２５に組み込まれる。

図５は、ＴＢｏＴＮｅｔ１２５に組み込まれた残差アテンション・メカニズム２１０の一実施例を示す。モデルの埋め込み出力Ｅは、１のストライドで、２次元の１×１カーネルで、

回畳み込まれて同じ長さ及び空間解像度を持つＥの３Ｄテンソルを生成する。次に、畳み込まれたテンソルは、以下の式９で公式化されるように、２Ｄ平均プーリング関数に投入されて有意義なアテンション重みを計算する。
β_ｔ＝ＡｖｇＰｏｏｌ２Ｄ（ｃｏｎｖ（ｅ_ｔ））式９

は、学習されたアテンション重みである。ｃｏｎｖ（）は、Ｃ’次元入力フィルタを、サイズ１の出力フィルタに写像する畳み込み演算を示す。この写像を実行するために１つの畳み込み層のみが使用される。

次に、βが以下の式１０に与えられるように、ソフトマックス関数に投入される。

ここで、出力又は結果

は、正規化されたアテンション・ベクトルである。

最後に、残差アテンション・ベクトルが、式１１において、以下のように公式化される。

ここで、ｃｔｘ_ｒは、残差アテンション・コンテキストと呼ばれる。スケール１／τが、ｃｔｘ_ｒをクリップ・サイズに対して不変にするために必要である。結果として、残差アテンションありのモデルの精度は、アテンションなしのモデルと比較しても悪くない。

行動認識
アテンションは、マルチヘッド・アテンション・メカニズムとして計算されたとき、コンテキスト性のある意味表現をより良好に捕捉することができる。ヘッドという用語は、最終的な結果を生ずるニューラル・ネットワーク・アーキテクチャにおける最終処理ステップを指す。本明細書で使用される場合、マルチヘッド・アテンションは、並列の少なくとも２つの異なるアテンション・メカニズムを通して実行される。次いで、独立するアテンション出力が連結、又は別法で結合されて、単一の出力を得る。異なるアテンション・ヘッドは、入力シーケンスの部分を異なる方法で解析するために使用され得る（例えば、長期依存性と短期依存性）。図２の実施例では、プーリング・セルフアテンション２０８及び残差アテンション２１０を並列で実行した後、ステップ２１２において、それぞれの出力を連結して、最終的な行動コンテキストと呼ばれるアテンション重みの単一ベクトルを作り出すマルチヘッド・アテンションが使用される。最終的な行動コンテキストは、

で、ｃｔｘ＝ｃｏｎｃａｔ［ｃｔｘ_ｓ，ｃｔｘ_ｒ］となるように計算される。そして、最終ステップとして分類が実行される。

図２のステップ２１４において、バッチ正規化（ＢＮ：ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ）層にｃｔｘを投入した後、ｃｏｎｖ（２＊Ｃ’，Ｃ’／２）、ＲｅＬＵ［３８］、グローバル平均プーリング、及びロジット・ベクトル

、すなわち、ソフトマックス関数前のクラス・スコアを作り出すＦＣ層を実行して、クラス確率を計算することによって、クラス予測、すなわち、分類が生成される。特定の実装では、１×１ｃｏｎｖ（２Ｃ’，Ｃ’／２）が使用される。ＦＣは、１０２４次元の入力を受け取り、その要素が、分類データセットにおけるクラスのそれぞれに対するクラス・スコアである分類ベクトルを出力する。したがって、Ｋｉｎｅｔｉｃｓ－４００のデータセットが使用される場合、４００次元のベクトルが生成される。特定の実施例では、入力ビデオＸ内で発生した可能性が最も高い人物行動を表すものとして、単一のクラス、すなわち、分類ベクトルにおける最も大きいスコアを持つクラスが選択される。

標的データセットに対する誤差を低減するためにＣＮＮの重みを訓練するバック・プロパゲーション処理は、本発明の一部として考えられていないが、最小自乗誤差（ＭＳＥ：ｍｉｎｉｍｕｍｓｑｕａｒｅｅｒｒｏｒ）のクロスエントロピー損失などの損失関数が採用される。

訓練及びテスト
前述した通り、特定の実施例では、ＴＢｏＴＮｅｔ１２５は、畳み込みニューラル・ネットワーク（ＣＮＮ）モデルを含む。このモデルは、ＩｍａｇｅＮｅｔのデータセットに対して事前訓練されてもよい。ＣＮＮモデルは、有効にされたＢＮ層で、ドロップアウトなしでファイン・チューニングされる。入力ビデオ・クリップ・フレームは、スケール拡張のために１２８×２４０にリサイズされる。１１２×１１２ピクセルの切り抜きが直交座標系の同じ位置上の各フレーム－クリップからランダムにサンプリングされる。これらの切り抜きはまた、ランダムな水平反転、並びに、０．５の確率及び０．２の色歪みによるランダムなＲＧＢ及びグレースケール拡張を経る。各訓練用ビデオの連続するフレームから、いくつかの連続するフレームτがサンプリングされ、残ったフレームは破棄される。８個、１１個、及び１６個のキーフレームのクリップに対してテストを行った。テストした入力クリップの数は、τ＝３４、ストライド＝｛３，４，５｝であった。サイズ８及び１１のクリップに対して、ＧＰＵ当たり１２８個のクリップのバッチ・サイズを使用し、ＧＰＵのメモリ容量のために、１６個のフレームのクリップに対しては、１２０個のクリップのバッチ・サイズを使用した。

ＴＢｏＴＮｅｔ１２５の予測は、Ｋｉｎｅｔｉｃｓ４００のデータセットなどの訓練用データセットと比較され、損失関数に従って誤差が決定される。

全般として、ＴＢｏＴＮｅｔ１２５アーキテクチャの性能は、複数のアブレーション実験を使用してテストされ、行動認識率の大幅な向上を示した。

上記の明細書、実例、及びデータは、本発明の構成物の製造及び使用の完全な説明を提供する。本発明の精神及び範囲から逸脱することなく本発明の多くの実施例がなされ得るため、本発明は、以下に添付される特許請求の範囲に存在する。

Claims

ビデオ・クリップ内で実行される行動を分類するためのコンピュータ実施方法であって、
解析のためのビデオ・クリップを受け取るステップであって、前記ビデオ・クリップが、時系列のビデオ・フレームを含む、ステップと、
前記クリップ内の前記フレームにボトルネック・アテンション・メカニズムを適用して、キーフレームの削減シーケンスを生成するステップと、
キーフレームの前記シーケンスに２次元（２Ｄ）畳み込みニューラル・ネットワークを適用して、各キーフレームに対して３Ｄ埋め込みテンソルを取得するステップと、
前記３Ｄ埋め込みテンソルにマルチヘッド・アテンション・メカニズムを適用して、最終的な行動コンテキストを生成するステップと、
前記最終的な行動コンテキストに分類メカニズムを適用して、各行動クラスに対する確率を取得するステップであって、前記確率が、前記行動クラスで指定された行動が前記ビデオ・クリップ内で発生した尤度を示す、ステップと
を含む、コンピュータ実施方法。
各キーフレームが、前記ビデオ・クリップ内の時間的に連続するフレームの異なるサブセットを表す、請求項１に記載の方法。
前記ボトルネック・アテンション・メカニズムが、３４個のビデオ・フレームのビデオ・クリップから、１６個のキーフレーム又は１１個のキーフレームのいずれかを生成する、請求項２に記載の方法。
前記マルチヘッド・アテンション・メカニズムが、
プーリング・セルフアテンション・プロシージャを適用することと、
残差セルフアテンション・プロシージャを適用することと、
前記プーリング・セルフアテンション・プロシージャの結果と前記残差セルフアテンション・プロシージャの結果とを連結して前記最終的な行動コンテキストを取得することと
を含む、請求項１に記載の方法。
前記プーリング・セルフアテンション・プロシージャが、
３Ｄ平均プーリングに基づいてクリップ内の各キーフレームに対してアテンション重みを計算することと、
平均フレームを中心として前記アテンション重みを中心化することと、
中心化された前記アテンション重みを正規化して、正規化されたアテンション・ベクトルを作成することと、
正規化された前記アテンション重みを、前記アテンション重みのそれぞれのキーフレームで乗算して、前記クリップ内の前記キーフレーム間の差分を拡張することと
を含む、請求項４に記載の方法。
前記ボトルネック・アテンション・メカニズムが、
前記ビデオ・フレームのそれぞれに対して時間アテンション重みを算出することと、
各キーフレームが時間的に連続するフレームのサブセットの重み付けられた平均であり、前記重みが算出された前記時間アテンション重みである、前記キーフレームを計算することと
を含む、請求項４に記載の方法。
前記時間アテンション重みが、前記プーリング・セルフアテンション・プロシージャによって生成される、請求項６に記載の方法。
前記残差セルフアテンション・プロシージャが、
２次元の１×１カーネルで前記埋め込みテンソル出力を畳み込むことと、
２Ｄ平均プーリングに基づいて各畳み込まれたテンソルに対してアテンション重みを計算することと、
前記アテンション重みにソフトマックスを適用して、正規化されたアテンション・ベクトルを生成することと、
前記重みを前記埋め込みテンソルによって乗算し、結果をスケーリングして残差行動コンテキストを取得することと
を含む、請求項４に記載の方法。
前記時間アテンション重みが、前記残差セルフアテンション・プロシージャによって生成される、請求項４に記載の方法。
前記ビデオ内で発生した可能性が最も高い行動を予測するために、前記行動コンテキストの確率から最も高い確率を選択するステップをさらに含む、請求項１に記載の方法。
サーバ・コンピュータであって、
プロセッサと、
前記プロセッサと通信状態にある通信インタフェースと、
ビデオ・クリップを記憶するためのデータ・ストレージと、
前記プロセッサと通信状態にある、命令を記憶するためにメモリであって、前記命令が、前記プロセッサによって実行されると、前記サーバに、
解析のためのビデオ・クリップであって、時系列のビデオ・フレームを含むビデオ・クリップを受け取ることと、
前記クリップ内の前記フレームにボトルネック・アテンション・メカニズムを適用して、キーフレームの削減シーケンスを生成することと、
キーフレームの前記シーケンスに２次元（２Ｄ）畳み込みニューラル・ネットワークを適用して、各キーフレームに対して３Ｄ埋め込みテンソルを取得することと、
前記３Ｄ埋め込みテンソルにマルチヘッド・アテンション・メカニズムを適用して、最終的な行動コンテキストを生成することと、
前記最終的な行動コンテキストに分類メカニズムを適用して、各行動クラスに対する確率であって、前記行動クラスで指定された行動が前記ビデオ・クリップ内で発生した尤度を示す、各行動クラスに対する確率を取得することと
を行わせる、メモリと
を備える、サーバ・コンピュータ。
各キーフレームが、前記ビデオ・クリップ内の時間的に連続するフレームの異なるサブセットを表す、請求項１１に記載のサーバ・コンピュータ。
前記ボトルネック・アテンション・メカニズムが、３４個のビデオ・フレームのビデオ・クリップから、１６個のキーフレーム又は１１個のキーフレームのいずれかを生成する、請求項１２に記載のサーバ・コンピュータ。
前記マルチヘッド・アテンション・メカニズムが、
プーリング・セルフアテンション・プロシージャを適用することと、
残差セルフアテンション・プロシージャを適用することと、
前記プーリング・セルフアテンション・プロシージャの結果と前記残差セルフアテンション・プロシージャの結果とを連結して前記最終的な行動コンテキストを取得することと
を含む、請求項１１に記載のサーバ・コンピュータ。
前記プーリング・セルフアテンション・プロシージャが、
３Ｄ平均プーリングに基づいてクリップ内の各キーフレームに対してアテンション重みを計算することと、
平均フレームを中心として前記アテンション重みを中心化することと、
中心化された前記アテンション重みを正規化して、正規化されたアテンション・ベクトルを作成することと、
正規化された前記アテンション重みを、前記アテンション重みのそれぞれのキーフレームで乗算して、前記クリップ内の前記キーフレーム間の差分を拡張することと
を含む、請求項１４に記載のサーバ・コンピュータ。
前記ボトルネック・アテンション・メカニズムが、
前記ビデオ・フレームのそれぞれに対して時間アテンション重みを算出することと、
各キーフレームが時間的に連続するフレームのサブセットの重み付けられた平均であり、前記重みが算出された前記時間アテンション重みである、前記キーフレームを計算することと
を含む、請求項１４に記載のサーバ・コンピュータ。
前記時間アテンション重みが、前記プーリング・セルフアテンション・プロシージャによって生成される、請求項１６に記載のサーバ・コンピュータ。
前記残差セルフアテンション・プロシージャが、
２次元の１×１カーネルで前記埋め込みテンソル出力を畳み込むことと、
２Ｄ平均プーリングに基づいて各畳み込まれたテンソルに対してアテンション重みを計算することと、
前記アテンション重みにソフトマックスを適用して、正規化されたアテンション・ベクトルを生成することと、
前記重みを前記埋め込みテンソルによって乗算し、結果をスケーリングして残差行動コンテキストを取得することと
を含む、請求項１４に記載のサーバ・コンピュータ。
前記時間アテンション重みが、前記残差セルフアテンション・プロシージャによって生成される、請求項１４に記載のサーバ・コンピュータ。
前記ビデオ内で発生した可能性が最も高い行動を予測するために、前記行動コンテキストの確率から最も高い確率を選択することをさらに含む、請求項１１に記載のサーバ・コンピュータ。