JP7286013B2

JP7286013B2 - ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス

Info

Publication number: JP7286013B2
Application number: JP2022519175A
Authority: JP
Inventors: リ，イェン; ジィ，ビン; シ，シンティエン; カン，ビン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2020-01-08
Filing date: 2020-10-20
Publication date: 2023-06-02
Anticipated expiration: 2040-10-20
Also published as: CN111241985B; EP3998549A4; US11983926B2; WO2021139307A1; CN111241985A; KR20220038475A; EP3998549A1; US20220172477A1; JP2022554068A

Description

本出願は、２０２０年０１月０８日に中国国家知識産権局へ出願された、発明の名称を「ビデオコンテンツ認識方法、装置、記憶媒体並びに電子デバイス」とする中国特許出願第２０２０１００１６３７５．２号に対する優先権の利益を主張し、その内容全体が援用により本明細書に組み込まれる。

本出願は、コンピュータの技術分野に関し、具体的に、ビデオコンテンツ認識方法、装置、記憶媒体及びコンピュータデバイスに関する。

人工知能技術の研究及び進歩に伴って、人工知能技術は、一般的なスマートホーム、スマートウェアラブルデバイス、仮想アシスタント、スマートスピーカー、スマートマーケティング、無人運転、自動運転、ドローン、ロボット、スマート医療、スマートカスタマーサービスなど多くの分野で開発され応用されるようになってきた。技術の発展に伴い、人工知能技術はより多くの分野に応用され、ますます重要な役割を発揮すると見込まれている。

なかでも、ビデオを利活用する情報伝播方式の大普及に伴い、様々なビデオ関連アプリケーションも大きく発展しているため、ビデオ関連技術への要求が高まっている。ビデオ処理技術の中の基本的なタスクとして、ビデオコンテンツを認識することは、ますます注目を集めている。しかしながら、従来より、大量の畳み込み演算を利用して、現在のビデオフレームを遠く離れたビデオフレームと関係付けさせ、さらにビデオコンテンツを認識する技術が一般的に用いられてきたが、このようなビデオコンテンツ認識方法は効率が低いという問題があった。

コンピュータデバイスによって実行されるビデオコンテンツ認識方法であって、
ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出するステップであって、前記ビデオフレームセットには、少なくとも２つのビデオフレームが含まれているステップと、
前記画像特徴の複数のチャネルに基づいて、前記画像特徴を複数の画像サブ特徴に分割するステップであって、前記複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれているステップと、
前記所定の順序に従って、前記複数の画像サブ特徴から、処理すべき画像サブ特徴を特定するステップと、
現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得するステップと、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得するステップと、
前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するステップとを含む、ビデオコンテンツ認識方法。

ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出する取得モジュールであって、前記ビデオフレームセットには、少なくとも２つのビデオフレームが含まれている取得モジュールと、
前記画像特徴の複数のチャネルに基づいて、前記画像特徴を複数の画像サブ特徴に分割する分割モジュールであって、前記複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれている分割モジュールと、
前記所定の順序に従って、前記複数の画像サブ特徴から、処理すべき画像サブ特徴を特定する特定モジュールと、
現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する融合モジュールと、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得するスプライシングモジュールと、
前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するコンテンツ特定モジュールとを備える、ビデオコンテンツ認識装置。

コンピュータ可読命令が記憶されている１つ以上の不揮発性コンピュータ可読記憶媒体であって、コンピュータ可読命令が１つ以上のプロセッサによって実行されると、前記ビデオコンテンツ認識方法のステップを、１つ以上のプロセッサに実行させる、不揮発性コンピュータ可読記憶媒体。

メモリと、１つ以上のプロセッサとを備えるコンピュータデバイスであって、メモリには、コンピュータ可読命令が記憶されており、コンピュータ可読命令がプロセッサに実行されると、前記ビデオコンテンツ認識方法のステップを１つ以上のプロセッサに実行させる、コンピュータデバイス。

本出願の実施形態に係る技術案をより明確に説明すべく、以下で、実施形態を説明するために使用される図面について簡単に紹介する。明らかなように、以下に示す図面は、本出願の幾つかの実施形態に過ぎず、当業者は進歩性に値する労働を付することなく、これらの図面に基づいて他の図面を得ることもできる。
本出願の実施形態に係るビデオコンテンツ認識システムの適用シナリオを示す模式図である。本出願の一実施形態に係るビデオコンテンツ認識方法のフローチャートである。本出願の別の実施形態に係るビデオコンテンツ認識方法のフローチャートである。本出願の一実施形態に係る混合畳み込みモデルの構造を示す模式図である。本出願の一実施形態に係るターゲットビデオに対応するビデオコンテンツを予測するフローチャートである。本出願の一実施形態に係る多重情報融合モデルの構造を示す模式図である。本出願の一実施形態に係る多重情報融合サブモデルのロジック模式図である。本出願の実施形態に係る画像特徴の分割を示す模式図である。本出願の別の実施形態に係る多重情報融合サブモデルのロジック模式図である。本出願のさらに別の実施形態に係る多重情報融合サブモデルのロジック模式図である。本出願の一実施形態に係るビデオコンテンツ認識装置の構造を示す模式図である。本出願の一実施形態に係るコンピュータデバイスの構造を示す模式図である。

図面を参照して、その中の同じ部材符号は同じ部材を表す。本出願の原理は、適切な演算環境中に実施することを例として説明される。以下の説明は、例示された本出願の具体的な実施形態に基づいて行われており、本明細書に詳述されていない本出願の他の具体的な実施形態を制限するものとして解釈されるべきではない。

以下の説明では、本出願の具体的な実施形態について、特に明記しない限り、１つ以上のコンピュータによって実行されるステップおよび記号を参照しながら説明する。したがって、これらのステップおよび手順は、コンピュータによって実行されるものとして数回言及される。本明細書に記載されるコンピュータによる実行は、構造化されたフォーマットでデータを表す電子信号のコンピュータ処理ユニットによる操作を含む。この操作によって、このデータが変換されるか、または当該コンピュータのメモリシステム内の場所にデータが維持されることが可能となる。このコンピュータの動作は、再構成され、または当業者によく知られている方法で変更されることが可能となる。このデータによって維持されるデータ構造は、データ形式によって定義された特定の特性を持つメモリの物理的な位置である。しかしながら、本出願の原理は、以上の表現によって説明されているが、ある形態に制限されるものではなく、以下に説明する様々なステップや操作がハードウェアでも実施できることは、当業者に理解されるべきであろう。

本明細書で使用される「モジュール」という用語は、このコンピューティングシステム上で実行されるソフトウェアオブジェクトと解釈され得る。本明細書に記載される異なる部材、モジュール、エンジンおよびサービスは、このコンピューティングシステムでの実施対象と見做されることができる。また本明細書に記載される装置および方法はソフトウェアで実施されることができ、もちろん、ハードウェアで実施されることもできるが、これらはすべて、本出願の保護範囲内に含まれるものとする。

本出願における「第１」、「第２」、および「第３」などの用語は、特定の順序を説明するのではなく、異なるオブジェクトを区別するために使用される。さらに、「含む」および「有する」という用語およびそれらの変形は、非排他的な包含をカバーすることを意図される。例えば、一連のステップまたはモジュールを含む工程、方法、システム、製品またはデバイスは、列挙されたステップまたはモジュールに限定されるものではなく、いくつかの実施形態はまた、列挙されていないステップまたはモジュールを含むか、またはいくつかの実施形態は、これらの工程、方法、システム、製品またはデバイスに対する固有の他のステップまたはモジュールを含む。

本明細書に記載される「実施形態」は、実施形態を参照しながら記述される特定の特徴、構造または特性が、本出願の少なくとも１つの実施形態に含まれ得ることを意味する。本明細書の各箇所にこの表現が記載されるのは、必ずしもすべてが同じ実施形態を指しているわけではなく、他の実施形態と相互に排除する独立または代替の実施形態を指しているものでもない。本明細書に記載の実施形態をその他の実施形態と組み合わせることができることは、当業者によって明示的および暗黙的に理解され得る。

本出願の実施形態は、ビデオコンテンツ認識方法を提供する。このビデオコンテンツ認識方法の実行主体は、本出願の実施形態に係るビデオコンテンツ認識装置、またはこのビデオコンテンツ認識装置を統合するコンピュータデバイスであり得る。ここで、このビデオコンテンツ認識装置は、ハードウェアまたはソフトウェアによって実現され得る。中でも、コンピュータデバイスは、スマートフォン、タブレットコンピュータ、パームトップコンピュータ、ノートブックコンピュータ、またはデスクトップコンピュータなどのデバイスであり得る。コンピュータデバイスには、コンピュータ、Ｗｅｂホスト、単一のＷｅｂサーバ、複数のＷｅｂサーバセット、または複数のサーバからなるクラウドが含まれているが、これらに限定されるものではない。

図１を参照すると、図１は、本出願の実施形態に係るビデオコンテンツ認識システムの適用シナリオを示す模式図である。ビデオコンテンツ認識装置がコンピュータデバイスに統合されることを例として説明すると、コンピュータデバイスは、ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出する。ここで、ビデオフレームセットには、少なくとも２つのビデオフレームが含まれている。画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割する。ここで、複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれている。所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定する。現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する。畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得する。スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。

本出願の実施形態に係るビデオコンテンツ認識方法は、人工知能の分野におけるコンピュータビジョン技術に関する。本出願の実施形態では、ビデオ挙動認識技術を利用して、ターゲットビデオ内から複数のビデオフレームに対応する画像特徴を抽出し、この画像特徴を複数の画像サブ特徴に分割し、そして複数の画像サブ特徴に対して複数回の畳み込み処理及び複数回の融合処理を実行することにより、時間次元における画像特徴の受容野を拡大し、さらにターゲットビデオに対応するビデオコンテンツを予測することができる。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ＡＩ）は、デジタルコンピュータまたはデジタルコンピュータによって制御される機器を利用し、人間の知能をシミュレート、延伸、拡充し、環境を感知し、知識を獲得し、知識を利活用して最良の結果を得るための理論、方法、技術およびアプリケーションシステムである。言い換えれば、人工知能はコンピュータサイエンスの包括的な技術であり、知能の本質を理解し、人間の知能と似た方式で反応できる新しいインテリジェントマシンを生み出すことを目指している。人工知能は、即ち様々なインテリジェントマシンの設計原理や実現方法について研究し、マシンに感知、推論及び意思決定の機能を持たせるような技術である。人工知能技術は、幅広い分野をカバーする包括的な分野であり、ハードウェアレベルの技術とソフトウェアレベルの技術の両方を含む。人工知能のソフトウェア技術には、コンピュータビジョン技術、機械学習／深層学習などの主要方向が含まれている。

コンピュータビジョン（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，ＣＶ）とは、マシンが「見る」方法を研究する技術であり、より詳しく言えば、カメラ及びコンピュータを利用し、ターゲットに対して識別、追跡及び測定などのマシンビジョンを行い、そして画像処理を施し、コンピュータに、ヒトの目が観察したり、機器に送信したりするのにより適合する画像に処理させる技術を指す。科学科目の一つとして、コンピュータビジョンは関連の理論と技術を研究し、画像や多次元データから情報を取得できる人工知能システムを構築することを目指している。コンピュータビジョン技術には、通常、画像処理、画像認識などが含まれ、さらには一般的な顔認識、指紋認識などの生体認証技術も含まれている

図２を参照すると、図２は、本出願の実施形態に係るビデオコンテンツ認識方法のフローチャートである。この方法は、コンピュータデバイスによって実行され得るが、具体的に以下の実施形態で説明される。

ステップＳ２０１：ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出する。

ここで、あるビデオに対応するビデオコンテンツを認識するに際しては、ビデオ中のある一定時間内の完全な情報を解析しなければ、ビデオが表しているビデオコンテンツを精度よく判断することができない。例えば、ビデオに写っている人が泳いでいることが想定された場合に、ビデオから１枚のビデオフレームのみを分析したら、このビデオのビデオコンテンツは、人が泳いでいると結論づけるしかできない。しかし、ビデオ中のある一定時間内の複数枚のビデオフレームを切り出して分析すると、ビデオ中に写っている水泳者の水泳姿勢などのより詳しいコンテンツ情報を特定することができる。従って、ビデオに対応するビデオコンテンツを認識する際に、ビデオから複数枚のビデオフレームを獲得する必要がある。

実際の適用では、例えば、ビデオコンテンツを認識する必要があるビデオＡをターゲットビデオとして特定する。ターゲットビデオ中の一定時間内の情報をもとに、このターゲットビデオに対応するビデオコンテンツを総合的に判断する必要があるから、ビデオＡから少なくとも２つのビデオフレームを切り出すとともに、切り出された複数のビデオフレームによってビデオフレームセットを構築することができる。

一実施形態では、ターゲットビデオから切り出された複数のビデオフレームから、このターゲットビデオの一定時間内の情報をより完全に復元することができるように、ターゲットフレームを分割するとともに、分割されたターゲットサブビデオをサンプリングして、複数のビデオフレームを得ることができる。具体的には、「ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出する」ステップは、
ターゲットビデオを特定するステップと、
前記ターゲットビデオを複数のターゲットサブビデオに分割するステップと、
各々のターゲットサブビデオから１つのビデオフレームを取得するとともに、複数のビデオフレームによってビデオフレームセットを構築するステップと、
前記ビデオフレームセットから特徴を抽出し、前記ビデオフレームセットに対応する画像特徴を取得するステップとを含む。

実際の適用では、例えば、ビデオコンテンツを認識する必要があるビデオＡをターゲットビデオとして特定するとともに、ビデオＡを複数のターゲットサブビデオに分割することができる。ここで、各々のターゲットサブビデオは、ビデオＡの１つのビデオ断片から切り出されたものである。そして、各々のターゲットサブビデオから１つのビデオフレームを取得し、すなわち各々のビデオフレームには１つのターゲットサブビデオが対応づけられており、取得された複数のビデオフレームによってビデオフレームセットを構築する。その後、畳み込み処理などの特徴抽出方法を利用して、このビデオフレームセットに対して特徴抽出を行い、当該ビデオフレームセットに対応する画像特徴を抽出する。ここで、当該画像特徴には、各々のビデオフレームに対応する特徴が含まれている。

一実施形態では、実際に適用される過程において、ターゲットビデオから特定のビデオ断片のビデオコンテンツのみを認識する必要があり、例えば、ターゲットビデオが映画Ａである場合に、映画Ａの２０分間目～２５分間目のビデオ断片に対応するビデオコンテンツのみを認識する必要がある場合に、ターゲットビデオから、ビデオ認識が必要なターゲットビデオ断片を特定し、このターゲットビデオ断片を複数のターゲットサブビデオに分割し、その後、後続ステップを行う。

一実施形態では、ターゲットサブビデオから１つのビデオフレームを取得する手法が様々あり、例えば、ターゲットサブビデオを対象にランダムにサンプリングして、ターゲットサブビデオに対応するビデオフレームを得ることができ、また例えば、このターゲットサブビデオ中の１番目のビデオフレームを、ターゲットサブビデオに対応するビデオフレームとすることができ、さらに例えば、ターゲットサブビデオのビデオ長さに基づいて、ターゲットサブビデオ全体のある時刻でのビデオフレームを、ターゲットサブビデオに対応するビデオフレームとすることができるなど、様々な方法がある。つまり、異なるビデオフレームが、異なるターゲットサブビデオから由来するものであればよい。

一実施形態では、時間長さが不確定なターゲットビデオから、固定長さのビデオフレームシーケンスを獲得するために、取得すべきビデオフレームの所定の画像の数に従って、ターゲットビデオを分割することができる。具体的には、「前記ターゲットビデオを複数のターゲットサブビデオに分割する」ステップは、
所定の画像の数を特定するステップと、
前記所定の画像の数、及び前記ターゲットビデオのビデオ長さに基づいて、各々のターゲットビデオに対応するサブビデオ長さを特定するステップと、
前記サブビデオ長さに基づいて、前記ターゲットビデオを複数のターゲットサブビデオに分割するステップとを含む。

実際の適用では、例えば時間長さが不確定なターゲットビデオから、固定長さのビデオフレームシーケンスを得るために、まず、取得すべきビデオフレームシーケンスの長さを特定し、即ち取得すべきビデオフレームの所定の画像の数Ｔを特定することができる。ターゲットビデオのビデオ長さがｍ分間である場合に、取得すべき各々のターゲットサブビデオに対応するサブビデオの時間長さがｍ／Ｔ分間であると特定され得る。その後、ターゲットビデオ全体をサブビデオの時間長さに従って、Ｔ個のターゲットサブビデオを平均的に分割することができる。

一実施形態では、ターゲットビデオを複数のターゲットサブビデオに分割する手法が様々あり、例えば、上述した通り、所定の画像の数に応じて、ターゲットビデオを、時間長さが同じである複数のターゲットサブビデオに平均的に分割することができ、また例えば、まず、取得すべきターゲットサブビデオに対応するサブビデオの時間長さを特定し、このサブビデオの時間長さに応じてターゲットビデオを分割し、このとき、ビデオ長さが比較的長いターゲットビデオからは、比較的多いビデオフレームを取得し、ビデオ長さが比較的短いターゲットビデオからは、比較的少ないビデオフレームを取得することができるなど、様々な方法がある。

実際の適用では、例えば、ビデオコンテンツを認識する必要があるビデオＡをターゲットビデオとして特定できる。ビデオＡのビデオ長さが２４ｓであり、所定の画像の数は８である場合に、ビデオＡを、サブビデオの時間長さが３ｓである８個のターゲットサブビデオに分割することができる。そして各々のターゲットサブビデオをランダムにサンプリングしてビデオフレームセットを得る。このビデオフレームセットには、サンプリングして得られた８個のビデオフレームが含まれている。その後、ビデオフレームセットに対して特徴の抽出を行い、当該ビデオフレームセットに対応する画像特徴を得ることができる。

ステップＳ２０２：画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割する。

ここで、深層学習において特徴に対応するチャネルの数は、畳み込み層の畳み込みカーネルの数を表すことができる。たとえば、入力画像の特徴に３つのチャネルが含まれ、畳み込みカーネルの数が１０である場合に、１０個の畳み込みカーネルを利用して、入力画像の特徴を畳み込み処理後、出力画像の特徴を取得することができる。ここで、この出力画像の特徴には１０個のチャネルが含まれており、このとき出力画像の特徴のチャネル数は畳み込みカーネルの数と同じである。

実際の適用では、例えば、画像特徴をＸで表し、次元長さを［Ｔ，Ｃ，Ｈ，Ｗ］で表すことができる。ここで、Ｔは時間次元を表し、即ちビデオフレームセットには、Ｔ個のビデオフレームが含まれていることを表し、Ｃはチャネル数を表し、Ｈ及びＷは、特徴の空間次元を表す。画像特徴を４つの画像サブ特徴に分割すると、各々の画像サブ特徴に対応する特徴次元は、［Ｔ，Ｃ／４，Ｈ，Ｗ］になる。

一実施形態では、複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれている。例えば、図８に示すように、ターゲットビデオからビデオフレームセットを抽出し、このビデオフレームセットには、８つのビデオフレームが含まれている。そして複数回の畳み込み処理によって、当該ビデオフレームセットに対応する画像特徴Ｘを取得し、この画像特徴Ｘには、８つのビデオフレームに対応する特徴が含まれており、かつ当該画像特徴Ｘは、チャネル１～チャネル２５６ごとに並んでいる２５６個のチャネルに対応している。それでは、取得すべき画像サブ特徴の特徴量が４であると特定できる。その後、画像特徴Ｘに対応しているチャネル１～チャネル２５６を、チャネル１～チャネル６４、チャネル６５～チャネル１２８、チャネル１２９～チャネル１９２、及びチャネル１９３～チャネル２５６の４つの部分に平均的に分割するとともに、分割結果ごとに、画像サブ特徴Ｘ１、画像サブ特徴Ｘ２、画像サブ特徴Ｘ３、画像サブ特徴Ｘ４の４つの画像サブ特徴を得る。ここで、この４つの画像サブ特徴は所定の順序に従って並んでおり、画像サブ特徴Ｘ１は、チャネル１～６４に対応する画像サブ特徴であり、画像サブ特徴Ｘ２は、チャネル６５～１２８に対応する画像サブ特徴であり、画像サブ特徴Ｘ３は、チャネル１２９～１９２に対応する画像サブ特徴であり、画像サブ特徴Ｘ４は、チャネル１９３～２５６に対応する画像サブ特徴である。かつ各々の画像サブ特徴には、８つのビデオフレームに対応する特徴が含まれている。ここで、取得すべき画像サブ特徴の個数は、実際の状況に応じて調整可能であり、本出願の実施形態では、画像サブ特徴の個数を制限しない。

ステップＳ２０３：所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定する。

ここで、畳み込み処理された特徴は、受容野が拡大され、即ち更に長時間範囲における特徴が融合され得るため、複数の画像サブ特徴から、処理すべき画像サブ特徴として一部の画像サブ特徴をピックアップする必要がある。これらの処理すべき画像サブ特徴に対して、畳み込み処理を行い、畳み込み処理済み画像特徴を得る。ここで、これらの畳み込み処理済み画像特徴には、ビデオフレームセットに含まれる全てのビデオフレームに対応する特徴が含まれており、かつそれぞれのビデオフレームに対応する特徴には、相応するビデオフレームに隣り合うビデオフレームの特徴がさらに融合されている。つまり、畳み込み処理済み画像特徴は、元の処理すべき画像特徴と比べて、受容野が大いに拡大され、特徴が豊富になる。

実際の適用では、例えば、図８に示すように、順番に並べられた画像サブ特徴Ｘ１、画像サブ特徴Ｘ２、画像サブ特徴Ｘ３及び画像サブ特徴Ｘ４を獲得後、所定の順序に従って、画像サブ特徴Ｘ２、画像サブ特徴Ｘ３及び画像サブ特徴Ｘ４を、処理すべき画像サブ特徴として特定する。ここで、処理すべき画像サブ特徴は、実際の適用ニーズに合わせて調整できる。例えば、所定の順序が異なれば、複数の画像サブ特徴から特定された処理すべき画像サブ特徴も異なる。

ステップＳ２０４：現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する。

ここで、一回の畳み込み処理だけでは、受容野を有限倍数で拡大する効果しか得られない。例えば、最初の特徴には、順番に並べられた画像１の特徴、画像２の特徴、及び画像３の特徴が含まれ、かつ一次元畳み込みでの畳み込みカーネルのサイズが３である場合、最初の特徴をこの畳み込みカーネルで畳み込み処理することにより、処理済み特徴を得ることができ、この処理済み特徴には、３枚の画像に対応する特徴が含まれている。しかし、処理済み特徴の中の画像２に対応する特徴に対して、この時の特徴には、画像１の特徴と画像３の特徴がさらに融合されているため、最初の特徴に対して、処理済み特徴は時間次元で受容野が拡大されているが、隣り合う２枚の画像の特徴を融合する効果しか得られない。

従って、従来の方法を利用して長時間範囲における情報を融合する場合、深層ニューラルネットワークを利用して複数回の畳み込みを重ねる必要がある。しかし、このような方法には、最適化の問題があり、深層ニューラルネットワークにおいて、１つのビデオフレームに対しては、大量の局所的畳み込み処理を行わなければ、遠く離れたビデオフレームと関係付けさせることができない。というわけで、現在のビデオフレームの情報を遠く離れたビデオフレームに伝送する場合でも、遠く離れたビデオフレームから信号を現在のビデオフレームにフィードバックする場合でも、遠距離にわたった信号伝送過程が必要となるが、有効な情報は情報伝送過程中に弱められやすく、また遠く離れた２つのビデオフレームの間で有効な時間関係を確立することができなくなるという問題があった。

そこで、特徴融合メカニズムを利用して、受容野が拡大された特徴を、現在に畳み込み処理を行う必要がある処理すべき画像サブ特徴に融合し、これにより、畳み込み処理を行う前に、現在の処理すべき画像サブ特徴の受容野が拡大されるようになる。そして、さらに畳み込み処理によって、特徴の受容野がさらに拡大されるようになる。その後、受容野がさらに拡大された特徴を、次に畳み込み処理を行う必要がある処理すべき画像サブ特徴に融合し、こうして繰り返すことによって、特徴に対応する時間次元での受容野が連続的に拡大され、最後に、より長時間範囲における特徴が融合される目的が図れる。

一実施例では、「現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する」ステップは、
前記所定の順序に従って、複数の処理すべき画像サブ特徴から、最初の処理すべき画像サブ特徴を特定するステップと、
前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップと、
前記所定の順序及び前記最初の処理すべき画像サブ特徴に基づいて、前記複数の処理すべき画像サブ特徴から、現在の処理すべき画像サブ特徴を特定するステップと、
前記現在の処理すべき画像サブ特徴と、前記畳み込み処理済み画像特徴とを融合することにより、融合された画像特徴を取得するステップと、
前記融合された画像特徴を最初の処理すべき画像サブ特徴に更新するステップと、
各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を得るまで、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップを繰り返して実行するステップと、を含む。

実際の適用では、例えば、図９に示すように、順番に並べられた画像サブ特徴Ｘ１、画像サブ特徴Ｘ２、画像サブ特徴Ｘ３、画像サブ特徴Ｘ４から、複数の処理すべき画像サブ特徴、即ち画像サブ特徴Ｘ２、画像サブ特徴Ｘ３、画像サブ特徴Ｘ４を特定する。所定の順序に従って、画像サブ特徴Ｘ２を最初の処理すべき画像サブ特徴として特定するとともに、画像サブ特徴Ｘ２に対して畳み込み処理を行い、画像サブ特徴Ｘ２に対応する畳み込み処理済み画像特徴Ｘ_２ ^０を得ることができる。

画像サブ特徴Ｘ２に対して処理を終えた後、画像サブ特徴Ｘ３を現在の処理すべき画像サブ特徴として特定するとともに、残差接続と類似した接続方式によって、画像サブ特徴Ｘ２に対応する畳み込み処理済み画像特徴Ｘ_２ ^０と、画像サブ特徴Ｘ３とを加算融合することによって、画像サブ特徴Ｘ３に対応する融合された画像特徴を獲得し、そして、画像サブ特徴Ｘ３に対応する融合された画像特徴に対して畳み込み処理を行い、画像サブ特徴Ｘ３に対応する畳み込み処理済み画像特徴Ｘ_３ ^０を獲得することができる。

画像サブ特徴Ｘ３に対して処理を終えた後、画像サブ特徴Ｘ４を現在の処理すべき画像サブ特徴として特定するとともに、残差接続と類似した接続方式によって、画像サブ特徴Ｘ３に対応する畳み込み処理済み画像特徴Ｘ_３ ^０と、画像サブ特徴Ｘ４とを加算融合することによって、画像サブ特徴Ｘ４に対応する融合された画像特徴を獲得し、そして、画像サブ特徴Ｘ４に対応する融合された画像特徴に対して畳み込み処理を行い、画像サブ特徴Ｘ４に対応する畳み込み処理済み画像特徴Ｘ_４ ^０を獲得することができる。このとき、全ての処理すべき画像サブ特徴が畳み込み処理され、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴が得られたので、繰り返すステップを終了できる。

中では、ビデオフレームセットには、Ｔ個のビデオフレームが含まれている場合に、各々の画像サブ特徴には、Ｔ個のビデオフレームに対応する特徴が含まれている。ここで、４番目のビデオフレーム（ビデオフレーム４）を例として説明する。図１０に示すように、画像サブ特徴Ｘ１、画像サブ特徴Ｘ２、画像サブ特徴Ｘ３、画像サブ特徴Ｘ４のいずれにも、ビデオフレーム４に対応する特徴が含まれており、その中の画像サブ特徴Ｘ２に対して畳み込み処理を行った後、画像サブ特徴Ｘ２に対応する畳み込み処理済み画像特徴Ｘ_２ ^０において、ビデオフレーム４の特徴にはビデオフレーム３、及びビデオフレーム５の特徴が融合されるようになるから、このとき、画像サブ特徴Ｘ２に対応する畳み込み処理済み画像特徴Ｘ_２ ^０の受容野が１回拡大されるようになる。

画像サブ特徴Ｘ２に対応する畳み込み処理済み画像特徴Ｘ_２ ^０と、サブ特徴Ｘ３とを加算融合するとともに、画像サブ特徴Ｘ３に対応する融合された画像特徴に対して畳み込み処理を行った後、画像サブ特徴Ｘ３に対応する畳み込み処理済み画像特徴Ｘ_３ ^０において、ビデオフレーム４の特徴には、ビデオフレーム２、ビデオフレーム３、ビデオフレーム５及びビデオフレーム６の特徴が融合されるようになるから、このとき、画像サブ特徴Ｘ３に対応する畳み込み処理済み画像特徴Ｘ_３ ^０の受容野が２回拡大されるようになる。

画像サブ特徴Ｘ３に対応する畳み込み処理済み画像特徴Ｘ_３ ^０と、画像サブ特徴Ｘ４とを加算融合するとともに、画像サブ特徴Ｘ４に対応する融合された画像特徴に対して畳み込み処理を行った後、画像サブ特徴Ｘ４に対応する畳み込み処理済み画像特徴Ｘ_４ ^０において、ビデオフレーム４の特徴にはビデオフレーム１、ビデオフレーム２、ビデオフレーム３、ビデオフレーム５、ビデオフレーム６及びビデオフレーム７の特徴が融合されるようになるから、このとき、画像サブ特徴Ｘ４に対応する畳み込み処理済み画像特徴Ｘ_４ ^０の受容野が３回拡大されるようになる。これで、この特徴は効果的に遠く離れたビデオフレームと関係付けられることができる。

一実施形態では、混合畳み込みモデルを利用して、特徴に畳み込み処理を施すことで、受容野を拡大する目的を図ることができる。具体的には、「前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得する」ステップは、
初期混合畳み込みモデルを特定するステップと、
前記画像特徴の複数のチャネルに基づいて、前記初期混合畳み込みモデルを複数の混合畳み込みモデルに分割するステップと、
前記混合畳み込みモデルに基づいて、前記最初の処理すべき画像サブ特徴に対して、畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップとを含む。

なお、初期混合畳み込みモデルは、（２＋１）Ｄ畳み込みモデルであり得る。この（２＋１）Ｄ畳み込みモデルは、２つの部分、それぞれに１次元畳み込みサブモデルと２次元畳み込みサブモデルを含み得る。たとえば、初期混合畳み込みモデルには、時間次元での１次元畳み込みサブモデルと、空間次元での２次元畳み込みサブモデルが含まれており、この１次元畳み込みサブモデルの畳み込みカーネルサイズは３であり、２次元畳み込みサブモデルの畳み込みカーネルサイズは３ｘ３である。畳み込み処理に（２＋１）Ｄ畳み込みモデルを使用すると、時間的特徴のモデリングを実現できるだけでなく、高コストな演算を避けることができる。

実際の適用では、例えば、初期混合畳み込みモデルを特定できる。この初期混合畳み込みモデルには、時間次元での１次元畳み込みサブモデルと、空間次元での２次元畳み込みサブモデルが含まれており、この１次元畳み込みサブモデルの畳み込みカーネルサイズは３であり、２次元畳み込みサブモデルの畳み込みカーネルサイズは３ｘ３である。画像特徴を複数のチャネルに応じて複数の画像サブ特徴に分割しているため、相応に、初期混合畳み込みモデルも複数のチャネルに応じて複数の混合畳み込みモデルに分割する必要があり、つまり初期混合畳み込みモデルを畳み込みグループ化し、複数の混合畳み込みモデルを取得する必要がある。ここで、畳み込みグループ化が行われた後、畳み込みカーネルのサイズは変化しないため、図４に示すように、この混合畳み込みモデルには、時間次元での１次元畳み込みサブモデルと空間次元での２次元畳み込みサブモデルが含まれており、１次元畳み込みサブモデルの畳み込みカーネルサイズは３であり、２次元畳み込みサブモデルの畳み込みカーネルサイズは３ｘ３である。

なお、初期混合畳み込みモデルの中の１次元畳み込みサブモデルは、畳み込みカーネルサイズが３である。この初期混合畳み込みモデルは、チャネル数をＣとした画像特徴を対象としている場合に、パラメータ量のサイズがＣｘＣｘ３である。初期混合畳み込みモデルの中の２次元畳み込みサブモデルで、畳み込みカーネルサイズが３ｘ３である。この初期混合畳み込みモデルは、チャネル数をＣとした画像特徴を対象としている場合に、パラメータ量のサイズがＣｘＣｘ３ｘ３である。畳み込みグループ化が行われた後、畳み込みカーネルのサイズは変化しないため、混合畳み込みモデルの中の１次元畳み込みサブモデルの畳み込みカーネルのサイズは３のままである。しかし、混合畳み込みモデルは、チャネル数をＣ／４とした画像サブ特徴を対象としているため、パラメータ量のサイズは（Ｃ／４）×（Ｃ／４）×３である。一方、混合畳み込みモデルの中の２次元畳み込みサブモデルの畳み込みカーネルのサイズは３ｘ３のままである。しかし、混合畳み込みモデルは、チャネル数をＣ／４とした画像サブ特徴を対象としているため、パラメータ量のサイズが（Ｃ／４）×（Ｃ／４）×３×３である。分割された混合畳み込みモデルを獲得後、この混合畳み込みモデルを利用して、最初の処理すべき画像サブ特徴に対して畳み込み処理を実行し、畳み込み処理済み画像特徴を取得することができる。

一実施形態では、混合畳み込みモデルを取得すると、１次元畳み込みサブモデル及び２次元畳み込みサブモデルを利用して、それぞれに特徴に対して畳み込み処理を行うことができる。具体的には、「前記混合畳み込みモデルに基づいて、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得する」ステップは、
前記１次元混合畳み込みモデルに基づいて、時間次元で前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップと、
前記２次元混合畳み込みモデルに基づいて、空間次元で前記時間畳み込み処理された画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップとを含む。

実際の適用では、例えば、最初の処理すべき画像サブ特徴は、画像サブ特徴Ｘ２であり、かつ特徴次元の大きさは［Ｔ，Ｃ／４，Ｈ，Ｗ］である場合に、特徴次元を［Ｔ，Ｃ／４，Ｈ，Ｗ］から［Ｈ，Ｗ，Ｃ／４，Ｔ］に再構成し、その後、畳み込みカーネルサイズが３である１次元畳み込みサブモデルを利用して、画像サブ特徴Ｘ２の時間次元Ｔを処理し、時間畳み込み処理済み画像特徴を得る。ここで、畳み込み演算子のパラメータ量のサイズは、（Ｃ／４）×（Ｃ／４）×３である。この過程中に、画像サブ特徴Ｘ２のの空間的情報は無視され、画像サブ特徴Ｘ２には、合計Ｔ個のフレームの特徴情報が含まれており、かつ各フレームの特徴次元はＣ／４であると理解され得る。ここで、時間次元でサイズが３である畳み込みカーネルを利用して畳み込み処理を行うことは、ビデオフレームｔと、隣り合うビデオフレームｔ－１及びビデオフレームｔ＋１とに対して情報を融合することに相当する。

その後、時間畳み込み処理済み画像特徴の特徴次元を、［Ｈ，Ｗ，Ｃ／４，Ｔ］から［Ｔ，Ｃ／４，Ｈ，Ｗ］に再構成し、畳み込みカーネルサイズが３ｘ３である２次元畳み込みサブモデルを利用して、時間畳み込み処理済み画像特徴の空間次元（Ｈ，Ｗ）を処理し、時間畳み込み処理済み画像特徴を得る。ここで、畳み込み演算子のパラメータ量のサイズは、（Ｃ／４）×（Ｃ／４）×３×３である。この過程中に、時間畳み込み処理された特徴の時間情報は無視され、時間畳み込み処理済み画像特徴には、ＨｘＷ個の画素点の特徴が含まれており、かつ各画素点の特徴次元は、Ｃ／４であると理解され得る。この過程中に、空間限度での各画素点は、隣り合う３ｘ３空間領域での画素点と空間特徴が融合されている。最後に、特徴次元を［Ｔ，Ｃ／４，Ｈ，Ｗ］から［Ｈ，Ｗ，Ｃ／４，Ｔ］に復元し、畳み込み処理済み画像特徴を得ることができる。

ここで、初期混合畳み込みモデルの中の１次元畳み込みサブモデルを利用し、１回の畳み込み操作を行った場合でのパラメータ量のサイズはＣｘＣｘ３であるが、混合畳み込みモデルの中の１次元畳み込みサブモデルを利用し、１回の畳み込み操作を行なった場合でのパラメータ量のサイズは（Ｃ／４）×（Ｃ／４）×３になる。従って、本出願の実施形態において３回の畳み込み操作を行なった場合でのパラメータ量のサイズの総和は３×（（Ｃ／４）×（Ｃ／４）×３）であり、初期混合畳み込みモデルを直接に利用する場合と比べて、パラメータ量がかえって削減される一方、より長時間範囲における特徴が融合されるようになるから、ビデオの時間的情報を包括的に検討し判断を行うことが可能となる。

一実施形態では、例えば、畳み込み処理を行う過程において、畳み込みカーネルのサイズは、実際の適用条件に従って調整され得る。また例えば、畳み込み処理を行う過程において、複数の処理すべき画像サブ特徴に対応する畳み込みカーネルのサイズを異ならせることもできる。つまり、異なる時間スケールでのモデリング機能を包括的に考慮するために、異なる処理すべき画像サブ特徴ごとに、異なるサイズの畳み込みカーネルを利用して畳み込み処理することができる。

ステップＳ２０５：畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得する。

実際の適用では、例えば、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得後、チャネルによって、複数の畳み込み処理済み画像特徴をつなぎ合わせて、スプライシングされた画像特徴を取得することができる。

一実施形態では、より高精度な特徴を得ることが望まれているため、さらに複数の画像サブ特徴の中から、保留すべきオリジナル画像サブ特徴を特定し、最後に取得されるスプライシングされた画像に、処理されない特徴を残させることができる。具体的には、「前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得する」ステップは、
前記所定の順序に従って、前記複数の画像サブ特徴から、保留すべきオリジナル画像サブ特徴を特定するステップと、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴と、前記オリジナル画像サブ特徴とをスプライシングし、スプライシングされた画像特徴を取得するステップとを含む。

実際の適用では、例えば、順番に並べられた画像サブ特徴Ｘ１、画像サブ特徴Ｘ２、画像サブ特徴Ｘ３、画像サブ特徴Ｘ４の中から、画像サブ特徴Ｘ１を、保留すべきオリジナル画像サブ特徴として特定することができる。そして、得られた画像サブ特徴Ｘ２に対応する畳み込み処理済み画像特徴Ｘ_２ ^０、画像サブ特徴Ｘ３に対応する畳み込み処理済み画像特徴Ｘ_３ ^０、画像サブ特徴Ｘ４に対応する畳み込み処理済み画像特徴Ｘ_４ ^０、及び画像サブ特徴Ｘ１（即ちＸ_１ ^０）をスプライシングすることにより、スプライシングされた画像特徴Ｘ^０を得ることができる。ここで、スプライシングする対象となる各特徴の受容野が異なり、画像サブ特徴Ｘ１は畳み込み処理されないから、受容野は拡大されなかった。画像サブ特徴Ｘ２は１回畳み込み処理されたから、受容野が１回拡大された。画像サブ特徴Ｘ３は２回畳み込み処理されたから、受容野が２回拡大された。画像サブ特徴Ｘ４は３回畳み込み処理されたから、受容野が３回拡大された。

一実施形態では、画像特徴からスプライシングされた画像特徴を得るステップは、多重情報融合モデルによって実行され得る。中では、図６に示すように、多重情報融合モデルには、多重情報融合サブモデル、２つの畳み込みカーネルサイズが１ｘ１である２次元畳み込み層が含まれている。多重情報融合サブモデルによって、上記の、画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割するステップと、所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定するステップと、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得するステップと、畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得するステップを実行することができる。

つまり、画像特徴を時間情報融合モジュールに入力すれば、出力されたスプライシング済み画像特徴を得ることができる。ここで、図５に示すように、本出願の実施形態では、複数の多重情報融合モジュール（ＭｕｌｔｉｐｌｅＴｅｍｐｏｒａｌＡｇｇｒｅｇａｔｉｏｎ、ＭＴＡ）を積み重ねて、より強力でより安定した長時間情報モデリング機能を実現することもできる。

一実施形態では、本出願の実施形態は、さらに多重情報融合モジュールによるトレーニング工程を含み得る。例えば、トレーニングサンプルとしてのターゲットサンプルビデオは、対応する画像特徴がＸ’で表され、その特徴次元の大きさが［Ｎ，Ｔ’，Ｃ’，Ｈ’、Ｗ’］で表されることができる。ここで、Ｎは、トレーニング時の１トレーニングバッチのバッチサイズを表し、Ｔ’は時間次元を表し、即ちビデオフレームセットに合計Ｔ’個のビデオフレームが含まれていることを表し、Ｃ’はチャネル数を表し、Ｈ’及びＷ’は特徴の空間次元を表す。画像特徴Ｘ’を、トレーニングされていない多重情報融合モジュールに入力し、ターゲットサンプルビデオの予測ビデオコンテンツを予測するとともに、既知のターゲットサンプルビデオの実際のビデオコンテンツに基づいて、トレーニングされていない多重情報融合モジュールをトレーニングし、多重情報融合モジュールを得ることができる。ここで、トレーニング過程全体はエンドツーエンドであり、多重情報融合モジュールのトレーニングは、ビデオの時空間特徴の学習と並行して進んでいる。

ステップＳ２０６：スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。

実際の適用では、例えば、本出願の実施形態の目的は、ターゲットビデオに対応するビデオコンテンツを認識することにあるから、スプライシングされた画像特徴が得られた後、引き続き、当該スプライシングされた画像特徴を処理して、ビデオフレームセットに含まれる各々のビデオフレームに対応する予測スコアを予測し、そして、時間平均ストラテジーを利用して複数のビデオの予測スコアを平均化し、ターゲットビデオ全体に対する最終的な予測スコアを得る。

一実施形態では、具体的には、「前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定する」ステップは、
前記スプライシングされた画像特徴に基づいて、ビデオフレームセットに含まれる各々のビデオフレームに対応するコンテンツ予測確率を予測するステップと、
複数のビデオフレームに対応するコンテンツ予測確率を融合することにより、前記ターゲットビデオに対応するビデオコンテンツ予測確率を取得するステップと、
前記ビデオコンテンツ予測確率に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するステップとを含む。

実際の適用では、例えば、図５に示すように、スプライシングされた画像特徴に基づいて、ビデオフレームセットに含まれる各々のビデオフレームに対応するコンテンツ予測確率を予測することができる。ビデオフレームに対応するコンテンツ予測確率により、このビデオフレームにおいて各ビデオコンテンツが表される確率を知ることができる。その後、時間平均ストラテジーを利用して複数のビデオフレームに対応するコンテンツ予測確率を融合するとともに、ターゲットビデオに対応するビデオコンテンツ予測確率を得る。その後、当該ビデオコンテンツ予測確率に基づいて、棒グラフを相応に作成するとともに、その中で確率が最も大きいと考えられるビデオコンテンツを、ターゲットビデオに対応するビデオコンテンツ「背泳ぎ」と特定する。

実際の適用では、本出願の実施形態に係るビデオコンテンツ認識方法は、長時間範囲における特徴が融合されたスプライシング済み画像特徴を取得できるので、基本的なビデオ分析技術として利用でき、長時間範囲における特徴が融合されたスプライシング済み画像特徴に対して、並べ替えやパーソナライズ推奨などの後続作業を行うことができる。また、本出願の実施形態に係るビデオコンテンツ認識方法は、さらにターゲットビデオのビデオコンテンツも認識できるので、特定のビデオ適用シナリオ、例えば、政治、暴力、ポルノなどのコンテンツを含むカテゴリビデオをレビューおよびフィルタリングするシナリオに適用されることもできる。

このように、本出願の実施形態では、ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出し、ここで、ビデオフレームセットには、少なくとも２つのビデオフレームが含まれており、画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割し、ここで、複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれており、所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定し、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得し、畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得し、スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。この技術案において、１つの初期混合畳み込みモデルを複数の混合畳み込みモデルに分割すると共に、２つずつの混合畳み込みモデルの間に残差接続方式による接続を入れることによって、複数の混合畳み込みモデルは階層構造に構成され得る。これにより、ビデオ特徴は複数回畳み込み処理され、時間限度での受容野が拡大され、かつ各フレームのビデオ特徴は効果的に遠く離れたビデオフレームと関係付けられることが可能となる。また、この方法によれば、余計なパラメータ量が増えることはなく、複雑な演算もいらないから、ビデオコンテンツの認識効率を向上させることが可能となる。

上記の実施形態に係る方法により、以下で、このビデオコンテンツ認識装置が具体的にネットワークデバイスに統合されていることを例に取り上げてより詳しく説明する。

図３を参照すると、本出願の実施形態に係るビデオコンテンツ認識方法の具体的な流れは以下の通りである。

ステップＳ３０１：ネットワークデバイスは、ターゲットビデオからＴ個のビデオフレームを取得する。

実際の適用では、例えば、図５に示すように、ネットワークデバイスは、スパースサンプリングを使用し、ターゲットビデオをＴ個のターゲットサブビデオに均一に分割することができる。次に、各々のターゲットサブビデオからランダムサンプリングして、各々のターゲットサブビデオに対応するビデオフレームを取得し、結果として、時間長さが不確定なターゲットビデオが固定長さのビデオフレームシーケンスに変換される。

ステップＳ３０２：ネットワークデバイスは、このＴ個のビデオフレームに対応する画像特徴Ｘを抽出する。

実際の適用では、例えば、ネットワークデバイスは、複数回の畳み込みなどの特徴抽出方法を利用して、このＴ個のビデオフレームに対応する画像特徴Ｘを抽出することができ、この画像特徴Ｘには、各々のビデオフレームに対応する特徴情報が含まれている。ここで、［Ｔ，Ｃ，Ｈ，Ｗ］で特徴次元のサイズを表すことができ、Ｔは時間次元を表し、即ち合計でＴ個のビデオフレームがあることを表し、Ｃはチャネル数を表し、ＨとＷは、特徴の空間次元を表す。

ステップＳ３０３：ネットワークデバイスは、画像特徴Ｘの複数のチャネルに基づいて、画像特徴Ｘを画像サブ特徴Ｘ１、画像サブ特徴Ｘ２、画像サブ特徴Ｘ３、および画像サブ特徴Ｘ４に分割する。

実際の適用では、例えば、図７に示すように、ネットワークデバイスは、画像特徴Ｘの複数のチャネルに基づいて、画像特徴Ｘを画像サブ特徴Ｘ１、画像サブ特徴Ｘ２、画像サブ特徴Ｘ３、および画像サブ特徴Ｘ４の４つの画像サブ特徴に分割する。その中に、各々の画像サブ特徴に対応する特徴次元は、［Ｔ，Ｃ／４，Ｈ，Ｗ］になる。そして、初期混合畳み込みモジュールを特定でき、この初期混合畳み込みモデルには、時間次元での１次元畳み込みサブモデル、及び空間次元での２次元畳み込みサブモデルが含まれている。画像特徴は、複数のチャネルに応じて複数の画像サブ特徴に分割されているため、相応に、初期混合畳み込みモデルも、複数のチャネルに応じて複数の混合畳み込みモデルに分割されている。

ここで、初期混合畳み込みモデルの中の１次元畳み込みサブモデルは、畳み込みカーネルサイズが３である。この初期混合畳み込みモデルは、チャネル数をＣとした画像特徴を対象としている場合に、パラメータ量のサイズはＣｘＣｘ３である。初期混合畳み込みモデルの中の２次元畳み込みサブモデルで、畳み込みカーネルサイズが３ｘ３である。この初期混合畳み込みモデルは、チャネル数をＣとした画像特徴を対象としている場合に、パラメータ量のサイズはＣｘＣｘ３ｘ３である。畳み込みグループ化畳み込みカーネルのサイズは変化しないため、混合畳み込みモデルの中の１次元畳み込みサブモデルの畳み込みカーネルのサイズは３のままである。しかし、混合畳み込みモデルは、チャネル数をＣ／４とした画像サブ特徴を対象としているため、パラメータ量のサイズは（Ｃ／４）×（Ｃ／４）×３である。一方、混合畳み込みモデルの中の２次元畳み込みサブモデルの畳み込みカーネルのサイズは３ｘ３のままである。しかし、混合畳み込みモデルは、チャネル数をＣ／４とした画像サブ特徴を対象としているため、パラメータ量のサイズは（Ｃ／４）×（Ｃ／４）×３×３である。

ステップＳ３０４：ネットワークデバイスは、画像サブ特徴Ｘ２に対して畳み込み処理を行い、画像サブ特徴Ｘ２に対応する畳み込み処理済み画像特徴を取得する。

実際の適用では、例えば、図７に示すように、画像サブ特徴Ｘ２の特徴次元の大きさは［Ｔ，Ｃ／４，Ｈ，Ｗ］である場合に、ネットワークデバイスは、特徴次元を［Ｔ，Ｃ／４，Ｈ，Ｗ］から［Ｈ，Ｗ，Ｃ／４，Ｔ］に再構成し、その後、畳み込みカーネルサイズが３である１次元畳み込みサブモデルを利用して、画像サブ特徴Ｘ２の時間次元Ｔを処理し、時間畳み込み処理済み画像特徴を得ることができる。ここで、畳み込み演算子のパラメータ量のサイズは、（Ｃ／４）×（Ｃ／４）×３である。その後、時間畳み込み処理済み画像特徴の特徴次元を、［Ｈ，Ｗ，Ｃ／４，Ｔ］から［Ｔ，Ｃ／４，Ｈ，Ｗ］に再構成し、畳み込みカーネルサイズが３ｘ３である２次元畳み込みサブモデルを利用して、時間畳み込み処理済み画像特徴の空間次元（Ｈ，Ｗ）を処理し、畳み込み処理済み画像特徴を得ることができる。ここで、畳み込み演算子のパラメータ量のサイズは、（Ｃ／４）×（Ｃ／４）×３×３である。最後に、特徴次元を［Ｔ，Ｃ／４，Ｈ，Ｗ］から［Ｈ，Ｗ，Ｃ／４，Ｔ］に復元し、画像サブ特徴Ｘ２に対応する畳み込み処理済み画像特徴Ｘ_２ ^０を得ることができる。

ステップＳ３０５：ネットワークデバイスは、画像サブ特徴Ｘ２に対応する畳み込み処理済み画像特徴と、画像サブ特徴Ｘ３とを加算融合し、画像サブ特徴Ｘ３に対応する融合された画像特徴を取得する。

ステップＳ３０６：ネットワークデバイスは、画像サブ特徴Ｘ３に対応する融合された画像特徴に対して畳み込み処理を行い、画像サブ特徴Ｘ３に対応する畳み込み処理済み画像特徴を取得する。

ステップＳ３０７：ネットワークデバイスは、画像サブ特徴Ｘ３に対応する畳み込み処理済み画像特徴と、画像サブ特徴Ｘ４とを加算融合し、画像サブ特徴Ｘ４に対応する融合された画像特徴を取得する。

ステップＳ３０８：ネットワークデバイスは、画像サブ特徴Ｘ４に対応する融合された画像特徴に対して畳み込み処理を行い、画像サブ特徴Ｘ４に対応する畳み込み処理済み画像特徴を取得する。

ステップＳ３０９：ネットワークデバイスは、畳み込み処理済み画像特徴の複数のチャネルによって、複数の畳み込み処理済み画像特徴と、画像サブ特徴Ｘ１とをスプライシングし、スプライシングされた画像特徴を取得する。

実際の適用では、例えば、図７に示すように、ネットワークデバイスは、畳み込み処理済み画像特徴の複数のチャネルによって、画像サブ特徴Ｘ２に対応する畳み込み処理済み画像特徴Ｘ_２ ^０、画像サブ特徴Ｘ３に対応する畳み込み処理済み画像特徴Ｘ_３ ^０、画像サブ特徴Ｘ４に対応する畳み込み処理済み画像特徴Ｘ_４ ^０、及び画像サブ特徴Ｘ１（即ちＸ_１ ^０）をスプライシングすることにより、スプライシングされた画像特徴Ｘ^０を得ることができる。その後、積み重ねられた複数の多重情報融合モジュールを利用して特徴を引き続き処理することで、より強力でより安定した長時間情報モデリング機能を実現する。

ステップＳ３１０：ネットワークデバイスは、スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。

実際の適用では、例えば、ネットワークデバイスは、スプライシングされた画像特徴に基づいて、Ｔ個のビデオフレームに対応するコンテンツ予測確率を予測する。そして、平均化時間を利用して、Ｔ個のビデオフレームに対応するコンテンツ予測確率を融合し、ターゲットビデオに対応するビデオコンテンツ予測確率を得る。その後、このビデオコンテンツ予測確率に基づいて、棒グラフを相応に作成するとともに、その中で確率が最も大きいと考えられるビデオコンテンツを、ターゲットビデオに対応するビデオコンテンツと特定する。

以上によれば、本出願の実施形態では、ネットワークデバイスは、ターゲットビデオからＴ個のビデオフレームを取得し、このＴ個のビデオフレームに対応する画像特徴Ｘを抽出し、画像特徴Ｘの複数のチャネルに基づいて、画像特徴Ｘを画像サブ特徴Ｘ１、画像サブ特徴Ｘ２、画像サブ特徴Ｘ３、および画像サブ特徴Ｘ４に分割し、画像サブ特徴Ｘ２に対して畳み込み処理を行い、画像サブ特徴Ｘ２に対応する畳み込み処理済み画像特徴を取得し、画像サブ特徴Ｘ２に対応する畳み込み処理済み画像特徴と、画像サブ特徴Ｘ３とを加算融合し、画像サブ特徴Ｘ３に対応する融合された画像特徴を取得し、画像サブ特徴Ｘ３に対応する融合された画像特徴を畳み込み処理し、画像サブ特徴Ｘ３に対応する畳み込み処理済み画像特徴を取得し、画像サブ特徴Ｘ３に対応する畳み込み処理済み画像特徴と、画像サブ特徴Ｘ４とを加算融合し、画像サブ特徴Ｘ４に対応する融合された画像特徴を取得し、画像サブ特徴Ｘ４に対応する融合された画像特徴を畳み込み処理し、画像サブ特徴Ｘ４に対応する畳み込み処理済み画像特徴を取得し、畳み込み処理済み画像特徴の複数のチャネルによって、複数の畳み込み処理済み画像特徴と、画像サブ特徴Ｘ１とをスプライシングし、スプライシングされた画像特徴を取得し、スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。この技術案において、１つの初期混合畳み込みモデルを複数の混合畳み込みモデルに分割すると共に、２つずつの混合畳み込みモデルの間に残差接続方式による接続を入れることによって、複数の混合畳み込みモデルは階層構造に構成され得る。これにより、ビデオ特徴は複数回畳み込み処理され、時間限度での受容野が拡大され、かつ各フレームのビデオ特徴は効果的に遠く離れたビデオフレームと関係付けられることが可能となる。また、この方法によれば、余計なパラメータ量が増えることはなく、複雑な演算もいらないから、ビデオコンテンツの認識効率を向上させることが可能となる。

以上の方法をより効果的に実現するためには、本出願の実施形態は、さらに、コンピュータデバイスに統合され得るビデオコンテンツ認識装置を提供する。このコンピュータデバイスは、サーバ、端末などを含み得る。ここで、端末としては、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、またはパーソナルコンピュータ（ＰＣ、ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などが挙げられる。

例えば、図１１に示すように、このビデオコンテンツ認識装置は、取得モジュール１１１と、分割モジュール１１２と、特定モジュール１１３と、融合モジュール１１４と、スプライシングモジュール１１５と、コンテンツ特定モジュール１１６とを備える。具体的には、
取得モジュール１１１は、ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出する。ここで、前記ビデオフレームセットには、少なくとも２つのビデオフレームが含まれている；
分割モジュール１１２は、前記画像特徴の複数のチャネルに基づいて、前記画像特徴を複数の画像サブ特徴に分割する。ここで、前記複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれている；
特定モジュール１１３は、前記所定の順序に従って、前記複数の画像サブ特徴から、処理すべき画像サブ特徴を特定する；
融合モジュール１１４は、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する；
スプライシングモジュール１１５は、前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得する；
コンテンツ特定モジュール１１６は、前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定する。

一実施形態では、前記融合モジュール１１４は、第１の特定サブモジュールと、畳み込みサブモジュールと、第２の特定サブモジュールと、融合サブモジュールと、更新サブモジュールと繰り返しサブモジュールとを備える。具体的には、
第１の特定サブモジュールは、前記所定の順序に従って、複数の処理すべき画像サブ特徴から、最初の処理すべき画像サブ特徴を特定する；
畳み込みサブモジュールは、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得する；
第２の特定サブモジュールは、前記所定の順序及び前記最初の処理すべき画像サブ特徴に基づいて、前記複数の処理すべき画像サブ特徴から、現在の処理すべき画像サブ特徴を特定する；
融合サブモジュールは、前記現在の処理すべき画像サブ特徴と、前記畳み込み処理済み画像特徴とを融合することにより、融合された画像特徴を取得する；
更新サブモジュールは、前記融合された画像特徴を、最初の処理すべき画像サブ特徴に更新する；
繰り返しサブモジュールは、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を得るまで、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップを繰り返して実行する。

一実施形態では、前記スプライシングモジュール１１５は、具体的に、
前記所定の順序に従って、前記複数の画像サブ特徴から、保留すべきオリジナル画像サブ特徴を特定し、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴と、前記オリジナル画像サブ特徴とをスプライシングし、スプライシングされた画像特徴を取得する。

一実施形態では、前記取得モジュール１１１は、第３の特定サブモジュールと、分割サブモジュールと、構築サブモジュールと、抽出サブモジュールとを備える。具体的には、
第３の特定サブモジュールは、ターゲットビデオを特定する；
分割サブモジュールは、前記ターゲットビデオを複数のターゲットサブビデオに分割する；
構築サブモジュールは、各々のターゲットサブビデオから１つのビデオフレームを取得するとともに、複数のビデオフレームによってビデオフレームセットを構築する；
抽出サブモジュールは、前記ビデオフレームセットから特徴を抽出し、前記ビデオフレームセットに対応する画像特徴を取得する。

一実施形態では、前記分割サブモジュールは、具体的に、
所定の画像の数を特定し、
前記所定の画像の数、及び前記ターゲットビデオのビデオ長さに基づいて、各々のターゲットビデオに対応するサブビデオ長さを特定し、
前記サブビデオ長さに基づいて、前記ターゲットビデオを複数のターゲットサブビデオに分割する。

一実施形態では、前記畳み込みサブモジュールは、第４の特定サブモジュールと、モデル分割サブモジュールと、畳み込み処理サブモジュールとを備える。具体的には、
第４の特定サブモジュールは、初期混合畳み込みモデルを特定する；
モデル分割サブモジュールは、前記画像特徴の複数のチャネルに基づいて、前記初期混合畳み込みモデルを複数の混合畳み込みモデルに分割する；
畳み込み処理サブモジュールは、前記混合畳み込みモデルに基づいて、前記最初の処理すべき画像サブ特徴に対して、畳み込み処理を行い、畳み込み処理済み画像特徴を取得する。

一実施形態では、前記畳み込み処理サブモジュールは、具体的に、
前記１次元混合畳み込みモデルに基づいて、時間次元で前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得し、
前記２次元混合畳み込みモデルに基づいて、空間次元で前記時間畳み込み処理された画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得する。

一実施形態では、前記コンテンツ特定モジュール１１６は、
前記スプライシングされた画像特徴に基づいて、ビデオフレームセットに含まれる各々のビデオフレームに対応するコンテンツ予測確率を予測し、
複数のビデオフレームに対応するコンテンツ予測確率を融合することにより、前記ターゲットビデオに対応するビデオコンテンツ予測確率を取得し、
前記ビデオコンテンツ予測確率に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定する。

具体的に実施するとき、以上の各々のユニットは、独立した実体として実現されてもよく、さらに任意に組み合わせて、同一または複数の実体として実現されることができる。以上の各々のユニットの具体的な実施は、以上の方法の実施形態を参照することができ、ここで、重複して記述する必要がない。

以上によれば、本出願の実施形態では、取得モジュール１１１によって、ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出し、ここでビデオフレームセットには、少なくとも２つのビデオフレームが含まれており、分割モジュール１１２によって、画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割し、ここで複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれており、特定モジュール１１３によって、所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定し、融合モジュール１１４によって、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得し、スプライシングモジュール１１５によって、畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得し、コンテンツ特定モジュール１１６によって、スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。この技術案において、１つの初期混合畳み込みモデルを複数の混合畳み込みモデルに分割すると共に、２つずつの混合畳み込みモデルの間に残差接続方式による接続を入れることによって、複数の混合畳み込みモデルは階層構造に構成され得る。これにより、ビデオ特徴は複数回畳み込み処理され、時間限度での受容野が拡大され、かつ各フレームのビデオ特徴は効果的に遠く離れたビデオフレームと関係付けられることが可能となる。また、この方法によれば、余計なパラメータ量が増えることはなく、複雑な演算もいらないから、ビデオコンテンツの認識効率を向上させることが可能となる。

本出願の実施形態は、コンピュータデバイスをさらに提供する。このコンピュータデバイスは、本出願の実施形態に係る何れかのビデオコンテンツ認識装置を統合することができる。

例えば、図１２に示すように、本出願の実施形態に係るコンピュータデバイスの構造模式図を示している。具体的には、
このコンピュータデバイスは、１つ以上の処理カーネルのプロセッサ１２１、１つ以上のコンピュータ可読記憶媒体のメモリ１２２、電源１２３および入力ユニット１２４などの構成要素を含み得る。図１２に示されるコンピュータデバイス構造は、コンピュータデバイスを制限するものではなく、図示されるものよりも多いまたは少ない構成要素を含み得るか、またはいくつかの構成要素を組み合わせるか、または異なる構成要素を配置し得ることは、当業者に理解されるべきであろう。

プロセッサ１２１は、このコンピュータデバイスの制御センターであり、各種のインターフェースおよび回線を利用してコンピュータデバイス全体の各部を接続し、メモリ１２２に記憶されたコンピュータ可読命令および／またはモジュールを稼動または実行させ、メモリ１２２に記憶されたデータを呼び出すことによって、コンピュータデバイスの様々な機能を実行し、これでコンピュータデバイス全体を監視する。オプションとして、プロセッサ１２１は、１つ以上の処理カーネルを含み得る。好ましくは、プロセッサ１２１は、アプリケーションプロセッサとモデムプロセッサとを統合することができる。ここで、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインターフェースおよびアプリケーションプログラムなどを処理する。モデムプロセッサは、主にワイヤレス通信を取り扱うものである。なお、上記モデムプロセッサは、プロセッサ１２１に統合されてもよいことは、理解されるべきであろう。

メモリ１２２は、コンピュータ可読命令およびモジュールを格納するために使用され得る。プロセッサ１２１は、メモリ１２２に格納されたコンピュータ可読命令およびモジュールを実行することによって、様々な機能的アプリケーションおよびデータ処理を実行する。メモリ１２２は、主に、コンピュータ可読命令格納エリアおよびデータ格納エリアを含み得る。コンピュータ可読命令格納エリアには、オペレーティングシステム、少なくとも１つの機能（例えば音声再生機能、画面再生機能など）に必要なアプリケーションプログラムが格納されており、データ格納エリアには、コンピュータデバイスの用途に応じて作成されたデータ等が格納されている。また、メモリ１２２は、高速ランダムアクセスメモリを含み得るし、また、例えば少なくとも１つの磁気ディスク記憶装置、フラッシュ記憶装置、または他の揮発性固体記憶装置などの不揮発性記憶を含み得る。相応に、メモリ１２２はまた、プロセッサ１２１を介したメモリ１２２へのアクセスを提供するためのメモリコントローラを含み得る。

コンピュータデバイスはまた、さらに、各構成要素に電力を供給するための電源１２３を備える。好ましくは、電源１２３は、電力管理システムを介してプロセッサ１２１に論理的に接続されており、これによって、電力管理システムを介して充電、放電、および電力消費管理などの管理機能を実現する。電源１２３はまた、１つ以上のＤＣ又はＡＣ電源、再充電システム、電力故障検出回路、電力変換器またはインバータ、電力状態インジケータなど任意の構成要素を含み得る。

コンピュータデバイスは、さらに、入力した数字または文字情報を受信し、ユーザ設定および機能制御に関連するキーボード、マウス、ジョイスティック、光学またはトラックボール信号入力を生成するための入力ユニット１２４を含み得る。

図示されないが、コンピュータデバイスはまた、表示ユニットなどを含み得るが、ここで重複して記述しない。具体的には、本実施形態では、コンピュータデバイス内のプロセッサ１２１は、以下のコンピュータ可読命令に従って、１つ以上のアプリケーションプログラムのプロセスに対応する実行可能ファイルをメモリ１２２にロードし、メモリ１２２に格納されたアプリケーションプログラムをプロセッサ１２１に実行させることによって、以下のような様々な機能を実現することができ、具体的には以下の通りである。すなわち、
ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出し、ここで、ビデオフレームセットには、少なくとも２つのビデオフレームが含まれており、画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割し、ここで、複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれており、所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定し、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得し、畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得し、スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。

以上の各々操作の具体的な実施は、上記の実施形態を参照できるが、ここで重複して記述する必要がない。

以上によれば、本出願の実施形態では、ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出し、ここで、ビデオフレームセットには、少なくとも２つのビデオフレームが含まれており、画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割し、ここで、複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれており、所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定し、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得し、畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得し、スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。この技術案において、１つの初期混合畳み込みモデルを複数の混合畳み込みモデルに分割すると共に、２つずつの混合畳み込みモデルの間に残差接続方式による接続を入れることによって、複数の混合畳み込みモデルは階層構造に構成され得る。これにより、ビデオ特徴は複数回畳み込み処理され、時間限度での受容野が拡大され、かつ各フレームのビデオ特徴は効果的に遠く離れたビデオフレームと関係付けられることが可能となる。また、この方法によれば、余計なパラメータ量が増えることはなく、複雑な演算もいらないから、ビデオコンテンツの認識効率を向上させることが可能となる。

当業者であれば理解できるように、上記の実施形態に係る様々な方法におけるステップの全部または一部が、コンピュータ可読命令によって、またはコンピュータ可読命令に従って関連するハードウェアを制御することによって達成できる。このコンピュータ可読命令を、コンピュータ読み取り可能な記憶媒体に格納し、プロセッサによってロードおよび実行することができる。

そのため、本出願の実施形態は、複数のコンピュータ可読命令が格納されているコンピュータデバイスを提供する。このコンピュータ可読命令はプロセッサによってロードされて、本出願の実施形態に係る何れかのビデオコンテンツ認識方法を実行することができる。例えば、このコンピュータ可読命令は、以下のステップ、すなわち、
ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出するステップであって、ここでビデオフレームセットには、少なくとも２つのビデオフレームが含まれているステップ、画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割するステップであって、ここで複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれているステップ、所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定するステップ、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得するステップ、畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得するステップ、スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するステップを実行できる。

以上の各々の操作の具体的な実施は、上記の実施形態を参照できるが、ここで重複して記述する必要がない。

ここで、この記憶媒体は、読み取り専用メモリ（ＲＯＭ，ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ，ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスクまたは光ディスクなどを含み得る。

記憶媒体に記憶された命令は、本出願の実施形態に係る何れかのビデオコンテンツ認識方法のステップを実行できるので、本出願の実施形態に係る何れかのビデオコンテンツ認識方法によって達成できる有益な効果を実現でき、詳しくは上記の実施形態を参照できるが、ここで重複して記述する必要がない。

一実施形態では、コンピュータ可読命令を含むコンピュータプログラム製品またはコンピュータ可読命令を提供する。このコンピュータ可読命令は、コンピュータ読み取り可能な記憶媒体に格納されている。コンピュータデバイスのプロセッサはこのコンピュータ可読命令をコンピュータ読み取り可能な記憶媒体から読み取ると共に、このコンピュータ可読命令を実行することによって、前記各方法の実施形態におけるステップをこのコンピュータデバイスに実行させる。

以上では、本出願の実施形態に係るビデオコンテンツ認識方法、デバイス、記憶媒体、および電子デバイスについて詳しく説明する。本明細書では、具体的な事例を用いて本出願の原理および実施形態について記載するが、以上の実施形態に対する説明は、本出願の方法及びその本旨を理解するためのものに過ぎない。また、当業者にとって、本出願の構想に従って、具体的な実施形態や適用範囲を修正したりする場合がある。以上のとおり、本明細書の内容は、本出願を制限するものとして解釈されるべきではない。

Claims

コンピュータデバイスによって実行されるビデオコンテンツ認識方法であって、
ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出するステップであって、前記ビデオフレームセットには、少なくとも２つのビデオフレームが含まれているステップと、
前記画像特徴の複数のチャネルに基づいて、前記画像特徴を複数の画像サブ特徴に分割するステップであって、前記複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれているステップと、
前記所定の順序に従って、前記複数の画像サブ特徴から、処理すべき画像サブ特徴を特定するステップと、
現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得するステップと、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得するステップと、
前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するステップと、
を含む、ビデオコンテンツ認識方法。
現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する前記ステップは、
前記所定の順序に従って、複数の処理すべき画像サブ特徴から、最初の処理すべき画像サブ特徴を特定するステップと、
前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップと、
前記所定の順序及び前記最初の処理すべき画像サブ特徴に基づいて、前記複数の処理すべき画像サブ特徴から、現在の処理すべき画像サブ特徴を特定するステップと、
前記現在の処理すべき画像サブ特徴と、前記畳み込み処理済み画像特徴とを融合することにより、融合された画像特徴を取得するステップと、
前記融合された画像特徴を、最初の処理すべき画像サブ特徴に更新するステップと、
各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を得るまで、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップを繰り返して実行するステップと、
を含む、請求項１に記載のビデオコンテンツ認識方法。
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得する前記ステップは、
前記所定の順序に従って、前記複数の画像サブ特徴から、保留すべきオリジナル画像サブ特徴を特定するステップと、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴と、前記オリジナル画像サブ特徴とをスプライシングし、スプライシングされた画像特徴を取得するステップと、
を含む、請求項１または２に記載のビデオコンテンツ認識方法。
ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出する前記ステップは、
ターゲットビデオを特定するステップと、
前記ターゲットビデオを複数のターゲットサブビデオに分割するステップと、
各々のターゲットサブビデオから１つのビデオフレームを取得するとともに、複数のビデオフレームによってビデオフレームセットを構築するステップと、
前記ビデオフレームセットから特徴を抽出し、前記ビデオフレームセットに対応する画像特徴を取得するステップと、
を含む、請求項１～３のいずれか1項に記載のビデオコンテンツ認識方法。
前記ターゲットビデオを複数のターゲットサブビデオに分割する前記ステップは、
所定の画像の数を特定するステップと、
前記所定の画像の数、及び前記ターゲットビデオのビデオ長さに基づいて、各々のターゲットビデオに対応するサブビデオ長さを特定するステップと、
前記サブビデオ長さに基づいて、前記ターゲットビデオを複数のターゲットサブビデオに分割するステップと、
を含む、請求項４に記載のビデオコンテンツ認識方法。
前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得する前記ステップは、
初期混合畳み込みモデルを特定するステップと、
前記画像特徴の複数のチャネルに基づいて、前記初期混合畳み込みモデルを複数の混合畳み込みモデルに分割するステップと、
前記混合畳み込みモデルに基づいて、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップと、
を含む、請求項２に記載のビデオコンテンツ認識方法。
前記混合畳み込みモデルには、１次元混合畳み込みサブモデルと、２次元混合畳み込みサブモデルが含まれており、
前記混合畳み込みモデルに基づいて、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得する前記ステップは、
前記１次元混合畳み込みサブモデルに基づいて、時間次元で前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップと、
前記２次元混合畳み込みサブモデルに基づいて、空間次元で前記時間次元で畳み込み処理された画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップと、
を含む、請求項６に記載のビデオコンテンツ認識方法。
前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定する前記ステップは、
前記スプライシングされた画像特徴に基づいて、ビデオフレームセットに含まれる各々のビデオフレームに対応するコンテンツ予測確率を予測するステップと、
複数のビデオフレームに対応するコンテンツ予測確率を融合することにより、前記ターゲットビデオに対応するビデオコンテンツ予測確率を取得するステップと、
前記ビデオコンテンツ予測確率に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するステップと、
を含む、請求項１～７の何れか１項に記載のビデオコンテンツ認識方法。
ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出する取得モジュールであって、前記ビデオフレームセットには、少なくとも２つのビデオフレームが含まれている取得モジュールと、
前記画像特徴の複数のチャネルに基づいて、前記画像特徴を複数の画像サブ特徴に分割する分割モジュールであって、前記複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれている分割モジュールと、
前記所定の順序に従って、前記複数の画像サブ特徴から、処理すべき画像サブ特徴を特定する特定モジュールと、
現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する融合モジュールと、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得するスプライシングモジュールと、
前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するコンテンツ特定モジュールと、
を備える、ビデオコンテンツ認識装置。
コンピュータプログラムであって、プロセッサにより実行されると、請求項１～８の何れか１項に記載のビデオコンテンツ認識方法を実行するコンピュータプログラム。
コンピュータ可読命令が記憶されているメモリと、コンピュータ可読命令が実行されると、請求項１～８のいずれか１項に記載のビデオコンテンツ認識方法を実行させる１つ以上のプロセッサとを備える、コンピュータデバイス。