JP2021536048A

JP2021536048A - ビデオ処理方法及び装置、電子機器、並びに記憶媒体

Info

Publication number: JP2021536048A
Application number: JP2020571778A
Authority: JP
Inventors: ジャン，ボユアン; ワン，モンモン; カン，ウェイハオ
Original assignee: Zhejiang Sensetime Technology Development Co Ltd
Current assignee: Zhejiang Sensetime Technology Development Co Ltd
Priority date: 2019-07-19
Filing date: 2019-11-29
Publication date: 2021-12-23
Anticipated expiration: 2039-11-29
Also published as: CN112241673B; TW202105202A; WO2021012564A1; TWI738172B; CN112241673A; KR20210090238A; JP7090183B2; US20210103733A1; SG11202011781UA

Abstract

本開示はビデオ処理方法及び装置、電子機器、並びに記憶媒体に関し、前記方法は、特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、複数の目標ビデオフレームの特徴マップを取得することと、Ｍ段の動作認識ネットワークにより複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、複数の目標ビデオフレームの動作認識特徴を取得することと、複数の目標ビデオフレームの動作認識特徴に基づいて、処理対象ビデオの分類結果を決定することと、を含む。本開示の実施例によるビデオ処理方法によれば、多段の動作認識ネットワークにより目標ビデオフレームの動作認識特徴を取得し、さらに処理対象ビデオの分類結果を取得することができ、オプティカルフロー又は３Ｄ畳み込みなどの処理によって動作認識を行う必要がなく、演算量が削減され、処理効率が向上されて、処理対象ビデオをオンラインでリアルタイムに分類することができ、前記ビデオ処理方法の実用性が向上される。【選択図】図１

Description

本開示は、コンピュータビジョン技術分野に関し、特に、ビデオ処理方法及び装置、電子機器、並びに記憶媒体に関する。

＜関連出願の相互参照＞
本開示は、２０１９年０７月１９日に中国国家知識産権局に提出された、出願番号２０１９１０６５６０５９．９、出願名称「ビデオ処理方法及び装置、電子機器、並びに記憶媒体」の中国特許出願の優先権を主張し、その内容の全てが参照によって本開示に組み込まれる。

ビデオは、複数のビデオフレームで構成され、動作や行為などの情報を記録できて、適用シーンが多様化している。ただし、ビデオは、フレーム数が多く、処理演算量が大きいだけでなく、時間との関連性を有し、例えば、複数のビデオフレームにおけるコンテンツ及び各ビデオフレームに対応する時間によって動作又は行為などの情報を表現する。関連技術において、時空間特徴や動き特徴などは、オプティカルフロー又は３Ｄ畳み込みなどの処理によって取得することができる。

本開示は、ビデオ処理方法及び装置、電子機器、並びに記憶媒体を提案する。

本開示の一方面では、特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得することと、Ｍ段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得し、ここで、Ｍは１以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含むことと、前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定することと、を含むビデオ処理方法を提供する。
本開示の実施例によるビデオ処理方法によれば、多段の動作認識ネットワークにより目標ビデオフレームの動作認識特徴を取得し、さらに処理対象ビデオの分類結果を取得することができ、オプティカルフロー又は３Ｄ畳み込みなどの処理によって動作認識を行う必要がなく、演算量が削減され、処理効率が向上されて、処理対象ビデオをオンラインでリアルタイムに分類することができ、前記ビデオ処理方法の実用性が向上される。
可能な一実現形態において、Ｍ段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得することは、１段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、１段目の動作認識特徴を取得することと、ｉ段目の動作認識ネットワークによりｉ−１段目の動作認識特徴を処理し、ｉ段目の動作認識特徴を取得し、ｉは整数で１＜ｉ＜Ｍであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応することと、Ｍ段目の動作認識ネットワークによりＭ−１段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得することと、を含む。
可能な一実現形態において、ｉ段目の動作認識ネットワークによりｉ−１段目の動作認識特徴を処理し、ｉ段目の動作認識特徴を取得することは、前記ｉ−１段目の動作認識特徴に対して第１の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第１の特徴情報を取得することと、前記第１の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することと、前記第１の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することと、少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記ｉ段目の動作認識特徴を取得することと、を含む。
可能な一実現形態において、少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記ｉ段目の動作認識特徴を取得することは、前記時空間特徴情報、前記動き特徴情報及び前記ｉ−１段目の動作認識特徴に基づいて、前記ｉ段目の動作認識特徴を取得することを含む。
可能な一実現形態において、前記第１の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することは、前記複数の目標ビデオフレームの特徴マップに対応する第１の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第１の特徴情報と次元が異なる第２の特徴情報を取得することと、前記第２の特徴情報の各チャネルに対してそれぞれ第２の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第３の特徴情報を取得することと、前記第３の特徴情報に対して次元の再構成処理を行い、前記第１の特徴情報と次元が同じである第４の特徴情報を取得することと、前記第４の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得することと、を含む。
可能な一実現形態において、前記第１の特徴情報は複数の行ベクトル又は列ベクトルを含み、前記複数の目標ビデオフレームの特徴マップに対応する第１の特徴情報に対して次元の再構成処理をそれぞれ行うことは、前記第１の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、１つの行ベクトル又は列ベクトルを含む前記第２の特徴情報を取得することを含む。

このように、各チャネルの時空間情報を取得し、時空間情報を完全にすることができ、また、再構成処理により第１の特徴情報の次元を変更することで、演算量の少ない方法により畳み込み処理を行うことができ、例えば１Ｄ畳み込み処理により第２の畳み込み処理を行うことができ、演算を簡略化し、処理効率を向上させることができる。
可能な一実現形態において、前記第１の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することは、前記第１の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第５の特徴情報を取得することと、ｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報に対して、第３の畳み込み処理を行って、前記ｋ番目の目標ビデオフレームに対応する第５の特徴情報との減算をし、ｋ番目の目標ビデオフレームに対応する第６の特徴情報を取得し、ここで、ｋは整数で１≦ｋ＜Ｔであり、Ｔは目標ビデオフレームの数であり、かつＴは１より大きい整数であり、前記第６の特徴情報は前記ｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報と前記ｋ番目の目標ビデオフレームに対応する第５の特徴情報との間の動き差分情報を表すことと、前記目標ビデオフレームのそれぞれに対応する第６の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得することと、を含む。

このように、第５の特徴情報に対して第３の畳み込み処理を行った後、直前の第５の特徴情報との減算処理により、前記動き特徴情報を取得することができ、演算を簡略化し、処理効率を向上させることができる。
可能な一実現形態において、前記時空間特徴情報、前記動き特徴情報及び前記ｉ−１段目の動作認識特徴に基づいて、前記ｉ段目の動作認識特徴を取得することは、前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第７の特徴情報を取得することと、前記第７の特徴情報に対して第４の畳み込み処理を行って、前記ｉ−１段目の動作認識特徴との加算処理を行い、前記ｉ段目の動作認識特徴を取得することと、を含む。
可能な一実現形態において、前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定することは、各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得することと、各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得することと、を含む。
可能な一実現形態において、前記方法は、処理対象ビデオから複数の目標ビデオフレームを決定することをさらに含む。
可能な一実現形態において、処理対象ビデオの複数のビデオフレームから複数の目標ビデオフレームを決定することは、前記処理対象ビデオを複数のビデオセグメントに分割することと、各ビデオセグメント毎に少なくとも１つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得することと、を含む。

このように、処理対象ビデオの複数のビデオフレームから目標ビデオフレームを決定し、続いて目標ビデオフレームを処理することができ、演算リソースを節約し、処理効率を向上させることができる。
可能な一実現形態において、前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記Ｍ段の動作認識ネットワークを含み、前記方法は、サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うことをさらに含む。
可能な一実現形態において、サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うことは、前記サンプルビデオから複数のサンプルビデオフレームを決定することと、前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定することと、前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定することと、前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、を含む。
本開示の他の一方面では、特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するための特徴抽出モジュールと、Ｍ段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得するために用いられる動作認識モジュールであって、Ｍは１以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含む動作認識モジュールと、前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定するための分類モジュールと、を含むビデオ処理装置を提供する。
可能な一実現形態において、前記動作認識モジュールはさらに、１段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、１段目の動作認識特徴を取得し、ｉ段目の動作認識ネットワークによりｉ−１段目の動作認識特徴を処理し、ｉ段目の動作認識特徴を取得し、ｉは整数で１＜ｉ＜Ｍであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応し、Ｍ段目の動作認識ネットワークによりＭ−１段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記ｉ−１段目の動作認識特徴に対して第１の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第１の特徴情報を取得し、前記第１の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得し、前記第１の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得し、少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記ｉ段目の動作認識特徴を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記時空間特徴情報、前記動き特徴情報及び前記ｉ−１段目の動作認識特徴に基づいて、前記ｉ段目の動作認識特徴を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記複数の目標ビデオフレームの特徴マップに対応する第１の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第１の特徴情報と次元が異なる第２の特徴情報を取得し、前記第２の特徴情報の各チャネルに対してそれぞれ第２の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第３の特徴情報を取得し、前記第３の特徴情報に対して次元の再構成処理を行い、前記第１の特徴情報と次元が同じである第４の特徴情報を取得し、前記第４の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得するように構成される。
可能な一実現形態において、前記第１の特徴情報は複数の行ベクトル又は列ベクトルを含み、前記動作認識モジュールはさらに、前記第１の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、１つの行ベクトル又は列ベクトルを含む前記第２の特徴情報を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記第１の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第５の特徴情報を取得し、ｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報に対して、第３の畳み込み処理を行って、前記ｋ番目の目標ビデオフレームに対応する第５の特徴情報との減算をし、ｋ番目の目標ビデオフレームに対応する第６の特徴情報を取得し、ここで、ｋは整数で１≦ｋ＜Ｔであり、Ｔは目標ビデオフレームの数であり、かつＴは１より大きい整数であり、前記第６の特徴情報は前記ｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報と前記ｋ番目の目標ビデオフレームに対応する第５の特徴情報との間の動き差分情報を表し、前記目標ビデオフレームのそれぞれに対応する第６の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第７の特徴情報を取得し、前記第７の特徴情報に対して第４の畳み込み処理を行って、前記ｉ−１段目の動作認識特徴との加算処理を行い、前記ｉ段目の動作認識特徴を取得するように構成される。
可能な一実現形態において、前記分類モジュールはさらに、各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得し、各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得するように構成される。
可能な一実現形態において、前記装置は、処理対象ビデオから複数の目標ビデオフレームを決定するための決定モジュールをさらに含む。
可能な一実現形態において、前記決定モジュールはさらに、前記処理対象ビデオを複数のビデオセグメントに分割し、各ビデオセグメント毎に少なくとも１つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得するように構成される。
可能な一実現形態において、前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記Ｍ段の動作認識ネットワークを含み、前記装置は、サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うためのトレーニングモジュールをさらに含む。
可能な一実現形態において、前記トレーニングモジュールはさらに、前記サンプルビデオから複数のサンプルビデオフレームを決定し、前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定し、前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定し、前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するように構成される。
本開示の一方面では、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記のビデオ処理方法を実行するように構成される電子機器を提供する。
本開示の一方面では、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、前記のビデオ処理方法を実現させるコンピュータ読み取り可能記憶媒体。
本開示の一方面では、コンピュータ読み取り可能コードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能コードが電子機器で実行されると、前記電子機器のプロセッサに、前記のビデオ処理方法を実行するための命令を実行させるコンピュータプログラム。

以上の一般説明及び以下の詳細説明は、本開示を限定するのではなく、単なる例示的及び解釈的なものであることを理解されたい。

以下、図面を参照しながら例示的な実施例について詳細に説明することにより、本開示の他の特徴及び方面は明瞭になる。

明細書の一部として組み込まれた図面は、本開示に合致する実施例を示し、さらに明細書と共に本開示の技術的手段を説明するために用いられる。
図１は、本開示の実施例によるビデオ処理方法のフローチャートを示す。図２は、本開示の実施例によるビデオ処理方法のフローチャートを示す。図３は、本開示の実施例による動作認識ネットワークの模式図を示す。図４は、本開示の実施例による時空間特徴抽出処理の模式図を示す。図５は、本開示の実施例による動き特徴抽出処理の模式図を示す。図６は、本開示の実施例によるビデオ処理方法のフローチャートを示す。図７は、本開示の実施例によるビデオ処理方法の適用模式図を示す。図８は、本開示の実施例によるビデオ処理装置のブロック図を示す。図９は、本開示の実施例によるビデオ処理装置のブロック図を示す。図１０は、本開示の実施例による電子機器のブロック図を示す。図１１は、本開示の実施例による電子機器のブロック図を示す。

以下に図面を参照しながら本開示の様々な例示的実施例、特徴及び方面を詳細に説明する。図面において、同じ符号が同じ又は類似する機能の要素を表す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。

ここの用語「例示的」とは、「例、実施例として用いられること又は説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましい又は優れるものであると理解すべきではない。

本明細書において、用語の「及び／又は」は、関連対象の関連関係を記述するためのものに過ぎず、３つの関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａのみが存在し、ＡとＢの両方が存在し、Ｂのみが存在するという３つの場合を示してもよい。また、本明細書において、用語の「少なくとも１つ」は複数のうちのいずれか１つ又は複数のうちの少なくとも２つの任意の組合を示し、例えば、Ａ、Ｂ及びＣのうちの少なくとも１つを含むということは、Ａ、Ｂ及びＣから構成される集合から選択されたいずれか１つ又は複数の要素を含むことを示してもよい。

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者に既知の方法、手段、要素及び回路について、詳細な説明を行わない。

図１は、本開示の実施例によるビデオ処理方法のフローチャートを示し、図１に示すように、前記方法は、
特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するステップＳ１１と、
Ｍ段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得し、ここで、Ｍは１以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含むステップＳ１２と、
前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定するステップＳ１３と、を含む。

本開示の実施例によるビデオ処理方法によれば、多段の動作認識ネットワークにより目標ビデオフレームの動作認識特徴を取得し、さらに処理対象ビデオの分類結果を取得することができ、オプティカルフロー又は３Ｄ畳み込みなどの処理によって動作認識を行う必要がなく、演算量が削減され、処理効率が向上されて、処理対象ビデオをオンラインでリアルタイムに分類することができ、前記ビデオ処理方法の実用性が向上される。

可能な一実現形態では、前記方法は端末機器で実行されてもよく、端末機器はユーザ機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、移動機器、ユーザ端末、端末、携帯電話、コードレス電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、手持ち機器、計算機器、車載機器、ウェアラブル機器などであってもよく、前記方法はプロセッサがメモリに記憶されているコンピュータ読み取り可能命令を呼び出す方式により実現されてもよい。あるいは、前記方法はサーバによって実行されてもよい。

可能な一実現形態では、前記処理対象ビデオは任意のビデオ取得装置により撮影されたビデオであってもよく、前記処理対象ビデオフレームは１つ以上の対象物（例えば、人、車両及び／又はカップなどの物品）を含んでもよく、前記対象物はある動作（例えば、コップを持ち上げ、歩きなど）を実行していてもよく、本開示では処理対象ビデオの内容について制限しない。

図２は、本開示の実施例によるビデオ処理方法のフローチャートを示し、図２に示すように、前記方法は、
処理対象ビデオから複数の目標ビデオフレームを決定するステップＳ１４を含む。

可能な一実現形態では、ステップＳ１４は、前記処理対象ビデオを複数のビデオセグメントに分割することと、各ビデオセグメント毎に少なくとも１つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得することと、を含んでもよい。

例では、処理対象ビデオは複数のビデオフレームを含んでもよく、処理対象ビデオを分割して、例えば、Ｔ個のビデオセグメント（Ｔは１より大きい整数）に分割するようにしてもよい。且つ、各ビデオセグメントの複数のビデオフレームにおいてサンプリングして、例えば、各ビデオセグメント毎に少なくとも１つの目標ビデオフレームをサンプリングするようにしてもよい。例えば、処理対象ビデオを等間隔に分割し、例えば８又は１６個のセグメントに分割して、各ビデオセグメントにおいてランダムにサンプリングし、例えば、各ビデオセグメント毎にランダムに１つのビデオフレームを目標ビデオフレームとして選択して、これにより複数の目標ビデオフレームを取得してもよい。

例では、処理対象ビデオの全てのビデオフレームにおいてランダムにサンプリングし、複数の目標ビデオフレームを取得するようにしてもよい。あるいは、等間隔で複数のビデオフレームを目標ビデオフレームとして選択し、例えば、１番目のビデオフレーム、１１番目のビデオフレーム、２１番目のビデオフレーム…を選択するようにしてもよい。あるいは、処理対象ビデオの全てのビデオフレームを目標ビデオフレームとして決定するようにしてもよく、本開示は目標ビデオフレームを選択する方式について制限しない。

このように、処理対象ビデオの複数のビデオフレームから目標ビデオフレームを決定し、続いて目標ビデオフレームを処理することができ、演算リソースを節約し、処理効率を向上させることができる。

可能な一実現形態では、ステップＳ１１において、処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するようにしてもよい。ニューラルネットワークの特徴抽出ネットワークにより前記特徴抽出処理を行ってもよく、前記特徴抽出ネットワークは前記ニューラルネットワークの一部（例えば、サブネットワーク又はある階層のニューラルネットワーク）であってもよく、例では、前記特徴抽出ネットワークは１つ以上の畳み込み層を含んで、複数の目標ビデオフレームに対して特徴抽出を行い、複数の目標ビデオフレームの特徴マップを取得するようにしてもよい。

例では、特徴抽出ネットワークによりＴ（Ｔは１より大きい整数である）個の目標ビデオフレームに対して特徴抽出処理を行ってもよく、各目標ビデオフレームをＣ（Ｃは正の整数である）個のチャネルに分割して特徴抽出ネットワークに入力するようにしてもよい。例えば、目標ビデオフレームがＲＧＢ画像である場合、Ｒ、Ｇ、Ｂの３つのチャネルで特徴抽出ネットワークにそれぞれ入力するようにしてもよい。各目標ビデオフレームのサイズはＨ×Ｗ（Ｈは画像の高さであり、画像の高さ方向のピクセル数として表すことができ、Ｗは画像の幅であり、画像の幅方向のピクセル数として表すことができる）であり、従って、特徴抽出ネットワークに入力された目標ビデオフレームの次元はＴ×Ｃ×Ｈ×Ｗである。例えば、Ｔは１６、Ｃは３、ＨとＷはいずれも２２４にすると、特徴抽出ネットワークに入力された目標ビデオフレームの次元は１６×３×２２４×２２４である。

例では、前記ニューラルネットワークは複数の処理対象ビデオに対してバッチ処理を行ってもよく、例えば、特徴抽出ネットワークはＮ個の処理対象ビデオの目標ビデオフレームに対して特徴抽出処理を行ってもよく、特徴抽出ネットワークに入力された目標ビデオフレームの次元はＮ×Ｔ×Ｃ×Ｈ×Ｗである。

例では、特徴抽出ネットワークは次元がＴ×Ｃ×Ｈ×Ｗである目標ビデオフレームに対して特徴抽出処理を行い、Ｔ個の目標ビデオフレームにそれぞれ対応するＴグループの特徴マップを取得するようにしてもよい。例えば、特徴抽出処理では、目標ビデオフレームの特徴マップのサイズは目標ビデオフレームより小さくてもよいが、チャネル数は目標ビデオフレームより多くてもよく、それにより、目標ビデオフレームに対する受容野を大きくすることができ、すなわち、Ｃの値を大きくし、Ｈ、Ｗの値を小さくするようにしてもよい。例えば、特徴抽出ネットワークに入力された目標ビデオフレームの次元が１６×３×２２４×２２４である場合、目標ビデオフレームのチャネル数を１６倍拡大し、すなわち、Ｃの値を４８に増やして、目標ビデオフレームの特徴マップサイズを４倍縮小し、すなわち、ＨとＷの値をいずれも５６に縮小するようにしてもよく、各目標ビデオフレームに対応する特徴マップのチャネル数が４８になり、各特徴マップのサイズが５６×５６になり、特徴マップの次元が１６×４８×５６×５６になってもよい。以上のデータは例示であり、本開示は目標ビデオフレームと特徴マップの次元について制限しない。

可能な一実現形態では、ステップＳ１２において、Ｔ個の目標ビデオフレームの特徴マップに対して動作認識を行い、各目標ビデオフレームの動作認識特徴をそれぞれ取得するようにしてもよい。ニューラルネットワークのＭ段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行ってもよく、前記Ｍ段の動作認識ネットワークはカスケード接続されたＭ個の動作認識ネットワークであってもよく、各動作認識ネットワークは前記ニューラルネットワークの一部であってもよい。

可能な一実現形態では、ステップＳ１２は、１段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、１段目の動作認識特徴を取得することと、ｉ段目の動作認識ネットワークによりｉ−１段目の動作認識特徴を処理し、ｉ段目の動作認識特徴を取得し、ｉは整数で１＜ｉ＜Ｍであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応することと、Ｍ段目の動作認識ネットワークによりＭ−１段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得することと、を含んでもよい。

可能な一実現形態では、Ｍ段の動作認識ネットワークはカスケード接続され、各段の動作認識ネットワークの出力情報（すなわち、該段の動作認識ネットワークの動作認識特徴）は、次段の動作認識ネットワークの入力情報とするようにしてもよい。１段目の動作認識ネットワークは目標ビデオフレームの特徴マップを処理し、１段目の動作認識特徴を出力して、１段目の動作認識特徴は２段目の動作認識特徴の入力情報として、すなわち、２段目の動作認識ネットワークは１段目の動作認識特徴を処理し、２段目の動作認識特徴を取得して、さらに、２段目の動作認識特徴を３段目の動作認識ネットワークの入力情報とする……ようにしてもよい。

可能な一実現形態では、例としてｉ段目の動作認識ネットワークを取り上げ、ｉ段目の動作認識ネットワークはｉ−１段目の動作認識特徴を入力情報として処理してもよい。ｉ段目の動作認識ネットワークによりｉ−１段目の動作認識特徴を処理し、ｉ段目の動作認識特徴を取得することは、前記ｉ−１段目の動作認識特徴に対して第１の畳み込み処理を行い、第１の特徴情報を取得することと、前記第１の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することと、前記第１の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することと、少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記ｉ段目の動作認識特徴を取得することと、を含む。

図３は本開示の実施例による動作認識ネットワークの模式図を示し、１段目の動作認識ネットワークからＭ段目の動作認識ネットワークの構造はいずれも図３に示すとおりである。例としてｉ段目の動作認識ネットワークを取り上げ、ｉ段目の動作認識ネットワークはｉ−１段目の動作認識特徴を入力情報として処理してもよい。例では、ｉ段目の動作認識ネットワークは、畳み込みカーネルが１×１の２Ｄ畳み込み層によりｉ−１段目の動作認識特徴に対して第１の畳み込み処理を行って、ｉ−１段目の動作認識特徴に対して次元削減を行うようしてもよい。例では、前記畳み込みカーネルが１×１の２Ｄ畳み込み層は、ｉ−１段目の動作認識特徴のチャネル数を削減し、例えば、チャネル数Ｃの数を１６倍削減して、前記第１の特徴情報を取得するようにしてもよい。本開示は、削減の倍数について制限しない。

例では、１段目の動作認識ネットワークにおいて、１段目の動作認識ネットワークは、目標ビデオフレームの特徴マップを入力情報として処理してもよい。１段目の動作認識ネットワークは畳み込みカーネルが１×１の２Ｄ畳み込み層により前記目標ビデオフレームの特徴マップに対して第１の畳み込み処理を行って、特徴マップに対して次元削減を行い、第１の特徴情報を取得するようにしてもよい。

可能な一実現形態では、前記ｉ段目の動作認識ネットワークは第１の特徴情報に対して時空間特徴抽出処理及び動き特徴抽出処理をそれぞれ行ってもよい。第１の特徴情報を２つの分岐（時空間特徴抽出分岐及び動き特徴抽出分岐）によりそれぞれ処理し、それぞれ時空間特徴情報及び動き特徴情報を取得するようにしてもよい。

可能な一実現形態では、時空間特徴情報、動き特徴情報及びｉ−１段目の動作認識特徴に基づいて、ｉ段目の動作認識特徴を取得することは、前記時空間特徴情報、前記動き特徴情報及び前記ｉ−１段目の動作認識特徴に基づいて、前記ｉ段目の動作認識特徴を取得することを含んでもよい。例えば、時空間特徴情報と動き特徴情報とを加算し、加算結果に対して畳み込み処理を行って、さらに、畳み込み処理結果をｉ−１段目の動作認識特徴と加算し、ｉ段目の動作認識特徴を取得するようにしてもよい。

図４は、本開示の実施例による時空間特徴抽出処理の模式図を示し、前記第１の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することは、前記複数の目標ビデオフレームの特徴マップに対応する第１の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第１の特徴情報と次元が異なる第２の特徴情報を取得することと、前記第２の特徴情報の各チャネルに対してそれぞれ第２の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第３の特徴情報を取得することと、前記第３の特徴情報に対して次元の再構成処理を行い、前記第１の特徴情報と次元が同じである第４の特徴情報を取得することと、前記第４の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得することと、を含む。

可能な一実現形態では、第１の特徴情報の次元はＴ×Ｃ×Ｈ×Ｗであり、ここで、パラメータＣ、Ｈ及びＷの値は目標ビデオフレームの特徴マップと異なってもよい。特徴行列により前記第１の特徴情報を表し、前記特徴行列は複数の行ベクトル又は列ベクトルとして表すようにしてもよい。前記第１の特徴情報は複数の行ベクトル又は列ベクトルを含み、前記複数の目標ビデオフレームの特徴マップに対応する第１の特徴情報に対して次元の再構成処理をそれぞれ行うことは、前記第１の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、１つの行ベクトル又は列ベクトルを含む前記第２の特徴情報を取得することを含む。第１の特徴情報（特徴行列）に対して再構成処理を行って、前記特徴行列の次元をＨＷ×Ｃ×Ｔに変換し、第１の特徴情報と次元が異なる第２の特徴情報を取得するようにしてもよく、例えば、第１の特徴情報はＴグループの特徴行列を含み、各グループの特徴行列のチャネル数はＣ（例えば、各グループの特徴行列の数はＣ）であり、各特徴行列のサイズはＨ×Ｗであるとすると、各特徴行列に対して繋ぎ合わせをそれぞれ行い、例えば、特徴行列をＨ個の行ベクトル又はＷ個の列ベクトルと見なし、且つＨ個の行ベクトル又はＷ個の列ベクトルに対して繋ぎ合わせを行い、１つの行ベクトル又は１つの列ベクトルを形成するようにしてもよい。前記行ベクトル又は列ベクトルはつまり前記第２の特徴情報であり、ＨＷの値はＨとＷとの積としてもよい。本開示は再構成処理の方式について制限しない。

可能な一実現形態では、第２の特徴情報の各チャネルに対してそれぞれ第２の畳み込み処理を行い、第３の特徴情報を取得するようにしてもよい。例では、畳み込みカーネルが３×１の１Ｄ深さ分離畳み込み層により第２の特徴情報の各チャネルに対してそれぞれ第２の畳み込み処理を行ってもよい。例えば、Ｔグループの第２の特徴情報のそれぞれはＣ個のチャネルを含み、例えば、各グループの第２の特徴情報の数はＣであるとすると、各グループのＣ個の第２の特徴情報に対してそれぞれ第２の畳み込み処理を行い、Ｔグループの第３の特徴情報を取得するようにしてもよく、Ｔグループの第３の特徴情報は前記複数の目標ビデオフレームの特徴マップの時間特徴を表してもよく、すなわち、前記第３の特徴情報は各目標ビデオフレームの時間情報を有する。例では、各チャネルの第２の特徴情報に含まれる時空間情報は互いに異なう可能で、各チャネルの第２の特徴情報にそれぞれ第２の畳み込み処理を行うことで、各チャネルの第３の特徴情報を取得することができ、且つ再構成後に得られた第２の特徴情報に対し、畳み込みカーネルが３×１の１Ｄ畳み込み層によりチャネル毎にそれぞれ第２の畳み込み処理を行う演算量は少なく、すなわち、行ベクトル又は列ベクトルに対して１Ｄ畳み込み処理を行う方が、特徴マップに対して２Ｄ畳み込み又は３Ｄ畳み込みを行うよりも演算量は少なく、処理効率を向上させることができる。例では、第３の特徴情報の次元は、ＨＷ×Ｃ×Ｔであり、すなわち、各第３の特徴情報は、行ベクトル又は列ベクトルであってもよい。

可能な一実現形態では、第３の特徴情報を再構成し、例えば、各第３の特徴情報（行ベクトル又は列ベクトル形式）を行列に再構成し、第４の特徴情報を取得するようにしてもよい。第４の特徴情報の次元は第１の特徴情報の次元と同じであり、例えば、各第３の特徴情報は長さがＨＷである行ベクトル又は列ベクトルである場合、第３の特徴情報を長さがＨであるＷ個の列ベクトル又は長さがＷであるＨ個の行ベクトルに分割し、前記行ベクトル又は列ベクトルを統合し、特徴行列（すなわち、第４の特徴情報）を取得するようにしてもよく、第４の特徴情報の次元は、Ｔ×Ｃ×Ｈ×Ｗである。本開示は第４の特徴情報のパラメータについて制限しない。

可能な一実現形態では、畳み込みカーネルが３×３の２Ｄ畳み込み層により第４の特徴情報に対して畳み込み処理を行って、第４の特徴情報の空間特徴を抽出し、時空間特徴情報を取得するようにしてもよい。すなわち、第４の特徴情報の対象物の位置を表す特徴情報を抽出して時間情報と融合することで、前記時空間特徴情報を表すことができる。前記時空間特徴情報は次元がＴ×Ｃ×Ｈ×Ｗの特徴行列であってもよく、時空間特徴情報のＨ及びＷは、第４の特徴情報と異なっていてもよい。

このように、各チャネルの時空間情報を取得し、時空間情報を完全にすることができ、また、再構成処理により第１の特徴情報の次元を変更することで、演算量の少ない方法により畳み込み処理を行うことができ、例えば１Ｄ畳み込み処理により第２の畳み込み処理を行うことができ、演算を簡略化し、処理効率を向上させることができる。

図５は、本開示の実施例による動き特徴抽出処理の模式図を示し、前記第１の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することは、前記第１の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第５の特徴情報を取得することと、ｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報に対して、第３の畳み込み処理を行って、前記ｋ番目の目標ビデオフレームに対応する第５の特徴情報との減算をし、ｋ番目の目標ビデオフレームに対応する第６の特徴情報を取得し、ここで、ｋは整数で１≦ｋ＜Ｔであり、Ｔは目標ビデオフレームの数であり、かつＴは１より大きい整数であり、前記第６の特徴情報は前記ｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報と前記ｋ番目の目標ビデオフレームに対応する第５の特徴情報との間の動き差分情報を表すことと、前記目標ビデオフレームのそれぞれに対応する第６の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得することと、を含んでもよい。

可能な一実現形態では、第１の特徴情報のチャネルに対して次元削減処理を行い、第５の特徴情報を取得するようにしてもよく、例えば、畳み込みカーネルが１×１の２Ｄ畳み込み層により第１の特徴情報のチャネルに対して次元削減処理を行い、すなわち、チャネルの数を削減するようにしてもよい。例では、Ｔ×Ｃ×Ｈ×Ｗの次元である第１の特徴情報のチャネル数ＣをＣ／１６に削減してもよい。各目標ビデオフレームに対応する第５の特徴情報を取得し、前記第５の特徴情報の次元はＴ×Ｃ／１６×Ｈ×Ｗであり、すなわち、Ｔ個の目標ビデオフレームにそれぞれ対応するＴグループの第５の特徴情報を含み、各グループの第５の特徴情報の次元はＣ／１６×Ｈ×Ｗである。

可能な一実現形態では、例としてｋ番目の目標ビデオフレームに対応する第５の特徴情報（第５の特徴情報ｋと略称する）を取り上げ、ｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報（第５の特徴情報ｋ＋１と略称する）に対してチャネル毎の第３の畳み込み処理を行い、例えば、畳み込みカーネルが３×３の２Ｄ深さ分離畳み込み層により第５の特徴情報ｋ＋１に対して第３の畳み込み処理を行って、第３の畳み込み処理によって得られた結果と第５の特徴情報ｋとの減算をし、ｋ番目の目標ビデオフレームに対応する第６の特徴情報を取得するようにしてもよく、第６の特徴情報の次元は、第５の特徴情報の次元と同じであり、Ｃ／１６×Ｈ×Ｗである。各第５の特徴情報に対して第３の畳み込み処理をそれぞれ行って、直前の第５の特徴情報との減算をし、第６の特徴情報を取得するようにしてもよい。第６の特徴情報は隣接する２つの目標ビデオフレームに対応する第５の特徴情報の間の動き差分情報を表し、すなわち、２つの目標ビデオフレームにおける対象物の動作差を表し、対象物の動作を決定するために用いることができる。例では、前記減算の手順でＴ−１個の第６の特徴情報を取得することができ、Ｔ番目の目標ビデオフレームに対応する第５の特徴情報と、パラメータが全て０である行列に第３の畳み込み処理を施した処理結果と減算をし、又はパラメータが全て０である行列と直接減算をし、Ｔ番目の目標ビデオフレームに対応する第６の特徴情報を取得するようにしてもよいし、又は、全て０である行列を第６の特徴情報とし、Ｔ番目の目標ビデオフレームに対応する第６の特徴情報を取得するようにしてもよい。すなわち、Ｔ個の目標ビデオフレームにそれぞれ対応するＴ個の第６の特徴情報を合計で取得することができる。さらに、Ｔ個の第６の特徴情報を統合することにより、次元がＴ×Ｃ／１６×Ｈ×Ｗの第６の特徴情報を取得することができる。

可能な一実現形態では、次元がＴ×Ｃ／１６×Ｈ×Ｗの第６の特徴情報に対して特徴抽出処理を行ってもよい。例えば、畳み込みカーネルが１×１の２Ｄ畳み込み層により第６の特徴情報に対して次元拡張を行い、例えば、チャネルの数に対して次元拡張を行い、チャネル数Ｃ／１６をＣに次元拡張して、前記動き特徴情報を取得するようにしてもよい。動き特徴情報の次元は、時空間特徴情報の次元と一致しており、いずれもＴ×Ｃ×Ｈ×Ｗである。

可能な一実現形態では、図３に示すように、前記時空間特徴情報、前記動き特徴情報及び前記ｉ−１段目の動作認識特徴に基づいて、ｉ段目の動作認識特徴を取得するようにしてもよい。例では、該ステップは、前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第７の特徴情報を取得することと、前記第７の特徴情報に対して第４の畳み込み処理を行って、前記ｉ−１段目の動作認識特徴との加算処理を行い、前記ｉ段目の動作認識特徴を取得することと、を含んでもよい。

可能な一実現形態では、時空間特徴情報の次元と動き特徴情報の次元は同じであり、いずれもＴ×Ｃ×Ｈ×Ｗであり、時空間特徴情報と動き特徴情報の複数の特徴情報（例えば、各特徴マップ又は特徴行列）をそれぞれ加算し、第７の特徴情報を取得するようにしてもよく、第７の特徴情報の次元はＴ×Ｃ×Ｈ×Ｗである。

可能な一実現形態では、第７の特徴情報に対して第４の畳み込み処理を行い、例えば、畳み込みカーネルが１×１の２Ｄ畳み込み層により第７の特徴情報に対して第４の畳み込み処理を行い、第７の特徴情報に対して次元拡張を行い、第７の特徴情報の次元をｉ−１段目の動作認識特徴と同じ次元に変換し、例えば、チャネル数を１６倍増やすようにしてもよい。さらに、第４の畳み込み処理の処理結果とｉ−１段目の動作認識特徴とを加算し、ｉ段目の動作認識特徴を取得するようにしてもよい。

可能な一実現形態では、１段目の動作認識ネットワークは目標ビデオフレームの特徴マップと第４の畳み込み処理の処理結果を加算し、１段目の動作認識特徴を取得するようにしてもよく、１段目の動作認識特徴は２段目の動作認識ネットワークの入力情報としてもよい。

このように、第５の特徴情報に対して第３の畳み込み処理を行った後、直前の第５の特徴情報との減算処理により前記動き特徴情報を取得することができて、演算を簡略化し、処理効率を向上させることができる。

可能な一実現形態では、上記の方法によって、動作認識特徴を段階的に取得し、また、上記の方法によって、Ｍ段目の動作認識ネットワークによりＭ−１段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得し、すなわち、Ｍ段目の動作認識特徴を前記目標ビデオフレームの動作認識特徴とするようにしてもよい。

可能な一実現形態では、ステップＳ１３において、複数の目標ビデオフレームの動作認識特徴に基づいて、処理対象ビデオフレームの分類結果を取得するようにしてもよい。ステップＳ１３は、各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得することと、各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得することと、を含んでもよい。

可能な一実現形態では、前記ニューラルネットワークの全結合層により各目標ビデオフレームの動作認識特徴に対して全結合処理を行い、各目標ビデオフレームの分類情報を取得するようにしてもよい。例では、各目標ビデオフレームの分類情報は、特徴ベクトルであってもよく、すなわち、前記全結合層はＴ個の特徴ベクトルを出力してもよい。さらに、前記Ｔ個の特徴ベクトルに対して平均化処理を行い、処理対象ビデオの分類結果を取得するようにしてもよい。前記分類結果は、前記処理対象ビデオが属するカテゴリの確率を表すことができる特徴ベクトルであってもよい。

例では、前記分類結果は４００次元のベクトルであってもよく、該ベクトルは４００個のパラメータを含み、処理対象ビデオが４００種類のカテゴリに属する確率をそれぞれ表す。前記カテゴリは、処理対象ビデオにおける対象物の動作のカテゴリ、例えば、歩行、杯上げ、食事などの動作であってもよい。例えば、該ベクトルにおいて、２番目のパラメータの値が最大である場合、処理対象ビデオが２番目のカテゴリに属する確率は最大であり、処理対象ビデオが２番目のカテゴリに属すると判断することができ、例えば、処理対象ビデオの対象物が歩行中であると判断することができる。本開示は分類結果のタイプ及び次元について制限しない。

本開示の実施例によるビデオ処理方法によれば、処理対象ビデオの複数のビデオフレームから目標ビデオフレームを決定し、続いて目標ビデオフレームを処理することができ、演算リソースを節約し、処理効率を向上させることができる。各段の動作認識ネットワークは、各チャネルの時空間情報を取得し、時空間情報を完全にすることができ、また、再構成処理により第１の特徴情報の次元を変更することで、演算量の少ない方法により畳み込み処理を行うことができ、また、第５の特徴情報に対して第３の畳み込み処理を行った後、直前の第５の特徴情報との減算処理により前記動き特徴情報を取得することができ、演算を簡略化させることができる。さらに、各段の動作認識ネットワークの動作認識結果を取得し、さらに処理対象ビデオの分類結果を取得することができ、オプティカルフロー又は３Ｄ畳み込みなどの処理によって動作認識を行う必要がなく、入力された目標ビデオフレーム（ＲＧＢ画像）により時空間特徴情報及び動き特徴情報を取得することができ、入力パラメータが削減され、且つ演算量が削減され、処理効率が向上されて、処理対象ビデオをオンラインでリアルタイムに分類することができ、前記ビデオ処理方法の実用性が向上される。

可能な一実現形態では、前記ビデオ処理方法はニューラルネットワークにより実現してもよく、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記Ｍ段の動作認識ネットワークを含む。前記ニューラルネットワークは、動作認識特徴に対して全結合処理を行うように、さらに前記全結合層を含んでもよい。

図６は、本開示の実施例によるビデオ処理方法のフローチャートを示し、図６に示すように、前記方法は、
サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うステップＳ１５をさらに含む。

可能な一実現形態では、ステップＳ１５は、前記サンプルビデオから複数のサンプルビデオフレームを決定することと、前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定することと、前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定することと、前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、を含んでもよい。

可能な一実現形態では、サンプルビデオは複数のビデオフレームを含み、前記サンプルビデオの複数のビデオフレームからサンプルビデオフレームを決定するようにしてもよく、例えば、ランダムにサンプリングするか、サンプルビデオを複数のビデオセグメントに分割し、各ビデオセグメントからサンプリングし、前記サンプルビデオフレームを取得するようにしてもよい。

可能な一実現形態では、サンプルビデオフレームを前記ニューラルネットワークに入力し、且つ前記特徴抽出ネットワークで特徴抽出処理を行って、Ｍ段の動作認識ネットワークで動作認識処理を行い、さらに、全結合層で全結合処理を行った後、各サンプルビデオフレームの分類情報を取得し、各サンプルビデオフレームの分類情報に対して平均化処理を行い、前記サンプルビデオの分類結果を取得するようにしてもよい。

可能な一実現形態では、前記分類結果はサンプルビデオの分類を示す多次元ベクトル（誤差を有する可能性がある）であってもよい。前記サンプルビデオはカテゴリラベルを有し、サンプルビデオの実際のカテゴリ（誤差なし）を表すようにしてもよい。分類結果及びカテゴリラベルに基づいてニューラルネットワークのネットワーク損失を決定し、例えば、分類結果とカテゴリラベルとの間のコサイン距離又はユークリッド距離を決定し、且つ前記コサイン距離又はユークリッド距離と０との間の差異に基づいてネットワーク損失を決定するようにしてもよい。本開示はネットワーク損失の決定方式について制限しない。

可能な一実現形態では、前記ネットワーク損失に基づいてニューラルネットワークのネットワークパラメータを調整してもよく、例えば、ニューラルネットワークの各パラメータに対する前記ネットワーク損失の勾配を決定し、且つネットワーク損失を最小化することを目的に、勾配降下法により各ネットワークパラメータを調節するようにしてもよい。上記方式によりネットワークパラメータを複数回調節（すなわち、複数のサンプルビデオにより複数のトレーニングサイクルのトレーニングを行う）してもよく、且つ、トレーニング条件を満たした時に、トレーニング後のニューラルネットワークを取得するようにしてもよい。前記トレーニング条件はトレーニング回数（すなわち、トレーニングサイクルの数）を含んでもよく、例えば、トレーニング回数が予め設定された回数に達すると、トレーニング条件を満たす。又は、前記トレーニング条件はネットワーク損失の大きさ又は収束発散性を含んでもよく、例えば、前記ネットワーク損失が損失しきい値以下であるか、予め設定された区間内に収束すると、トレーニング条件を満たす。本開示はトレーニング条件について制限しない。

図７は、本開示の実施例によるビデオ処理方法の適用模式図を示す。図６に示すように、処理対象ビデオは１つ以上の対象物を含む任意のビデオであってもよく、サンプリングなどにより処理対象ビデオの複数のビデオフレームにおいてＴ個の目標ビデオフレームを決定してもよい。例えば、処理対象ビデオをＴ（例えば、Ｔは８又は１６）個のビデオセグメントに分割し、ビデオセグメント毎に１つのビデオフレームをランダムにサンプリングして目標ビデオフレームとするようにしてもよい。

可能な一実現形態では、ニューラルネットワークの特徴抽出ネットワークにより複数の目標ビデオフレームに対して特徴抽出を行ってもよく、特徴抽出ネットワークは１つ以上の畳み込み層を含み、複数の目標ビデオフレームに対して畳み込み処理を行い、複数の目標ビデオフレームの特徴マップを取得するようにしてもよい。例えば、Ｔ個の目標ビデオフレームにおいて、各目標ビデオフレームをＣ個のチャネル（例えば、Ｒ、Ｇ、Ｂの３つのチャネル）に分けて特徴抽出ネットワークに入力して、目標ビデオフレームのサイズはＨ×Ｗ（例えば、２２４×２２４）であるとしてもよく、特徴抽出処理の後、Ｃ、Ｈ、Ｗの数値はいずれも変更可能である。

可能な一実現形態では、Ｍ段の動作認識ネットワークにより特徴マップを処理してもよく、Ｍ段の動作認識ネットワークはカスケード接続されたＭ個の動作認識ネットワークであり、各動作認識ネットワークのネットワーク構造は同一であり、且ついずれも前記ニューラルネットワークの一部であるようにしてもよい。図６に示すように、Ｍ段の動作認識ネットワークは、複数のグループを構成して、各グループの間に畳み込み層又は活性化層などのニューラルネットワーク階層を有してもよいし、又は、グループ間にニューラルネットワーク階層を有しなく、各グループの動作認識ネットワークが直接カスケード接続するようにしてもよく、各グループの動作認識ネットワークの数の総和はＭである。

可能な一実現形態では、１段目の動作認識ネットワークはＴグループの特徴マップを処理し、１段目の動作認識特徴を取得して、１段目の動作認識特徴を２段目の動作認識ネットワークの入力情報として、２段目の動作認識ネットワークは１段目の動作認識特徴を処理し、２段目の動作認識特徴を取得して、かつ２段目の動作認識特徴を３段目の動作認識ネットワークの入力情報とする……ようにしてもよい。

可能な一実現形態では、例としてｉ段目の動作認識ネットワークを取り上げ、ｉ段目の動作認識ネットワークはｉ−１段目の動作認識特徴を入力情報として処理し、畳み込みカーネルが１×１の２Ｄ畳み込み層によりｉ−１段目の動作認識特徴に対して第１の畳み込み処理を行い、ｉ−１段目の動作認識特徴に対して次元削減を行い、第１の特徴情報を取得するようにしてもよい。

可能な一実現形態では、ｉ段目の動作認識ネットワークは第１の特徴情報に対して時空間特徴抽出処理及び動き特徴抽出処理をそれぞれ行ってもよく、例えば、時空間特徴抽出分岐と動き特徴抽出分岐に分けてそれぞれ処理を行うようにしてもよい。

可能な一実現形態では、前記時空間特徴抽出分岐はまず第１の特徴情報を再構成し、例えば、第１の特徴情報の特徴行列を行ベクトル又は列ベクトルに再構成し、第２の特徴情報を取得し、且つ畳み込みカーネルが３×１の１Ｄ畳み込み層により第２の特徴情報の各チャネルに対して第２の畳み込み処理をそれぞれ行い、小さい演算量で第３の特徴情報を取得するようにしてもよい。さらに、第３の特徴情報を再構成し、行列形式の第４の特徴情報を取得し、且つ畳み込みカーネルが３×３の２Ｄ畳み込み層により第４の特徴情報に対して畳み込み処理を行い、前記時空間特徴情報を取得するようにしてもよい。

可能な一実現形態では、前記動き特徴抽出分岐はまず畳み込みカーネルが１×１の２Ｄ畳み込み層により第１の特徴情報のチャネルに対して次元削減処理を行い、例えば、第１の特徴情報のチャネル数ＣをＣ／１６に削減し、各目標ビデオフレームに対応する第５の特徴情報を取得するようにしてもよい。例としてｋ番目の目標ビデオフレームに対応する第５の特徴情報を取り上げ、畳み込みカーネルが３×３の２Ｄ畳み込み層によりｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報に対してチャネル毎の第３の畳み込み処理を行って、第３の畳み込み処理によって得られた結果と第５の特徴情報ｋとの減算をし、ｋ番目の目標ビデオフレームに対応する第６の特徴情報を取得するようにしてもよい。上記方式により、前のＴ−１個の目標ビデオフレームに対応する第６の特徴情報を取得して、且つＴ番目の目標ビデオフレームに対応する第５の特徴情報と、パラメータが全て０である行列に第３の畳み込み処理を施した処理結果と減算をし、Ｔ番目の目標ビデオフレームに対応する第６の特徴情報を取得し、すなわち、Ｔ個の第６の特徴情報を取得するようにしてもよい。さらに、Ｔ個の第６の特徴情報を統合し、畳み込みカーネルが１×１の２Ｄ畳み込み層により第６の特徴情報に対して次元拡張を行い、動き特徴情報を取得するようにしてもよい。

可能な一実現形態では、時空間特徴情報及び動き特徴情報に対して加算処理を行い、第７の特徴情報を取得して、且つ畳み込みカーネルが１×１の２Ｄ畳み込み層により第７の特徴情報に対して第４の畳み込み処理を行い、第７の特徴情報に対して次元拡張を行い、第７の特徴情報の次元をｉ−１段目の動作認識特徴と同じ次元に変換し、ｉ−１段目の動作認識特徴と加算し、ｉ段目の動作認識特徴を取得するようにしてもよい。

可能な一実現形態では、Ｍ段目の動作認識ネットワークから出力された動作認識特徴を目標ビデオフレームの動作認識特徴として決定し、且つ目標ビデオフレームの動作認識特徴をニューラルネットワークの全結合層に入力して処理し、各目標ビデオフレームに対応する分類情報、例えば、分類情報１、分類情報２……を取得するようにしてもよい。例では、前記分類情報はベクトルであってもよく、Ｔ個の目標ビデオフレームに対応する分類情報に対して平均化処理を行い、処理対象ビデオの分類結果を取得するようにしてもよい。前記分類結果もベクトルであり、処理対象ビデオが属するカテゴリの確率を表すことができる。例えば、分類結果は４００次元のベクトルであってもよく、該ベクトルは４００個のパラメータを含み、処理対象ビデオが４００種類のカテゴリに属する確率をそれぞれ表す。前記カテゴリは、処理対象ビデオにおける対象物の動作のカテゴリ、例えば、歩行、杯上げ、食事などの動作であってもよい。例えば、該ベクトルにおいて、２番目のパラメータの値が最大である場合、処理対象ビデオが２番目のカテゴリに属する確率が最大であることを示し、処理対象ビデオが２番目のカテゴリに属すると判断することができる。

可能な一実現形態では、前記ビデオ処理方法は、時空間特徴情報と動き特徴情報に基づいて類似する動作、例えば、扉を閉めたり開けたりする動作、日没や日の出の動作などを認識してもよく、且つ前記ビデオ処理方法は、演算量が小さく、処理効率が高く、ビデオに対するリアルタイム分類に用いることができ、例えば、刑務所の監視に用いて、容疑者の脱獄動作の有無をリアルタイムに判別することや、地下鉄の監視に用いて、地下鉄車両の運転状態及び旅客の流動状況をリアルタイムに判別することや、セキュリティ分野に用いて、監視領域に危険な動作をしている人がいるか否かをリアルタイムに判別するなどに応用できる。本開示は前記ビデオ処理方法の応用分野について制限しない。

本開示で言及された上記各方法の実施例は、原理や論理に違反しない限り、相互に組み合わせて組み合わせ後の実施例を形成することができることが理解され、紙幅に限りがあるため、詳細は本開示では再度説明しない。

図８は、本開示の実施例によるビデオ処理装置のブロック図を示し、図８に示すように、前記ビデオ処理装置は、
特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するための特徴抽出モジュール１１と、
動作認識モジュール１２であって、Ｍ段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得するために用いられ、ここで、Ｍは１以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含む動作認識モジュール１２と、
前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定するための分類モジュール１３と、を含む。

可能な一実現形態では、前記動作認識モジュールはさらに、１段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、１段目の動作認識特徴を取得し、ｉ段目の動作認識ネットワークによりｉ−１段目の動作認識特徴を処理し、ｉ段目の動作認識特徴を取得し、ｉは整数で１＜ｉ＜Ｍであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応し、Ｍ段目の動作認識ネットワークによりＭ−１段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得するように構成される。

可能な一実現形態では、前記動作認識モジュールはさらに、前記ｉ−１段目の動作認識特徴に対して第１の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第１の特徴情報を取得し、前記第１の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得し、前記第１の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得し、少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記ｉ段目の動作認識特徴を取得するように構成される。

可能な一実現形態では、前記動作認識モジュールはさらに、前記時空間特徴情報、前記動き特徴情報及び前記ｉ−１段目の動作認識特徴に基づいて、前記ｉ段目の動作認識特徴を取得するように構成される。

可能な一実現形態では、前記動作認識モジュールはさらに、前記複数の目標ビデオフレームの特徴マップに対応する第１の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第１の特徴情報と次元が異なる第２の特徴情報を取得し、前記第２の特徴情報の各チャネルに対してそれぞれ第２の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第３の特徴情報を取得し、前記第３の特徴情報に対して次元の再構成処理を行い、前記第１の特徴情報と次元が同じである第４の特徴情報を取得し、前記第４の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得するように構成される。

可能な一実現形態では、前記第１の特徴情報は複数の行ベクトル又は列ベクトルを含み、前記動作認識モジュールはさらに、前記第１の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、１つの行ベクトル又は列ベクトルを含む前記第２の特徴情報を取得するように構成される。

可能な一実現形態では、前記動作認識モジュールはさらに、前記第１の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第５の特徴情報を取得し、ｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報に対して、第３の畳み込み処理を行って、前記ｋ番目の目標ビデオフレームに対応する第５の特徴情報との減算をし、ｋ番目の目標ビデオフレームに対応する第６の特徴情報を取得し、ここで、ｋは整数で１≦ｋ＜Ｔであり、Ｔは目標ビデオフレームの数であり、かつＴは１より大きい整数であり、前記第６の特徴情報は前記ｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報と前記ｋ番目の目標ビデオフレームに対応する第５の特徴情報との間の動き差分情報を表し、前記目標ビデオフレームのそれぞれに対応する第６の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得するように構成される。

可能な一実現形態では、前記動作認識モジュールはさらに、前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第７の特徴情報を取得し、前記第７の特徴情報に対して第４の畳み込み処理を行って、前記ｉ−１段目の動作認識特徴との加算処理を行い、前記ｉ段目の動作認識特徴を取得するように構成される。

可能な一実現形態では、前記分類モジュールはさらに、各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得し、各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得するように構成される。

図９は、本開示の実施例によるビデオ処理装置のブロック図を示し、図９に示すように、前記ビデオ処理装置は、
処理対象ビデオから複数の目標ビデオフレームを決定するための決定モジュール１４をさらに含む。

可能な一実現形態では、前記決定モジュールはさらに、前記処理対象ビデオを複数のビデオセグメントに分割し、各ビデオセグメント毎に少なくとも１つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得するように構成される。

可能な一実現形態では、前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記Ｍ段の動作認識ネットワークを含み、前記装置は、サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うためのトレーニングモジュール１５をさらに含む。

可能な一実現形態では、前記トレーニングモジュールはさらに、前記サンプルビデオから複数のサンプルビデオフレームを決定し、前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定し、前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定し、前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するように構成される。

また、本開示は、ビデオ処理装置、電子機器、コンピュータ読み取り可能記憶媒体、プログラムをさらに提供し、これらはいずれも本開示で提供されるビデオ処理方法のいずれか１つを実現するために用いることができ、対応する技術的解決手段及び説明は、方法の説明分の対応する記載を参照すればよく、詳細は再度説明しない。

当業者であれば、具体的な実施形態の上記方法において、各ステップの記述順序は厳密な実行順序を意味して実施過程を何ら限定するものではなく、各ステップの具体的な実行順序はその機能及び可能な内在的論理によって決定されるべきであることが理解される。

いくつかの実施例では、本開示の実施例で提供された装置が有する機能又は含まれるモジュールは、上記方法の実施例に記載の方法を実行するために用いることができ、その具体的な実現は上記方法の実施例の説明を参照すればよく、簡潔にするために、詳細はここでは再度説明しない。

本開示の実施例は、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、上記の方法を実現させるコンピュータ読み取り可能記憶媒体をさらに提案する。コンピュータ読み取り可能記憶媒体は、不揮発性コンピュータ読み取り可能記憶媒体であってもよい。

本開示の実施例は、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリとを含み、前記プロセッサは、上記の方法を実行するように構成される電子機器をさらに提案する。

電子機器は、端末、サーバ、又はその他の形態の機器として提供することができる。

図１０は、例示的な実施例による電子機器８００のブロック図を示す。例えば、電子機器８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット機器、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。

図１０を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インタフェース８１２、センサーコンポーネント８１４、及び通信コンポーネント８１６のうちの１つ以上を含んでもよい。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話呼出し、データ通信、カメラ動作、及び記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記方法の全て又は一部のステップを実行するために、命令を実行する１つ以上のプロセッサ８２０を含んでもよい。また、処理コンポーネント８０２は、他のコンポーネントとのインタラクションのための１つ以上のモジュールを含んでもよい。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８とのインタラクションのために、マルチメディアモジュールを含んでもよい。

メモリ８０４は電子機器８００での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器８００において操作するあらゆるアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク、又は光ディスクなどの様々なタイプの揮発性又は不揮発性記憶機器又はそれらの組み合わせによって実現することができる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、１つ以上の電源、及び電子機器８００のための電力生成、管理、及び配分に関連する他のコンポーネントを含んでもよい。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するためのタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライド、タッチパネルでのジェスチャーを検知するように、１つ以上のタッチセンサーを含む。前記タッチセンサーは、タッチ又はスライド動きの境界を検知するのみならず、前記タッチ又はスライド操作に関連する持続時間及び圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント８０８はフロントカメラ及び／又はリアカメラを含む。電子機器８００が動作モード、例えば撮影モード又は撮像モードになる場合、フロントカメラ及び／又はリアカメラは外部のマルチメディアデータを受信するようにしてもよい。各フロントカメラ及びリアカメラは、固定された光学レンズ系、又は焦点距離及び光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力及び／又は入力するように構成される。例えば、オーディオコンポーネント８１０は、マイクロフォン（ＭＩＣ）を含み、マイクロフォンは、電子機器８００が動作モード、例えば呼び出しモード、記録モード、及び音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、又は通信コンポーネント８１６を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０は、オーディオ信号を出力するためのスピーカーをさらに含む。

Ｉ／Ｏインタフェース８１２は、処理コンポーネント８０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンには、ホームボタン、音量ボタン、スタートボタン、ロックボタンなどを含んでもよいが、これらに限定されない。

センサーコンポーネント８１４は、電子機器８００の各方面の状態評価のために１つ以上のセンサーを含む。例えば、センサーコンポーネント８１４は、電子機器８００のオン／オフ状態、例えば電子機器８００のディスプレイ及びキーパッドのようなコンポーネントの相対的位置決めを検出してもよく、センサーコンポーネント８１４はさらに、電子機器８００又は電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位又は加減速、及び電子機器８００の温度変化を検出してもよい。センサーコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサーを含んでもよい。センサーコンポーネント８１４はさらに、ＣＭＯＳ又はＣＣＤイメージセンサーのような、イメージング用途で使用するための光センサーを含んでもよい。いくつかの実施例では、該センサーコンポーネント８１４はさらに、加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー又は温度センサーを含んでもよい。

通信コンポーネント８１６は、電子機器８００と他の機器との有線又は無線通信を実現するように構成される。電子機器８００は、通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇ、３Ｇ、又はそれらの組み合わせにアクセスすることができる。一例示的な実施例では、通信コンポーネント８１６は、放送チャネルを介して外部の放送管理システムからの放送信号又は放送関連情報を受信する。一例示的な実施例では、通信コンポーネント８１６は、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールをさらに含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース(登録商標)（ＢＴ）技術、及びその他の技術によって実現されることができる。

例示的な実施例では、電子機器８００は、１つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタルシグナルプロセッサ（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサー、又は他の電子要素によって実現され、上記の方法を実行するために用いられることができる。

例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０によって実行されると、上記方法を実行させることができる。

本開示の実施例はまた、コンピュータ読み取り可能コードを含むコンピュータプログラム製品を提供し、コンピュータ読み取り可能コードが機器で実行されると、機器内のプロセッサは、上記の実施例のいずれかに提供される方法を実施するための命令を実行する。

該コンピュータプログラム製品は具体的にハードウェア、ソフトウェア又はその組み合わせの方式により実現されることができる。選択可能な実施例では、前記コンピュータプログラム製品は具体的にコンピュータ記憶媒体として具現化される。他の選択可能な実施例では、コンピュータプログラム製品は具体的にソフトウェア製品、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などとして具現化される。

図１１は、例示的な実施例による電子機器１９００のブロック図を示す。例えば、電子機器１９００は、サーバとして提供されてもよい。図１１に示すように、電子機器１９００は、１つ以上のプロセッサを含む処理コンポーネント１９２２、及び、処理コンポーネント１９２２によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されているアプリケーションプログラムは、それぞれが１つの命令群に対応する１つ以上のモジュールを含んでもよい。また、処理コンポーネント１９２２は、命令を実行することによって上記方法を実行するように構成される。

電子機器１９００は、電子機器１９００の電源管理を実行するように構成された電源コンポーネント１９２６と、電子機器１９００をネットワークに接続するように構成された有線又は無線のネットワークインタフェース１９５０と、入出力（Ｉ／Ｏ）インタフェース１９５８と、をさらに含んでもよい。電子機器１９００はメモリ１９３２に記憶されているオペレーティングシステム、例えばＷｉｎｄｏｗｓ(登録商標) ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、Ｕｎｉｘ(登録商標)ＴＭ、Ｌｉｎｕｘ(登録商標)ＴＭ、ＦｒｅｅＢＳＤＴＭ又は類似するものに基づいて動作することができる。

例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は、電子機器１９００の処理コンポーネント１９２２によって実行されると、上記方法を実行させることができる。

本開示はシステム、方法及び／又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ読み取り可能プログラム命令を有しているコンピュータ読み取り可能記憶媒体を含んでもよい。

コンピュータ読み取り可能記憶媒体は、命令実行機器に使用される命令を保存及び記憶可能な有形機器であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶機器、磁気記憶機器、光記憶機器、電磁記憶機器、半導体記憶機器又は上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例（非網羅的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カード又はスロット内突起構造のような機械的符号化装置、及び上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は、瞬時信号自体、例えば無線電波又は他の自由に伝播される電磁波、導波路又は他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、又は電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体から各計算／処理機器にダウンロードされてもよいし、又はネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワーク及び／又は無線ネットワークを介して外部のコンピュータ又は外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータ及び／又はエッジサーバを含んでもよい。各計算／処理機器内のネットワークアダプタカード又はネットワークインタフェースはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算／処理機器内のコンピュータ読み取り可能記憶媒体に記憶させる。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、及び「Ｃ」言語又は類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む１つ以上のプログラミング言語の任意の組み合わせで書かれたソースコード又は目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、又は完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、又は、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用し、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又はプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズし、該電子回路によりコンピュータ読み取り可能プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。

ここで本開示の実施例による方法、装置（システム）及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照しながら本開示の各方面を説明したが、フローチャート及び／又はブロック図の各ブロック、及びフローチャート及び／又はブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ読み取り可能プログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサへ提供されて、これらの命令がコンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行されるときフローチャート及び／又はブロック図の１つ以上のブロックにおいて指定された機能／動作を実現するように、装置を製造してもよい。これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、コンピュータ、プログラマブルデータ処理装置及び／又は他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ読み取り可能記憶媒体は、フローチャート及び／又はブロック図の１つ以上のブロックにおいて指定された機能／動作の各方面を実現するための命令を有する製品を含む。

コンピュータ読み取り可能プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、又は他の機器にロードし、コンピュータ、他のプログラマブルデータ処理装置又は他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにし、コンピュータ、他のプログラマブルデータ処理装置、又は他の機器において実行される命令により、フローチャート及び／又はブロック図の１つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちのフローチャート及びブロック図は、本開示の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び動作を示す。この点では、フローチャート又はブロック図における各ブロックは１つのモジュール、プログラムセグメント又は命令の一部分を代表することができ、前記モジュール、プログラムセグメント又は命令の一部分は指定された論理機能を実現するための１つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な２つのブロックは実質的に並列同時に実行してもよく、また、係る機能によって、逆な順序で実行してもよい場合がある。なお、ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、指定される機能又は動作を実行するハードウェアに基づく専用システムによって実現してもよいし、又は専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲及び精神から逸脱することなく、様々な修正及び変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用又は市場における技術への技術的改善を好適に解釈するか、又は他の当業者に本明細書に披露された各実施例を理解させるためのものである。

Claims

特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得することと、
Ｍ段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得し、ここで、Ｍは１以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含むことと、
前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定することと、を含むことを特徴とするビデオ処理方法。
Ｍ段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得することは、
１段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、１段目の動作認識特徴を取得することと、
ｉ段目の動作認識ネットワークによりｉ−１段目の動作認識特徴を処理し、ｉ段目の動作認識特徴を取得し、ｉは整数で１＜ｉ＜Ｍであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応することと、
Ｍ段目の動作認識ネットワークによりＭ−１段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得することと、を含むことを特徴とする請求項１に記載の方法。
ｉ段目の動作認識ネットワークによりｉ−１段目の動作認識特徴を処理し、ｉ段目の動作認識特徴を取得することは、
前記ｉ−１段目の動作認識特徴に対して第１の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第１の特徴情報を取得することと、
前記第１の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することと、
前記第１の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することと、
少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記ｉ段目の動作認識特徴を取得することと、を含むことを特徴とする請求項２に記載の方法。
少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記ｉ段目の動作認識特徴を取得することは、
前記時空間特徴情報、前記動き特徴情報及び前記ｉ−１段目の動作認識特徴に基づいて、前記ｉ段目の動作認識特徴を取得することを含むことを特徴とする請求項３に記載の方法。
前記第１の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することは、
前記複数の目標ビデオフレームの特徴マップに対応する第１の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第１の特徴情報と次元が異なる第２の特徴情報を取得することと、
前記第２の特徴情報の各チャネルに対してそれぞれ第２の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第３の特徴情報を取得することと、
前記第３の特徴情報に対して次元の再構成処理を行い、前記第１の特徴情報と次元が同じである第４の特徴情報を取得することと、
前記第４の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得することと、を含むことを特徴とする請求項３に記載の方法。
前記第１の特徴情報は複数の行ベクトル又は列ベクトルを含み、
前記複数の目標ビデオフレームの特徴マップに対応する第１の特徴情報に対して次元の再構成処理をそれぞれ行うことは、
前記第１の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、１つの行ベクトル又は列ベクトルを含む前記第２の特徴情報を取得することを含むことを特徴とする請求項５に記載の方法。
前記第１の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することは、
前記第１の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第５の特徴情報を取得することと、
ｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報に対して、第３の畳み込み処理を行って、前記ｋ番目の目標ビデオフレームに対応する第５の特徴情報との減算をし、ｋ番目の目標ビデオフレームに対応する第６の特徴情報を取得し、ここで、ｋは整数で１≦ｋ＜Ｔであり、Ｔは目標ビデオフレームの数であり、かつＴは１より大きい整数であり、前記第６の特徴情報は前記ｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報と前記ｋ番目の目標ビデオフレームに対応する第５の特徴情報との間の動き差分情報を表すことと、
前記目標ビデオフレームのそれぞれに対応する第６の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得することと、を含むことを特徴とする請求項３〜６のいずれか一項に記載の方法。
前記時空間特徴情報、前記動き特徴情報及び前記ｉ−１段目の動作認識特徴に基づいて、前記ｉ段目の動作認識特徴を取得することは、
前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第７の特徴情報を取得することと、
前記第７の特徴情報に対して第４の畳み込み処理を行って、前記ｉ−１段目の動作認識特徴との加算処理を行い、前記ｉ段目の動作認識特徴を取得することと、を含むことを特徴とする請求項４〜７のいずれか一項に記載の方法。
前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定することは、
各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得することと、
各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得することと、を含むことを特徴とする請求項１〜８のいずれか一項に記載の方法。
処理対象ビデオから複数の目標ビデオフレームを決定することをさらに含むことを特徴とする請求項１〜９のいずれか一項に記載の方法。
処理対象ビデオの複数のビデオフレームから複数の目標ビデオフレームを決定することは、
前記処理対象ビデオを複数のビデオセグメントに分割することと、
各ビデオセグメント毎に少なくとも１つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得することと、を含むことを特徴とする請求項１０に記載の方法。
前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記Ｍ段の動作認識ネットワークを含み、
前記方法は、
サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うことをさらに含むことを特徴とする請求項１〜１１のいずれか一項に記載の方法。
サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うことは、
前記サンプルビデオから複数のサンプルビデオフレームを決定することと、
前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定することと、
前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定することと、
前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、を含むことを特徴とする請求項１２に記載の方法。
特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するための特徴抽出モジュールと、
Ｍ段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得するために用いられる動作認識モジュールであって、Ｍは１以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含む動作認識モジュールと、
前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定するための分類モジュールと、を含むことを特徴とするビデオ処理装置。
前記動作認識モジュールはさらに、
１段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、１段目の動作認識特徴を取得し、
ｉ段目の動作認識ネットワークによりｉ−１段目の動作認識特徴を処理し、ｉ段目の動作認識特徴を取得し、ｉは整数で１＜ｉ＜Ｍであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応し、
Ｍ段目の動作認識ネットワークによりＭ−１段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得するように構成されることを特徴とする請求項１４に記載の装置。
前記動作認識モジュールはさらに、
前記ｉ−１段目の動作認識特徴に対して第１の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第１の特徴情報を取得し、
前記第１の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得し、
前記第１の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得し、
少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記ｉ段目の動作認識特徴を取得するように構成されることを特徴とする請求項１５に記載の装置。
前記動作認識モジュールはさらに、
前記時空間特徴情報、前記動き特徴情報及び前記ｉ−１段目の動作認識特徴に基づいて、前記ｉ段目の動作認識特徴を取得するように構成されることを特徴とする請求項１６に記載の装置。
前記動作認識モジュールはさらに、
前記複数の目標ビデオフレームの特徴マップに対応する第１の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第１の特徴情報と次元が異なる第２の特徴情報を取得し、
前記第２の特徴情報の各チャネルに対してそれぞれ第２の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第３の特徴情報を取得し、
前記第３の特徴情報に対して次元の再構成処理を行い、前記第１の特徴情報と次元が同じである第４の特徴情報を取得し、
前記第４の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得するように構成されることを特徴とする請求項１６に記載の装置。
前記第１の特徴情報は複数の行ベクトル又は列ベクトルを含み、
前記動作認識モジュールはさらに、
前記第１の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、１つの行ベクトル又は列ベクトルを含む前記第２の特徴情報を取得するように構成されることを特徴とする請求項１８に記載の装置。
前記動作認識モジュールはさらに、
前記第１の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第５の特徴情報を取得し、
ｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報に対して、第３の畳み込み処理を行って、前記ｋ番目の目標ビデオフレームに対応する第５の特徴情報との減算をし、ｋ番目の目標ビデオフレームに対応する第６の特徴情報を取得し、ここで、ｋは整数で１≦ｋ＜Ｔであり、Ｔは目標ビデオフレームの数であり、かつＴは１より大きい整数であり、前記第６の特徴情報は前記ｋ＋１番目の目標ビデオフレームに対応する第５の特徴情報と前記ｋ番目の目標ビデオフレームに対応する第５の特徴情報との間の動き差分情報を表し、
前記目標ビデオフレームのそれぞれに対応する第６の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得するように構成されることを特徴とする請求項１６〜１９のいずれか一項に記載の装置。
前記動作認識モジュールはさらに、
前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第７の特徴情報を取得し、
前記第７の特徴情報に対して第４の畳み込み処理を行って、前記ｉ−１段目の動作認識特徴との加算処理を行い、前記ｉ段目の動作認識特徴を取得するように構成されることを特徴とする請求項１７〜２０のいずれか一項に記載の装置。
前記分類モジュールはさらに、
各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得し、
各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得するように構成されることを特徴とする請求項１４〜２１のいずれか一項に記載の装置。
処理対象ビデオから複数の目標ビデオフレームを決定するための決定モジュールをさらに含むことを特徴とする請求項１４〜２２のいずれか一項に記載の装置。
前記決定モジュールはさらに、
前記処理対象ビデオを複数のビデオセグメントに分割し、
各ビデオセグメント毎に少なくとも１つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得するように構成されることを特徴とする請求項２３に記載の装置。
前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記Ｍ段の動作認識ネットワークを含み、
前記装置は、
サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うためのトレーニングモジュールをさらに含むことを特徴とする請求項１４〜２４のいずれか一項に記載の装置。
前記トレーニングモジュールはさらに、
前記サンプルビデオから複数のサンプルビデオフレームを決定し、
前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定し、
前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定し、
前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するように構成されることを特徴とする請求項２５に記載の装置。
プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されている命令を呼び出し、請求項１〜１３のいずれか一項に記載の方法を実行するように構成されることを特徴とする電子機器。
コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行されると、請求項１〜１３のいずれか一項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能記憶媒体。
コンピュータ読み取り可能コードを含むコンピュータプログラムであって、
前記コンピュータ読み取り可能コードが電子機器で実行されると、前記電子機器のプロセッサに、請求項１〜１３のいずれか一項に記載の方法を実現するための命令を実行させるコンピュータプログラム。