JP2021536048A - ビデオ処理方法及び装置、電子機器、並びに記憶媒体 - Google Patents

ビデオ処理方法及び装置、電子機器、並びに記憶媒体 Download PDF

Info

Publication number
JP2021536048A
JP2021536048A JP2020571778A JP2020571778A JP2021536048A JP 2021536048 A JP2021536048 A JP 2021536048A JP 2020571778 A JP2020571778 A JP 2020571778A JP 2020571778 A JP2020571778 A JP 2020571778A JP 2021536048 A JP2021536048 A JP 2021536048A
Authority
JP
Japan
Prior art keywords
feature
feature information
motion recognition
target video
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020571778A
Other languages
English (en)
Other versions
JP7090183B2 (ja
Inventor
ジャン,ボユアン
ワン,モンモン
カン,ウェイハオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Sensetime Technology Development Co Ltd
Original Assignee
Zhejiang Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Sensetime Technology Development Co Ltd filed Critical Zhejiang Sensetime Technology Development Co Ltd
Publication of JP2021536048A publication Critical patent/JP2021536048A/ja
Application granted granted Critical
Publication of JP7090183B2 publication Critical patent/JP7090183B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本開示はビデオ処理方法及び装置、電子機器、並びに記憶媒体に関し、前記方法は、特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、複数の目標ビデオフレームの特徴マップを取得することと、M段の動作認識ネットワークにより複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、複数の目標ビデオフレームの動作認識特徴を取得することと、複数の目標ビデオフレームの動作認識特徴に基づいて、処理対象ビデオの分類結果を決定することと、を含む。本開示の実施例によるビデオ処理方法によれば、多段の動作認識ネットワークにより目標ビデオフレームの動作認識特徴を取得し、さらに処理対象ビデオの分類結果を取得することができ、オプティカルフロー又は3D畳み込みなどの処理によって動作認識を行う必要がなく、演算量が削減され、処理効率が向上されて、処理対象ビデオをオンラインでリアルタイムに分類することができ、前記ビデオ処理方法の実用性が向上される。【選択図】図1

Description

本開示は、コンピュータビジョン技術分野に関し、特に、ビデオ処理方法及び装置、電子機器、並びに記憶媒体に関する。
<関連出願の相互参照>
本開示は、2019年07月19日に中国国家知識産権局に提出された、出願番号201910656059.9、出願名称「ビデオ処理方法及び装置、電子機器、並びに記憶媒体」の中国特許出願の優先権を主張し、その内容の全てが参照によって本開示に組み込まれる。
ビデオは、複数のビデオフレームで構成され、動作や行為などの情報を記録できて、適用シーンが多様化している。ただし、ビデオは、フレーム数が多く、処理演算量が大きいだけでなく、時間との関連性を有し、例えば、複数のビデオフレームにおけるコンテンツ及び各ビデオフレームに対応する時間によって動作又は行為などの情報を表現する。関連技術において、時空間特徴や動き特徴などは、オプティカルフロー又は3D畳み込みなどの処理によって取得することができる。
本開示は、ビデオ処理方法及び装置、電子機器、並びに記憶媒体を提案する。
本開示の一方面では、特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得することと、M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得し、ここで、Mは1以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含むことと、前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定することと、を含むビデオ処理方法を提供する。
本開示の実施例によるビデオ処理方法によれば、多段の動作認識ネットワークにより目標ビデオフレームの動作認識特徴を取得し、さらに処理対象ビデオの分類結果を取得することができ、オプティカルフロー又は3D畳み込みなどの処理によって動作認識を行う必要がなく、演算量が削減され、処理効率が向上されて、処理対象ビデオをオンラインでリアルタイムに分類することができ、前記ビデオ処理方法の実用性が向上される。
可能な一実現形態において、M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得することは、1段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、1段目の動作認識特徴を取得することと、i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得し、iは整数で1<i<Mであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応することと、M段目の動作認識ネットワークによりM−1段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得することと、を含む。
可能な一実現形態において、i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得することは、前記i−1段目の動作認識特徴に対して第1の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第1の特徴情報を取得することと、前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することと、前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することと、少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得することと、を含む。
可能な一実現形態において、少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得することは、前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得することを含む。
可能な一実現形態において、前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することは、前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第1の特徴情報と次元が異なる第2の特徴情報を取得することと、前記第2の特徴情報の各チャネルに対してそれぞれ第2の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第3の特徴情報を取得することと、前記第3の特徴情報に対して次元の再構成処理を行い、前記第1の特徴情報と次元が同じである第4の特徴情報を取得することと、前記第4の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得することと、を含む。
可能な一実現形態において、前記第1の特徴情報は複数の行ベクトル又は列ベクトルを含み、前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行うことは、前記第1の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、1つの行ベクトル又は列ベクトルを含む前記第2の特徴情報を取得することを含む。
このように、各チャネルの時空間情報を取得し、時空間情報を完全にすることができ、また、再構成処理により第1の特徴情報の次元を変更することで、演算量の少ない方法により畳み込み処理を行うことができ、例えば1D畳み込み処理により第2の畳み込み処理を行うことができ、演算を簡略化し、処理効率を向上させることができる。
可能な一実現形態において、前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することは、前記第1の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第5の特徴情報を取得することと、k+1番目の目標ビデオフレームに対応する第5の特徴情報に対して、第3の畳み込み処理を行って、前記k番目の目標ビデオフレームに対応する第5の特徴情報との減算をし、k番目の目標ビデオフレームに対応する第6の特徴情報を取得し、ここで、kは整数で1≦k<Tであり、Tは目標ビデオフレームの数であり、かつTは1より大きい整数であり、前記第6の特徴情報は前記k+1番目の目標ビデオフレームに対応する第5の特徴情報と前記k番目の目標ビデオフレームに対応する第5の特徴情報との間の動き差分情報を表すことと、前記目標ビデオフレームのそれぞれに対応する第6の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得することと、を含む。
このように、第5の特徴情報に対して第3の畳み込み処理を行った後、直前の第5の特徴情報との減算処理により、前記動き特徴情報を取得することができ、演算を簡略化し、処理効率を向上させることができる。
可能な一実現形態において、前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得することは、前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第7の特徴情報を取得することと、前記第7の特徴情報に対して第4の畳み込み処理を行って、前記i−1段目の動作認識特徴との加算処理を行い、前記i段目の動作認識特徴を取得することと、を含む。
可能な一実現形態において、前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定することは、各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得することと、各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得することと、を含む。
可能な一実現形態において、前記方法は、処理対象ビデオから複数の目標ビデオフレームを決定することをさらに含む。
可能な一実現形態において、処理対象ビデオの複数のビデオフレームから複数の目標ビデオフレームを決定することは、前記処理対象ビデオを複数のビデオセグメントに分割することと、各ビデオセグメント毎に少なくとも1つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得することと、を含む。
このように、処理対象ビデオの複数のビデオフレームから目標ビデオフレームを決定し、続いて目標ビデオフレームを処理することができ、演算リソースを節約し、処理効率を向上させることができる。
可能な一実現形態において、前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記M段の動作認識ネットワークを含み、前記方法は、サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うことをさらに含む。
可能な一実現形態において、サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うことは、前記サンプルビデオから複数のサンプルビデオフレームを決定することと、前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定することと、前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定することと、前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、を含む。
本開示の他の一方面では、特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するための特徴抽出モジュールと、M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得するために用いられる動作認識モジュールであって、Mは1以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含む動作認識モジュールと、前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定するための分類モジュールと、を含むビデオ処理装置を提供する。
可能な一実現形態において、前記動作認識モジュールはさらに、1段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、1段目の動作認識特徴を取得し、i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得し、iは整数で1<i<Mであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応し、M段目の動作認識ネットワークによりM−1段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記i−1段目の動作認識特徴に対して第1の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第1の特徴情報を取得し、前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得し、前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得し、少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第1の特徴情報と次元が異なる第2の特徴情報を取得し、前記第2の特徴情報の各チャネルに対してそれぞれ第2の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第3の特徴情報を取得し、前記第3の特徴情報に対して次元の再構成処理を行い、前記第1の特徴情報と次元が同じである第4の特徴情報を取得し、前記第4の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得するように構成される。
可能な一実現形態において、前記第1の特徴情報は複数の行ベクトル又は列ベクトルを含み、前記動作認識モジュールはさらに、前記第1の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、1つの行ベクトル又は列ベクトルを含む前記第2の特徴情報を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記第1の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第5の特徴情報を取得し、k+1番目の目標ビデオフレームに対応する第5の特徴情報に対して、第3の畳み込み処理を行って、前記k番目の目標ビデオフレームに対応する第5の特徴情報との減算をし、k番目の目標ビデオフレームに対応する第6の特徴情報を取得し、ここで、kは整数で1≦k<Tであり、Tは目標ビデオフレームの数であり、かつTは1より大きい整数であり、前記第6の特徴情報は前記k+1番目の目標ビデオフレームに対応する第5の特徴情報と前記k番目の目標ビデオフレームに対応する第5の特徴情報との間の動き差分情報を表し、前記目標ビデオフレームのそれぞれに対応する第6の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第7の特徴情報を取得し、前記第7の特徴情報に対して第4の畳み込み処理を行って、前記i−1段目の動作認識特徴との加算処理を行い、前記i段目の動作認識特徴を取得するように構成される。
可能な一実現形態において、前記分類モジュールはさらに、各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得し、各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得するように構成される。
可能な一実現形態において、前記装置は、処理対象ビデオから複数の目標ビデオフレームを決定するための決定モジュールをさらに含む。
可能な一実現形態において、前記決定モジュールはさらに、前記処理対象ビデオを複数のビデオセグメントに分割し、各ビデオセグメント毎に少なくとも1つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得するように構成される。
可能な一実現形態において、前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記M段の動作認識ネットワークを含み、前記装置は、サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うためのトレーニングモジュールをさらに含む。
可能な一実現形態において、前記トレーニングモジュールはさらに、前記サンプルビデオから複数のサンプルビデオフレームを決定し、前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定し、前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定し、前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するように構成される。
本開示の一方面では、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記のビデオ処理方法を実行するように構成される電子機器を提供する。
本開示の一方面では、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、前記のビデオ処理方法を実現させるコンピュータ読み取り可能記憶媒体。
本開示の一方面では、コンピュータ読み取り可能コードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能コードが電子機器で実行されると、前記電子機器のプロセッサに、前記のビデオ処理方法を実行するための命令を実行させるコンピュータプログラム。
以上の一般説明及び以下の詳細説明は、本開示を限定するのではなく、単なる例示的及び解釈的なものであることを理解されたい。
以下、図面を参照しながら例示的な実施例について詳細に説明することにより、本開示の他の特徴及び方面は明瞭になる。
明細書の一部として組み込まれた図面は、本開示に合致する実施例を示し、さらに明細書と共に本開示の技術的手段を説明するために用いられる。
図1は、本開示の実施例によるビデオ処理方法のフローチャートを示す。 図2は、本開示の実施例によるビデオ処理方法のフローチャートを示す。 図3は、本開示の実施例による動作認識ネットワークの模式図を示す。 図4は、本開示の実施例による時空間特徴抽出処理の模式図を示す。 図5は、本開示の実施例による動き特徴抽出処理の模式図を示す。 図6は、本開示の実施例によるビデオ処理方法のフローチャートを示す。 図7は、本開示の実施例によるビデオ処理方法の適用模式図を示す。 図8は、本開示の実施例によるビデオ処理装置のブロック図を示す。 図9は、本開示の実施例によるビデオ処理装置のブロック図を示す。 図10は、本開示の実施例による電子機器のブロック図を示す。 図11は、本開示の実施例による電子機器のブロック図を示す。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴及び方面を詳細に説明する。図面において、同じ符号が同じ又は類似する機能の要素を表す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。
ここの用語「例示的」とは、「例、実施例として用いられること又は説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましい又は優れるものであると理解すべきではない。
本明細書において、用語の「及び/又は」は、関連対象の関連関係を記述するためのものに過ぎず、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書において、用語の「少なくとも1つ」は複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組合を示し、例えば、A、B及びCのうちの少なくとも1つを含むということは、A、B及びCから構成される集合から選択されたいずれか1つ又は複数の要素を含むことを示してもよい。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者に既知の方法、手段、要素及び回路について、詳細な説明を行わない。
図1は、本開示の実施例によるビデオ処理方法のフローチャートを示し、図1に示すように、前記方法は、
特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するステップS11と、
M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得し、ここで、Mは1以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含むステップS12と、
前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定するステップS13と、を含む。
本開示の実施例によるビデオ処理方法によれば、多段の動作認識ネットワークにより目標ビデオフレームの動作認識特徴を取得し、さらに処理対象ビデオの分類結果を取得することができ、オプティカルフロー又は3D畳み込みなどの処理によって動作認識を行う必要がなく、演算量が削減され、処理効率が向上されて、処理対象ビデオをオンラインでリアルタイムに分類することができ、前記ビデオ処理方法の実用性が向上される。
可能な一実現形態では、前記方法は端末機器で実行されてもよく、端末機器はユーザ機器(User Equipment、UE)、移動機器、ユーザ端末、端末、携帯電話、コードレス電話、パーソナルデジタルアシスタント(Personal Digital Assistant、PDA)、手持ち機器、計算機器、車載機器、ウェアラブル機器などであってもよく、前記方法はプロセッサがメモリに記憶されているコンピュータ読み取り可能命令を呼び出す方式により実現されてもよい。あるいは、前記方法はサーバによって実行されてもよい。
可能な一実現形態では、前記処理対象ビデオは任意のビデオ取得装置により撮影されたビデオであってもよく、前記処理対象ビデオフレームは1つ以上の対象物(例えば、人、車両及び/又はカップなどの物品)を含んでもよく、前記対象物はある動作(例えば、コップを持ち上げ、歩きなど)を実行していてもよく、本開示では処理対象ビデオの内容について制限しない。
図2は、本開示の実施例によるビデオ処理方法のフローチャートを示し、図2に示すように、前記方法は、
処理対象ビデオから複数の目標ビデオフレームを決定するステップS14を含む。
可能な一実現形態では、ステップS14は、前記処理対象ビデオを複数のビデオセグメントに分割することと、各ビデオセグメント毎に少なくとも1つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得することと、を含んでもよい。
例では、処理対象ビデオは複数のビデオフレームを含んでもよく、処理対象ビデオを分割して、例えば、T個のビデオセグメント(Tは1より大きい整数)に分割するようにしてもよい。且つ、各ビデオセグメントの複数のビデオフレームにおいてサンプリングして、例えば、各ビデオセグメント毎に少なくとも1つの目標ビデオフレームをサンプリングするようにしてもよい。例えば、処理対象ビデオを等間隔に分割し、例えば8又は16個のセグメントに分割して、各ビデオセグメントにおいてランダムにサンプリングし、例えば、各ビデオセグメント毎にランダムに1つのビデオフレームを目標ビデオフレームとして選択して、これにより複数の目標ビデオフレームを取得してもよい。
例では、処理対象ビデオの全てのビデオフレームにおいてランダムにサンプリングし、複数の目標ビデオフレームを取得するようにしてもよい。あるいは、等間隔で複数のビデオフレームを目標ビデオフレームとして選択し、例えば、1番目のビデオフレーム、11番目のビデオフレーム、21番目のビデオフレーム…を選択するようにしてもよい。あるいは、処理対象ビデオの全てのビデオフレームを目標ビデオフレームとして決定するようにしてもよく、本開示は目標ビデオフレームを選択する方式について制限しない。
このように、処理対象ビデオの複数のビデオフレームから目標ビデオフレームを決定し、続いて目標ビデオフレームを処理することができ、演算リソースを節約し、処理効率を向上させることができる。
可能な一実現形態では、ステップS11において、処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するようにしてもよい。ニューラルネットワークの特徴抽出ネットワークにより前記特徴抽出処理を行ってもよく、前記特徴抽出ネットワークは前記ニューラルネットワークの一部(例えば、サブネットワーク又はある階層のニューラルネットワーク)であってもよく、例では、前記特徴抽出ネットワークは1つ以上の畳み込み層を含んで、複数の目標ビデオフレームに対して特徴抽出を行い、複数の目標ビデオフレームの特徴マップを取得するようにしてもよい。
例では、特徴抽出ネットワークによりT(Tは1より大きい整数である)個の目標ビデオフレームに対して特徴抽出処理を行ってもよく、各目標ビデオフレームをC(Cは正の整数である)個のチャネルに分割して特徴抽出ネットワークに入力するようにしてもよい。例えば、目標ビデオフレームがRGB画像である場合、R、G、Bの3つのチャネルで特徴抽出ネットワークにそれぞれ入力するようにしてもよい。各目標ビデオフレームのサイズはH×W(Hは画像の高さであり、画像の高さ方向のピクセル数として表すことができ、Wは画像の幅であり、画像の幅方向のピクセル数として表すことができる)であり、従って、特徴抽出ネットワークに入力された目標ビデオフレームの次元はT×C×H×Wである。例えば、Tは16、Cは3、HとWはいずれも224にすると、特徴抽出ネットワークに入力された目標ビデオフレームの次元は16×3×224×224である。
例では、前記ニューラルネットワークは複数の処理対象ビデオに対してバッチ処理を行ってもよく、例えば、特徴抽出ネットワークはN個の処理対象ビデオの目標ビデオフレームに対して特徴抽出処理を行ってもよく、特徴抽出ネットワークに入力された目標ビデオフレームの次元はN×T×C×H×Wである。
例では、特徴抽出ネットワークは次元がT×C×H×Wである目標ビデオフレームに対して特徴抽出処理を行い、T個の目標ビデオフレームにそれぞれ対応するTグループの特徴マップを取得するようにしてもよい。例えば、特徴抽出処理では、目標ビデオフレームの特徴マップのサイズは目標ビデオフレームより小さくてもよいが、チャネル数は目標ビデオフレームより多くてもよく、それにより、目標ビデオフレームに対する受容野を大きくすることができ、すなわち、Cの値を大きくし、H、Wの値を小さくするようにしてもよい。例えば、特徴抽出ネットワークに入力された目標ビデオフレームの次元が16×3×224×224である場合、目標ビデオフレームのチャネル数を16倍拡大し、すなわち、Cの値を48に増やして、目標ビデオフレームの特徴マップサイズを4倍縮小し、すなわち、HとWの値をいずれも56に縮小するようにしてもよく、各目標ビデオフレームに対応する特徴マップのチャネル数が48になり、各特徴マップのサイズが56×56になり、特徴マップの次元が16×48×56×56になってもよい。以上のデータは例示であり、本開示は目標ビデオフレームと特徴マップの次元について制限しない。
可能な一実現形態では、ステップS12において、T個の目標ビデオフレームの特徴マップに対して動作認識を行い、各目標ビデオフレームの動作認識特徴をそれぞれ取得するようにしてもよい。ニューラルネットワークのM段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行ってもよく、前記M段の動作認識ネットワークはカスケード接続されたM個の動作認識ネットワークであってもよく、各動作認識ネットワークは前記ニューラルネットワークの一部であってもよい。
可能な一実現形態では、ステップS12は、1段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、1段目の動作認識特徴を取得することと、i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得し、iは整数で1<i<Mであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応することと、M段目の動作認識ネットワークによりM−1段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得することと、を含んでもよい。
可能な一実現形態では、M段の動作認識ネットワークはカスケード接続され、各段の動作認識ネットワークの出力情報(すなわち、該段の動作認識ネットワークの動作認識特徴)は、次段の動作認識ネットワークの入力情報とするようにしてもよい。1段目の動作認識ネットワークは目標ビデオフレームの特徴マップを処理し、1段目の動作認識特徴を出力して、1段目の動作認識特徴は2段目の動作認識特徴の入力情報として、すなわち、2段目の動作認識ネットワークは1段目の動作認識特徴を処理し、2段目の動作認識特徴を取得して、さらに、2段目の動作認識特徴を3段目の動作認識ネットワークの入力情報とする……ようにしてもよい。
可能な一実現形態では、例としてi段目の動作認識ネットワークを取り上げ、i段目の動作認識ネットワークはi−1段目の動作認識特徴を入力情報として処理してもよい。i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得することは、前記i−1段目の動作認識特徴に対して第1の畳み込み処理を行い、第1の特徴情報を取得することと、前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することと、前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することと、少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得することと、を含む。
図3は本開示の実施例による動作認識ネットワークの模式図を示し、1段目の動作認識ネットワークからM段目の動作認識ネットワークの構造はいずれも図3に示すとおりである。例としてi段目の動作認識ネットワークを取り上げ、i段目の動作認識ネットワークはi−1段目の動作認識特徴を入力情報として処理してもよい。例では、i段目の動作認識ネットワークは、畳み込みカーネルが1×1の2D畳み込み層によりi−1段目の動作認識特徴に対して第1の畳み込み処理を行って、i−1段目の動作認識特徴に対して次元削減を行うようしてもよい。例では、前記畳み込みカーネルが1×1の2D畳み込み層は、i−1段目の動作認識特徴のチャネル数を削減し、例えば、チャネル数Cの数を16倍削減して、前記第1の特徴情報を取得するようにしてもよい。本開示は、削減の倍数について制限しない。
例では、1段目の動作認識ネットワークにおいて、1段目の動作認識ネットワークは、目標ビデオフレームの特徴マップを入力情報として処理してもよい。1段目の動作認識ネットワークは畳み込みカーネルが1×1の2D畳み込み層により前記目標ビデオフレームの特徴マップに対して第1の畳み込み処理を行って、特徴マップに対して次元削減を行い、第1の特徴情報を取得するようにしてもよい。
可能な一実現形態では、前記i段目の動作認識ネットワークは第1の特徴情報に対して時空間特徴抽出処理及び動き特徴抽出処理をそれぞれ行ってもよい。第1の特徴情報を2つの分岐(時空間特徴抽出分岐及び動き特徴抽出分岐)によりそれぞれ処理し、それぞれ時空間特徴情報及び動き特徴情報を取得するようにしてもよい。
可能な一実現形態では、時空間特徴情報、動き特徴情報及びi−1段目の動作認識特徴に基づいて、i段目の動作認識特徴を取得することは、前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得することを含んでもよい。例えば、時空間特徴情報と動き特徴情報とを加算し、加算結果に対して畳み込み処理を行って、さらに、畳み込み処理結果をi−1段目の動作認識特徴と加算し、i段目の動作認識特徴を取得するようにしてもよい。
図4は、本開示の実施例による時空間特徴抽出処理の模式図を示し、前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することは、前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第1の特徴情報と次元が異なる第2の特徴情報を取得することと、前記第2の特徴情報の各チャネルに対してそれぞれ第2の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第3の特徴情報を取得することと、前記第3の特徴情報に対して次元の再構成処理を行い、前記第1の特徴情報と次元が同じである第4の特徴情報を取得することと、前記第4の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得することと、を含む。
可能な一実現形態では、第1の特徴情報の次元はT×C×H×Wであり、ここで、パラメータC、H及びWの値は目標ビデオフレームの特徴マップと異なってもよい。特徴行列により前記第1の特徴情報を表し、前記特徴行列は複数の行ベクトル又は列ベクトルとして表すようにしてもよい。前記第1の特徴情報は複数の行ベクトル又は列ベクトルを含み、前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行うことは、前記第1の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、1つの行ベクトル又は列ベクトルを含む前記第2の特徴情報を取得することを含む。第1の特徴情報(特徴行列)に対して再構成処理を行って、前記特徴行列の次元をHW×C×Tに変換し、第1の特徴情報と次元が異なる第2の特徴情報を取得するようにしてもよく、例えば、第1の特徴情報はTグループの特徴行列を含み、各グループの特徴行列のチャネル数はC(例えば、各グループの特徴行列の数はC)であり、各特徴行列のサイズはH×Wであるとすると、各特徴行列に対して繋ぎ合わせをそれぞれ行い、例えば、特徴行列をH個の行ベクトル又はW個の列ベクトルと見なし、且つH個の行ベクトル又はW個の列ベクトルに対して繋ぎ合わせを行い、1つの行ベクトル又は1つの列ベクトルを形成するようにしてもよい。前記行ベクトル又は列ベクトルはつまり前記第2の特徴情報であり、HWの値はHとWとの積としてもよい。本開示は再構成処理の方式について制限しない。
可能な一実現形態では、第2の特徴情報の各チャネルに対してそれぞれ第2の畳み込み処理を行い、第3の特徴情報を取得するようにしてもよい。例では、畳み込みカーネルが3×1の1D深さ分離畳み込み層により第2の特徴情報の各チャネルに対してそれぞれ第2の畳み込み処理を行ってもよい。例えば、Tグループの第2の特徴情報のそれぞれはC個のチャネルを含み、例えば、各グループの第2の特徴情報の数はCであるとすると、各グループのC個の第2の特徴情報に対してそれぞれ第2の畳み込み処理を行い、Tグループの第3の特徴情報を取得するようにしてもよく、Tグループの第3の特徴情報は前記複数の目標ビデオフレームの特徴マップの時間特徴を表してもよく、すなわち、前記第3の特徴情報は各目標ビデオフレームの時間情報を有する。例では、各チャネルの第2の特徴情報に含まれる時空間情報は互いに異なう可能で、各チャネルの第2の特徴情報にそれぞれ第2の畳み込み処理を行うことで、各チャネルの第3の特徴情報を取得することができ、且つ再構成後に得られた第2の特徴情報に対し、畳み込みカーネルが3×1の1D畳み込み層によりチャネル毎にそれぞれ第2の畳み込み処理を行う演算量は少なく、すなわち、行ベクトル又は列ベクトルに対して1D畳み込み処理を行う方が、特徴マップに対して2D畳み込み又は3D畳み込みを行うよりも演算量は少なく、処理効率を向上させることができる。例では、第3の特徴情報の次元は、HW×C×Tであり、すなわち、各第3の特徴情報は、行ベクトル又は列ベクトルであってもよい。
可能な一実現形態では、第3の特徴情報を再構成し、例えば、各第3の特徴情報(行ベクトル又は列ベクトル形式)を行列に再構成し、第4の特徴情報を取得するようにしてもよい。第4の特徴情報の次元は第1の特徴情報の次元と同じであり、例えば、各第3の特徴情報は長さがHWである行ベクトル又は列ベクトルである場合、第3の特徴情報を長さがHであるW個の列ベクトル又は長さがWであるH個の行ベクトルに分割し、前記行ベクトル又は列ベクトルを統合し、特徴行列(すなわち、第4の特徴情報)を取得するようにしてもよく、第4の特徴情報の次元は、T×C×H×Wである。本開示は第4の特徴情報のパラメータについて制限しない。
可能な一実現形態では、畳み込みカーネルが3×3の2D畳み込み層により第4の特徴情報に対して畳み込み処理を行って、第4の特徴情報の空間特徴を抽出し、時空間特徴情報を取得するようにしてもよい。すなわち、第4の特徴情報の対象物の位置を表す特徴情報を抽出して時間情報と融合することで、前記時空間特徴情報を表すことができる。前記時空間特徴情報は次元がT×C×H×Wの特徴行列であってもよく、時空間特徴情報のH及びWは、第4の特徴情報と異なっていてもよい。
このように、各チャネルの時空間情報を取得し、時空間情報を完全にすることができ、また、再構成処理により第1の特徴情報の次元を変更することで、演算量の少ない方法により畳み込み処理を行うことができ、例えば1D畳み込み処理により第2の畳み込み処理を行うことができ、演算を簡略化し、処理効率を向上させることができる。
図5は、本開示の実施例による動き特徴抽出処理の模式図を示し、前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することは、前記第1の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第5の特徴情報を取得することと、k+1番目の目標ビデオフレームに対応する第5の特徴情報に対して、第3の畳み込み処理を行って、前記k番目の目標ビデオフレームに対応する第5の特徴情報との減算をし、k番目の目標ビデオフレームに対応する第6の特徴情報を取得し、ここで、kは整数で1≦k<Tであり、Tは目標ビデオフレームの数であり、かつTは1より大きい整数であり、前記第6の特徴情報は前記k+1番目の目標ビデオフレームに対応する第5の特徴情報と前記k番目の目標ビデオフレームに対応する第5の特徴情報との間の動き差分情報を表すことと、前記目標ビデオフレームのそれぞれに対応する第6の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得することと、を含んでもよい。
可能な一実現形態では、第1の特徴情報のチャネルに対して次元削減処理を行い、第5の特徴情報を取得するようにしてもよく、例えば、畳み込みカーネルが1×1の2D畳み込み層により第1の特徴情報のチャネルに対して次元削減処理を行い、すなわち、チャネルの数を削減するようにしてもよい。例では、T×C×H×Wの次元である第1の特徴情報のチャネル数CをC/16に削減してもよい。各目標ビデオフレームに対応する第5の特徴情報を取得し、前記第5の特徴情報の次元はT×C/16×H×Wであり、すなわち、T個の目標ビデオフレームにそれぞれ対応するTグループの第5の特徴情報を含み、各グループの第5の特徴情報の次元はC/16×H×Wである。
可能な一実現形態では、例としてk番目の目標ビデオフレームに対応する第5の特徴情報(第5の特徴情報kと略称する)を取り上げ、k+1番目の目標ビデオフレームに対応する第5の特徴情報(第5の特徴情報k+1と略称する)に対してチャネル毎の第3の畳み込み処理を行い、例えば、畳み込みカーネルが3×3の2D深さ分離畳み込み層により第5の特徴情報k+1に対して第3の畳み込み処理を行って、第3の畳み込み処理によって得られた結果と第5の特徴情報kとの減算をし、k番目の目標ビデオフレームに対応する第6の特徴情報を取得するようにしてもよく、第6の特徴情報の次元は、第5の特徴情報の次元と同じであり、C/16×H×Wである。各第5の特徴情報に対して第3の畳み込み処理をそれぞれ行って、直前の第5の特徴情報との減算をし、第6の特徴情報を取得するようにしてもよい。第6の特徴情報は隣接する2つの目標ビデオフレームに対応する第5の特徴情報の間の動き差分情報を表し、すなわち、2つの目標ビデオフレームにおける対象物の動作差を表し、対象物の動作を決定するために用いることができる。例では、前記減算の手順でT−1個の第6の特徴情報を取得することができ、T番目の目標ビデオフレームに対応する第5の特徴情報と、パラメータが全て0である行列に第3の畳み込み処理を施した処理結果と減算をし、又はパラメータが全て0である行列と直接減算をし、T番目の目標ビデオフレームに対応する第6の特徴情報を取得するようにしてもよいし、又は、全て0である行列を第6の特徴情報とし、T番目の目標ビデオフレームに対応する第6の特徴情報を取得するようにしてもよい。すなわち、T個の目標ビデオフレームにそれぞれ対応するT個の第6の特徴情報を合計で取得することができる。さらに、T個の第6の特徴情報を統合することにより、次元がT×C/16×H×Wの第6の特徴情報を取得することができる。
可能な一実現形態では、次元がT×C/16×H×Wの第6の特徴情報に対して特徴抽出処理を行ってもよい。例えば、畳み込みカーネルが1×1の2D畳み込み層により第6の特徴情報に対して次元拡張を行い、例えば、チャネルの数に対して次元拡張を行い、チャネル数C/16をCに次元拡張して、前記動き特徴情報を取得するようにしてもよい。動き特徴情報の次元は、時空間特徴情報の次元と一致しており、いずれもT×C×H×Wである。
可能な一実現形態では、図3に示すように、前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、i段目の動作認識特徴を取得するようにしてもよい。例では、該ステップは、前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第7の特徴情報を取得することと、前記第7の特徴情報に対して第4の畳み込み処理を行って、前記i−1段目の動作認識特徴との加算処理を行い、前記i段目の動作認識特徴を取得することと、を含んでもよい。
可能な一実現形態では、時空間特徴情報の次元と動き特徴情報の次元は同じであり、いずれもT×C×H×Wであり、時空間特徴情報と動き特徴情報の複数の特徴情報(例えば、各特徴マップ又は特徴行列)をそれぞれ加算し、第7の特徴情報を取得するようにしてもよく、第7の特徴情報の次元はT×C×H×Wである。
可能な一実現形態では、第7の特徴情報に対して第4の畳み込み処理を行い、例えば、畳み込みカーネルが1×1の2D畳み込み層により第7の特徴情報に対して第4の畳み込み処理を行い、第7の特徴情報に対して次元拡張を行い、第7の特徴情報の次元をi−1段目の動作認識特徴と同じ次元に変換し、例えば、チャネル数を16倍増やすようにしてもよい。さらに、第4の畳み込み処理の処理結果とi−1段目の動作認識特徴とを加算し、i段目の動作認識特徴を取得するようにしてもよい。
可能な一実現形態では、1段目の動作認識ネットワークは目標ビデオフレームの特徴マップと第4の畳み込み処理の処理結果を加算し、1段目の動作認識特徴を取得するようにしてもよく、1段目の動作認識特徴は2段目の動作認識ネットワークの入力情報としてもよい。
このように、第5の特徴情報に対して第3の畳み込み処理を行った後、直前の第5の特徴情報との減算処理により前記動き特徴情報を取得することができて、演算を簡略化し、処理効率を向上させることができる。
可能な一実現形態では、上記の方法によって、動作認識特徴を段階的に取得し、また、上記の方法によって、M段目の動作認識ネットワークによりM−1段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得し、すなわち、M段目の動作認識特徴を前記目標ビデオフレームの動作認識特徴とするようにしてもよい。
可能な一実現形態では、ステップS13において、複数の目標ビデオフレームの動作認識特徴に基づいて、処理対象ビデオフレームの分類結果を取得するようにしてもよい。ステップS13は、各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得することと、各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得することと、を含んでもよい。
可能な一実現形態では、前記ニューラルネットワークの全結合層により各目標ビデオフレームの動作認識特徴に対して全結合処理を行い、各目標ビデオフレームの分類情報を取得するようにしてもよい。例では、各目標ビデオフレームの分類情報は、特徴ベクトルであってもよく、すなわち、前記全結合層はT個の特徴ベクトルを出力してもよい。さらに、前記T個の特徴ベクトルに対して平均化処理を行い、処理対象ビデオの分類結果を取得するようにしてもよい。前記分類結果は、前記処理対象ビデオが属するカテゴリの確率を表すことができる特徴ベクトルであってもよい。
例では、前記分類結果は400次元のベクトルであってもよく、該ベクトルは400個のパラメータを含み、処理対象ビデオが400種類のカテゴリに属する確率をそれぞれ表す。前記カテゴリは、処理対象ビデオにおける対象物の動作のカテゴリ、例えば、歩行、杯上げ、食事などの動作であってもよい。例えば、該ベクトルにおいて、2番目のパラメータの値が最大である場合、処理対象ビデオが2番目のカテゴリに属する確率は最大であり、処理対象ビデオが2番目のカテゴリに属すると判断することができ、例えば、処理対象ビデオの対象物が歩行中であると判断することができる。本開示は分類結果のタイプ及び次元について制限しない。
本開示の実施例によるビデオ処理方法によれば、処理対象ビデオの複数のビデオフレームから目標ビデオフレームを決定し、続いて目標ビデオフレームを処理することができ、演算リソースを節約し、処理効率を向上させることができる。各段の動作認識ネットワークは、各チャネルの時空間情報を取得し、時空間情報を完全にすることができ、また、再構成処理により第1の特徴情報の次元を変更することで、演算量の少ない方法により畳み込み処理を行うことができ、また、第5の特徴情報に対して第3の畳み込み処理を行った後、直前の第5の特徴情報との減算処理により前記動き特徴情報を取得することができ、演算を簡略化させることができる。さらに、各段の動作認識ネットワークの動作認識結果を取得し、さらに処理対象ビデオの分類結果を取得することができ、オプティカルフロー又は3D畳み込みなどの処理によって動作認識を行う必要がなく、入力された目標ビデオフレーム(RGB画像)により時空間特徴情報及び動き特徴情報を取得することができ、入力パラメータが削減され、且つ演算量が削減され、処理効率が向上されて、処理対象ビデオをオンラインでリアルタイムに分類することができ、前記ビデオ処理方法の実用性が向上される。
可能な一実現形態では、前記ビデオ処理方法はニューラルネットワークにより実現してもよく、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記M段の動作認識ネットワークを含む。前記ニューラルネットワークは、動作認識特徴に対して全結合処理を行うように、さらに前記全結合層を含んでもよい。
図6は、本開示の実施例によるビデオ処理方法のフローチャートを示し、図6に示すように、前記方法は、
サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うステップS15をさらに含む。
可能な一実現形態では、ステップS15は、前記サンプルビデオから複数のサンプルビデオフレームを決定することと、前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定することと、前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定することと、前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、を含んでもよい。
可能な一実現形態では、サンプルビデオは複数のビデオフレームを含み、前記サンプルビデオの複数のビデオフレームからサンプルビデオフレームを決定するようにしてもよく、例えば、ランダムにサンプリングするか、サンプルビデオを複数のビデオセグメントに分割し、各ビデオセグメントからサンプリングし、前記サンプルビデオフレームを取得するようにしてもよい。
可能な一実現形態では、サンプルビデオフレームを前記ニューラルネットワークに入力し、且つ前記特徴抽出ネットワークで特徴抽出処理を行って、M段の動作認識ネットワークで動作認識処理を行い、さらに、全結合層で全結合処理を行った後、各サンプルビデオフレームの分類情報を取得し、各サンプルビデオフレームの分類情報に対して平均化処理を行い、前記サンプルビデオの分類結果を取得するようにしてもよい。
可能な一実現形態では、前記分類結果はサンプルビデオの分類を示す多次元ベクトル(誤差を有する可能性がある)であってもよい。前記サンプルビデオはカテゴリラベルを有し、サンプルビデオの実際のカテゴリ(誤差なし)を表すようにしてもよい。分類結果及びカテゴリラベルに基づいてニューラルネットワークのネットワーク損失を決定し、例えば、分類結果とカテゴリラベルとの間のコサイン距離又はユークリッド距離を決定し、且つ前記コサイン距離又はユークリッド距離と0との間の差異に基づいてネットワーク損失を決定するようにしてもよい。本開示はネットワーク損失の決定方式について制限しない。
可能な一実現形態では、前記ネットワーク損失に基づいてニューラルネットワークのネットワークパラメータを調整してもよく、例えば、ニューラルネットワークの各パラメータに対する前記ネットワーク損失の勾配を決定し、且つネットワーク損失を最小化することを目的に、勾配降下法により各ネットワークパラメータを調節するようにしてもよい。上記方式によりネットワークパラメータを複数回調節(すなわち、複数のサンプルビデオにより複数のトレーニングサイクルのトレーニングを行う)してもよく、且つ、トレーニング条件を満たした時に、トレーニング後のニューラルネットワークを取得するようにしてもよい。前記トレーニング条件はトレーニング回数(すなわち、トレーニングサイクルの数)を含んでもよく、例えば、トレーニング回数が予め設定された回数に達すると、トレーニング条件を満たす。又は、前記トレーニング条件はネットワーク損失の大きさ又は収束発散性を含んでもよく、例えば、前記ネットワーク損失が損失しきい値以下であるか、予め設定された区間内に収束すると、トレーニング条件を満たす。本開示はトレーニング条件について制限しない。
図7は、本開示の実施例によるビデオ処理方法の適用模式図を示す。図6に示すように、処理対象ビデオは1つ以上の対象物を含む任意のビデオであってもよく、サンプリングなどにより処理対象ビデオの複数のビデオフレームにおいてT個の目標ビデオフレームを決定してもよい。例えば、処理対象ビデオをT(例えば、Tは8又は16)個のビデオセグメントに分割し、ビデオセグメント毎に1つのビデオフレームをランダムにサンプリングして目標ビデオフレームとするようにしてもよい。
可能な一実現形態では、ニューラルネットワークの特徴抽出ネットワークにより複数の目標ビデオフレームに対して特徴抽出を行ってもよく、特徴抽出ネットワークは1つ以上の畳み込み層を含み、複数の目標ビデオフレームに対して畳み込み処理を行い、複数の目標ビデオフレームの特徴マップを取得するようにしてもよい。例えば、T個の目標ビデオフレームにおいて、各目標ビデオフレームをC個のチャネル(例えば、R、G、Bの3つのチャネル)に分けて特徴抽出ネットワークに入力して、目標ビデオフレームのサイズはH×W(例えば、224×224)であるとしてもよく、特徴抽出処理の後、C、H、Wの数値はいずれも変更可能である。
可能な一実現形態では、M段の動作認識ネットワークにより特徴マップを処理してもよく、M段の動作認識ネットワークはカスケード接続されたM個の動作認識ネットワークであり、各動作認識ネットワークのネットワーク構造は同一であり、且ついずれも前記ニューラルネットワークの一部であるようにしてもよい。図6に示すように、M段の動作認識ネットワークは、複数のグループを構成して、各グループの間に畳み込み層又は活性化層などのニューラルネットワーク階層を有してもよいし、又は、グループ間にニューラルネットワーク階層を有しなく、各グループの動作認識ネットワークが直接カスケード接続するようにしてもよく、各グループの動作認識ネットワークの数の総和はMである。
可能な一実現形態では、1段目の動作認識ネットワークはTグループの特徴マップを処理し、1段目の動作認識特徴を取得して、1段目の動作認識特徴を2段目の動作認識ネットワークの入力情報として、2段目の動作認識ネットワークは1段目の動作認識特徴を処理し、2段目の動作認識特徴を取得して、かつ2段目の動作認識特徴を3段目の動作認識ネットワークの入力情報とする……ようにしてもよい。
可能な一実現形態では、例としてi段目の動作認識ネットワークを取り上げ、i段目の動作認識ネットワークはi−1段目の動作認識特徴を入力情報として処理し、畳み込みカーネルが1×1の2D畳み込み層によりi−1段目の動作認識特徴に対して第1の畳み込み処理を行い、i−1段目の動作認識特徴に対して次元削減を行い、第1の特徴情報を取得するようにしてもよい。
可能な一実現形態では、i段目の動作認識ネットワークは第1の特徴情報に対して時空間特徴抽出処理及び動き特徴抽出処理をそれぞれ行ってもよく、例えば、時空間特徴抽出分岐と動き特徴抽出分岐に分けてそれぞれ処理を行うようにしてもよい。
可能な一実現形態では、前記時空間特徴抽出分岐はまず第1の特徴情報を再構成し、例えば、第1の特徴情報の特徴行列を行ベクトル又は列ベクトルに再構成し、第2の特徴情報を取得し、且つ畳み込みカーネルが3×1の1D畳み込み層により第2の特徴情報の各チャネルに対して第2の畳み込み処理をそれぞれ行い、小さい演算量で第3の特徴情報を取得するようにしてもよい。さらに、第3の特徴情報を再構成し、行列形式の第4の特徴情報を取得し、且つ畳み込みカーネルが3×3の2D畳み込み層により第4の特徴情報に対して畳み込み処理を行い、前記時空間特徴情報を取得するようにしてもよい。
可能な一実現形態では、前記動き特徴抽出分岐はまず畳み込みカーネルが1×1の2D畳み込み層により第1の特徴情報のチャネルに対して次元削減処理を行い、例えば、第1の特徴情報のチャネル数CをC/16に削減し、各目標ビデオフレームに対応する第5の特徴情報を取得するようにしてもよい。例としてk番目の目標ビデオフレームに対応する第5の特徴情報を取り上げ、畳み込みカーネルが3×3の2D畳み込み層によりk+1番目の目標ビデオフレームに対応する第5の特徴情報に対してチャネル毎の第3の畳み込み処理を行って、第3の畳み込み処理によって得られた結果と第5の特徴情報kとの減算をし、k番目の目標ビデオフレームに対応する第6の特徴情報を取得するようにしてもよい。上記方式により、前のT−1個の目標ビデオフレームに対応する第6の特徴情報を取得して、且つT番目の目標ビデオフレームに対応する第5の特徴情報と、パラメータが全て0である行列に第3の畳み込み処理を施した処理結果と減算をし、T番目の目標ビデオフレームに対応する第6の特徴情報を取得し、すなわち、T個の第6の特徴情報を取得するようにしてもよい。さらに、T個の第6の特徴情報を統合し、畳み込みカーネルが1×1の2D畳み込み層により第6の特徴情報に対して次元拡張を行い、動き特徴情報を取得するようにしてもよい。
可能な一実現形態では、時空間特徴情報及び動き特徴情報に対して加算処理を行い、第7の特徴情報を取得して、且つ畳み込みカーネルが1×1の2D畳み込み層により第7の特徴情報に対して第4の畳み込み処理を行い、第7の特徴情報に対して次元拡張を行い、第7の特徴情報の次元をi−1段目の動作認識特徴と同じ次元に変換し、i−1段目の動作認識特徴と加算し、i段目の動作認識特徴を取得するようにしてもよい。
可能な一実現形態では、M段目の動作認識ネットワークから出力された動作認識特徴を目標ビデオフレームの動作認識特徴として決定し、且つ目標ビデオフレームの動作認識特徴をニューラルネットワークの全結合層に入力して処理し、各目標ビデオフレームに対応する分類情報、例えば、分類情報1、分類情報2……を取得するようにしてもよい。例では、前記分類情報はベクトルであってもよく、T個の目標ビデオフレームに対応する分類情報に対して平均化処理を行い、処理対象ビデオの分類結果を取得するようにしてもよい。前記分類結果もベクトルであり、処理対象ビデオが属するカテゴリの確率を表すことができる。例えば、分類結果は400次元のベクトルであってもよく、該ベクトルは400個のパラメータを含み、処理対象ビデオが400種類のカテゴリに属する確率をそれぞれ表す。前記カテゴリは、処理対象ビデオにおける対象物の動作のカテゴリ、例えば、歩行、杯上げ、食事などの動作であってもよい。例えば、該ベクトルにおいて、2番目のパラメータの値が最大である場合、処理対象ビデオが2番目のカテゴリに属する確率が最大であることを示し、処理対象ビデオが2番目のカテゴリに属すると判断することができる。
可能な一実現形態では、前記ビデオ処理方法は、時空間特徴情報と動き特徴情報に基づいて類似する動作、例えば、扉を閉めたり開けたりする動作、日没や日の出の動作などを認識してもよく、且つ前記ビデオ処理方法は、演算量が小さく、処理効率が高く、ビデオに対するリアルタイム分類に用いることができ、例えば、刑務所の監視に用いて、容疑者の脱獄動作の有無をリアルタイムに判別することや、地下鉄の監視に用いて、地下鉄車両の運転状態及び旅客の流動状況をリアルタイムに判別することや、セキュリティ分野に用いて、監視領域に危険な動作をしている人がいるか否かをリアルタイムに判別するなどに応用できる。本開示は前記ビデオ処理方法の応用分野について制限しない。
本開示で言及された上記各方法の実施例は、原理や論理に違反しない限り、相互に組み合わせて組み合わせ後の実施例を形成することができることが理解され、紙幅に限りがあるため、詳細は本開示では再度説明しない。
図8は、本開示の実施例によるビデオ処理装置のブロック図を示し、図8に示すように、前記ビデオ処理装置は、
特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するための特徴抽出モジュール11と、
動作認識モジュール12であって、M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得するために用いられ、ここで、Mは1以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含む動作認識モジュール12と、
前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定するための分類モジュール13と、を含む。
可能な一実現形態では、前記動作認識モジュールはさらに、1段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、1段目の動作認識特徴を取得し、i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得し、iは整数で1<i<Mであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応し、M段目の動作認識ネットワークによりM−1段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得するように構成される。
可能な一実現形態では、前記動作認識モジュールはさらに、前記i−1段目の動作認識特徴に対して第1の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第1の特徴情報を取得し、前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得し、前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得し、少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得するように構成される。
可能な一実現形態では、前記動作認識モジュールはさらに、前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得するように構成される。
可能な一実現形態では、前記動作認識モジュールはさらに、前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第1の特徴情報と次元が異なる第2の特徴情報を取得し、前記第2の特徴情報の各チャネルに対してそれぞれ第2の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第3の特徴情報を取得し、前記第3の特徴情報に対して次元の再構成処理を行い、前記第1の特徴情報と次元が同じである第4の特徴情報を取得し、前記第4の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得するように構成される。
可能な一実現形態では、前記第1の特徴情報は複数の行ベクトル又は列ベクトルを含み、前記動作認識モジュールはさらに、前記第1の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、1つの行ベクトル又は列ベクトルを含む前記第2の特徴情報を取得するように構成される。
可能な一実現形態では、前記動作認識モジュールはさらに、前記第1の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第5の特徴情報を取得し、k+1番目の目標ビデオフレームに対応する第5の特徴情報に対して、第3の畳み込み処理を行って、前記k番目の目標ビデオフレームに対応する第5の特徴情報との減算をし、k番目の目標ビデオフレームに対応する第6の特徴情報を取得し、ここで、kは整数で1≦k<Tであり、Tは目標ビデオフレームの数であり、かつTは1より大きい整数であり、前記第6の特徴情報は前記k+1番目の目標ビデオフレームに対応する第5の特徴情報と前記k番目の目標ビデオフレームに対応する第5の特徴情報との間の動き差分情報を表し、前記目標ビデオフレームのそれぞれに対応する第6の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得するように構成される。
可能な一実現形態では、前記動作認識モジュールはさらに、前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第7の特徴情報を取得し、前記第7の特徴情報に対して第4の畳み込み処理を行って、前記i−1段目の動作認識特徴との加算処理を行い、前記i段目の動作認識特徴を取得するように構成される。
可能な一実現形態では、前記分類モジュールはさらに、各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得し、各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得するように構成される。
図9は、本開示の実施例によるビデオ処理装置のブロック図を示し、図9に示すように、前記ビデオ処理装置は、
処理対象ビデオから複数の目標ビデオフレームを決定するための決定モジュール14をさらに含む。
可能な一実現形態では、前記決定モジュールはさらに、前記処理対象ビデオを複数のビデオセグメントに分割し、各ビデオセグメント毎に少なくとも1つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得するように構成される。
可能な一実現形態では、前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記M段の動作認識ネットワークを含み、前記装置は、サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うためのトレーニングモジュール15をさらに含む。
可能な一実現形態では、前記トレーニングモジュールはさらに、前記サンプルビデオから複数のサンプルビデオフレームを決定し、前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定し、前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定し、前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するように構成される。
また、本開示は、ビデオ処理装置、電子機器、コンピュータ読み取り可能記憶媒体、プログラムをさらに提供し、これらはいずれも本開示で提供されるビデオ処理方法のいずれか1つを実現するために用いることができ、対応する技術的解決手段及び説明は、方法の説明分の対応する記載を参照すればよく、詳細は再度説明しない。
当業者であれば、具体的な実施形態の上記方法において、各ステップの記述順序は厳密な実行順序を意味して実施過程を何ら限定するものではなく、各ステップの具体的な実行順序はその機能及び可能な内在的論理によって決定されるべきであることが理解される。
いくつかの実施例では、本開示の実施例で提供された装置が有する機能又は含まれるモジュールは、上記方法の実施例に記載の方法を実行するために用いることができ、その具体的な実現は上記方法の実施例の説明を参照すればよく、簡潔にするために、詳細はここでは再度説明しない。
本開示の実施例は、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、上記の方法を実現させるコンピュータ読み取り可能記憶媒体をさらに提案する。コンピュータ読み取り可能記憶媒体は、不揮発性コンピュータ読み取り可能記憶媒体であってもよい。
本開示の実施例は、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリとを含み、前記プロセッサは、上記の方法を実行するように構成される電子機器をさらに提案する。
電子機器は、端末、サーバ、又はその他の形態の機器として提供することができる。
図10は、例示的な実施例による電子機器800のブロック図を示す。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット機器、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。
図10を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサーコンポーネント814、及び通信コンポーネント816のうちの1つ以上を含んでもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話呼出し、データ通信、カメラ動作、及び記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全て又は一部のステップを実行するために、命令を実行する1つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための1つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク、又は光ディスクなどの様々なタイプの揮発性又は不揮発性記憶機器又はそれらの組み合わせによって実現することができる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、1つ以上の電源、及び電子機器800のための電力生成、管理、及び配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)及びタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するためのタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライド、タッチパネルでのジェスチャーを検知するように、1つ以上のタッチセンサーを含む。前記タッチセンサーは、タッチ又はスライド動きの境界を検知するのみならず、前記タッチ又はスライド操作に関連する持続時間及び圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808はフロントカメラ及び/又はリアカメラを含む。電子機器800が動作モード、例えば撮影モード又は撮像モードになる場合、フロントカメラ及び/又はリアカメラは外部のマルチメディアデータを受信するようにしてもよい。各フロントカメラ及びリアカメラは、固定された光学レンズ系、又は焦点距離及び光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオコンポーネント810は、マイクロフォン(MIC)を含み、マイクロフォンは、電子機器800が動作モード、例えば呼び出しモード、記録モード、及び音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、又は通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810は、オーディオ信号を出力するためのスピーカーをさらに含む。
I/Oインタフェース812は、処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンには、ホームボタン、音量ボタン、スタートボタン、ロックボタンなどを含んでもよいが、これらに限定されない。
センサーコンポーネント814は、電子機器800の各方面の状態評価のために1つ以上のセンサーを含む。例えば、センサーコンポーネント814は、電子機器800のオン/オフ状態、例えば電子機器800のディスプレイ及びキーパッドのようなコンポーネントの相対的位置決めを検出してもよく、センサーコンポーネント814はさらに、電子機器800又は電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位又は加減速、及び電子機器800の温度変化を検出してもよい。センサーコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサーを含んでもよい。センサーコンポーネント814はさらに、CMOS又はCCDイメージセンサーのような、イメージング用途で使用するための光センサーを含んでもよい。いくつかの実施例では、該センサーコンポーネント814はさらに、加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー又は温度センサーを含んでもよい。
通信コンポーネント816は、電子機器800と他の機器との有線又は無線通信を実現するように構成される。電子機器800は、通信規格に基づく無線ネットワーク、例えばWiFi、2G、3G、又はそれらの組み合わせにアクセスすることができる。一例示的な実施例では、通信コンポーネント816は、放送チャネルを介して外部の放送管理システムからの放送信号又は放送関連情報を受信する。一例示的な実施例では、通信コンポーネント816は、近距離通信を促進させるために、近距離無線通信(NFC)モジュールをさらに含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術、及びその他の技術によって実現されることができる。
例示的な実施例では、電子機器800は、1つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサー、又は他の電子要素によって実現され、上記の方法を実行するために用いられることができる。
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されると、上記方法を実行させることができる。
本開示の実施例はまた、コンピュータ読み取り可能コードを含むコンピュータプログラム製品を提供し、コンピュータ読み取り可能コードが機器で実行されると、機器内のプロセッサは、上記の実施例のいずれかに提供される方法を実施するための命令を実行する。
該コンピュータプログラム製品は具体的にハードウェア、ソフトウェア又はその組み合わせの方式により実現されることができる。選択可能な実施例では、前記コンピュータプログラム製品は具体的にコンピュータ記憶媒体として具現化される。他の選択可能な実施例では、コンピュータプログラム製品は具体的にソフトウェア製品、例えばソフトウェア開発キット(Software Development Kit、SDK)などとして具現化される。
図11は、例示的な実施例による電子機器1900のブロック図を示す。例えば、電子機器1900は、サーバとして提供されてもよい。図11に示すように、電子機器1900は、1つ以上のプロセッサを含む処理コンポーネント1922、及び、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する1つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は、命令を実行することによって上記方法を実行するように構成される。
電子機器1900は、電子機器1900の電源管理を実行するように構成された電源コンポーネント1926と、電子機器1900をネットワークに接続するように構成された有線又は無線のネットワークインタフェース1950と、入出力(I/O)インタフェース1958と、をさらに含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)TM、Linux(登録商標)TM、FreeBSDTM又は類似するものに基づいて動作することができる。
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されると、上記方法を実行させることができる。
本開示はシステム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ読み取り可能プログラム命令を有しているコンピュータ読み取り可能記憶媒体を含んでもよい。
コンピュータ読み取り可能記憶媒体は、命令実行機器に使用される命令を保存及び記憶可能な有形機器であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶機器、磁気記憶機器、光記憶機器、電磁記憶機器、半導体記憶機器又は上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カード又はスロット内突起構造のような機械的符号化装置、及び上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は、瞬時信号自体、例えば無線電波又は他の自由に伝播される電磁波、導波路又は他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、又は電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体から各計算/処理機器にダウンロードされてもよいし、又はネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワーク及び/又は無線ネットワークを介して外部のコンピュータ又は外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータ及び/又はエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカード又はネットワークインタフェースはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算/処理機器内のコンピュータ読み取り可能記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk、C++などのオブジェクト指向プログラミング言語、及び「C」言語又は類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む1つ以上のプログラミング言語の任意の組み合わせで書かれたソースコード又は目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、又は完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、又は、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用し、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ読み取り可能プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。
ここで本開示の実施例による方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しながら本開示の各方面を説明したが、フローチャート及び/又はブロック図の各ブロック、及びフローチャート及び/又はブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ読み取り可能プログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサへ提供されて、これらの命令がコンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行されるときフローチャート及び/又はブロック図の1つ以上のブロックにおいて指定された機能/動作を実現するように、装置を製造してもよい。これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、コンピュータ、プログラマブルデータ処理装置及び/又は他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ読み取り可能記憶媒体は、フローチャート及び/又はブロック図の1つ以上のブロックにおいて指定された機能/動作の各方面を実現するための命令を有する製品を含む。
コンピュータ読み取り可能プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、又は他の機器にロードし、コンピュータ、他のプログラマブルデータ処理装置又は他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにし、コンピュータ、他のプログラマブルデータ処理装置、又は他の機器において実行される命令により、フローチャート及び/又はブロック図の1つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちのフローチャート及びブロック図は、本開示の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び動作を示す。この点では、フローチャート又はブロック図における各ブロックは1つのモジュール、プログラムセグメント又は命令の一部分を代表することができ、前記モジュール、プログラムセグメント又は命令の一部分は指定された論理機能を実現するための1つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な2つのブロックは実質的に並列同時に実行してもよく、また、係る機能によって、逆な順序で実行してもよい場合がある。なお、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、指定される機能又は動作を実行するハードウェアに基づく専用システムによって実現してもよいし、又は専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲及び精神から逸脱することなく、様々な修正及び変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用又は市場における技術への技術的改善を好適に解釈するか、又は他の当業者に本明細書に披露された各実施例を理解させるためのものである。

Claims (29)

  1. 特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得することと、
    M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得し、ここで、Mは1以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含むことと、
    前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定することと、を含むことを特徴とするビデオ処理方法。
  2. M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得することは、
    1段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、1段目の動作認識特徴を取得することと、
    i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得し、iは整数で1<i<Mであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応することと、
    M段目の動作認識ネットワークによりM−1段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得することと、を含むことを特徴とする請求項1に記載の方法。
  3. i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得することは、
    前記i−1段目の動作認識特徴に対して第1の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第1の特徴情報を取得することと、
    前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することと、
    前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することと、
    少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得することと、を含むことを特徴とする請求項2に記載の方法。
  4. 少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得することは、
    前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得することを含むことを特徴とする請求項3に記載の方法。
  5. 前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することは、
    前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第1の特徴情報と次元が異なる第2の特徴情報を取得することと、
    前記第2の特徴情報の各チャネルに対してそれぞれ第2の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第3の特徴情報を取得することと、
    前記第3の特徴情報に対して次元の再構成処理を行い、前記第1の特徴情報と次元が同じである第4の特徴情報を取得することと、
    前記第4の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得することと、を含むことを特徴とする請求項3に記載の方法。
  6. 前記第1の特徴情報は複数の行ベクトル又は列ベクトルを含み、
    前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行うことは、
    前記第1の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、1つの行ベクトル又は列ベクトルを含む前記第2の特徴情報を取得することを含むことを特徴とする請求項5に記載の方法。
  7. 前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することは、
    前記第1の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第5の特徴情報を取得することと、
    k+1番目の目標ビデオフレームに対応する第5の特徴情報に対して、第3の畳み込み処理を行って、前記k番目の目標ビデオフレームに対応する第5の特徴情報との減算をし、k番目の目標ビデオフレームに対応する第6の特徴情報を取得し、ここで、kは整数で1≦k<Tであり、Tは目標ビデオフレームの数であり、かつTは1より大きい整数であり、前記第6の特徴情報は前記k+1番目の目標ビデオフレームに対応する第5の特徴情報と前記k番目の目標ビデオフレームに対応する第5の特徴情報との間の動き差分情報を表すことと、
    前記目標ビデオフレームのそれぞれに対応する第6の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得することと、を含むことを特徴とする請求項3〜6のいずれか一項に記載の方法。
  8. 前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得することは、
    前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第7の特徴情報を取得することと、
    前記第7の特徴情報に対して第4の畳み込み処理を行って、前記i−1段目の動作認識特徴との加算処理を行い、前記i段目の動作認識特徴を取得することと、を含むことを特徴とする請求項4〜7のいずれか一項に記載の方法。
  9. 前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定することは、
    各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得することと、
    各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得することと、を含むことを特徴とする請求項1〜8のいずれか一項に記載の方法。
  10. 処理対象ビデオから複数の目標ビデオフレームを決定することをさらに含むことを特徴とする請求項1〜9のいずれか一項に記載の方法。
  11. 処理対象ビデオの複数のビデオフレームから複数の目標ビデオフレームを決定することは、
    前記処理対象ビデオを複数のビデオセグメントに分割することと、
    各ビデオセグメント毎に少なくとも1つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得することと、を含むことを特徴とする請求項10に記載の方法。
  12. 前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記M段の動作認識ネットワークを含み、
    前記方法は、
    サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うことをさらに含むことを特徴とする請求項1〜11のいずれか一項に記載の方法。
  13. サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うことは、
    前記サンプルビデオから複数のサンプルビデオフレームを決定することと、
    前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定することと、
    前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定することと、
    前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、を含むことを特徴とする請求項12に記載の方法。
  14. 特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するための特徴抽出モジュールと、
    M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得するために用いられる動作認識モジュールであって、Mは1以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含む動作認識モジュールと、
    前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定するための分類モジュールと、を含むことを特徴とするビデオ処理装置。
  15. 前記動作認識モジュールはさらに、
    1段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、1段目の動作認識特徴を取得し、
    i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得し、iは整数で1<i<Mであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応し、
    M段目の動作認識ネットワークによりM−1段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得するように構成されることを特徴とする請求項14に記載の装置。
  16. 前記動作認識モジュールはさらに、
    前記i−1段目の動作認識特徴に対して第1の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第1の特徴情報を取得し、
    前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得し、
    前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得し、
    少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得するように構成されることを特徴とする請求項15に記載の装置。
  17. 前記動作認識モジュールはさらに、
    前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得するように構成されることを特徴とする請求項16に記載の装置。
  18. 前記動作認識モジュールはさらに、
    前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第1の特徴情報と次元が異なる第2の特徴情報を取得し、
    前記第2の特徴情報の各チャネルに対してそれぞれ第2の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第3の特徴情報を取得し、
    前記第3の特徴情報に対して次元の再構成処理を行い、前記第1の特徴情報と次元が同じである第4の特徴情報を取得し、
    前記第4の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得するように構成されることを特徴とする請求項16に記載の装置。
  19. 前記第1の特徴情報は複数の行ベクトル又は列ベクトルを含み、
    前記動作認識モジュールはさらに、
    前記第1の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、1つの行ベクトル又は列ベクトルを含む前記第2の特徴情報を取得するように構成されることを特徴とする請求項18に記載の装置。
  20. 前記動作認識モジュールはさらに、
    前記第1の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第5の特徴情報を取得し、
    k+1番目の目標ビデオフレームに対応する第5の特徴情報に対して、第3の畳み込み処理を行って、前記k番目の目標ビデオフレームに対応する第5の特徴情報との減算をし、k番目の目標ビデオフレームに対応する第6の特徴情報を取得し、ここで、kは整数で1≦k<Tであり、Tは目標ビデオフレームの数であり、かつTは1より大きい整数であり、前記第6の特徴情報は前記k+1番目の目標ビデオフレームに対応する第5の特徴情報と前記k番目の目標ビデオフレームに対応する第5の特徴情報との間の動き差分情報を表し、
    前記目標ビデオフレームのそれぞれに対応する第6の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得するように構成されることを特徴とする請求項16〜19のいずれか一項に記載の装置。
  21. 前記動作認識モジュールはさらに、
    前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第7の特徴情報を取得し、
    前記第7の特徴情報に対して第4の畳み込み処理を行って、前記i−1段目の動作認識特徴との加算処理を行い、前記i段目の動作認識特徴を取得するように構成されることを特徴とする請求項17〜20のいずれか一項に記載の装置。
  22. 前記分類モジュールはさらに、
    各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得し、
    各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得するように構成されることを特徴とする請求項14〜21のいずれか一項に記載の装置。
  23. 処理対象ビデオから複数の目標ビデオフレームを決定するための決定モジュールをさらに含むことを特徴とする請求項14〜22のいずれか一項に記載の装置。
  24. 前記決定モジュールはさらに、
    前記処理対象ビデオを複数のビデオセグメントに分割し、
    各ビデオセグメント毎に少なくとも1つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得するように構成されることを特徴とする請求項23に記載の装置。
  25. 前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記M段の動作認識ネットワークを含み、
    前記装置は、
    サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うためのトレーニングモジュールをさらに含むことを特徴とする請求項14〜24のいずれか一項に記載の装置。
  26. 前記トレーニングモジュールはさらに、
    前記サンプルビデオから複数のサンプルビデオフレームを決定し、
    前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定し、
    前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定し、
    前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するように構成されることを特徴とする請求項25に記載の装置。
  27. プロセッサと、
    プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
    前記プロセッサは、前記メモリに記憶されている命令を呼び出し、請求項1〜13のいずれか一項に記載の方法を実行するように構成されることを特徴とする電子機器。
  28. コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、
    前記コンピュータプログラム命令がプロセッサによって実行されると、請求項1〜13のいずれか一項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能記憶媒体。
  29. コンピュータ読み取り可能コードを含むコンピュータプログラムであって、
    前記コンピュータ読み取り可能コードが電子機器で実行されると、前記電子機器のプロセッサに、請求項1〜13のいずれか一項に記載の方法を実現するための命令を実行させるコンピュータプログラム。
JP2020571778A 2019-07-19 2019-11-29 ビデオ処理方法及び装置、電子機器、並びに記憶媒体 Active JP7090183B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910656059.9A CN112241673B (zh) 2019-07-19 2019-07-19 视频处理方法及装置、电子设备和存储介质
CN201910656059.9 2019-07-19
PCT/CN2019/121975 WO2021012564A1 (zh) 2019-07-19 2019-11-29 视频处理方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021536048A true JP2021536048A (ja) 2021-12-23
JP7090183B2 JP7090183B2 (ja) 2022-06-23

Family

ID=74167666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020571778A Active JP7090183B2 (ja) 2019-07-19 2019-11-29 ビデオ処理方法及び装置、電子機器、並びに記憶媒体

Country Status (7)

Country Link
US (1) US20210103733A1 (ja)
JP (1) JP7090183B2 (ja)
KR (1) KR20210090238A (ja)
CN (1) CN112241673B (ja)
SG (1) SG11202011781UA (ja)
TW (1) TWI738172B (ja)
WO (1) WO2021012564A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906484B (zh) * 2021-01-25 2023-05-12 北京市商汤科技开发有限公司 一种视频帧处理方法及装置、电子设备和存储介质
CN112926436B (zh) * 2021-02-22 2024-07-16 上海商汤智能科技有限公司 行为识别方法及装置、电子设备和存储介质
JP2022187870A (ja) * 2021-06-08 2022-12-20 エヌ・ティ・ティ・コミュニケーションズ株式会社 学習装置、推論装置、学習方法、推論方法、及びプログラム
CN113821675B (zh) * 2021-06-30 2024-06-07 腾讯科技(北京)有限公司 视频识别方法、装置、电子设备及计算机可读存储介质
CN113486763A (zh) * 2021-06-30 2021-10-08 上海商汤临港智能科技有限公司 车舱内人员冲突行为的识别方法及装置、设备和介质
US11960576B2 (en) * 2021-07-20 2024-04-16 Inception Institute of Artificial Intelligence Ltd Activity recognition in dark video based on both audio and video content
KR20230056366A (ko) * 2021-10-20 2023-04-27 중앙대학교 산학협력단 딥러닝을 이용한 행동 인식 방법 및 그 장치
CN114743365A (zh) * 2022-03-10 2022-07-12 慧之安信息技术股份有限公司 基于边缘计算的监狱智能监控***和方法
CN114926761B (zh) * 2022-05-13 2023-09-05 浪潮卓数大数据产业发展有限公司 一种基于时空平滑特征网络的动作识别方法
CN116824641B (zh) * 2023-08-29 2024-01-09 卡奥斯工业智能研究院(青岛)有限公司 姿态分类方法、装置、设备和计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170186176A1 (en) * 2015-12-28 2017-06-29 Facebook, Inc. Systems and methods for determining optical flow
US20170206405A1 (en) * 2016-01-14 2017-07-20 Nvidia Corporation Online detection and classification of dynamic gestures with recurrent convolutional neural networks
WO2018210796A1 (en) * 2017-05-15 2018-11-22 Deepmind Technologies Limited Neural network systems for action recognition in videos

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070250898A1 (en) * 2006-03-28 2007-10-25 Object Video, Inc. Automatic extraction of secondary video streams
CN102831442A (zh) * 2011-06-13 2012-12-19 索尼公司 异常行为检测设备和方法及生成该检测设备的设备和方法
US9202144B2 (en) * 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
US10332274B2 (en) * 2016-11-14 2019-06-25 Nec Corporation Surveillance system using accurate object proposals by tracking detections
CN106650674B (zh) * 2016-12-27 2019-09-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于混合池化策略的深度卷积特征的动作识别方法
CN107169415B (zh) * 2017-04-13 2019-10-11 西安电子科技大学 基于卷积神经网络特征编码的人体动作识别方法
CN107273800B (zh) * 2017-05-17 2020-08-14 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN108876813B (zh) * 2017-11-01 2021-01-26 北京旷视科技有限公司 用于视频中物体检测的图像处理方法、装置及设备
CN108681695A (zh) * 2018-04-26 2018-10-19 北京市商汤科技开发有限公司 视频动作识别方法及装置、电子设备和存储介质
CN108960059A (zh) * 2018-06-01 2018-12-07 众安信息技术服务有限公司 一种视频动作识别方法及装置
CN108875611B (zh) * 2018-06-05 2021-05-25 北京字节跳动网络技术有限公司 视频动作识别方法和装置
CN108961317A (zh) * 2018-07-27 2018-12-07 阿依瓦(北京)技术有限公司 一种视频深度分析的方法与***
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN109446923B (zh) * 2018-10-10 2021-09-24 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN109800807B (zh) * 2019-01-18 2021-08-31 北京市商汤科技开发有限公司 分类网络的训练方法及分类方法和装置、电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170186176A1 (en) * 2015-12-28 2017-06-29 Facebook, Inc. Systems and methods for determining optical flow
US20170206405A1 (en) * 2016-01-14 2017-07-20 Nvidia Corporation Online detection and classification of dynamic gestures with recurrent convolutional neural networks
WO2018210796A1 (en) * 2017-05-15 2018-11-22 Deepmind Technologies Limited Neural network systems for action recognition in videos
JP2020519995A (ja) * 2017-05-15 2020-07-02 ディープマインド テクノロジーズ リミテッド 3d時空畳み込みニューラルネットワークを使用した映像におけるアクション認識

Also Published As

Publication number Publication date
CN112241673B (zh) 2022-11-22
TW202105202A (zh) 2021-02-01
WO2021012564A1 (zh) 2021-01-28
TWI738172B (zh) 2021-09-01
CN112241673A (zh) 2021-01-19
KR20210090238A (ko) 2021-07-19
JP7090183B2 (ja) 2022-06-23
US20210103733A1 (en) 2021-04-08
SG11202011781UA (en) 2021-02-25

Similar Documents

Publication Publication Date Title
JP7090183B2 (ja) ビデオ処理方法及び装置、電子機器、並びに記憶媒体
US20210019562A1 (en) Image processing method and apparatus and storage medium
CN111462268B (zh) 图像重建方法及装置、电子设备和存储介质
TWI747325B (zh) 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介
JP2021533436A (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
CN111507408B (zh) 图像处理方法及装置、电子设备和存储介质
CN110909815B (zh) 神经网络训练、图像处理方法、装置及电子设备
CN109919300B (zh) 神经网络训练方法及装置以及图像处理方法及装置
CN111340731B (zh) 图像处理方法及装置、电子设备和存储介质
JP2021512378A (ja) アンカー決定方法及び装置、電子機器並びに記憶媒体
CN110633700B (zh) 视频处理方法及装置、电子设备和存储介质
CN110458218B (zh) 图像分类方法及装置、分类网络训练方法及装置
CN109145970B (zh) 基于图像的问答处理方法和装置、电子设备及存储介质
CN110532956B (zh) 图像处理方法及装置、电子设备和存储介质
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN111242303A (zh) 网络训练方法及装置、图像处理方法及装置
CN111435422B (zh) 动作识别方法、控制方法及装置、电子设备和存储介质
CN111582383A (zh) 属性识别方法及装置、电子设备和存储介质
CN113032627A (zh) 视频分类方法、装置、存储介质及终端设备
CN114332503A (zh) 对象重识别方法及装置、电子设备和存储介质
CN110633715B (zh) 图像处理方法、网络训练方法及装置、和电子设备
CN111369482A (zh) 图像处理方法及装置、电子设备和存储介质
CN110781842A (zh) 图像处理方法及装置、电子设备和存储介质
CN113506229A (zh) 神经网络训练和图像生成方法及装置
CN109889693B (zh) 视频处理方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201223

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220613

R150 Certificate of patent or registration of utility model

Ref document number: 7090183

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150