JP2021536048A - ビデオ処理方法及び装置、電子機器、並びに記憶媒体 - Google Patents
ビデオ処理方法及び装置、電子機器、並びに記憶媒体 Download PDFInfo
- Publication number
- JP2021536048A JP2021536048A JP2020571778A JP2020571778A JP2021536048A JP 2021536048 A JP2021536048 A JP 2021536048A JP 2020571778 A JP2020571778 A JP 2020571778A JP 2020571778 A JP2020571778 A JP 2020571778A JP 2021536048 A JP2021536048 A JP 2021536048A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- feature information
- motion recognition
- target video
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 36
- 230000033001 locomotion Effects 0.000 claims abstract description 401
- 238000000034 method Methods 0.000 claims abstract description 172
- 238000012545 processing Methods 0.000 claims abstract description 126
- 238000000605 extraction Methods 0.000 claims abstract description 103
- 230000008569 process Effects 0.000 claims description 114
- 239000013598 vector Substances 0.000 claims description 70
- 238000013528 artificial neural network Methods 0.000 claims description 53
- 238000012549 training Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 22
- 230000009467 reduction Effects 0.000 claims description 11
- 230000001149 cognitive effect Effects 0.000 claims 1
- 230000008878 coupling Effects 0.000 claims 1
- 238000010168 coupling process Methods 0.000 claims 1
- 238000005859 coupling reaction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 27
- 238000004364 calculation method Methods 0.000 abstract description 16
- 230000002829 reductive effect Effects 0.000 abstract description 11
- 230000003287 optical effect Effects 0.000 abstract description 9
- 239000000284 extract Substances 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 19
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
Description
本開示は、2019年07月19日に中国国家知識産権局に提出された、出願番号201910656059.9、出願名称「ビデオ処理方法及び装置、電子機器、並びに記憶媒体」の中国特許出願の優先権を主張し、その内容の全てが参照によって本開示に組み込まれる。
本開示の実施例によるビデオ処理方法によれば、多段の動作認識ネットワークにより目標ビデオフレームの動作認識特徴を取得し、さらに処理対象ビデオの分類結果を取得することができ、オプティカルフロー又は3D畳み込みなどの処理によって動作認識を行う必要がなく、演算量が削減され、処理効率が向上されて、処理対象ビデオをオンラインでリアルタイムに分類することができ、前記ビデオ処理方法の実用性が向上される。
可能な一実現形態において、M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得することは、1段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、1段目の動作認識特徴を取得することと、i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得し、iは整数で1<i<Mであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応することと、M段目の動作認識ネットワークによりM−1段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得することと、を含む。
可能な一実現形態において、i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得することは、前記i−1段目の動作認識特徴に対して第1の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第1の特徴情報を取得することと、前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することと、前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することと、少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得することと、を含む。
可能な一実現形態において、少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得することは、前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得することを含む。
可能な一実現形態において、前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することは、前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第1の特徴情報と次元が異なる第2の特徴情報を取得することと、前記第2の特徴情報の各チャネルに対してそれぞれ第2の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第3の特徴情報を取得することと、前記第3の特徴情報に対して次元の再構成処理を行い、前記第1の特徴情報と次元が同じである第4の特徴情報を取得することと、前記第4の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得することと、を含む。
可能な一実現形態において、前記第1の特徴情報は複数の行ベクトル又は列ベクトルを含み、前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行うことは、前記第1の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、1つの行ベクトル又は列ベクトルを含む前記第2の特徴情報を取得することを含む。
可能な一実現形態において、前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することは、前記第1の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第5の特徴情報を取得することと、k+1番目の目標ビデオフレームに対応する第5の特徴情報に対して、第3の畳み込み処理を行って、前記k番目の目標ビデオフレームに対応する第5の特徴情報との減算をし、k番目の目標ビデオフレームに対応する第6の特徴情報を取得し、ここで、kは整数で1≦k<Tであり、Tは目標ビデオフレームの数であり、かつTは1より大きい整数であり、前記第6の特徴情報は前記k+1番目の目標ビデオフレームに対応する第5の特徴情報と前記k番目の目標ビデオフレームに対応する第5の特徴情報との間の動き差分情報を表すことと、前記目標ビデオフレームのそれぞれに対応する第6の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得することと、を含む。
可能な一実現形態において、前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得することは、前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第7の特徴情報を取得することと、前記第7の特徴情報に対して第4の畳み込み処理を行って、前記i−1段目の動作認識特徴との加算処理を行い、前記i段目の動作認識特徴を取得することと、を含む。
可能な一実現形態において、前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定することは、各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得することと、各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得することと、を含む。
可能な一実現形態において、前記方法は、処理対象ビデオから複数の目標ビデオフレームを決定することをさらに含む。
可能な一実現形態において、処理対象ビデオの複数のビデオフレームから複数の目標ビデオフレームを決定することは、前記処理対象ビデオを複数のビデオセグメントに分割することと、各ビデオセグメント毎に少なくとも1つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得することと、を含む。
可能な一実現形態において、前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記M段の動作認識ネットワークを含み、前記方法は、サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うことをさらに含む。
可能な一実現形態において、サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うことは、前記サンプルビデオから複数のサンプルビデオフレームを決定することと、前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定することと、前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定することと、前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、を含む。
本開示の他の一方面では、特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するための特徴抽出モジュールと、M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得するために用いられる動作認識モジュールであって、Mは1以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含む動作認識モジュールと、前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定するための分類モジュールと、を含むビデオ処理装置を提供する。
可能な一実現形態において、前記動作認識モジュールはさらに、1段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、1段目の動作認識特徴を取得し、i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得し、iは整数で1<i<Mであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応し、M段目の動作認識ネットワークによりM−1段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記i−1段目の動作認識特徴に対して第1の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第1の特徴情報を取得し、前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得し、前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得し、少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第1の特徴情報と次元が異なる第2の特徴情報を取得し、前記第2の特徴情報の各チャネルに対してそれぞれ第2の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第3の特徴情報を取得し、前記第3の特徴情報に対して次元の再構成処理を行い、前記第1の特徴情報と次元が同じである第4の特徴情報を取得し、前記第4の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得するように構成される。
可能な一実現形態において、前記第1の特徴情報は複数の行ベクトル又は列ベクトルを含み、前記動作認識モジュールはさらに、前記第1の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、1つの行ベクトル又は列ベクトルを含む前記第2の特徴情報を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記第1の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第5の特徴情報を取得し、k+1番目の目標ビデオフレームに対応する第5の特徴情報に対して、第3の畳み込み処理を行って、前記k番目の目標ビデオフレームに対応する第5の特徴情報との減算をし、k番目の目標ビデオフレームに対応する第6の特徴情報を取得し、ここで、kは整数で1≦k<Tであり、Tは目標ビデオフレームの数であり、かつTは1より大きい整数であり、前記第6の特徴情報は前記k+1番目の目標ビデオフレームに対応する第5の特徴情報と前記k番目の目標ビデオフレームに対応する第5の特徴情報との間の動き差分情報を表し、前記目標ビデオフレームのそれぞれに対応する第6の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得するように構成される。
可能な一実現形態において、前記動作認識モジュールはさらに、前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第7の特徴情報を取得し、前記第7の特徴情報に対して第4の畳み込み処理を行って、前記i−1段目の動作認識特徴との加算処理を行い、前記i段目の動作認識特徴を取得するように構成される。
可能な一実現形態において、前記分類モジュールはさらに、各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得し、各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得するように構成される。
可能な一実現形態において、前記装置は、処理対象ビデオから複数の目標ビデオフレームを決定するための決定モジュールをさらに含む。
可能な一実現形態において、前記決定モジュールはさらに、前記処理対象ビデオを複数のビデオセグメントに分割し、各ビデオセグメント毎に少なくとも1つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得するように構成される。
可能な一実現形態において、前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記M段の動作認識ネットワークを含み、前記装置は、サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うためのトレーニングモジュールをさらに含む。
可能な一実現形態において、前記トレーニングモジュールはさらに、前記サンプルビデオから複数のサンプルビデオフレームを決定し、前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定し、前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定し、前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するように構成される。
本開示の一方面では、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記のビデオ処理方法を実行するように構成される電子機器を提供する。
本開示の一方面では、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、前記のビデオ処理方法を実現させるコンピュータ読み取り可能記憶媒体。
本開示の一方面では、コンピュータ読み取り可能コードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能コードが電子機器で実行されると、前記電子機器のプロセッサに、前記のビデオ処理方法を実行するための命令を実行させるコンピュータプログラム。
特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するステップS11と、
M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得し、ここで、Mは1以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含むステップS12と、
前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定するステップS13と、を含む。
処理対象ビデオから複数の目標ビデオフレームを決定するステップS14を含む。
サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うステップS15をさらに含む。
特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するための特徴抽出モジュール11と、
動作認識モジュール12であって、M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得するために用いられ、ここで、Mは1以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含む動作認識モジュール12と、
前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定するための分類モジュール13と、を含む。
処理対象ビデオから複数の目標ビデオフレームを決定するための決定モジュール14をさらに含む。
Claims (29)
- 特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得することと、
M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得し、ここで、Mは1以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含むことと、
前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定することと、を含むことを特徴とするビデオ処理方法。 - M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得することは、
1段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、1段目の動作認識特徴を取得することと、
i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得し、iは整数で1<i<Mであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応することと、
M段目の動作認識ネットワークによりM−1段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得することと、を含むことを特徴とする請求項1に記載の方法。 - i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得することは、
前記i−1段目の動作認識特徴に対して第1の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第1の特徴情報を取得することと、
前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することと、
前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することと、
少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得することと、を含むことを特徴とする請求項2に記載の方法。 - 少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得することは、
前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得することを含むことを特徴とする請求項3に記載の方法。 - 前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得することは、
前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第1の特徴情報と次元が異なる第2の特徴情報を取得することと、
前記第2の特徴情報の各チャネルに対してそれぞれ第2の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第3の特徴情報を取得することと、
前記第3の特徴情報に対して次元の再構成処理を行い、前記第1の特徴情報と次元が同じである第4の特徴情報を取得することと、
前記第4の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得することと、を含むことを特徴とする請求項3に記載の方法。 - 前記第1の特徴情報は複数の行ベクトル又は列ベクトルを含み、
前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行うことは、
前記第1の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、1つの行ベクトル又は列ベクトルを含む前記第2の特徴情報を取得することを含むことを特徴とする請求項5に記載の方法。 - 前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得することは、
前記第1の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第5の特徴情報を取得することと、
k+1番目の目標ビデオフレームに対応する第5の特徴情報に対して、第3の畳み込み処理を行って、前記k番目の目標ビデオフレームに対応する第5の特徴情報との減算をし、k番目の目標ビデオフレームに対応する第6の特徴情報を取得し、ここで、kは整数で1≦k<Tであり、Tは目標ビデオフレームの数であり、かつTは1より大きい整数であり、前記第6の特徴情報は前記k+1番目の目標ビデオフレームに対応する第5の特徴情報と前記k番目の目標ビデオフレームに対応する第5の特徴情報との間の動き差分情報を表すことと、
前記目標ビデオフレームのそれぞれに対応する第6の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得することと、を含むことを特徴とする請求項3〜6のいずれか一項に記載の方法。 - 前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得することは、
前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第7の特徴情報を取得することと、
前記第7の特徴情報に対して第4の畳み込み処理を行って、前記i−1段目の動作認識特徴との加算処理を行い、前記i段目の動作認識特徴を取得することと、を含むことを特徴とする請求項4〜7のいずれか一項に記載の方法。 - 前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定することは、
各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得することと、
各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得することと、を含むことを特徴とする請求項1〜8のいずれか一項に記載の方法。 - 処理対象ビデオから複数の目標ビデオフレームを決定することをさらに含むことを特徴とする請求項1〜9のいずれか一項に記載の方法。
- 処理対象ビデオの複数のビデオフレームから複数の目標ビデオフレームを決定することは、
前記処理対象ビデオを複数のビデオセグメントに分割することと、
各ビデオセグメント毎に少なくとも1つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得することと、を含むことを特徴とする請求項10に記載の方法。 - 前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記M段の動作認識ネットワークを含み、
前記方法は、
サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うことをさらに含むことを特徴とする請求項1〜11のいずれか一項に記載の方法。 - サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うことは、
前記サンプルビデオから複数のサンプルビデオフレームを決定することと、
前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定することと、
前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定することと、
前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、を含むことを特徴とする請求項12に記載の方法。 - 特徴抽出ネットワークにより処理対象ビデオの複数の目標ビデオフレームに対して特徴抽出を行い、前記複数の目標ビデオフレームの特徴マップを取得するための特徴抽出モジュールと、
M段の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップに対して動作認識処理を行い、前記複数の目標ビデオフレームの動作認識特徴を取得するために用いられる動作認識モジュールであって、Mは1以上の整数であり、前記動作認識処理は、前記複数の目標ビデオフレームの特徴マップに基づく時空間特徴抽出処理、及び前記複数の目標ビデオフレームの特徴マップ間の動き差分情報に基づく動き特徴抽出処理を含み、前記動作認識特徴は時空間特徴情報及び動き特徴情報を含む動作認識モジュールと、
前記複数の目標ビデオフレームの動作認識特徴に基づいて、前記処理対象ビデオの分類結果を決定するための分類モジュールと、を含むことを特徴とするビデオ処理装置。 - 前記動作認識モジュールはさらに、
1段目の動作認識ネットワークにより前記複数の目標ビデオフレームの特徴マップを処理し、1段目の動作認識特徴を取得し、
i段目の動作認識ネットワークによりi−1段目の動作認識特徴を処理し、i段目の動作認識特徴を取得し、iは整数で1<i<Mであり、ここで、各段の動作認識特徴は前記複数の目標ビデオフレームの特徴マップにそれぞれ対応し、
M段目の動作認識ネットワークによりM−1段目の動作認識特徴を処理し、前記複数の目標ビデオフレームの動作認識特徴を取得するように構成されることを特徴とする請求項14に記載の装置。 - 前記動作認識モジュールはさらに、
前記i−1段目の動作認識特徴に対して第1の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップにそれぞれ対応する第1の特徴情報を取得し、
前記第1の特徴情報に対して時空間特徴抽出処理を行い、時空間特徴情報を取得し、
前記第1の特徴情報に対して動き特徴抽出処理を行い、動き特徴情報を取得し、
少なくとも前記時空間特徴情報及び前記動き特徴情報に基づいて、前記i段目の動作認識特徴を取得するように構成されることを特徴とする請求項15に記載の装置。 - 前記動作認識モジュールはさらに、
前記時空間特徴情報、前記動き特徴情報及び前記i−1段目の動作認識特徴に基づいて、前記i段目の動作認識特徴を取得するように構成されることを特徴とする請求項16に記載の装置。 - 前記動作認識モジュールはさらに、
前記複数の目標ビデオフレームの特徴マップに対応する第1の特徴情報に対して次元の再構成処理をそれぞれ行い、前記第1の特徴情報と次元が異なる第2の特徴情報を取得し、
前記第2の特徴情報の各チャネルに対してそれぞれ第2の畳み込み処理を行い、前記複数の目標ビデオフレームの特徴マップの時間特徴を表す第3の特徴情報を取得し、
前記第3の特徴情報に対して次元の再構成処理を行い、前記第1の特徴情報と次元が同じである第4の特徴情報を取得し、
前記第4の特徴情報に対して空間特徴抽出処理を行い、前記時空間特徴情報を取得するように構成されることを特徴とする請求項16に記載の装置。 - 前記第1の特徴情報は複数の行ベクトル又は列ベクトルを含み、
前記動作認識モジュールはさらに、
前記第1の特徴情報の複数の行ベクトル又は列ベクトルに対して繋ぎ合わせ処理を行い、1つの行ベクトル又は列ベクトルを含む前記第2の特徴情報を取得するように構成されることを特徴とする請求項18に記載の装置。 - 前記動作認識モジュールはさらに、
前記第1の特徴情報のチャネルに対して次元削減処理を行い、前記処理対象ビデオ内の各目標ビデオフレームにそれぞれ対応する第5の特徴情報を取得し、
k+1番目の目標ビデオフレームに対応する第5の特徴情報に対して、第3の畳み込み処理を行って、前記k番目の目標ビデオフレームに対応する第5の特徴情報との減算をし、k番目の目標ビデオフレームに対応する第6の特徴情報を取得し、ここで、kは整数で1≦k<Tであり、Tは目標ビデオフレームの数であり、かつTは1より大きい整数であり、前記第6の特徴情報は前記k+1番目の目標ビデオフレームに対応する第5の特徴情報と前記k番目の目標ビデオフレームに対応する第5の特徴情報との間の動き差分情報を表し、
前記目標ビデオフレームのそれぞれに対応する第6の特徴情報に対して特徴抽出処理を行い、前記動き特徴情報を取得するように構成されることを特徴とする請求項16〜19のいずれか一項に記載の装置。 - 前記動作認識モジュールはさらに、
前記時空間特徴情報及び前記動き特徴情報に対して加算処理を行い、第7の特徴情報を取得し、
前記第7の特徴情報に対して第4の畳み込み処理を行って、前記i−1段目の動作認識特徴との加算処理を行い、前記i段目の動作認識特徴を取得するように構成されることを特徴とする請求項17〜20のいずれか一項に記載の装置。 - 前記分類モジュールはさらに、
各目標ビデオフレームの動作認識特徴に対して全結合処理をそれぞれ行い、各目標ビデオフレームの分類情報を取得し、
各目標ビデオフレームの分類情報に対して平均化処理を行い、前記処理対象ビデオの分類結果を取得するように構成されることを特徴とする請求項14〜21のいずれか一項に記載の装置。 - 処理対象ビデオから複数の目標ビデオフレームを決定するための決定モジュールをさらに含むことを特徴とする請求項14〜22のいずれか一項に記載の装置。
- 前記決定モジュールはさらに、
前記処理対象ビデオを複数のビデオセグメントに分割し、
各ビデオセグメント毎に少なくとも1つの目標ビデオフレームをランダムに決定して、複数の目標ビデオフレームを取得するように構成されることを特徴とする請求項23に記載の装置。 - 前記ビデオ処理方法はニューラルネットワークにより実現され、前記ニューラルネットワークは少なくとも前記特徴抽出ネットワーク、前記M段の動作認識ネットワークを含み、
前記装置は、
サンプルビデオ及び前記サンプルビデオのカテゴリラベルにより、前記ニューラルネットワークに対してトレーニングを行うためのトレーニングモジュールをさらに含むことを特徴とする請求項14〜24のいずれか一項に記載の装置。 - 前記トレーニングモジュールはさらに、
前記サンプルビデオから複数のサンプルビデオフレームを決定し、
前記ニューラルネットワークにより前記サンプルビデオフレームを処理し、前記サンプルビデオの分類結果を決定し、
前記サンプルビデオの分類結果及びカテゴリラベルに基づいて、前記ニューラルネットワークのネットワーク損失を決定し、
前記ネットワーク損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整するように構成されることを特徴とする請求項25に記載の装置。 - プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されている命令を呼び出し、請求項1〜13のいずれか一項に記載の方法を実行するように構成されることを特徴とする電子機器。 - コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行されると、請求項1〜13のいずれか一項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能記憶媒体。 - コンピュータ読み取り可能コードを含むコンピュータプログラムであって、
前記コンピュータ読み取り可能コードが電子機器で実行されると、前記電子機器のプロセッサに、請求項1〜13のいずれか一項に記載の方法を実現するための命令を実行させるコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910656059.9A CN112241673B (zh) | 2019-07-19 | 2019-07-19 | 视频处理方法及装置、电子设备和存储介质 |
CN201910656059.9 | 2019-07-19 | ||
PCT/CN2019/121975 WO2021012564A1 (zh) | 2019-07-19 | 2019-11-29 | 视频处理方法及装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021536048A true JP2021536048A (ja) | 2021-12-23 |
JP7090183B2 JP7090183B2 (ja) | 2022-06-23 |
Family
ID=74167666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020571778A Active JP7090183B2 (ja) | 2019-07-19 | 2019-11-29 | ビデオ処理方法及び装置、電子機器、並びに記憶媒体 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20210103733A1 (ja) |
JP (1) | JP7090183B2 (ja) |
KR (1) | KR20210090238A (ja) |
CN (1) | CN112241673B (ja) |
SG (1) | SG11202011781UA (ja) |
TW (1) | TWI738172B (ja) |
WO (1) | WO2021012564A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906484B (zh) * | 2021-01-25 | 2023-05-12 | 北京市商汤科技开发有限公司 | 一种视频帧处理方法及装置、电子设备和存储介质 |
CN112926436B (zh) * | 2021-02-22 | 2024-07-16 | 上海商汤智能科技有限公司 | 行为识别方法及装置、电子设备和存储介质 |
JP2022187870A (ja) * | 2021-06-08 | 2022-12-20 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 学習装置、推論装置、学習方法、推論方法、及びプログラム |
CN113821675B (zh) * | 2021-06-30 | 2024-06-07 | 腾讯科技(北京)有限公司 | 视频识别方法、装置、电子设备及计算机可读存储介质 |
CN113486763A (zh) * | 2021-06-30 | 2021-10-08 | 上海商汤临港智能科技有限公司 | 车舱内人员冲突行为的识别方法及装置、设备和介质 |
US11960576B2 (en) * | 2021-07-20 | 2024-04-16 | Inception Institute of Artificial Intelligence Ltd | Activity recognition in dark video based on both audio and video content |
KR20230056366A (ko) * | 2021-10-20 | 2023-04-27 | 중앙대학교 산학협력단 | 딥러닝을 이용한 행동 인식 방법 및 그 장치 |
CN114743365A (zh) * | 2022-03-10 | 2022-07-12 | 慧之安信息技术股份有限公司 | 基于边缘计算的监狱智能监控***和方法 |
CN114926761B (zh) * | 2022-05-13 | 2023-09-05 | 浪潮卓数大数据产业发展有限公司 | 一种基于时空平滑特征网络的动作识别方法 |
CN116824641B (zh) * | 2023-08-29 | 2024-01-09 | 卡奥斯工业智能研究院(青岛)有限公司 | 姿态分类方法、装置、设备和计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170186176A1 (en) * | 2015-12-28 | 2017-06-29 | Facebook, Inc. | Systems and methods for determining optical flow |
US20170206405A1 (en) * | 2016-01-14 | 2017-07-20 | Nvidia Corporation | Online detection and classification of dynamic gestures with recurrent convolutional neural networks |
WO2018210796A1 (en) * | 2017-05-15 | 2018-11-22 | Deepmind Technologies Limited | Neural network systems for action recognition in videos |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070250898A1 (en) * | 2006-03-28 | 2007-10-25 | Object Video, Inc. | Automatic extraction of secondary video streams |
CN102831442A (zh) * | 2011-06-13 | 2012-12-19 | 索尼公司 | 异常行为检测设备和方法及生成该检测设备的设备和方法 |
US9202144B2 (en) * | 2013-10-30 | 2015-12-01 | Nec Laboratories America, Inc. | Regionlets with shift invariant neural patterns for object detection |
US10332274B2 (en) * | 2016-11-14 | 2019-06-25 | Nec Corporation | Surveillance system using accurate object proposals by tracking detections |
CN106650674B (zh) * | 2016-12-27 | 2019-09-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于混合池化策略的深度卷积特征的动作识别方法 |
CN107169415B (zh) * | 2017-04-13 | 2019-10-11 | 西安电子科技大学 | 基于卷积神经网络特征编码的人体动作识别方法 |
CN107273800B (zh) * | 2017-05-17 | 2020-08-14 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
CN108876813B (zh) * | 2017-11-01 | 2021-01-26 | 北京旷视科技有限公司 | 用于视频中物体检测的图像处理方法、装置及设备 |
CN108681695A (zh) * | 2018-04-26 | 2018-10-19 | 北京市商汤科技开发有限公司 | 视频动作识别方法及装置、电子设备和存储介质 |
CN108960059A (zh) * | 2018-06-01 | 2018-12-07 | 众安信息技术服务有限公司 | 一种视频动作识别方法及装置 |
CN108875611B (zh) * | 2018-06-05 | 2021-05-25 | 北京字节跳动网络技术有限公司 | 视频动作识别方法和装置 |
CN108961317A (zh) * | 2018-07-27 | 2018-12-07 | 阿依瓦(北京)技术有限公司 | 一种视频深度分析的方法与*** |
CN109376603A (zh) * | 2018-09-25 | 2019-02-22 | 北京周同科技有限公司 | 一种视频识别方法、装置、计算机设备及存储介质 |
CN109446923B (zh) * | 2018-10-10 | 2021-09-24 | 北京理工大学 | 基于训练特征融合的深度监督卷积神经网络行为识别方法 |
CN109800807B (zh) * | 2019-01-18 | 2021-08-31 | 北京市商汤科技开发有限公司 | 分类网络的训练方法及分类方法和装置、电子设备 |
-
2019
- 2019-07-19 CN CN201910656059.9A patent/CN112241673B/zh active Active
- 2019-11-29 WO PCT/CN2019/121975 patent/WO2021012564A1/zh active Application Filing
- 2019-11-29 JP JP2020571778A patent/JP7090183B2/ja active Active
- 2019-11-29 KR KR1020217017839A patent/KR20210090238A/ko not_active Application Discontinuation
- 2019-11-29 SG SG11202011781UA patent/SG11202011781UA/en unknown
-
2020
- 2020-01-07 TW TW109100421A patent/TWI738172B/zh active
- 2020-12-18 US US17/126,633 patent/US20210103733A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170186176A1 (en) * | 2015-12-28 | 2017-06-29 | Facebook, Inc. | Systems and methods for determining optical flow |
US20170206405A1 (en) * | 2016-01-14 | 2017-07-20 | Nvidia Corporation | Online detection and classification of dynamic gestures with recurrent convolutional neural networks |
WO2018210796A1 (en) * | 2017-05-15 | 2018-11-22 | Deepmind Technologies Limited | Neural network systems for action recognition in videos |
JP2020519995A (ja) * | 2017-05-15 | 2020-07-02 | ディープマインド テクノロジーズ リミテッド | 3d時空畳み込みニューラルネットワークを使用した映像におけるアクション認識 |
Also Published As
Publication number | Publication date |
---|---|
CN112241673B (zh) | 2022-11-22 |
TW202105202A (zh) | 2021-02-01 |
WO2021012564A1 (zh) | 2021-01-28 |
TWI738172B (zh) | 2021-09-01 |
CN112241673A (zh) | 2021-01-19 |
KR20210090238A (ko) | 2021-07-19 |
JP7090183B2 (ja) | 2022-06-23 |
US20210103733A1 (en) | 2021-04-08 |
SG11202011781UA (en) | 2021-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7090183B2 (ja) | ビデオ処理方法及び装置、電子機器、並びに記憶媒体 | |
US20210019562A1 (en) | Image processing method and apparatus and storage medium | |
CN111462268B (zh) | 图像重建方法及装置、电子设备和存储介质 | |
TWI747325B (zh) | 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介 | |
JP2021533436A (ja) | 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN111507408B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110909815B (zh) | 神经网络训练、图像处理方法、装置及电子设备 | |
CN109919300B (zh) | 神经网络训练方法及装置以及图像处理方法及装置 | |
CN111340731B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
JP2021512378A (ja) | アンカー決定方法及び装置、電子機器並びに記憶媒体 | |
CN110633700B (zh) | 视频处理方法及装置、电子设备和存储介质 | |
CN110458218B (zh) | 图像分类方法及装置、分类网络训练方法及装置 | |
CN109145970B (zh) | 基于图像的问答处理方法和装置、电子设备及存储介质 | |
CN110532956B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
JP2022522551A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
CN111242303A (zh) | 网络训练方法及装置、图像处理方法及装置 | |
CN111435422B (zh) | 动作识别方法、控制方法及装置、电子设备和存储介质 | |
CN111582383A (zh) | 属性识别方法及装置、电子设备和存储介质 | |
CN113032627A (zh) | 视频分类方法、装置、存储介质及终端设备 | |
CN114332503A (zh) | 对象重识别方法及装置、电子设备和存储介质 | |
CN110633715B (zh) | 图像处理方法、网络训练方法及装置、和电子设备 | |
CN111369482A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110781842A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN113506229A (zh) | 神经网络训练和图像生成方法及装置 | |
CN109889693B (zh) | 视频处理方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201223 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220613 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7090183 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |