JP7163397B2 - 画像処理方法、候補評価方法および関連装置 - Google Patents

画像処理方法、候補評価方法および関連装置 Download PDF

Info

Publication number
JP7163397B2
JP7163397B2 JP2020543216A JP2020543216A JP7163397B2 JP 7163397 B2 JP7163397 B2 JP 7163397B2 JP 2020543216 A JP2020543216 A JP 2020543216A JP 2020543216 A JP2020543216 A JP 2020543216A JP 7163397 B2 JP7163397 B2 JP 7163397B2
Authority
JP
Japan
Prior art keywords
candidate
time
series
sequence
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020543216A
Other languages
English (en)
Other versions
JP2021531523A (ja
Inventor
▲蘇▼▲海▼昇
王蒙蒙
甘▲偉▼豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Publication of JP2021531523A publication Critical patent/JP2021531523A/ja
Application granted granted Critical
Publication of JP7163397B2 publication Critical patent/JP7163397B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

(関連出願の相互参照)
本願は2019年06月24日に中国国家知識産権局へ提出された、出願番号2019105523605、出願の名称「画像処理方法、候補評価方法および関連装置」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本発明は画像処理の分野に関し、特に画像処理方法、候補評価方法および関連装置に関する。
時系列オブジェクト検出技術はビデオにおける行動理解の分野において重要で非常に挑戦的な課題である。時系列オブジェクト検出技術は、例えばビデオ推薦、セキュリティ監視およびスマートホームなど、多くの分野において重要な役割を果たしている。
時系列オブジェクト検出タスクは未トリミングの長いビデオからオブジェクトの具体的な出現時間および種別を特定することを目的としている。このような課題には生成される時系列オブジェクト候補の品質をどのように向上させるかという1つの大きな難点がある。高品質の時系列オブジェクト候補は2つのキー属性、即ち、(1)生成される候補が実際のオブジェクトラベルをできる限り包含すべきであること、(2)候補の品質が全面的にかつ正確に評価可能であり、各候補に後続の検索用の信頼度スコアがそれぞれ1つ生成されていることを満たすべきである。現在、使用されている時系列候補生成方法は通常、候補を生成する境界が正確でないという問題がある。
本発明の実施例はビデオ処理の解決手段を提供する。
第1態様によれば、本願の実施例は、ビデオストリームの第1特徴系列を取得するステップであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、前記第1特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第1のオブジェクト境界確率系列を得るステップと、前記第1特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得るステップと、前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するステップと、を含んでもよい画像処理方法を提供する。
本願の実施例では、融合後のオブジェクト境界確率系列に基づいて時系列オブジェクト候補集合を生成しており、境界がより正確な確率系列を得て、より高い品質で時系列オブジェクト候補を生成することができる。
選択可能な一実施形態では、前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得る前記ステップの前に、前記方法はさらに、前記第1特徴系列に対して時系列逆転処理を行い、前記第2特徴系列を得るステップを含む。
前記実施形態では、第1特徴系列の時系列を逆転させて第2特徴系列を得ており、操作が簡単である。
選択可能な一実施形態では、前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成する前記ステップは、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップと、を含む。
前記実施形態では、2つのオブジェクト境界系列を融合することで、境界がより正確なオブジェクト境界確率を得て、さらに、より高い品質で時系列オブジェクト候補集合を生成することができる。
選択可能な一実施形態では、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得る前記ステップは、前記第2のオブジェクト境界確率系列に対して時系列逆転処理を行い、第3のオブジェクト境界確率系列を得るステップと、前記第1のオブジェクト境界確率系列と前記第3のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得るステップと、を含む。
前記実施形態では、反対になる2つの時系列方向からビデオにおける各セグメントの境界確率を評価し、簡単で効率的な融合方法でノイズを除去することで、最終的に精度がより高い時系列境界が特定される。
選択可能な一実施形態では、前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列の各々は開始確率系列および終了確率系列を含み、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得る前記ステップは、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列のうちの開始確率系列の融合処理を行い、目標開始確率系列を得るステップ、および/または
前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列のうちの終了確率系列の融合処理を行い、目標終了確率系列を得るステップを含み、前記目標境界確率系列は前記目標開始確率系列および前記目標終了確率系列のうちの少なくとも一つを含む。
前記実施形態では、反対になる2つの時系列方向からビデオにおける各セグメントの境界確率を評価し、簡単で効率的な融合方法でノイズを除去することで、最終的に精度がより高い時系列境界が特定される。
選択可能な一実施形態では、前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップは、前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記目標境界確率系列に含まれる目標開始確率系列および前記第1のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記目標境界確率系列に含まれる目標開始確率系列および前記第2のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記第1のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記第2のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップを含む。
前記実施形態では、提案時系列オブジェクトの候補集合を高速で正確に生成できる。
選択可能な一実施形態では、前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成する前記ステップは、前記目標開始確率系列に含まれる前記複数のセグメントの目標開始確率に基づき、目標開始確率が第1閾値を超えたセグメントおよび/または目標開始確率が少なくとも2つの隣接セグメントより高いセグメントを含む第1セグメント集合を得て、および前記目標終了確率系列に含まれる前記複数のセグメントの目標終了確率に基づき、目標終了確率が第2閾値を超えたセグメントおよび/または目標終了確率が少なくとも2つの隣接セグメントより高いセグメントを含む第2セグメント集合を得るステップと、前記第1セグメント集合および前記第2セグメント集合に基づき、前記時系列オブジェクト候補集合を生成するステップと、を含む。
前記実施形態では、第1セグメント集合および第2セグメント集合を高速で正確にスクリーニングし、さらに、前記第1セグメント集合および前記第2セグメント集合に基づいて時系列オブジェクト候補集合を生成することができる。
選択可能な一実施形態では、前記画像処理方法はさらに、前記ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長く、前記第1の時系列オブジェクト候補は前記時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップと、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含む。
前記実施形態では、長時間候補特徴と短時間候補特徴との間の対話情報および他のマルチ粒度の手掛かりを統合することで豊富な候補特徴を生成し、さらに候補品質評価の正確性を向上させることができる。
選択可能な一実施形態では、前記ビデオストリームのビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の長時間候補特徴を得る前記ステップの前に、前記方法はさらに、前記第1特徴系列および前記第2特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップと、前記第1特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るステップと、を含む。
前記実施形態では、動作確率系列と第1特徴系列を連接することで、より多くの特徴情報を含む特徴系列を高速で得ることができ、それによりサンプリングして得られた候補特徴にはより豊富な情報が含まれるようになる。
選択可能な一実施形態では、前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得る前記ステップは、前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るステップを含む。
前記実施形態では、短時間候補特徴を高速で正確に抽出できる。
選択可能な一実施形態では、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得る前記ステップは、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るステップと、前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含む。
前記実施形態では、長時間候補特徴および短時間候補特徴を統合することで、品質がより高い候補特徴を得て、時系列オブジェクト候補の品質をより正確に評価することができる。
選択可能な一実施形態では、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得る前記ステップは、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を含む。
前記実施形態では、非局所的な注意操作および融合操作により、特徴がより豊富な候補特徴を得て、時系列オブジェクト候補の品質をより正確に評価することができる。
選択可能な一実施形態では、前記ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得る前記ステップは、前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るステップを含み、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間である。
前記実施形態では、長時間候補特徴を高速で得ることができる。
選択可能な一実施形態では、前記画像処理方法はさらに、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第1の時系列オブジェクト候補の少なくとも2つの品質指標を得るステップであって、前記少なくとも2つの品質指標のうち第1指標は前記第1の時系列オブジェクト候補と真値との共通部分が前記第1の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも2つの品質指標のうち第2指標は前記第1の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも2つの品質指標に基づき、前記評価結果を得るステップと、を含む。
前記実施形態では、少なくとも2つの品質指標に基づいて評価結果を得ており、時系列オブジェクト候補の品質をより正確に評価することができ、評価結果の品質がより高い。
選択可能な一実施形態では、前記画像処理方法は、候補生成ネットワークおよび候補評価ネットワークを含む時系列候補生成ネットワークに適用され、前記時系列候補生成ネットワークの訓練プロセスは、訓練サンプルを前記時系列候補生成ネットワークに入力して処理し、前記候補生成ネットワークから出力されるサンプル時系列候補集合および前記候補評価ネットワークから出力される前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果を得るステップと、前記訓練サンプルのサンプル時系列候補集合および前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果と前記訓練サンプルのラベリング情報とのそれぞれの差異に基づき、ネットワーク損失を得るステップと、前記ネットワーク損失に基づき、前記時系列候補生成ネットワークのネットワークパラメータを調整するステップと、を含む。
前記実施形態では、候補生成ネットワークおよび候補評価ネットワークを一体として共同訓練しており、時系列候補集合の精度を効果的に向上させるとともに候補評価の品質を確実に向上させ、さらに後続の候補検索の信頼性を保証する。
選択可能な一実施形態では、前記画像処理方法は、第1候補生成ネットワーク、第2候補生成ネットワークおよび候補評価ネットワークを含む時系列候補生成ネットワークに適用され、前記時系列候補生成ネットワークの訓練プロセスは、第1訓練サンプルを前記第1候補生成ネットワークに入力して処理して第1サンプル開始確率系列、第1サンプル動作確率系列、第1サンプル終了確率系列を得て、および第2訓練サンプルを前記第2候補生成ネットワークに入力して処理して第2サンプル開始確率系列、第2サンプル動作確率系列、第2サンプル終了確率系列を得るステップと、前記第1サンプル開始確率系列、前記第1サンプル動作確率系列、前記第1サンプル終了確率系列、前記第2サンプル開始確率系列、前記第2サンプル動作確率系列、前記第2サンプル終了確率系列に基づき、サンプル時系列候補集合およびサンプル候補特徴集合を得るステップと、前記サンプル候補特徴集合を前記候補評価ネットワークに入力して処理し、前記サンプル候補特徴集合内の各サンプル候補特徴の少なくとも2つの品質指標を得るステップと、前記各サンプル候補特徴の少なくとも2つの品質指標に基づき、前記各サンプル候補特徴の信頼度スコアを決定するステップと、前記第1候補生成ネットワークおよび前記第2候補生成ネットワークに対応する第1損失と前記候補評価ネットワークに対応する第2損失の重み付け和に基づき、前記第1候補生成ネットワーク、前記第2候補生成ネットワークおよび前記候補評価ネットワークを更新するステップと、を含む。
前記実施形態では、第1候補生成ネットワーク、第2候補生成ネットワーク、候補評価ネットワークを一体として共同訓練しており、時系列候補集合の精度を効果的に向上させるとともに候補評価の品質を確実に向上させ、さらに後続の候補検索の信頼性を保証する。
選択可能な一実施形態では、前記第1サンプル開始確率系列、前記第1サンプル動作確率系列、前記第1サンプル終了確率系列、前記第2サンプル開始確率系列、前記第2サンプル動作確率系列、前記第2サンプル終了確率系列に基づき、サンプル時系列候補集合を得る前記ステップは、前記第1サンプル開始確率系列と前記第2サンプル開始確率系列を融合し、目標サンプル開始確率系列を得るステップと、前記第1サンプル終了確率系列と前記第2サンプル終了確率系列を融合し、目標サンプル終了確率系列を得るステップと、前記目標サンプル開始確率系列および前記目標サンプル終了確率系列に基づき、前記サンプル時系列候補集合を生成するステップと、を含む。
前記実施形態では、反対になる2つの時系列方向からビデオにおける各セグメントの境界確率を評価し、簡単で効率的な融合方法でノイズを除去することで、最終的に精度がより高い時系列境界が特定される。
選択可能な一実施形態では、前記第1損失は、実際のサンプル開始確率系列に対する前記目標サンプル開始確率系列の損失、実際のサンプル終了確率系列に対する前記目標サンプル終了確率系列の損失、および実際のサンプル動作確率系列に対する前記目標サンプル動作確率系列の損失のいずれかまたは少なくとも2つの重み付け和であり、前記第2損失は、各サンプル候補特徴の実際の品質指標に対する前記各サンプル候補特徴の少なくとも1つの品質指標の損失である。
前記実施形態では、第1候補生成ネットワーク、第2候補生成ネットワークおよび候補評価ネットワークを高速で訓練して得ることができる。
第2態様によれば、本願の実施例は、ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データ、および前記ビデオストリームに基づいて得られた動作確率系列を含み、または、前記ビデオ特徴系列は前記ビデオストリームに基づいて得られた動作確率系列であり、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長く、前記第1の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップと、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含んでもよい候補評価方法を提供する。
本願の実施例では、長時間候補特徴と短時間候補特徴との間の対話情報および他のマルチ粒度の手掛かりを統合することで豊富な候補特徴を生成し、さらに候補品質評価の正確性を向上させる。
選択可能な一実施形態では、ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得る前記ステップの前に、前記方法はさらに、第1特徴系列および第2特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップであって、前記第1特徴系列も前記第2特徴系列も前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含み、かつ前記第2特徴系列は前記第1特徴系列に含まれる特徴データと同じでありかつ並び順が反対になるステップと、前記第1特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るステップと、を含む。
前記実施形態では、動作確率系列と第1特徴系列を連接することで、より多くの特徴情報を含む特徴系列を高速で得ることができ、それによりサンプリングして得られた候補特徴にはより豊富な情報が含まれるようになる。
選択可能な一実施形態では、前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得る前記ステップは、前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るステップを含む。
前記実施形態では、短時間候補特徴を高速で得ることができる。
選択可能な一実施形態では、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得る前記ステップは、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るステップと、前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含む。
前記実施形態では、長時間候補特徴および短時間候補特徴を統合することで、品質がより高い候補特徴を得て、時系列オブジェクト候補の品質をより正確に評価することができる。
選択可能な一実施形態では、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得る前記ステップは、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を含む。
前記実施形態では、非局所的な注意操作および融合操作により、特徴がより豊富な候補特徴を得て、時系列オブジェクト候補の品質をより正確に評価することができる。
選択可能な一実施形態では、前記ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得る前記ステップは、前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るステップを含み、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間である。
前記実施形態では、長時間候補特徴を高速で得ることができる。
選択可能な一実施形態では、前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得る前記ステップは、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第1の時系列オブジェクト候補の少なくとも2つの品質指標を得るステップであって、前記少なくとも2つの品質指標のうち第1指標は前記第1の時系列オブジェクト候補と真値との共通部分が前記第1の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも2つの品質指標のうち第2指標は前記第1の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも2つの品質指標に基づき、前記評価結果を得るステップと、を含む。
前記実施形態では、少なくとも2つの品質指標に基づいて評価結果を得ており、時系列オブジェクト候補の品質をより正確に評価することができ、評価結果の品質がより高い。
第3態様によれば、本願の実施例は、ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むビデオストリームの第1特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、前記第1特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得るステップと、前記ビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得るステップと、を含んでもよい別の候補評価方法を提供する。
本願の実施例では、特徴系列と目標動作確率系列をチャネル次元で連接してより多くの特徴情報を含むビデオ特徴系列を得ており、それによりサンプリングして得られた候補特徴にはより豊富な情報が含まれるようになる。
選択可能な一実施形態では、ビデオストリームの第1特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得る前記ステップは、前記第1特徴系列に基づき、第1動作確率系列を得るステップと、前記ビデオストリームの第2特徴系列に基づき、第2動作確率系列を得るステップであって、前記第2特徴系列及び前記第1特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、前記第1動作確率系列と前記第2動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップと、を含む。
前記実施形態では、反対になる2つの時系列方向からビデオにおける各時刻(即ち時点)の境界確率を評価し、簡単で効率的な融合方法でノイズを除去することで、最終的に精度がより高い時系列境界が特定される。
選択可能な一実施形態では、前記第1動作確率系列と前記第2動作確率系列との融合処理を行い、前記目標動作確率系列を得る前記ステップは、前記第2動作確率系列に対して時系列逆転処理を行い、第3動作確率系列を得るステップと、前記第1動作確率系列と前記第3動作確率系列を融合し、前記目標動作確率系列を得るステップと、を含む。
選択可能な一実施形態では、前記ビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得る前記ステップは、前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、目標候補特徴を得るステップと、前記目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含む。
選択可能な一実施形態では、前記目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得る前記ステップは、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第1の時系列オブジェクト候補の少なくとも2つの品質指標を得るステップであって、前記少なくとも2つの品質指標のうち第1指標は前記第1の時系列オブジェクト候補と真値との共通部分が前記第1の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも2つの品質指標のうち第2指標は前記第1の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも2つの品質指標に基づき、前記評価結果を得るステップと、を含む。
選択可能な一実施形態では、前記ビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得る前記ステップの前に、前記方法はさらに、前記第1特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第1のオブジェクト境界確率系列を得るステップと、前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得るステップと、前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、前記第1の時系列オブジェクト候補を生成するステップと、を含む。
選択可能な一実施形態では、前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、前記第1の時系列オブジェクト候補を生成する前記ステップは、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、前記目標境界確率系列に基づき、前記第1の時系列オブジェクト候補を生成するステップと、を含む。
選択可能な一実施形態では、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得る前記ステップは、前記第2のオブジェクト境界確率系列に対して時系列逆転処理を行い、第3のオブジェクト境界確率系列を得るステップと、前記第1のオブジェクト境界確率系列と前記第3のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得るステップと、を含む。
第4態様によれば、本願の実施例は、ビデオストリームの第1特徴系列に基づき、第1動作確率系列を得るステップであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、前記ビデオストリームの第2特徴系列に基づき、第2動作確率系列を得るステップであって、前記第2特徴系列及び前記第1特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、前記第1動作確率系列および前記第2動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得るステップと、を含んでもよい別の候補評価方法を提供する。
本願の実施例では、第1動作確率系列および第2動作確率系列に基づいてより正確な目標動作確率系列を得て、前記目標動作確率系列を利用して時系列オブジェクト候補の品質をより正確に評価することができる。
選択可能な一実施形態では、前記第1動作確率系列および前記第2動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得る前記ステップは、前記第1動作確率系列と前記第2動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップを含む。
選択可能な一実施形態では、前記第1動作確率系列と前記第2動作確率系列との融合処理を行い、前記目標動作確率系列を得る前記ステップは、前記第2動作確率系列の時系列を逆転させ、第3動作確率系列を得るステップと、前記第1動作確率系列と前記第3動作確率系列を融合し、前記目標動作確率系列を得るステップと、を含む。
選択可能な一実施形態では、前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得る前記ステップは、前記目標動作確率系列に基づき、前記第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長いステップと、前記目標動作確率系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップと、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含む。
選択可能な一実施形態では、前記目標動作確率系列に基づき、前記第1の時系列オブジェクト候補の長時間候補特徴を得る前記ステップは、前記目標動作確率系列をサンプリングし、前記長時間候補特徴を得るステップを含む。
選択可能な一実施形態では、前記目標動作確率系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得る前記ステップは、前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記目標動作確率系列をサンプリングし、前記短時間候補特徴を得るステップを含む。
選択可能な一実施形態では、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得る前記ステップは、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るステップと、前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含む。
選択可能な一実施形態では、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得る前記ステップは、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を含む。
第5態様によれば、本願の実施例は、
ビデオストリームの第1特徴系列を取得するための取得ユニットであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む取得ユニットと、
前記第1特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第1のオブジェクト境界確率系列を得るステップと、
前記第1特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得るステップと、を実行するための処理ユニットと、
前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するための生成ユニットと、を含んでもよい画像処理装置を提供する。
第6態様によれば、本願の実施例は、ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データ、および前記ビデオストリームに基づいて得られた動作確率系列を含み、または、前記ビデオ特徴系列は前記ビデオストリームに基づいて得られた動作確率系列であり、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長く、前記第1の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップと、を実行するための特徴特定ユニットと、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含む候補評価装置を提供する。
第7態様によれば、本願の実施例は、ビデオストリームの第1特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得るための処理ユニットであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む処理ユニットと、前記第1特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得るための連接ユニットと、前記ビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含んでもよい別の候補評価装置を提供する。
第8態様によれば、本願の実施例は、ビデオストリームの第1特徴系列に基づき、第1動作確率系列を得るステップであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、前記ビデオストリームの第2特徴系列に基づき、第2動作確率系列を得るステップであって、前記第2特徴系列及び前記第1特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、前記第1動作確率系列および前記第2動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、を実行するための処理ユニットと、前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含んでもよい別の候補評価装置を提供する。
第9態様によれば、本願の実施例は、プログラムを記憶するためのメモリと、前記メモリに記憶された前記プログラムを実行するためのプロセッサとを含み、前記プログラムが実行された場合、前記プロセッサは上記第1態様から第4態様およびいずれかの代替実施形態の方法を実行するために用いられる、電子機器を提供する。
第10態様によれば、本願の実施例は、プロセッサおよびデータインタフェースを含み、前記プロセッサは前記データインタフェースを介してメモリに記憶された命令を読み出して、上記第1態様から第4態様およびいずれかの代替実施形態の方法を実行する、チップを提供する。
第11態様によれば、本願の実施例は、プロセッサにより実行される時に前記プロセッサに上記第1態様から第3態様およびいずれかの代替実施形態の方法を実行させるプログラム命令を含むコンピュータプログラムが記憶されている、コンピュータ可読記憶媒体を提供する。
第12態様によれば、本願の実施例は、プロセッサにより実行される時に前記プロセッサに上記第1態様から第3態様およびいずれかの代替実施形態の方法を実行させるプログラム命令を含む、コンピュータプログラムを提供する。
例えば、本願は以下の項目を提供する。
(項目1)
ビデオストリームの第1特徴系列を取得するステップであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、
前記第1特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第1のオブジェクト境界確率系列を得るステップと、
前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得るステップであって、前記第2特徴系列及び前記第1特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、
前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するステップと、を含むことを特徴とする、画像処理方法。
(項目2)
前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得る前記ステップの前に、さらに、
前記第1特徴系列に対して時系列逆転処理を行い、前記第2特徴系列を得るステップを含むことを特徴とする、項目1に記載の方法。
(項目3)
前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成する前記ステップは、
前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、
前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップと、を含むことを特徴とする、項目1または2に記載の方法。
(項目4)
前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得る前記ステップは、
前記第2のオブジェクト境界確率系列に対して時系列逆転処理を行い、第3のオブジェクト境界確率系列を得るステップと、
前記第1のオブジェクト境界確率系列と前記第3のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得るステップと、を含むことを特徴とする、項目3に記載の方法。
(項目5)
前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列の各々は開始確率系列および終了確率系列を含み、
前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得る前記ステップは、
前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列のうちの開始確率系列の融合処理を行い、目標開始確率系列を得るステップ、および/または
前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列のうちの終了確率系列の融合処理を行い、目標終了確率系列を得るステップを含み、前記目標境界確率系列は前記目標開始確率系列および前記目標終了確率系列のうちの少なくとも一つを含むことを特徴とする、項目3または4に記載の方法。
(項目6)
前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成する前記ステップは、
前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記目標境界確率系列に含まれる目標開始確率系列および前記第1のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記目標境界確率系列に含まれる目標開始確率系列および前記第2のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記第1のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップ、
または、前記第2のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップを含むことを特徴とする、項目3から5のいずれか一項に記載の方法。
(項目7)
前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成する前記ステップは、
前記目標開始確率系列に含まれる前記複数のセグメントの目標開始確率に基づき、目標開始確率が第1閾値を超えたセグメントおよび/または目標開始確率が少なくとも2つの隣接セグメントより高いセグメントを含む第1セグメント集合を得て、および前記目標終了確率系列に含まれる前記複数のセグメントの目標終了確率に基づき、目標終了確率が第2閾値を超えたセグメントおよび/または目標終了確率が少なくとも2つの隣接セグメントより高いセグメントを含む第2セグメント集合を得るステップと、
前記第1セグメント集合および前記第2セグメント集合に基づき、前記時系列オブジェクト候補集合を生成するステップと、を含むことを特徴とする、項目6に記載の方法。
(項目8)
前記方法はさらに、
前記ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長く、前記第1の時系列オブジェクト候補は前記時系列オブジェクト候補集合に含まれるステップと、
前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、項目1から7のいずれか一項に記載の方法。
(項目9)
前記ビデオストリームのビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の長時間候補特徴を得る前記ステップの前に、さらに、
前記第1特徴系列および前記第2特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップと、
前記第1特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るステップと、を含むことを特徴とする、項目8に記載の方法。
(項目10)
前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得る前記ステップは、
前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るステップを含むことを特徴とする、項目8または9に記載の方法。
(項目11)
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るステップと、
前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、項目8から10のいずれか一項に記載の方法。
(項目12)
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得る前記ステップは、
前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、
前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を含むことを特徴とする、項目11に記載の方法。
(項目13)
前記ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得る前記ステップは、
前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るステップを含み、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間であることを特徴とする、項目8から10のいずれか一項に記載の方法。
(項目14)
前記方法はさらに、
前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第1の時系列オブジェクト候補の少なくとも2つの品質指標を得るステップであって、前記少なくとも2つの品質指標のうち第1指標は前記第1の時系列オブジェクト候補と真値との共通部分が前記第1の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも2つの品質指標のうち第2指標は前記第1の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、
前記少なくとも2つの品質指標に基づき、前記評価結果を得るステップと、を含むことを特徴とする、項目8から13のいずれか一項に記載の方法。
(項目15)
候補生成ネットワークおよび候補評価ネットワークを含む時系列候補生成ネットワークに適用され、
前記時系列候補生成ネットワークの訓練プロセスは、
訓練サンプルを前記時系列候補生成ネットワークに入力して処理し、前記候補生成ネットワークから出力されるサンプル時系列候補集合および前記候補評価ネットワークから出力される前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果を得るステップと、
前記訓練サンプルのサンプル時系列候補集合および前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果と前記訓練サンプルのラベリング情報とのそれぞれの差異に基づき、ネットワーク損失を得るステップと、
前記ネットワーク損失に基づき、前記時系列候補生成ネットワークのネットワークパラメータを調整するステップと、を含むことを特徴とする、項目1から14のいずれか一項に記載の方法。
(項目16)
ビデオストリームのビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データを含み、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長いステップと、
前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、候補評価方法。
(項目17)
ビデオストリームのビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の長時間候補特徴を得る前記ステップの前に、さらに、
第1特徴系列および第2特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップであって、前記第1特徴系列も前記第2特徴系列も前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含み、かつ前記第2特徴系列は前記第1特徴系列に含まれる特徴データの並び順と反対になるステップと、
前記第1特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るステップと、を含むことを特徴とする、項目16に記載の方法。
(項目18)
前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得る前記ステップは、
前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るステップを含むことを特徴とする、項目16または17に記載の方法。
(項目19)
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るステップと、
前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、項目16から18のいずれか一項に記載の方法。
(項目20)
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得る前記ステップは、
前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、
前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を含むことを特徴とする、項目19に記載の方法。
(項目21)
前記ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得る前記ステップは、
前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るステップを含み、前記参照時間区間は前記ビデオストリームの時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間であり、前記時系列オブジェクト候補集合は前記第1の時系列オブジェクト候補を含むことを特徴とする、項目16から20のいずれか一項に記載の方法。
(項目22)
前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第1の時系列オブジェクト候補の少なくとも2つの品質指標を得るステップであって、前記少なくとも2つの品質指標のうち第1指標は前記第1の時系列オブジェクト候補と真値との共通部分が前記第1の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも2つの品質指標のうち第2指標は前記第1の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、
前記少なくとも2つの品質指標に基づき、前記評価結果を得るステップと、を含むことを特徴とする、項目19から21のいずれか一項に記載の方法。
(項目23)
ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むビデオストリームの第1特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、
前記第1特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得るステップと、
前記ビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、候補評価方法。
(項目24)
ビデオストリームの第1特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得る前記ステップは、
前記第1特徴系列に基づき、第1動作確率系列を得るステップと、
前記ビデオストリームの第2特徴系列に基づき、第2動作確率系列を得るステップであって、前記第2特徴系列及び前記第1特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、
前記第1動作確率系列と前記第2動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップと、を含むことを特徴とする、項目23に記載の方法。
(項目25)
前記第1動作確率系列と前記第2動作確率系列との融合処理を行い、前記目標動作確率系列を得る前記ステップは、
前記第2動作確率系列に対して時系列逆転処理を行い、第3動作確率系列を得るステップと、
前記第1動作確率系列と前記第3動作確率系列を融合し、前記目標動作確率系列を得るステップと、を含むことを特徴とする、項目24に記載の方法。
(項目26)
前記ビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、目標候補特徴を得るステップと、
前記目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、項目23から25のいずれか一項に記載の方法。
(項目27)
前記目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第1の時系列オブジェクト候補の少なくとも2つの品質指標を得るステップであって、前記少なくとも2つの品質指標のうち第1指標は前記第1の時系列オブジェクト候補と真値との共通部分が前記第1の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも2つの品質指標のうち第2指標は前記第1の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、
前記少なくとも2つの品質指標に基づき、前記評価結果を得るステップと、を含むことを特徴とする、項目26に記載の方法。
(項目28)
前記ビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得る前記ステップの前に、さらに、
前記第1特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第1のオブジェクト境界確率系列を得るステップと、
前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得るステップと、
前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、前記第1の時系列オブジェクト候補を生成するステップと、を含むことを特徴とする、項目24から27のいずれか一項に記載の方法。
(項目29)
前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、前記第1の時系列オブジェクト候補を生成する前記ステップは、
前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、
前記目標境界確率系列に基づき、前記第1の時系列オブジェクト候補を生成するステップと、を含むことを特徴とする、項目28に記載の方法。
(項目30)
前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得る前記ステップは、
前記第2のオブジェクト境界確率系列に対して時系列逆転処理を行い、第3のオブジェクト境界確率系列を得るステップと、
前記第1のオブジェクト境界確率系列と前記第3のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得るステップと、を含むことを特徴とする、項目29に記載の方法。
(項目31)
ビデオストリームの第1特徴系列に基づき、第1動作確率系列を得るステップであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、
前記ビデオストリームの第2特徴系列に基づき、第2動作確率系列を得るステップであって、前記第2特徴系列及び前記第1特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと
前記第1動作確率系列および前記第2動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、
前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、候補評価方法。
(項目32)
前記第1動作確率系列および前記第2動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得る前記ステップは、
前記第1動作確率系列と前記第2動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップを含むことを特徴とする、項目31に記載の方法。
(項目33)
前記第1動作確率系列と前記第2動作確率系列との融合処理を行い、前記目標動作確率系列を得る前記ステップは、
前記第2動作確率系列の時系列を逆転させ、第3動作確率系列を得るステップと、
前記第1動作確率系列と前記第3動作確率系列を融合し、前記目標動作確率系列を得るステップと、を含むことを特徴とする、項目32に記載の方法。
(項目34)
前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記目標動作確率系列に基づき、前記第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長いステップと、
前記目標動作確率系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップステップと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、項目31から33のいずれか一項に記載の方法。
(項目35)
前記目標動作確率系列に基づき、前記第1の時系列オブジェクト候補の長時間候補特徴を得る前記ステップは、
前記目標動作確率系列をサンプリングし、前記長時間候補特徴を得るステップを含むことを特徴とする、項目34に記載の方法。
(項目36)
前記目標動作確率系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得る前記ステップは、
前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記目標動作確率系列をサンプリングし、前記短時間候補特徴を得るステップを含むことを特徴とする、項目34に記載の方法。
(項目37)
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得る前記ステップは、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るステップと、
前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を含むことを特徴とする、項目34から36のいずれか一項に記載の方法。
(項目38)
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得る前記ステップは、
前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、
前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を含むことを特徴とする、項目37に記載の方法。
(項目39)
ビデオストリームの第1特徴系列を取得するための取得ユニットであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む取得ユニットと、
前記第1特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第1のオブジェクト境界確率系列を得るステップと、前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得るステップであって、前記第2特徴系列及び前記第1特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、を実行するための処理ユニットと、
前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するための生成ユニットと、を含むことを特徴とする、画像処理装置。
(項目40)
さらに、
前記第1特徴系列に対して時系列逆転処理を行い、前記第2特徴系列を得るための時系列逆転ユニットを含むことを特徴とする、項目39に記載の装置。
(項目41)
前記生成ユニットは、具体的に、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップと、を実行するために用いられることを特徴とする、項目39または40に記載の装置。
(項目42)
前記生成ユニットは、具体的に、前記第2のオブジェクト境界確率系列に対して時系列逆転処理を行い、第3のオブジェクト境界確率系列を得るステップと、前記第1のオブジェクト境界確率系列と前記第3のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得るステップと、を実行するために用いられることを特徴とする、項目41に記載の装置。
(項目43)
前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列の各々は開始確率系列および終了確率系列を含み、
前記生成ユニットは、具体的に、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列のうちの開始確率系列の融合処理を行い、目標開始確率系列を得るために用いられ、および/または
前記生成ユニットは、具体的に、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列のうちの終了確率系列の融合処理を行い、目標終了確率系列を得るために用いられ、前記目標境界確率系列は前記目標開始確率系列および前記目標終了確率系列のうちの少なくとも一つを含むことを特徴とする、項目41または42に記載の装置。
(項目44)
前記生成ユニットは、具体的に、前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、前記生成ユニットは、具体的に、前記目標境界確率系列に含まれる目標開始確率系列および前記第1のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、前記生成ユニットは、具体的に、前記目標境界確率系列に含まれる目標開始確率系列および前記第2のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、前記生成ユニットは、具体的に、前記第1のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、前記生成ユニットは、具体的に、前記第2のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられることを特徴とする、項目41から43のいずれか一項に記載の装置。
(項目45)
前記生成ユニットは、具体的に、前記目標開始確率系列に含まれる前記複数のセグメントの目標開始確率に基づき、目標開始確率が第1閾値を超えたセグメントおよび/または目標開始確率が少なくとも2つの隣接セグメントより高いセグメントを含む第1セグメント集合を得て、および前記目標終了確率系列に含まれる前記複数のセグメントの目標終了確率に基づき、目標終了確率が第2閾値を超えたセグメントおよび/または目標終了確率が少なくとも2つの隣接セグメントより高いセグメントを含む第2セグメント集合を得るステップと、
前記第1セグメント集合および前記第2セグメント集合に基づき、前記時系列オブジェクト候補集合を生成するステップと、を実行するために用いられることを特徴とする、項目44に記載の装置。
(項目46)
さらに、
前記ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長く、前記第1の時系列オブジェクト候補は前記時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップと、を実行するための特徴特定ユニットと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含むことを特徴とする、項目39から45のいずれか一項に記載の装置。
(項目47)
前記特徴特定ユニットはさらに、前記第1特徴系列および前記第2特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップと、前記第1特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るステップと、を実行するために用いられることを特徴とする、項目46に記載の装置。
(項目48)
前記特徴特定ユニットは、具体的に、前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るために用いられることを特徴とする、項目46または47に記載の装置。
(項目49)
前記特徴特定ユニットは、具体的に、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るために用いられ、
前記評価ユニットは、具体的に、前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るために用いられることを特徴とする、項目46から48に記載の装置。
(項目50)
前記特徴特定ユニットは、具体的に、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を実行するために用いられることを特徴とする、項目49に記載の装置。
(項目51)
前記特徴特定ユニットは、具体的に、前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るために用いられ、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間であることを特徴とする、項目46から48のいずれか一項に記載の装置。
(項目52)
前記評価ユニットは、具体的に、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第1の時系列オブジェクト候補の少なくとも2つの品質指標を得るステップであって、前記少なくとも2つの品質指標のうち第1指標は前記第1の時系列オブジェクト候補と真値との共通部分が前記第1の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも2つの品質指標のうち第2指標は前記第1の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも2つの品質指標に基づき、前記評価結果を得るステップと、を実行するために用いられることを特徴とする、項目46から51のいずれか一項に記載の装置。
(項目53)
実行する画像処理方法は、候補生成ネットワークおよび候補評価ネットワークを含む時系列候補生成ネットワークに適用され、前記処理ユニットは前記候補生成ネットワークの機能を実行するためのものであり、前記評価ユニットは前記候補評価ネットワークの機能を実行するためのものであり、
前記時系列候補生成ネットワークの訓練プロセスは、
訓練サンプルを前記時系列候補生成ネットワークに入力して処理し、前記候補生成ネットワークから出力されるサンプル時系列候補集合および前記候補評価ネットワークから出力される前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果を得るステップと、
前記訓練サンプルのサンプル時系列候補集合および前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果と前記訓練サンプルのラベリング情報とのそれぞれの差異に基づき、ネットワーク損失を得るステップと、
前記ネットワーク損失に基づき、前記時系列候補生成ネットワークのネットワークパラメータを調整するステップと、を含むことを特徴とする、項目29から52のいずれか一項に記載の装置。
(項目54)
ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データ、および前記ビデオストリームに基づいて得られた動作確率系列を含み、または、前記ビデオ特徴系列は前記ビデオストリームに基づいて得られた動作確率系列であり、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長く、前記第1の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップと、を実行するための特徴特定ユニットと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含むことを特徴とする、候補評価装置。
(項目55)
さらに、
第1特徴系列および第2特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るための処理ユニットであって、前記第1特徴系列も前記第2特徴系列も前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含み、かつ前記第2特徴系列は前記第1特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる処理ユニットと、
前記第1特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るための連接ユニットと、を含むことを特徴とする、項目54に記載の装置。
(項目56)
前記特徴特定ユニットは、具体的に、前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るために用いられることを特徴とする、項目54または55に記載の装置。
(項目57)
前記特徴特定ユニットは、具体的に、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るために用いられ、
前記評価ユニットは、具体的に、前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るために用いられることを特徴とする、項目54から56のいずれか一項に記載の装置。
(項目58)
前記特徴特定ユニットは、具体的に、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を実行するために用いられることを特徴とする、項目57に記載の装置。
(項目59)
前記特徴特定ユニットは、具体的に、前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るために用いられ、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間であることを特徴とする、項目54から58のいずれか一項に記載の装置。
(項目60)
前記評価ユニットは、具体的に、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第1の時系列オブジェクト候補の少なくとも2つの品質指標を得るステップであって、前記少なくとも2つの品質指標のうち第1指標は前記第1の時系列オブジェクト候補と真値との共通部分が前記第1の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも2つの品質指標のうち第2指標は前記第1の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも2つの品質指標に基づき、前記評価結果を得るステップと、を実行するために用いられることを特徴とする、項目57から59のいずれか一項に記載の装置。
(項目61)
ビデオストリームの第1特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得るための処理ユニットであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む処理ユニットと、
前記第1特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得るための連接ユニットと、
前記ビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含むことを特徴とする、候補評価装置。
(項目62)
前記処理ユニットは、具体的に、前記第1特徴系列に基づき、第1動作確率系列を得るステップと、
前記ビデオストリームの第2特徴系列に基づき、第2動作確率系列を得るステップであって、前記第2特徴系列及び前記第1特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、
前記第1動作確率系列と前記第2動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップと、を実行するために用いられることを特徴とする、項目61に記載の装置。
(項目63)
前記処理ユニットは、具体的に、前記第2動作確率系列に対して時系列逆転処理を行い、第3動作確率系列を得るステップと、
前記第1動作確率系列と前記第3動作確率系列を融合し、前記目標動作確率系列を得るステップと、を実行するために用いられることを特徴とする、項目62に記載の装置。
(項目64)
前記評価ユニットは、具体的に、前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、目標候補特徴を得るステップと、
前記目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を実行するために用いられることを特徴とする、項目61から63のいずれか一項に記載の装置。
(項目65)
前記評価ユニットは、具体的に、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第1の時系列オブジェクト候補の少なくとも2つの品質指標を得るステップであって、前記少なくとも2つの品質指標のうち第1指標は前記第1の時系列オブジェクト候補と真値との共通部分が前記第1の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも2つの品質指標のうち第2指標は前記第1の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、
前記少なくとも2つの品質指標に基づき、前記評価結果を得るステップと、実行するために用いられることを特徴とする、項目64に記載の装置。
(項目66)
前記処理ユニットはさらに、前記第1特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第1のオブジェクト境界確率系列を得るステップと、
前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得るステップと、
前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、前記第1の時系列オブジェクト候補を生成するステップと、を実行するために用いられることを特徴とする、項目62から65のいずれか一項に記載の装置。
(項目67)
前記処理ユニットは、具体的に、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、
前記目標境界確率系列に基づき、前記第1の時系列オブジェクト候補を生成するステップと、を実行するために用いられることを特徴とする、項目66に記載の装置。
(項目68)
前記処理ユニットは、具体的に、前記第2のオブジェクト境界確率系列に対して時系列逆転処理を行い、第3のオブジェクト境界確率系列を得るステップと、
前記第1のオブジェクト境界確率系列と前記第3のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得るステップと、を実行するために用いられることを特徴とする、項目66に記載の装置。
(項目69)
ビデオストリームの第1特徴系列に基づき、第1動作確率系列を得るステップであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、前記ビデオストリームの第2特徴系列に基づき、第2動作確率系列を得るステップであって、前記第2特徴系列及び前記第1特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップステップと、前記第1動作確率系列および前記第2動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、を実行するための処理ユニットと、
前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得るための評価ユニットと、を含むことを特徴とする、候補評価装置。
(項目70)
前記処理ユニットは、具体的に、前記第1動作確率系列と前記第2動作確率系列との融合処理を行い、前記目標動作確率系列を得るために用いられることを特徴とする、項目69に記載の装置。
(項目71)
前記処理ユニットは、具体的に、前記第2動作確率系列の時系列を逆転させ、第3動作確率系列を得るステップと、
前記第1動作確率系列と前記第3動作確率系列を融合し、前記目標動作確率系列を得るステップと、を実行するために用いられることを特徴とする、項目70に記載の装置。
(項目72)
前記評価ユニットは、具体的に、前記目標動作確率系列に基づき、前記第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長いステップと、
前記目標動作確率系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップと、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を実行するために用いられることを特徴とする、項目69から71のいずれか一項に記載の装置。
(項目73)
前記評価ユニットは、具体的に、前記目標動作確率系列をサンプリングし、前記長時間候補特徴を得るために用いられることを特徴とする、項目72に記載の装置。
(項目74)
前記評価ユニットは、具体的に、前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記目標動作確率系列をサンプリングし、前記短時間候補特徴を得るために用いられることを特徴とする、項目72に記載の装置。
(項目75)
前記評価ユニットは、具体的に、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るステップと、
前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を実行するために用いられることを特徴とする、項目72から74のいずれか一項に記載の装置。
(項目76)
前記評価ユニットは、具体的に、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、
前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を実行するために用いられることを特徴とする、項目75に記載の装置。
(項目77)
プロセッサおよびデータインタフェースを含み、前記プロセッサは前記データインタフェースを介してメモリに記憶された命令を読み出して、項目1から38のいずれか一項に記載の方法を実行することを特徴とする、チップ。
(項目78)
プログラムを記憶するためのメモリと、前記メモリに記憶された前記プログラムを実行するためのプロセッサとを含み、前記プログラムが実行された場合、前記プロセッサは項目1から38のいずれか一項に記載の方法を実行するために用いられることを特徴とする、電子機器。
(項目79)
プロセッサにより実行される時に前記プロセッサに項目1から38のいずれか一項に記載の方法を実行させるプログラム命令を含むコンピュータプログラムが記憶されていることを特徴とする、コンピュータ可読記憶媒体。
(項目80)
プロセッサにより実行される時に前記プロセッサに項目1から38のいずれか一項に記載の方法を実行させるプログラム命令を含むことを特徴とする、コンピュータプログラム製品。
本願の実施例が提供する画像処理方法のフローチャートである。 本願の実施例が提供する時系列オブジェクト候補集合の生成プロセスの模式図である。 本願の実施例が提供するサンプリングプロセスの模式図である。 本願の実施例が提供する非局所的な注意操作の計算プロセスの模式図である。 本願の実施例が提供する画像処理装置の構成模式図である。 本願の実施例が提供する候補評価方法のフローチャートである。 本願の実施例が提供する別の候補評価方法のフローチャートである。 本願の実施例が提供するさらに別の候補評価方法のフローチャートである。 本願の実施例が提供する別の画像処理装置の構成模式図である。 本願の実施例が提供する候補評価装置の構成模式図である。 本願の実施例が提供する別の候補評価装置の構成模式図である。 本願の実施例が提供するさらに別の候補評価装置の構成模式図である。 本願の実施例が提供するサーバの構成模式図である。
本発明の実施例における技術的解決手段をより明確に説明するために、以下に本発明の実施例または背景技術に用いられる図面について説明する。
本願の実施例の解決手段を当業者により好適に理解させるために、以下に本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明確に説明し、当然ながら、説明される実施例は本願の実施例の一部に過ぎず、全ての実施例ではない。
本願の明細書における実施例、特許請求の範囲、および上記図面における「第1」、「第2」、および「第3」などの用語は、必ずしも特定の順序または優先順位を記述するためのものではなく、類似する対象を区別するためのものである。また、「含む」、「有する」という用語およびそれらのいかなる変形も、例えば一連のステップまたはユニットを含むように、非排他的に含むことを意図する。方法、システム、製品または機器は必ずしも明記されたステップまたはユニットに限定されるものではなく、明記されていないまたはこれらのプロセス、方法、製品または機器に固有の他のステップまたはユニットを含んでもよい。
なお、本開示の実施例は様々な時系列オブジェクト候補の生成および評価、例えば、ビデオストリームにおいて特定の人物が現れた時間帯の検出またはビデオストリームにおいて動作が現れた時間帯の検出などに適用することができ、理解の便宜上、以下の例ではいずれも動作候補により説明するが、本開示の実施例はこれを限定しないことが理解される。
時系列動作検出タスクは未トリミングの長いビデオから動作の具体的な発生時間および種別を特定することを目的としている。このような課題では生成される時系列動作候補の品質が1つの大きな難点である。現在、主流となる時系列動作候補の生成方法は高品質の時系列動作候補を得ることができない。したがって、高品質の時系列動作候補を得るために、新たな時系列候補生成方法を研究する必要がある。本願の実施例が提供する技術的解決手段は、2つ以上の時系列に従ってビデオにおける任意時刻の動作確率または境界確率を評価し、得られた複数の評価結果(動作確率または境界確率)を融合し、高品質の確率系列を得て、さらに高品質の時系列オブジェクト候補集合(提案候補集合ともいう)を生成することができる。
本願の実施例が提供する時系列候補の生成方法は知的ビデオ分析、セキュリティ監視などのシーンに適用することができる。以下に本願の実施例が提供する時系列候補の生成方法の知的ビデオ分析シーンおよびセキュリティ監視シーンにおける応用を簡単に説明する。
知的ビデオ分析のシーン
例を挙げれば、画像処理装置、例えばサーバは、ビデオから抽出された特徴系列を処理して提案候補集合および前記提案候補集合内の各候補の信頼度スコアを得て、そして前記提案候補集合および前記提案候補集合内の各候補の信頼度スコア基づいて時系列動作を特定し、それにより前記ビデオにおけるハイライト場面(例えば戦闘場面)を抽出する。また例を挙げれば、画像処理装置、例えばサーバは、ユーザが視聴したビデオについて時系列動作を検出し、それにより前記ユーザが好むビデオのタイプを予測し、前記ユーザに類似のビデオを推奨する。
セキュリティ監視のシーン
画像処理装置は、監視ビデオから抽出された特徴系列を処理して提案候補集合および前記提案候補集合内の各候補の信頼度スコアを得て、そして前記提案候補集合および前記提案候補集合内の各候補の信頼度スコアに基づいて時系列動作を特定し、それにより前記監視ビデオにおける何らかの時系列動作を含む場面を抽出する。例えば、或る交差点の監視ビデオから車両の出入場面を抽出する。また例を挙げれば、複数の監視ビデオについて時系列動作を検出し、それにより前記複数の監視ビデオから何らかの時系列動作、例えば車両が人に衝突した動作を含むビデオを探し出す。
上記シーンでは、本願が提供する時系列候補の生成方法を採用すれば、高品質の時系列オブジェクト候補集合を得て、時系列動作検出タスクを高効率に完了することができる。以下、技術的解決手段の説明は時系列動作を例にするが、本開示の実施例は他のタイプの時系列オブジェクト検出に適用してもよく、本開示の実施例はこれを限定しない。
図1は本願の実施例が提供する画像処理方法である。
101において、ビデオストリームの第1特徴系列を取得する。
前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む。本願の実施例の実行主体は画像処理装置、例えば、サーバ、端末機器または他のコンピュータ機器である。ビデオストリームの第1特徴系列の取得は画像処理装置が前記ビデオストリームの時系列に従って前記ビデオストリームに含まれる複数のセグメントの各々を特徴抽出して前記第1特徴系列を得るようにしてもよい。いくつかの実施例では、前記第1特徴系列は画像処理装置により2ストリームネットワーク(two-stream network)を用いて前記ビデオストリームを特徴抽出して得られた元の2ストリーム特徴系列であってもよい。または、第1特徴系列は画像処理装置により他のタイプのニューラルネットワークを用いてビデオストリームを特徴抽出して得られたものであり、または、第1特徴系列は画像処理装置により他の端末またはネットワーク機器から取得されたものであり、本開示の実施例はこれを限定しない。
102において、第1特徴系列に基づき、第1のオブジェクト境界確率系列を得る。
前記第1のオブジェクト境界確率系列は前記複数のセグメントがオブジェクト境界に属する確率、例えば、複数のセグメントの各々がオブジェクト境界に属する確率を含む。いくつかの実施例では、前記第1特徴系列を候補生成ネットワークに入力して処理して前記第1のオブジェクト境界確率系列を得るようにしてもよい。第1のオブジェクト境界確率系列は第1開始確率系列および第1終了確率系列を含んでもよい。前記第1開始確率系列内の各開始確率は前記ビデオストリームに含まれる複数のセグメントのうちのいずれかが開始動作に対応する確率、即ち或るセグメントが動作開始セグメントである確率を表す。前記第1終了確率系列内の各終了確率は前記ビデオストリームに含まれる複数のセグメントのうちのいずれかが終了動作に対応する確率、即ち或るセグメントが動作終了セグメントである確率を表す。
103において、ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得る。
前記第2特徴系列は前記第1特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる。例を挙げれば、第1特徴系列は順に第1特徴から第M特徴を含み、第2特徴系列は順に前記第M特徴から前記第1特徴を含み、Mは1より大きい整数である。任意選択的に、いくつかの実施例では、前記第2特徴系列は前記第1特徴系列内の特徴データの時系列を逆転させて得られた特徴系列、または逆転後にさらに他の処理を施して得られた特徴系列であってもよい。任意選択的に、画像処理装置はステップ103を実行する前に、前記第1特徴系列に対して時系列逆転処理を行い、前記第2特徴系列を得る。または、第2特徴系列は他の方式で得られたものであり、本開示の実施例はこれを限定しない。
いくつかの実施例では、前記第2特徴系列を候補生成ネットワークに入力して処理して前記第2のオブジェクト境界確率系列を得るようにしてもよい。第2のオブジェクト境界確率系列は第2開始確率系列および第2終了確率系列を含んでもよい。前記第2開始確率系列内の各開始確率は前記ビデオストリームに含まれる複数のセグメントのうちのいずれかが開始動作に対応する確率、即ち或るセグメントが動作開始セグメントである確率を表す。前記第2終了確率系列内の各終了確率は前記ビデオストリームに含まれる複数のセグメントのいずれかが終了動作に対応する確率、即ち或るセグメントが動作終了セグメントである確率を表す。こうして、前記第1開始確率系列と前記第2開始確率系列は複数の同じセグメントに対応する開始確率を含むようになる。例を挙げれば、第1開始確率系列には順に第1セグメントから第Nセグメントに対応する開始確率が含まれ、第2開始確率系列には順に前記第Nセグメントから第1セグメントに対応する開始確率が含まれる。同様に、前記第1終了確率系列と前記第2終了確率系列は複数の同じセグメントに対応する終了確率を含む。例を挙げれば、第1終了確率系列には順に第1セグメントから第Nセグメントに対応する終了確率が含まれ、第2終了確率系列には順に前記第Nセグメントから第1セグメントに対応する終了確率が含まれる。
104において、前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成する。
いくつかの実施例では、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得て、そして前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するようにしてもよい。例えば、前記第2のオブジェクト境界確率系列に対して時系列逆転処理を行い、第3のオブジェクト境界確率系列を得て、前記第1のオブジェクト境界確率系列と前記第3のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得る。また例えば、前記第1のオブジェクト境界確率系列に対して時系列逆転処理を行い、第4のオブジェクト境界確率系列を得て、前記第2のオブジェクト境界確率系列と前記第4のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得る。
本願の実施例では、融合後の確率系列に基づいて時系列オブジェクト候補集合を生成しており、境界がより正確な確率系列を得て、生成される時系列オブジェクト候補の境界をより正確にすることができる。
以下に操作101の具体的な実施形態を説明する。
いくつかの実施例では、画像処理装置は2つの候補生成ネットワークを用いて前記第1特徴系列および第2特徴系列をそれぞれ処理し、例えば、画像処理装置は前記第1特徴系列を第1候補生成ネットワークに入力して処理し、前記第1のオブジェクト境界確率系列を得て、および前記第2特徴系列を第2候補生成ネットワークに入力して処理し、前記第2のオブジェクト境界確率系列を得る。前記第1候補生成ネットワークと第2候補生成ネットワークは同じであってもなくてもよい。任意選択的に、前記第1候補生成ネットワークと第2候補生成ネットワークは構造もパラメータ設定も同じであり、画像処理装置はこの2つのネットワークを用いて並行的にまたは任意の前後順序で前記第1特徴系列および前記第2特徴系列を処理することができ、または、第1候補生成ネットワークと第2候補生成ネットワークは同じハイパーパラメータを有し、ネットワークパラメータが訓練プロセスにおいて学習して得られており、その値は同じであってもなくてもよい。
別のいくつかの実施例では、画像処理装置は同一の候補生成ネットワークを用いて前記第1特徴系列および前記第2特徴系列を逐次的に処理するようにしてもよい。例えば、画像処理装置はまず前記第1特徴系列を候補生成ネットワークに入力して処理し、前記第1のオブジェクト境界確率系列を得て、次に前記第2特徴系列を候補生成ネットワークに入力して処理し、前記第2のオブジェクト境界確率系列を得る。
本開示の実施例では、任意選択的に、候補生成ネットワークは3つの時系列畳み込み層を含むか、または他の数の畳み込み層および/または他のタイプの処理層を含む。各時系列畳み込み層は
Figure 0007163397000001
として定義され、ここで、
Figure 0007163397000002
はそれぞれ畳み込みカーネルの数、畳み込みカーネルのサイズおよび活性化関数を表す。一例では、各候補生成ネットワークの最初の2つの時系列畳み込み層に関して、
Figure 0007163397000003
は512としてもよく、
Figure 0007163397000004
は3としてもよく、活性化関数は整流線形ユニット(Rectified Linear Unit、ReLU)が使用され、最後の時系列畳み込み層の
Figure 0007163397000005
は3としてもよく、
Figure 0007163397000006
は1としてもよく、予測出力としてSigmoid活性化関数が使用されるが、本開示の実施例は候補生成ネットワークの具体的な実施形態を限定しない。
前記実施形態では、画像処理装置は、処理して得られた2つのオブジェクト境界確率系列を融合してより正確なオブジェクト境界確率系列を得るために、第1特徴系列および第2特徴系列をそれぞれ処理する。
以下に、第1のオブジェクト境界確率系列と第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得る方法について説明する。
選択可能な一実施形態では、前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列の各々は開始確率系列および終了確率系列を含む。それに対して、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列のうちの開始確率系列の融合処理を行い、目標開始確率系列を得て、および/または、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列のうちの終了確率系列の融合処理を行い、目標終了確率系列を得て、ここで、前記目標境界確率系列は前記目標開始確率系列および前記目標終了確率系列のうちの少なくとも一つを含む。
一代替例では、前記第2開始確率系列内の各確率の順序を逆転させて参照開始確率系列を得て、前記第1開始確率系列内の確率は前記参照開始確率系列内の確率と順に対応し、そして前記第1開始確率系列と前記参照開始確率系列を融合し、目標開始確率系列を得る。例を挙げれば、第1開始確率系列には順に第1セグメントから第Nセグメントに対応する開始確率があり、第2開始確率系列には順に前記第Nセグメントから第1セグメントに対応する開始確率があり、前記第2開始確率系列内の各確率の順序を逆転させて得られた参照開始確率系列には順に前記第1セグメントから前記第Nセグメントに対応する開始確率がある場合、前記第1開始確率系列と前記参照開始確率系列内の第1セグメントから第Nセグメントに対応する開始確率の平均値を順に前記目標開始確率のうちの前記第1セグメントから前記第Nセグメントに対応する開始確率とし、前記目標開始確率系列を得るように、つまり、前記第1開始確率系列内の第iセグメントに対応する開始確率と前記参照開始確率系列内の第iセグメントの開始確率との平均値を前記目標開始確率のうちの前記第iセグメントに対応する開始確率とするようにしており、ここで、i=1、……、Nである。
同様に、選択可能な一実施形態では、前記第2終了確率系列内の各確率の順序を逆転させて参照終了確率系列を得て、前記第1終了確率系列内の確率は前記参照終了確率系列内の確率と順に対応し、そして前記第1終了確率系列と前記参照終了確率系列を融合し、前記目標終了確率系列を得る。例を挙げれば、第1終了確率系列には順に第1セグメントから第Nセグメントに対応する終了確率があり、第2終了確率系列には順に前記第Nセグメントから第1セグメントに対応する終了確率があり、前記第2終了確率系列内の各確率の順序を逆転させて得られた参照終了確率系列には順に前記第1セグメントから前記第Nセグメントに対応する終了確率がある場合、前記第1終了確率系列と前記参照終了確率系列内の第1セグメントから第Nセグメントに対応する終了確率の平均値を順に前記目標終了確率のうちの前記第1セグメントから前記第Nセグメントに対応する終了確率とし、目標終了確率系列を得る。
任意選択的に、他の方式で2つの確率系列内の開始確率または終了確率を融合してもよく、本開示の実施例はこれを限定しない。
本願の実施例は、2つのオブジェクト境界系列の融合処理を行うことで、境界がより正確なオブジェクト境界確率系列を得て、さらに品質がより高い時系列オブジェクト候補集合を生成することができる。
以下に目標境界確率系列に基づいて時系列オブジェクト候補集合を生成する具体的な実施形態を説明する。
選択可能な一実施形態では、目標境界確率系列は目標開始確率系列および目標終了確率系列を含み、それに対して、前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成することができる。
別の代替的な実施形態では、目標境界確率系列は目標開始確率系列を含み、それに対して、前記目標境界確率系列に含まれる目標開始確率系列および前記第1のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成することができ、または、前記目標境界確率系列に含まれる目標開始確率系列および前記第2のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成することができる。
別の代替的な実施形態では、目標境界確率系列は目標終了確率系列を含み、それに対して、前記第1のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成することができ、または、前記第2のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成することができる。
以下に目標開始確率系列および目標終了確率系列を例にし、時系列オブジェクト候補集合を生成する方法を説明する。
任意選択的に、前記目標開始確率系列に含まれる前記複数のセグメントの目標開始確率に基づき、複数のオブジェクト開始セグメントを含む第1セグメント集合を得て、前記目標終了確率系列に含まれる前記複数のセグメントの目標終了確率に基づき、複数のオブジェクト終了セグメントを含む第2セグメント集合を得て、そして前記第1セグメント集合および前記第2セグメント集合に基づき、前記時系列オブジェクト候補集合を生成するようにしてもよい。
いくつかの例では、例えば、目標開始確率が第1閾値を超えたセグメントをオブジェクト開始セグメントとし、または、局所エリアにおいて最も高い目標開始確率を有するセグメントをオブジェクト開始セグメントとし、または目標開始確率がその隣接の少なくとも2つのセグメントの目標開始確率より高いセグメントをオブジェクト開始セグメントとし、または目標開始確率が1つ前のセグメントおよび1つ後のセグメントの目標開始確率より高いセグメントをオブジェクト開始セグメントとするなど、複数のセグメントの各々の目標開始確率に基づき、複数のセグメントからオブジェクト開始セグメントを選択してもよく、本開示の実施例はオブジェクト開始セグメントを決定する具体的な実施形態を限定しない。
いくつかの例では、例えば、目標終了確率が第1閾値を超えたセグメントをオブジェクト終了セグメントとし、または、局所エリアにおいて最も高い目標終了確率を有するセグメントをオブジェクト終了セグメントとし、または目標終了確率がその隣接の少なくとも2つのセグメントの目標終了確率より高いセグメントをオブジェクト終了セグメントとし、または目標終了確率が1つ前のセグメントおよび1つ後のセグメントの目標終了確率より高いセグメントをオブジェクト終了セグメントとするなど、複数のセグメントの各々の目標終了確率に基づき、複数のセグメントからオブジェクト終了セグメントを選択してもよく、本開示の実施例はオブジェクト終了セグメントを決定する具体的な実施形態を限定しない。
選択可能な一実施形態では、前記第1セグメント集合内の1つのセグメントに対応する時点を1つの時系列オブジェクト候補の開始時点とし、および前記第2セグメント集合内の1つのセグメントに対応する時点を前記時系列オブジェクト候補の終了時点とする。例を挙げれば、第1セグメント集合内の1つのセグメントが第1時点に対応し、第2セグメント集合内の1つのセグメントが第2時点に対応する場合、前記第1セグメント集合および前記第2セグメント集合に基づいて生成される時系列オブジェクト候補集合に含まれる1つの時系列オブジェクト候補は[第1時点 第2時点]となる。前記第1閾値は0.7、0.75、0.8、0.85、0.9などであってもよい。前記第2閾値は0.7、0.75、0.8、0.85、0.9などであってもよい。
任意選択的に、前記目標開始確率系列に基づいて第1時点集合を得て、および前記目標終了確率系列に基づいて第2時点集合を得て、前記第1時点集合は前記目標開始確率系列内の対応する確率が第1閾値を超えた時点および/または少なくとも1つの局所時点を含み、任意の局所時点の前記目標開始確率系列における対応する確率は前記任意の局所時点の隣接時点の前記目標開始確率系列における対応する確率より高く、前記第2時点集合は前記目標終了確率系列内の対応する確率が第2閾値を超えた時点および/または少なくとも1つの参照時点を含み、任意の参照時点の前記目標終了確率系列における対応する確率は前記任意の参照時点の隣接時点の前記目標終了確率系列における対応する確率より高く、そして前記第1時点集合および前記第2時点集合に基づき、前記時系列候補集合を生成し、前記時系列候補集合内の任意の候補の開始時点は前記第1時点集合内の1つの時点であり、前記任意の候補の終了時点は前記第2時点集合内の1つの時点であり、前記開始時点は前記終了時点よりも前となる。
前記第1閾値は0.7、0.75、0.8、0.85、0.9などであってもよい。前記第2閾値は0.7、0.75、0.8、0.85、0.9などであってもよい。第1閾値と第2閾値は同じであってもなくてもよい。任意の局所時点は目標開始確率系列における対応する確率が1つ前の時点に対応する確率および1つ後の時点に対応する確率より高い時点であってもよい。任意の参照時点は目標終了確率系列における対応する確率が1つ前の時点に対応する確率および1つ後の時点に対応する確率より高い時点であってもよい。時系列オブジェクト候補集合の生成プロセスは以下のように解されてもよい。まず、目標開始確率系列および目標終了確率系列から、(1)前記時点の確率が1つの閾値より高いこと、(2)前記時点の確率が1つ前または前の複数の時点および1つ後または後の複数の時点の確率より高いこと(即ち1つの確率ピークに対応する時点)という2つの条件の1つを満たす時点を提案時系列境界ノード(提案開始時点および提案終了時点を含む)として選択し、続いて、提案開始時点と提案終了時点を2つずつ組み合わせ、時間長が要求を満たす提案開始時点-提案終了時点の組み合わせを時系列動作候補として保存する。時間長が要求を満たす提案開始時点-提案終了時点の組み合わせは提案開始時点が提案終了時点よりも前となる組み合わせであってもよく、提案開始時点と提案終了時点との間隔が第3閾値より大きくかつ第4閾値より小さい組み合わせであってもよく、ここで、前記第3閾値および前記第4閾値は実際の需要に応じて設定してもよく、例えば前記第3閾値は1msとし、前記第4閾値は100msとする。
そのうち、提案開始時点は前記第1時点集合に含まれる時点であり、提案終了時点は前記第2時点集合に含まれる時点である。図2は本願の実施例が提供する時系列候補集合の生成プロセスの模式図である。図2に示すように、対応する確率が第1閾値を超えた開始時点および確率ピークに対応する時点は提案開始時点であり、対応する確率が第2閾値を超えた終了時点および確率ピークに対応する時点は提案終了時点である。図2における各リンク線はそれぞれ1つの時系列候補(即ち1つの提案開始時点と提案終了時点の組み合わせ)に対応し、各時系列候補において提案開始時点が提案終了時点よりも前となり、かつ提案開始時点と提案終了時点との時間間隔が時間長の要求を満たす。
前記実施形態では、時系列オブジェクト候補集合を高速で正確に生成できる。
上記実施例は時系列オブジェクト候補集合の生成方式を説明し、実際の応用では、時系列オブジェクト候補集合を得た後、通常、各時系列オブジェクト候補の品質を評価し、品質評価結果に基づいて時系列オブジェクト候補集合を出力する必要がある。以下に時系列オブジェクト候補の品質を評価する方式を説明する。
選択可能な一実施形態では、時系列オブジェクト候補集合内の各時系列オブジェクト候補の候補特徴を含む候補特徴集合を得て、前記候補特徴集合を候補評価ネットワークに入力して処理し、前記時系列オブジェクト候補集合内の各時系列オブジェクト候補の少なくとも2つの品質指標を得て、そして前記各時系列オブジェクト候補の少なくとも2つの品質指標に基づき、各時系列オブジェクト候補の評価結果(例えば信頼度スコア)を得る。
任意選択的に、前記候補評価ネットワークはニューラルネットワークであってもよく、前記候補評価ネットワークは前記候補特徴集合内の各候補特徴を処理し、各時系列オブジェクト候補の少なくとも2つの品質指標を得るために用いられ、前記候補評価ネットワークは並行する2つ以上の候補評価サブネットワークを含んでもよく、各候補評価サブネットワークは各時系列に対応する候補の1つの品質指標を特定するために用いられる。例を挙げれば、前記候補評価ネットワークは並行する3つの候補評価サブネットワーク、即ち第1候補評価サブネットワーク、第2候補評価サブネットワークおよび第3候補評価サブネットワークを含み、いずれの候補評価サブネットワークも3つの全結合層を含み、そのうち、前の2つの全結合層は入力される候補特徴を処理するための1024個のユニットをそれぞれ含み、かつReluを活性化関数として使用し、3つ目の全結合層は1つの出力ノードを含み、Sigmoid活性化関数によって対応する予測結果を出力し、前記第1候補評価サブネットワークは時系列候補の全体的な品質(overall-quality)を反映する第1指標(即ち時系列候補と真値との共通部分が和集合を占める割合)を出力し、前記第2候補評価サブネットワークは時系列候補の完全度品質(completeness-quality)を反映する第2指標(即ち時系列候補と真値との共通部分が時系列候補の長さを占める割合)を出力し、前記第3候補評価サブネットワークは時系列候補の動作品質(actionness-quality)を反映する第3指標(時系列候補と真値との共通部分が真値の長さを占める割合)を出力する。IoU、IoP、IoGは順に前記第1指標、前記第2指標および前記第3指標を表すことができる。前記候補評価ネットワークに対応する損失関数は下記関数としてもよい。
Figure 0007163397000007
ここで、
Figure 0007163397000008
は重み係数でありかつ実情に応じて設定してもよい。
Figure 0007163397000009
は順に第1指標(IoU)、第2指標(IoP)および第3指標(IoG)の損失を表す。
Figure 0007163397000010
はいずれも
Figure 0007163397000011
損失関数を用いて計算可能であり、また他の損失関数を用いてもよい。
Figure 0007163397000012
損失関数は以下のように定義される。
Figure 0007163397000013
Figure 0007163397000014
関して、(2)中のxはIoUであり、
Figure 0007163397000015
関して、(2)中のxはIoPであり、
Figure 0007163397000016
に関して、(2)中のxはIoGである。IoU、IoPおよびIoGの定義に応じて、画像処理装置はIoPおよびIoGから
Figure 0007163397000017
を追加的に算出し、続いて特定スコア
Figure 0007163397000018
を得ることができる。ここで、
Figure 0007163397000019
は時系列候補のIoUを表し、
Figure 0007163397000020
は時系列候補の
Figure 0007163397000021
を表す。つまり、つまり、
Figure 0007163397000022
Figure 0007163397000023
はIoUである。
Figure 0007163397000024
は0.6としてもよく、他の定数としてもよい。画像処理装置は、下式によって候補の信頼度スコアを算出してもよい。
Figure 0007163397000025
式中、
Figure 0007163397000026
は前記時系列候補に対応する開始確率を表し、
Figure 0007163397000027
は前記時系列候補に対応する終了確率を表す。
以下に画像処理装置が候補特徴集合を得る方式を説明する。
任意選択的に、候補特徴集合を得るステップは、第1特徴系列と目標動作確率系列をチャネル次元で連接し、ビデオ特徴系列を得るステップと、第1の時系列オブジェクト候補の前記ビデオ特徴系列における対応する目標ビデオ特徴系列を得るステップであって、前記第1の時系列オブジェクト候補は前記時系列オブジェクト候補集合に含まれ、前記第1の時系列オブジェクト候補に対応する時間帯は前記目標ビデオ特徴系列に対応する時間帯と同じであるステップと、前記目標ビデオ特徴系列をサンプリングし、前記第1の時系列オブジェクト候補の候補特徴でありかつ前記候補特徴集合に含まれる目標候補特徴を得るステップと、を含んでもよい。
任意選択的に、前記目標動作確率系列は前記第1特徴系列を前記第1候補生成ネットワークに入力して処理して得られた第1動作確率系列であってもよく、または、前記第2特徴系列を前記第2候補生成ネットワークに入力して処理して得られた第2動作確率系列であってもよく、または、前記第1動作確率系列と前記第2動作確率系列を融合して得られた確率系列であってもよい。前記第1候補生成ネットワーク、前記第2候補生成ネットワークおよび前記候補評価ネットワークは1つのネットワークとして共同訓練して得られてもよい。前記第1特徴系列も前記目標動作確率系列も1つの三次元行列と対応付けられてもよい。前記第1特徴系列および前記目標動作確率系列に含まれるチャネル数は同じまたは異なり、各チャネル上の対応する二次元行列のサイズは同じである。したがって、前記第1特徴系列と前記目標動作確率系列をチャネル次元で連接し、前記ビデオ特徴系列を得ることができる。例を挙げれば、第1特徴系列が400個のチャネルを含む1つの三次元行列に対応し、目標動作確率系列が1つの二次元行列(1つのチャネルを含む三次元行列と解されてもよい)に対応する場合、前記ビデオ特徴系列は401個のチャネルを含む1つの三次元行列に対応するようになる。
前記第1の時系列オブジェクト候補は時系列オブジェクト候補集合内の任意の時系列オブジェクト候補である。なお、画像処理装置は同じ方式で時系列オブジェクト候補集合内の各時系列オブジェクト候補の候補特徴を特定できることが理解される。ビデオ特徴系列は画像処理装置がビデオストリームに含まれる複数のセグメントから抽出した特徴データを含む。第1の時系列オブジェクト候補の前記ビデオ特徴系列における対応する目標ビデオ特徴系列の取得は前記ビデオ特徴系列における前記第1の時系列オブジェクト候補に対応する時間帯に対応する目標ビデオ特徴系列を取得してもよい。例を挙げれば、第1の時系列オブジェクト候補に対応する時間帯がPミリ秒目からQミリ秒目である場合、ビデオ特徴系列におけるPミリ秒目からQミリ秒目に対応する部分特徴系列は目標ビデオ特徴系列となる。PもQも0より大きい実数である。前記目標ビデオ特徴系列をサンプリングし、目標候補特徴を得るステップは、前記目標ビデオ特徴系列をサンプリングし、目標長さの目標候補特徴を得るようにしてもよい。なお、画像処理装置は各時系列オブジェクト候補に対応するビデオ特徴系列をサンプリングし、1つの目標長さで候補特徴を得ることが理解される。つまり、各時系列オブジェクト候補の候補特徴の長さは同じである。各時系列オブジェクト候補の候補特徴は複数のチャネルを含む1つの行列に対応し、かつ各チャネル上は1つの目標長さの一次元行列とされる。例えば、ビデオ特徴系列が401個のチャネルを含む1つの三次元行列に対応し、各時系列オブジェクト候補の候補特徴が1つのT行401列の二次元行列に対応する場合、1行が1つのチャネルに対応することが理解される。Tは目標長さであり、Tは16としてもよい。
前記方式では、画像処理装置は時間長が異なる時系列候補に基づき、固定長さの候補特徴を得ることができ、簡単に実現できる。
任意選択的に、候補特徴集合を得るステップは、前記第1特徴系列と目標動作確率系列をチャネル次元で連接し、ビデオ特徴系列を得るステップと、前記ビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長く、前記第1の時系列オブジェクト候補は前記時系列オブジェクト候補集合に含まれるステップと、前記ビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップと、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るステップと、を含んでもよい。画像処理装置は前記第1特徴系列および前記第2特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得ることができる。前記目標動作確率系列は前記第1特徴系列を前記第1候補生成ネットワークに入力して処理して得られた第1動作確率系列であってもよく、または、前記第2特徴系列を前記第2候補生成ネットワークに入力して処理して得られた第2動作確率系列であってもよく、または、前記第1動作確率系列と前記第2動作確率系列を融合して得られた確率系列であってもよい。
前記ビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得るステップは、前記ビデオ特徴系列における参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るようにしてもよく、ここで、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間である。前記長時間候補特徴は、複数のチャネルを含む行列であってもよく、かつ各チャネル上は長さがTの一次元行列とされる。例えば、長時間候補特徴が1つのT行401列の二次元行列である場合、1行が1つのチャネルに対応することが理解される。TはTより大きい整数である。例えばTは16であり、Tは100である。前記ビデオ特徴系列をサンプリングし、長時間候補特徴を得るステップは、前記ビデオ特徴系列における参照時間区間内の特徴をサンプリングし、前記長時間候補特徴を得るようにしてもよく、前記参照時間区間は前記時系列オブジェクト候補集合に基づいて決定された最初の動作の開始時間および最後の動作の終了時間に対応する。図3は本願の実施例が提供するサンプリングプロセスの模式図である。図3に示すように、参照時間区間は開始エリア301、中央エリア302および終了エリア303を含み、中央エリア302の開始セグメントは最初の動作の開始セグメントであり、中央エリア302の終了セグメントは最後の動作の終了セグメントであり、開始エリア301および終了エリア303に対応する時間長はいずれも中央エリア302に対応する時間長の十分の一であり、304はサンプリングして得られた長時間候補特徴を表す。
いくつかの実施例では、前記ビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップは、前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るようにしてもよい。ここで前記ビデオ特徴系列をサンプリングし、短時間候補特徴を得る方式は前記ビデオ特徴系列をサンプリングし、長時間候補特徴を得る方式に類似するので、詳細な説明を繰り返さない。
いくつかの実施例では、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るステップは、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得て、そして前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るようにしてもよい。
図4は本願の実施例が提供する非局所的な注意操作の計算プロセスの模式図である。図4に示すように、Sは短時間候補特徴を表し、Lは長時間候補特徴を表し、C(0より大きい整数)はチャネル数に対応し、401から403および407はいずれも線形変換操作を表し、405は正規化処理を表し、404も406も行列乗算操作を表し、408は過剰適合処理を表し、409は加算操作を表す。ステップ401は短時間候補特徴を線形変換し、ステップ402は前記長時間候補特徴を線形変換し、ステップ403は長時間候補特徴を線形変換し、ステップ404は二次元行列(T×C)と二次元行列(C×T)の積を計算し、ステップ405はステップ404で算出された二次元行列(T×T)を正規化処理し、前記二次元行列(T×T)における各列の要素の和を1にし、ステップ406はステップ405で出力される二次元行列(T×T)と二次元行列(T×C)の積を計算し、新しい(T×C)の二次元行列を得て、ステップ407は前記新しい二次元行列(T×C)を線形変換して参照候補特徴を得て、ステップ408は過剰適合処理、即ちdropoutを実行して過剰適合の問題を解決し、ステップ409は前記参照候補特徴と前記短時間候補特徴の和を計算し、中間候補特徴S’を得る。前記参照候補特徴および前記短時間候補特徴に対応する行列はサイズが同じである。標準的な非ローカルブロック(Non-local block)により実行される非局所的な注意操作とは異なり、本願の実施例はSとLの双方向注意を用いて自己注意メカニズムを代替する。ここで、正規化処理の実施形態は、まずステップ404で算出された二次元行列(T×T)内の各要素を
Figure 0007163397000028
に乗算して新しい二次元行列(T×T)を得て、さらにSoftmax操作を実行するようにしてもよい。401から403および407で実行される線形操作は同じまたは異なる。任意選択的に、401から403および407はいずれも同一の線形関数に対応する。前記短時間候補特徴と前記中間候補特徴をチャネル次元で連接し、前記目標候補特徴を得るステップは、まず前記中間候補特徴のチャネル数をC個からD個に低減し、さらに前記短時間候補特徴と処理後の中間候補特徴(Dのチャネル数に対応する)をチャネル次元で連接するようにしてもよい。例を挙げれば、短時間候補特徴を(T×401)の二次元行列とし、中間候補特徴を(T×401)の二次元行列とし、線形変換によって前記中間候補特徴を(T×128)の二次元行列に変換し、前記短時間候補特徴と変化後の中間候補特徴をチャネル次元で連接し、(T×529)の二次元行列を得るようになり、ここで、DはCより小さくかつ0より大きい整数であり、401はCに対応し、128はDに対応する。
前記方式では、長時間候補特徴と短時間候補特徴との間の対話情報および他のマルチ粒度の手掛かりを統合することで豊富な候補特徴を生成し、さらに候補品質評価の正確性を向上させることができる。
本願が提供する時系列候補の生成方式および候補品質の評価方式をより明確に説明するために、以下に画像処理装置の構造と関連付けてさらに説明する。
図5は本願の実施例が提供する画像処理装置の構成模式図である。図5に示すように、前記画像処理装置は、第1部分の特徴抽出モジュール501、第2部分の双方向評価モジュール502、第3部分の長時間特徴操作モジュール503、第4部分の候補スコアリングモジュール504の4つの部分を含んでもよい。特徴抽出モジュール501は未トリミングのビデオを特徴抽出して元の2ストリーム特徴系列(即ち第1特徴系列)を得るために用いられる。
特徴抽出モジュール501は2ストリームネットワーク(two-stream network)を用いて未トリミングのビデオを特徴抽出してもよく、他のネットワークを用いて前記未トリミングのビデオを特徴抽出してもよく、本願はこれを限定しない。未トリミングのビデオを特徴抽出して特徴系列を得ることは当分野で慣用の技術手段であるので、ここでは説明を省略する。
双方向評価モジュール502は処理ユニットおよび生成ユニットを含んでもよい。図5中、5021は第1候補生成ネットワークを表し、5022は第2候補生成ネットワークを表し、前記第1候補生成ネットワークは入力される第1特徴系列を処理して第1開始確率系列、第1終了確率系列および第1動作確率系列を得るために用いられ、前記第2候補生成ネットワークは入力される第2特徴系列を処理して第2開始確率系列、第2終了確率系列および第2動作確率系列を得るために用いられる。図5に示すように、第1候補生成ネットワークも第2候補生成ネットワークも3つの時系列畳み込み層を含み、かつ設定されたパラメータも同じである。処理ユニットは、第1候補生成ネットワークおよび第2候補生成ネットワークの機能を実現するために用いられる。図5中のFは逆転操作を表し、1つのFは前記第1特徴系列内の各特徴の順序を時系列的に逆転させて第2特徴系列を得ることを表し、もう1つのFは第2開始確率系列内の各確率の順序を逆転させて参照開始確率系列を得て、第2終了確率系列内の各確率の順序を逆転させて参照終了確率系列を得て、および第2動作確率系列内の各確率の順序を逆転させて参照動作確率系列を得ることを表す。処理ユニットは図5中の逆転操作を実現するために用いられる。図5中の「+」は融合操作を表し、処理ユニットはさらに、第1開始確率系列と参照開始確率系列を融合して目標開始確率系列を得て、第1終了確率系列と参照終了確率系列を融合して目標終了確率系列を得て、および第1動作確率系列と参照動作確率系列を融合して目標動作確率系列を得るために用いられる。処理ユニットはさらに、上記第1セグメント集合および上記第2セグメント集合を特定するために用いられる。生成ユニットは、前記第1セグメント集合および前記第2セグメント集合に基づき、時系列オブジェクト候補集合(即ち図5中の提案候補集合)を生成するために用いられる。具体的な実施プロセスでは、生成ユニットはステップ104で言及された方法およびその置換可能な方法を実現してもよく、処理ユニットは具体的に、ステップ102およびステップ103で言及された方法およびその置換可能な方法を実行するために用いられる。
長時間特徴操作モジュール503は本願の実施例における特徴特定ユニットに対応する。図5中の「C」は連接操作を表し、1つの「C」は第1特徴系列と目標動作確率系列をチャネル次元で連接し、ビデオ特徴系列を得ることを表し、もう1つの「C」は元の短時間候補特徴と調整後の短時間候補特徴(中間候補特徴に対応する)をチャネル次元で連接し、目標候補特徴を得ることを表す。長時間特徴操作モジュール503は、前記ビデオ特徴系列内の特徴をサンプリングし、長時間候補特徴を得るために用いられ、また各時系列オブジェクト候補の前記ビデオ特徴系列における対応する部分特徴系列を特定し、各時系列オブジェクト候補の前記ビデオ特徴系列における対応する部分特徴系列をサンプリングして各時系列オブジェクト候補の短時間候補特徴(上記元の短時間候補特徴に対応する)を得るためにも用いられ、また前記長時間候補特徴および各時系列オブジェクト候補の短時間候補特徴を入力として非局所的な注意操作を実行して各時系列オブジェクト候補に対応する中間候補特徴を得るためにも用いられ、さらに、各時系列オブジェクト候補の短時間候補特徴と各時系列オブジェクト候補に対応する中間候補特徴をチャネル上で連接して候補特徴集合を得るためにも用いられる。
候補スコアリングモジュール504は本願における評価ユニットに対応する。図5中の5041は候補評価ネットワークであり、前記候補評価ネットワークは3つのサブネットワーク、即ち第1候補評価サブネットワーク、第2候補評価サブネットワークおよび第3候補評価サブネットワークを含んでもよい。前記第1候補評価サブネットワークは入力される候補特徴集合を処理して時系列オブジェクト候補集合内の各時系列オブジェクト候補の第1指標(即ちIoU)を出力するために用いられ、前記第2候補評価サブネットワークは入力される候補特徴集合を処理して時系列オブジェクト候補集合内の各時系列オブジェクト候補の第2指標(即ちIoP)を出力するために用いられ、前記第3候補評価サブネットワークは入力される候補特徴集合を処理して時系列オブジェクト候補集合内の各時系列オブジェクト候補の第3指標(即ちIoG)を出力するために用いられる。この3つの候補評価サブネットワークのネットワーク構造は同じであってもなくてもよく、各候補評価サブネットワークに対応するパラメータは異なる。候補スコアリングモジュール504は候補評価ネットワークの機能を実現するために用いられ、また各時系列オブジェクト候補の少なくとも2つの品質指標に基づき、前記各時系列オブジェクト候補の信頼度スコアを決定するためにも用いられる。
なお、図5に示す画像処理装置の各モジュールの分割は論理機能の分割にすぎず、実際に実現時に全てまたは部分的に1つの物理的なエンティティに統合してもよく、物理的に分離してもよいことを理解すべきである。かつこれらのモジュールは全て処理素子によって呼び出すソフトウェアの形で実現してもよく、全てハードウェアの形で実現してもよく、また一部のモジュールを処理素子によって呼び出すソフトウェアの形で実現し、一部のモジュールをハードウェアの形で実現するようにしてもよい。
図5からわかるように、画像処理装置は主に、時系列動作候補生成および候補品質評価の2つのサブタスクを完了する。そのうち、双方向評価モジュール502は時系列動作候補生成を完了するために用いられ、長時間特徴操作モジュール503および候補スコアリングモジュール504は候補品質評価を完了するために用いられる。実際の応用では、画像処理装置はこの2つのサブタスクを実行する前に、第1候補生成ネットワーク5021、第2候補生成ネットワーク5022および候補評価ネットワーク5041を得るかまたは訓練する必要がある。一般的に用いられるボトムアップの候補生成方法において、時系列候補生成および候補品質評価は独立して訓練を行うことが多く、全体的な最適化がなされていない。本願の実施例では、時系列動作候補生成と候補品質評価を統一のフレームワークに統合して共同訓練する。以下に第1候補生成ネットワーク、第2候補生成ネットワークおよび候補評価ネットワークを訓練して得る方式を説明する。
任意選択的に、訓練プロセスは以下のとおりである。第1訓練サンプルを前記第1候補生成ネットワークに入力して処理して第1サンプル開始確率系列、第1サンプル動作確率系列、第1サンプル終了確率系列を得て、および第2訓練サンプルを前記第2候補生成ネットワークに入力して処理して第2サンプル開始確率系列、第2サンプル動作確率系列、第2サンプル終了確率系列を得る。前記第1サンプル開始確率系列と前記第2サンプル開始確率系列を融合し、目標サンプル開始確率系列を得る。前記第1サンプル終了確率系列と前記第2サンプル終了確率系列を融合し、目標サンプル終了確率系列を得る。前記第1サンプル動作確率系列と前記第2サンプル動作確率系列を融合し、目標サンプル動作確率系列を得る。前記目標サンプル開始確率系列と前記目標サンプル終了確率系列に基づき、前記サンプル時系列オブジェクト候補集合を生成する。サンプル時系列オブジェクト候補集合、目標サンプル動作確率系列および第1訓練サンプルに基づいてサンプル候補特徴集合を得る。前記サンプル候補特徴集合を前記候補評価ネットワークに入力して処理し、前記サンプル候補特徴集合内の各サンプル候補特徴の少なくとも1つの品質指標を得る。前記各サンプル候補特徴の少なくとも1つの品質指標に基づき、前記各サンプル候補特徴の信頼度スコアを決定する。前記第1候補生成ネットワークおよび前記第2候補生成ネットワークに対応する第1損失と前記候補評価ネットワークに対応する第2損失の重み付け和に基づき、前記第1候補生成ネットワーク、前記第2候補生成ネットワークおよび前記候補評価ネットワークを更新する。
サンプル時系列オブジェクト候補集合、目標サンプル動作確率系列および第1訓練サンプルに基づいてサンプル候補特徴集合を得る操作は図5中の長時間特徴操作モジュール503が候補特徴集合を得る操作に類似するので、ここで詳細な説明を繰り返さない。なお、訓練プロセスのうちサンプル候補特徴集合を得るプロセスは応用プロセスのうち時系列オブジェクト候補集合を生成するプロセスと同じであり、訓練プロセスのうち各サンプル時系列候補の信頼度スコアを決定するプロセスは応用プロセスのうち各時系列候補の信頼度スコアを決定するプロセスと同じであることが理解される。訓練プロセスは応用プロセスと比べ、主に、前記第1候補生成ネットワークおよび前記第2候補生成ネットワークに対応する第1損失と前記候補評価ネットワークに対応する第2損失の重み付け和に基づき、前記第1候補生成ネットワーク、前記第2候補生成ネットワークおよび前記候補評価ネットワークを更新する点で相違する。
第1候補生成ネットワークおよび第2候補生成ネットワークに対応する第1損失は双方向評価モジュール502に対応する損失である。第1候補生成ネットワークおよび第2候補生成ネットワークに対応する第1損失を計算する損失関数は以下のとおりである。
Figure 0007163397000029
ここで、
Figure 0007163397000030
は重み係数であり、かつ、例えば、全て1とするように、実情に応じて設定してもよく、
Figure 0007163397000031
は順に目標開始確率系列、目標終了確率系列および目標動作確率系列の損失を表し、
Figure 0007163397000032
はいずれも交差エントロピー損失関数であり、具体的には以下のように表現される。
Figure 0007163397000033
ここで、
Figure 0007163397000034
は、各時刻でマッチされた対応のIoP真値
Figure 0007163397000035
を二値化するために用いられる。
Figure 0007163397000036
および
Figure 0007163397000037
は訓練時の正負サンプルの割合を平衡させるために用いられる。かつ
Figure 0007163397000038
であり、
Figure 0007163397000039
である。ここで、
Figure 0007163397000040
であり、
Figure 0007163397000041
である。
Figure 0007163397000042
は対応する関数が類似する。
Figure 0007163397000043
に関して、(5)中の
Figure 0007163397000044
は目標開始確率系列内の時刻tの開始確率であり、
Figure 0007163397000045
は時刻tでマッチされた対応のIoP真値であり、
Figure 0007163397000046
に関して、(5)中の
Figure 0007163397000047
は目標終了確率系列内の時刻tの終了確率であり、
Figure 0007163397000048
Figure 0007163397000049
は時刻tでマッチされた対応のIoP真値であり、
Figure 0007163397000050
に関して、(5)中の
Figure 0007163397000051
は目標動作確率系列内の時刻tの動作確率であり、
Figure 0007163397000052
は時刻tでマッチされた対応のIoP真値である。
候補評価ネットワークに対応する第2損失は候補スコアリングモジュール504に対応する損失である。候補評価ネットワークに対応する第2損失を計算する損失関数は以下のとおりである。
Figure 0007163397000053
ここで、
Figure 0007163397000054
は重み係数でありかつ実情に応じて設定してもよい。
Figure 0007163397000055
は順に第1指標(IoU)、第2指標(IoP)および第3指標(IoG)の損失を表す。
第1候補生成ネットワークおよび第2候補生成ネットワークに対応する第1損失と候補評価ネットワークに対応する第2損失の重み付け和は全ネットワークフレームワークの損失である。全ネットワークフレームワークの損失関数は以下のとおりである。
Figure 0007163397000056
ここで、
Figure 0007163397000057
は重み係数でありかつ10としてもよく、
Figure 0007163397000058
は第1候補生成ネットワークおよび第2候補生成ネットワークに対応する第1損失を表し、
Figure 0007163397000059
は候補評価ネットワークに対応する第2損失を表す。画像処理装置は逆伝播などのアルゴリズムを用いて(7)から算出された損失に基づき、第1候補生成ネットワーク、第2候補生成ネットワークおよび候補評価ネットワークのパラメータを更新してもよい。訓練の停止条件は、反復更新の回数が閾値、例えば1万回に達したこととしてもよく、全ネットワークフレームワークの損失値が収束したこと、即ち全ネットワークフレームワークの損失が基本的に低減しなくなることとしてもよい。
本願の実施例では、第1候補生成ネットワーク、第2候補生成ネットワーク、候補評価ネットワークを一体として共同訓練しており、時系列オブジェクト候補集合の精度を効果的に向上させるとともに候補評価の品質を確実に向上させ、さらに後続の候補検索の信頼性を保証する。
実際の応用では、候補評価装置は少なくとも上記実施例に記載の3つの異なる方法を用いて時系列オブジェクト候補の品質を評価することができる。以下に図面と関連付けてこの3つの候補評価方法のフローをそれぞれ説明する。
図6は本願の実施例が提供する候補評価方法のフローチャートであり、前記方法は以下を含んでもよい。
601において、ビデオストリームのビデオ特徴系列に基づき、ビデオストリームの第1の時系列オブジェクト候補の長時間候補特徴を得る。
前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データを含み、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長い。
602において、ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の短時間候補特徴を得る。
前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じである。
603において、長時間候補特徴および前記短時間候補特徴に基づき、第1の時系列オブジェクト候補の評価結果を得る。
本願の実施例では、長時間候補特徴と短時間候補特徴との間の対話情報および他のマルチ粒度の手掛かりを統合することで豊富な候補特徴を生成し、さらに候補品質評価の正確性を向上させる。
なお、本開示の実施例が提供する候補評価方法の具体的な実施形態は上記具体的な説明を参照すればよく、説明を簡潔にするために、ここでは詳細な説明を繰り返さないことを理解すべきである。
図7は本願の実施例が提供する別の候補評価方法のフローチャートであり、前記方法は以下を含んでもよい。
701において、ビデオストリームの第1特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得る。
前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む。
702において、第1特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得る。
703において、ビデオ特徴系列に基づき、ビデオストリームの第1の時系列オブジェクト候補の評価結果を得る。
本願の実施例では、特徴系列と目標動作確率系列をチャネル次元で連接してより多くの特徴情報を含むビデオ特徴系列を得ており、それによりサンプリングして得られた候補特徴にはより豊富な情報が含まれるようになる。
なお、本開示の実施例が提供する候補評価方法の具体的な実施形態は上記具体的な説明を参照すればよく、説明を簡潔にするために、ここでは詳細な説明を繰り返さないことを理解すべきである。
図8は本願の実施例が提供する別の候補評価方法のフローチャートであり、前記方法は以下を含んでもよい。
801において、ビデオストリームの第1特徴系列に基づき、第1動作確率系列を得る。
前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む。
802において、ビデオストリームの第2特徴系列に基づき、第2動作確率系列を得る。
前記第2特徴系列は前記第1特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる。
803において、第1動作確率系列および第2動作確率系列に基づき、ビデオストリームの目標動作確率系列を得る。
804において、ビデオストリームの目標動作確率系列に基づき、ビデオストリームの第1の時系列オブジェクト候補の評価結果を得る。
本願の実施例では、第1動作確率系列および第2動作確率系列に基づいてより正確な目標動作確率系列を得て、前記目標動作確率系列を利用して時系列オブジェクト候補の品質をより正確に評価することができる。
なお、本開示の実施例が提供する候補評価方法の具体的な実施形態は上記具体的な説明を参照すればよく、説明を簡潔にするために、ここでは詳細な説明を繰り返さないことを理解すべきである。
図9は本願の実施例が提供する画像処理装置の構成模式図である。図9に示すように、前記画像処理装置は、
ビデオストリームの第1特徴系列を取得するための取得ユニットであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む取得ユニット901と、
前記第1特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第1のオブジェクト境界確率系列を得るステップと、
前記ビデオストリームの第2特徴系列に基づき、前記第1特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる第2のオブジェクト境界確率系列を得るステップと、を実行するための処理ユニット902と、
前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するための生成ユニット903と、を含んでもよい。
本願の実施例では、融合後の確率系列に基づいて時系列オブジェクト候補集合を生成しており、確率系列をより正確に特定し、生成される時系列候補の境界をより正確にすることができる。
選択可能な一実施形態では、時系列逆転ユニット904は、前記第1特徴系列に対して時系列逆転処理を行い、前記第2特徴系列を得るために用いられる。
選択可能な一実施形態では、生成ユニット903は、具体的に、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップと、を実行するために用いられる。
前記実施形態では、画像処理装置は2つのオブジェクト境界確率系列を融合してより正確なオブジェクト境界確率系列を得て、さらに、より正確な時系列オブジェクト候補集合を得る。
選択可能な一実施形態では、生成ユニット903は、具体的に、前記第2のオブジェクト境界確率系列に対して時系列逆転処理を行い、第3のオブジェクト境界確率系列を得るステップと、前記第1のオブジェクト境界確率系列と前記第3のオブジェクト境界確率系列を融合し、前記目標境界確率系列を得るステップと、を実行するために用いられる。
選択可能な一実施形態では、前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列の各々は開始確率系列および終了確率系列を含み、
生成ユニット903は、具体的に、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列のうちの開始確率系列の融合処理を行い、目標開始確率系列を得るために用いられ、および/または
生成ユニット903は、具体的に、前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列のうちの終了確率系列の融合処理を行い、目標終了確率系列を得るために用いられ、前記目標境界確率系列は前記目標開始確率系列および前記目標終了確率系列のうちの少なくとも一つを含む。
選択可能な一実施形態では、生成ユニット903は、具体的に、前記目標境界確率系列に含まれる目標開始確率系列および目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、生成ユニット903は、具体的に、前記目標境界確率系列に含まれる目標開始確率系列および前記第1のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、生成ユニット903は、具体的に、前記目標境界確率系列に含まれる目標開始確率系列および前記第2のオブジェクト境界確率系列に含まれる終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、生成ユニット903は、具体的に、前記第1のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられ、
または、生成ユニット903は、具体的に、前記第2のオブジェクト境界確率系列に含まれる開始確率系列および前記目標境界確率系列に含まれる目標終了確率系列に基づき、前記時系列オブジェクト候補集合を生成するために用いられる。
選択可能な一実施形態では、生成ユニット903は、具体的に、前記目標開始確率系列に含まれる前記複数のセグメントの目標開始確率に基づき、目標開始確率が第1閾値を超えたセグメントおよび/または目標開始確率が少なくとも2つの隣接セグメントより高いセグメントを含む第1セグメント集合を得て、および前記目標終了確率系列に含まれる前記複数のセグメントの目標終了確率に基づき、目標終了確率が第2閾値を超えたセグメントおよび/または目標終了確率が少なくとも2つの隣接セグメントより高いセグメントを含む第2セグメント集合を得るステップと、前記第1セグメント集合および前記第2セグメント集合に基づき、前記時系列オブジェクト候補集合を生成するステップと、を実行するために用いられる。
選択可能な一実施形態では、前記装置はさらに、
前記ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長く、前記第1の時系列オブジェクト候補は前記時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップと、を実行するための特徴特定ユニット905と、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るための評価ユニット906と、を含む。
選択可能な一実施形態では、特徴特定ユニット905はさらに、前記第1特徴系列および前記第2特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップと、前記第1特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るステップと、を実行するために用いられる。
選択可能な一実施形態では、特徴特定ユニット905は、具体的に、前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るために用いられる。
選択可能な一実施形態では、特徴特定ユニット905は、具体的に、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るために用いられ、
評価ユニット906は、具体的に、前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るために用いられる。
選択可能な一実施形態では、特徴特定ユニット905は、具体的に、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、を実行するために用いられる。
選択可能な一実施形態では、特徴特定ユニット905は、具体的に、前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るために用いられ、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間である。
選択可能な一実施形態では、評価ユニット905は、具体的に、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第1の時系列オブジェクト候補の少なくとも2つの品質指標を得るステップであって、前記少なくとも2つの品質指標のうち第1指標は前記第1の時系列オブジェクト候補と真値との共通部分が前記第1の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも2つの品質指標のうち第2指標は前記第1の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも2つの品質指標に基づき、前記評価結果を得るステップと、を実行するために用いられる。
選択可能な一実施形態では、装置が実行する画像処理方法は、候補生成ネットワークおよび候補評価ネットワークを含む時系列候補生成ネットワークに適用され、前記処理ユニットは前記候補生成ネットワークの機能を実行するために用いられ、前記評価ユニットは前記候補評価ネットワークの機能を実行するために用いられ、
前記時系列候補生成ネットワークの訓練プロセスは、
訓練サンプルを前記時系列候補生成ネットワークに入力して処理し、前記候補生成ネットワークから出力されるサンプル時系列候補集合および前記候補評価ネットワークから出力される前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果を得るステップと、
前記訓練サンプルのサンプル時系列候補集合および前記サンプル時系列候補集合に含まれるサンプル時系列候補の評価結果と前記訓練サンプルのラベリング情報とのそれぞれの差異に基づき、ネットワーク損失を得るステップと、
前記ネットワーク損失に基づき、前記時系列候補生成ネットワークのネットワークパラメータを調整するステップと、を含む。
図10は本願の実施例が提供する候補評価装置の構成模式図である。図10に示すように、前記候補評価装置は、
ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データ、および前記ビデオストリームに基づいて得られた動作確率系列を含み、または、前記ビデオ特徴系列は前記ビデオストリームに基づいて得られた動作確率系列であり、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長く、前記第1の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、
前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップと、を実行するための特徴特定ユニット1001と、
前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るための評価ユニット1002と、を含んでもよい。
本願の実施例では、長時間候補特徴と短時間候補特徴との間の対話情報および他のマルチ粒度の手掛かりを統合することで豊富な候補特徴を生成し、さらに候補品質評価の正確性を向上させる。
選択可能な一実施形態では、前記装置はさらに、
第1特徴系列および第2特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップであって、前記第1特徴系列も前記第2特徴系列も前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含み、かつ前記第2特徴系列は前記第1特徴系列に含まれる特徴データと同じでありかつ並び順が反対になるステップを実行するための処理ユニット1003と、
前記第1特徴系列と前記目標動作確率系列を連接し、前記ビデオ特徴系列を得るための連接ユニット1004と、を含む。
選択可能な一実施形態では、特徴特定ユニット1001は、具体的に、前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るために用いられる。
選択可能な一実施形態では、特徴特定ユニット1001は、具体的に、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るために用いられ、
評価ユニット1002は、具体的に、前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るために用いられる。
選択可能な一実施形態では、特徴特定ユニット1001は、具体的に、前記長時間候補特徴および前記短時間特徴候補に対して非局所的な注意操作を実行し、中間候補特徴を得るステップと、前記短時間候補特徴と前記中間候補特徴を連接し、前記目標候補特徴を得るステップと、実行するために用いられる。
選択可能な一実施形態では、特徴特定ユニット1001は、具体的に、前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るために用いられ、前記参照時間区間は前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間である。
選択可能な一実施形態では、評価ユニット1002は、具体的に、前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第1の時系列オブジェクト候補の少なくとも2つの品質指標を得るステップであって、前記少なくとも2つの品質指標のうち第1指標は前記第1の時系列オブジェクト候補と真値との共通部分が前記第1の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも2つの品質指標のうち第2指標は前記第1の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものであるステップと、前記少なくとも2つの品質指標に基づき、前記評価結果を得るステップと、実行するために用いられる。
図11は本願の実施例が提供する別の候補評価装置の構成模式図である。図11に示すように、前記候補評価装置は、
ビデオストリームの第1特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得るための処理ユニットであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む処理ユニット1101と、
前記第1特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得るための連接ユニット1102と、
前記ビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得るための評価ユニット1103と、を含んでもよい。
任意選択的に、評価ユニット1103は、具体的に、前記ビデオ特徴系列に基づき、第1の時系列オブジェクト候補の目標候補特徴を得るステップであって、前記目標候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであり、前記第1の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、前記目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を実行するために用いられる。
本願の実施例では、特徴系列と目標動作確率系列をチャネル次元で連接してより多くの特徴情報を含むビデオ特徴系列を得ており、それによりサンプリングして得られた候補特徴にはより豊富な情報が含まれるようになる。
選択可能な一実施形態では、処理ユニット1101は、具体的に、前記第1特徴系列に基づき、第1動作確率系列を得るステップと、前記第2特徴系列に基づき、第2動作確率系列を得るステップと、前記第1動作確率系列と前記第2動作確率系列を融合して前記目標動作確率系列を得るステップと、を実行するために用いられる。任意選択的に、前記目標動作確率系列は前記第1動作確率系列または前記第2動作確率系列であってもよい。
図12は本願の実施例が提供するさらに別の候補評価装置の構成模式図である。図12に示すように、前記候補評価装置は、
ビデオストリームの第1特徴系列に基づき、第1動作確率系列を得るステップであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、
前記ビデオストリームの第2特徴系列に基づき、第2動作確率系列を得るステップであって、前記第2特徴系列及び前記第1特徴系列に含まれる特徴データは同じであり、かつ並び順が反対になるステップと、
前記第1動作確率系列および前記第2動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、を実行するための処理ユニット1201と、
前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得るための評価ユニット1202と、を含んでもよい。
任意選択的に、処理ユニット1201は、具体的に、前記第1動作確率系列と前記第2動作確率系列との融合処理を行い、前記目標動作確率系列を得るために用いられる。
本願の実施例では、第1動作確率系列および第2動作確率系列に基づいてより正確な目標動作確率系列を得て、前記目標動作確率系列を利用して時系列オブジェクト候補の品質をより正確に評価することができる。
なお、以上の画像処理装置および候補評価装置の各ユニットの分割は論理機能の分割にすぎず、実際に実施時に全てまたは部分的に1つの物理的なエンティティに統合してもよく、物理的に分離してもよいことを理解すべきである。例えば、以上の各ユニットは個別に設置された処理素子としてもよく、同一のチップに統合して実現してもよく、また、プログラムコードの形でコントローラの記憶素子に記憶して、プロセッサの或る処理素子によって呼び出して以上の各ユニットの機能を実行するようにしてもよい。また、各ユニットは一体に統合してもよく、独立して実現してもよい。ここの処理素子は信号処理能力を有する集積回路チップであってもよい。実施プロセスにおいて、上記方法の各ステップまたは以上の各ユニットはプロセッサ素子内のハードウェアの集積論理回路またはソフトウェア形式の命令によって完了してもよい。前記処理素子は、例えば中央処理装置(central processing unit:CPU)のような共通プロセッサであってもよく、例えば1つ以上の特定用途向け集積回路(application-specific integrated circuit:ASIC)、または1つ以上のデジタル信号プロセッサ(digital signal processor:DSP)、または1つ以上のフィールドプログラマブルゲートアレイ(field-programmable gate array:FPGA)などのような、以上の方法を実施するように構成された1つ以上の集積回路であってもよい。
図13は本発明の実施例が提供するサーバの構成模式図であり、前記サーバ1300は構成または性能によって大きく相違することがあり、1つ以上の中央処理装置(central processing units:CPU)1322(例えば、1つ以上のプロセッサ)およびメモリ1332、1つ以上の記憶アプリケーション1342またはデータ1344の記憶媒体1330(例えば1つ以上の大容量記憶装置)を含んでもよい。そのうち、メモリ1332および記憶媒体1330は一時的なメモリまたは永続的なメモリであってもよい。記憶媒体1330に記憶されるプログラムは、それぞれサーバにおける一連の命令操作を含んでもよい1つ以上のモジュール(図示せず)を含んでもよい。さらに、中央処理装置1322は記憶媒体1330と通信し、サーバ1300において記憶媒体1330における一連の命令操作を実行するように設定されてもよい。サーバ1300は本願が提供する画像処理装置であってもよい。
サーバ1300は、1つ以上の電源1326、1つ以上の有線または無線ネットワークインタフェース1350、1つ以上の入出力インタフェース1358、および/または、例えばWindows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、Linux(登録商標)、FreeBSDTMなどのような1つ以上のオペレーティングシステム1341をさらに含んでもよい。
上記実施例においてサーバによって実行されるステップは前記図13に示すサーバ構造に基づくものであってもよい。具体的には、中央処理装置1322は図9から図12中の各ユニットの機能を実現できる。
本発明の実施例では、プロセッサにより実行される時に、ビデオストリームの第1特徴系列を取得するステップであって、前記第1特徴系列は前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むステップと、前記第1特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第1のオブジェクト境界確率系列を得るステップと、前記第1特徴系列に含まれる特徴データと同じでありかつ並び順が反対になる前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得るステップと、前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するステップと、を実現するコンピュータプログラムが記憶されている、コンピュータ可読記憶媒体が提供される。
本発明の実施例では、プロセッサにより実行される時に、ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記ビデオ特徴系列は前記ビデオストリームに含まれる複数のセグメントにおける各々のセグメントの特徴データ、および前記ビデオストリームに基づいて得られた動作確率系列を含み、または、前記ビデオ特徴系列は前記ビデオストリームに基づいて得られた動作確率系列であり、前記長時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯より長く、前記第1の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであるステップと、前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を実現するコンピュータプログラムが記憶されている、別のコンピュータ可読記憶媒体が提供される。
本発明の実施例では、プロセッサにより実行される時に、第1特徴系列および第2特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップであって、前記第1特徴系列も前記第2特徴系列もビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含み、かつ前記第2特徴系列は前記第1特徴系列に含まれる特徴データと同じでありかつ並び順が反対になるステップと、前記第1特徴系列と前記目標動作確率系列を連接し、ビデオ特徴系列を得るステップと、前記ビデオ特徴系列に基づき、第1の時系列オブジェクト候補の目標候補特徴を得るステップであって、前記目標候補特徴に対応する時間帯は前記第1の時系列オブジェクト候補に対応する時間帯と同じであり、前記第1の時系列オブジェクト候補は前記ビデオストリームに基づいて得られた時系列オブジェクト候補集合に含まれるステップと、前記目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと、を実現するコンピュータプログラムが記憶されている、さらに別のコンピュータ可読記憶媒体が提供される。
以上は本発明の具体的な実施形態にすぎず、本発明の保護範囲を限定するものではなく、当業者であれば、本発明に記載の技術的範囲内で様々な均等の修正または置換を容易に想到でき、これらの修正または置換は全て本発明の保護範囲に属するものとする。したがって、本発明の保護範囲は特許請求の範囲に準ずるものとする。

Claims (19)

  1. 画像を処理する方法であって、
    ビデオストリームの第1特徴系列を取得するステップであって、前記第1特徴系列は、前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む、ステップと、
    前記第1特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第1のオブジェクト境界確率系列を得るステップと、
    前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得るステップであって、前記第2特徴系列および前記第1特徴系列に含まれる特徴データは、同じであり、かつ、並び順が反対である、ステップと、
    前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するステップと
    を含む、方法。
  2. 前記方法は、前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得る前記ステップの前に、前記第1特徴系列に対して時系列逆転処理を行い、前記第2特徴系列を得るステップをさらに含む、請求項1に記載の方法。
  3. 前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成する前記ステップは、
    前記第1のオブジェクト境界確率系列と前記第2のオブジェクト境界確率系列との融合処理を行い、目標境界確率系列を得るステップと、
    前記目標境界確率系列に基づき、前記時系列オブジェクト候補集合を生成するステップと
    を含む、請求項1または2に記載の方法。
  4. 前記方法は、
    前記ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は、前記第1の時系列オブジェクト候補に対応する時間帯より長く、前記第1の時系列オブジェクト候補は、前記時系列オブジェクト候補集合に含まれる、ステップと、
    前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は、前記第1の時系列オブジェクト候補に対応する時間帯と同じである、ステップと、
    前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと
    をさらに含む、請求項1から3のいずれか一項に記載の方法。
  5. 前記方法は、
    前記ビデオストリームのビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の長時間候補特徴を得る前記ステップの前に、
    前記第1特徴系列および前記第2特徴系列のうちの少なくとも一つに基づき、目標動作確率系列を得るステップと、
    前記第1特徴系列と前記目標動作確率系列とを連接し、前記ビデオ特徴系列を得るステップと
    をさらに含む、請求項4に記載の方法。
  6. 前記ビデオストリームのビデオ特徴系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得る前記ステップは、
    前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、前記短時間候補特徴を得るステップを含む、請求項4または5に記載の方法。
  7. 前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得る前記ステップは、
    前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の目標候補特徴を得るステップと、
    前記第1の時系列オブジェクト候補の目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと
    を含む、請求項4からのいずれか一項に記載の方法。
  8. 前記ビデオストリームのビデオ特徴系列に基づき、第1の時系列オブジェクト候補の長時間候補特徴を得る前記ステップは、
    前記ビデオ特徴系列内の、参照時間区間に対応する特徴データに基づき、前記長時間候補特徴を得るステップを含み、前記参照時間区間は、前記時系列オブジェクト候補集合内の最初の時系列オブジェクトの開始時間から最後の時系列オブジェクトの終了時間までの区間である、請求項4から7のいずれか一項に記載の方法。
  9. 前記方法は、
    前記目標候補特徴を候補評価ネットワークに入力して処理し、前記第1の時系列オブジェクト候補の少なくとも2つの品質指標を得るステップであって、前記少なくとも2つの品質指標のうち第1指標は、前記第1の時系列オブジェクト候補と真値との共通部分が前記第1の時系列オブジェクト候補の長さを占める割合を特徴付けるためのものであり、前記少なくとも2つの品質指標のうち第2指標は、前記第1の時系列オブジェクト候補と前記真値との共通部分が前記真値の長さを占める割合を特徴付けるためのものである、ステップと、
    前記少なくとも2つの品質指標に基づき、前記評価結果を得るステップと
    をさらに含む、請求項4から8のいずれか一項に記載の方法。
  10. 候補を評価する方法であって、前記方法は、
    ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含むビデオストリームの第1特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、
    前記第1特徴系列と前記目標動作確率系列とを連接し、ビデオ特徴系列を得るステップと、
    前記ビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得るステップと
    を含み、
    ビデオストリームの第1特徴系列に基づき、前記ビデオストリームの目標動作確率系列を得る前記ステップは、
    前記第1特徴系列に基づき、第1動作確率系列を得るステップと、
    前記ビデオストリームの第2特徴系列に基づき、第2動作確率系列を得るステップであって、前記第2特徴系列および前記第1特徴系列に含まれる特徴データは、同じであり、かつ、並び順が反対である、ステップと、
    前記第1動作確率系列と前記第2動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップと
    を含む、方法。
  11. 前記ビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得る前記ステップは、
    前記第1の時系列オブジェクト候補に対応する時間帯に基づき、前記ビデオ特徴系列をサンプリングし、目標候補特徴を得るステップと、
    前記目標候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと
    を含む、請求項10に記載の方法。
  12. 前記方法は、
    前記ビデオ特徴系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得る前記ステップの前に、
    前記第1特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第1のオブジェクト境界確率系列を得るステップと、
    前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得るステップと、
    前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、前記第1の時系列オブジェクト候補を生成するステップと
    をさらに含む、請求項10または11に記載の方法。
  13. 候補を評価する方法であって、
    ビデオストリームの第1特徴系列に基づき、第1動作確率系列を得るステップであって、前記第1特徴系列は、前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む、ステップと、
    前記ビデオストリームの第2特徴系列に基づき、第2動作確率系列を得るステップであって、前記第2特徴系列および前記第1特徴系列に含まれる特徴データは、同じであり、かつ、並び順が反対である、ステップと
    前記第1動作確率系列および前記第2動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得るステップと、
    前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得るステップと
    を含む、方法。
  14. 前記第1動作確率系列および前記第2動作確率系列に基づき、前記ビデオストリームの目標動作確率系列を得る前記ステップは、
    前記第1動作確率系列と前記第2動作確率系列との融合処理を行い、前記目標動作確率系列を得るステップを含む、請求項13に記載の方法。
  15. 前記ビデオストリームの目標動作確率系列に基づき、前記ビデオストリームの第1の時系列オブジェクト候補の評価結果を得る前記ステップは、
    前記目標動作確率系列に基づき、前記第1の時系列オブジェクト候補の長時間候補特徴を得るステップであって、前記長時間候補特徴に対応する時間帯は、前記第1の時系列オブジェクト候補に対応する時間帯より長い、ステップと、
    前記目標動作確率系列に基づき、前記第1の時系列オブジェクト候補の短時間候補特徴を得るステップであって、前記短時間候補特徴に対応する時間帯は、前記第1の時系列オブジェクト候補に対応する時間帯と同じである、ステップと、
    前記長時間候補特徴および前記短時間候補特徴に基づき、前記第1の時系列オブジェクト候補の評価結果を得るステップと
    を含む、請求項13または14に記載の方法。
  16. 画像処理装置であって、
    ビデオストリームの第1特徴系列を取得するための取得ユニットであって、前記第1特徴系列は、前記ビデオストリームの複数のセグメントにおける各々のセグメントの特徴データを含む、取得ユニットと、
    前記第1特徴系列に基づき、前記複数のセグメントがオブジェクト境界に属する確率を含む第1のオブジェクト境界確率系列を得るステップと、前記ビデオストリームの第2特徴系列に基づき、第2のオブジェクト境界確率系列を得るステップとを実行するための処理ユニットであって、前記第2特徴系列および前記第1特徴系列に含まれる特徴データは、同じであり、かつ、並び順が反対である、処理ユニットと、
    前記第1のオブジェクト境界確率系列および前記第2のオブジェクト境界確率系列に基づき、時系列オブジェクト候補集合を生成するための生成ユニットと
    を含む、画像処理装置。
  17. 電子機器であって、前記電子機器は、
    プログラムを記憶するためのメモリと、
    前記メモリに記憶された前記プログラムを実行するためのプロセッサと
    を含み、
    前記プロセッサは、前記プログラムが実行されると、請求項1から15のいずれか一項に記載の方法を実行するように構成されている、電子機器。
  18. プログラム命令を含むコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記プログラム命令は、プロセッサによって実行されると、請求項1から15のいずれか一項に記載の方法を実行することを前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。
  19. 請求項1から15のいずれか一項に記載の方法を実行することをプロセッサに行わせるコンピュータプログラム。
JP2020543216A 2019-06-24 2019-10-16 画像処理方法、候補評価方法および関連装置 Active JP7163397B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910552360.5A CN110263733B (zh) 2019-06-24 2019-06-24 图像处理方法、提名评估方法及相关装置
CN201910552360.5 2019-06-24
PCT/CN2019/111476 WO2020258598A1 (zh) 2019-06-24 2019-10-16 图像处理方法、提名评估方法及相关装置

Publications (2)

Publication Number Publication Date
JP2021531523A JP2021531523A (ja) 2021-11-18
JP7163397B2 true JP7163397B2 (ja) 2022-10-31

Family

ID=67921137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020543216A Active JP7163397B2 (ja) 2019-06-24 2019-10-16 画像処理方法、候補評価方法および関連装置

Country Status (7)

Country Link
US (1) US20230094192A1 (ja)
JP (1) JP7163397B2 (ja)
KR (1) KR20210002355A (ja)
CN (1) CN110263733B (ja)
SG (1) SG11202009661VA (ja)
TW (1) TWI734375B (ja)
WO (1) WO2020258598A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263733B (zh) * 2019-06-24 2021-07-23 上海商汤智能科技有限公司 图像处理方法、提名评估方法及相关装置
CN111327949B (zh) * 2020-02-28 2021-12-21 华侨大学 一种视频的时序动作检测方法、装置、设备及存储介质
CN111368786A (zh) * 2020-03-16 2020-07-03 平安科技(深圳)有限公司 动作区域提取方法、装置、设备及计算机可读存储介质
CN112200103A (zh) * 2020-04-07 2021-01-08 北京航空航天大学 一种基于图注意力的视频分析***和方法
CN112906586B (zh) * 2021-02-26 2024-05-24 上海商汤科技开发有限公司 时序动作提名生成方法和相关产品
CN114627556B (zh) 2022-03-15 2023-04-07 北京百度网讯科技有限公司 动作检测方法、动作检测装置、电子设备以及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8171030B2 (en) * 2007-06-18 2012-05-01 Zeitera, Llc Method and apparatus for multi-dimensional content search and video identification
TWI430664B (zh) * 2011-04-13 2014-03-11 Chunghwa Telecom Co Ltd Intelligent Image Monitoring System Object Track Tracking System
CN103902966B (zh) * 2012-12-28 2018-01-05 北京大学 基于序列时空立方体特征的视频交互事件分析方法及装置
CN104200494B (zh) * 2014-09-10 2017-05-17 北京航空航天大学 一种基于光流的实时视觉目标跟踪方法
US9881380B2 (en) * 2016-02-16 2018-01-30 Disney Enterprises, Inc. Methods and systems of performing video object segmentation
CN108234821B (zh) * 2017-03-07 2020-11-06 北京市商汤科技开发有限公司 检测视频中的动作的方法、装置和***
CN108229280B (zh) * 2017-04-20 2020-11-13 北京市商汤科技开发有限公司 时域动作检测方法和***、电子设备、计算机存储介质
GB2565775A (en) * 2017-08-21 2019-02-27 Nokia Technologies Oy A Method, an apparatus and a computer program product for object detection
CN110472647B (zh) * 2018-05-10 2022-06-24 百度在线网络技术(北京)有限公司 基于人工智能的辅助面试方法、装置及存储介质
CN108898614B (zh) * 2018-06-05 2022-06-21 南京大学 一种基于层次式时空区域合并的物体轨迹提议方法
CN108875610B (zh) * 2018-06-05 2022-04-05 北京大学深圳研究生院 一种基于边界查找的用于视频中动作时间轴定位的方法
US10936630B2 (en) * 2018-09-13 2021-03-02 Microsoft Technology Licensing, Llc Inferring topics with entity linking and ontological data
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN110263733B (zh) * 2019-06-24 2021-07-23 上海商汤智能科技有限公司 图像处理方法、提名评估方法及相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Tianwei Lin 他,BSN: Boundary Sensitive Network For Temporal Action Proposal Generation,[online] arXiv,2018年09月26日,p1-17,https://arxiv.org/pdf/1806.02964.pdf

Also Published As

Publication number Publication date
US20230094192A1 (en) 2023-03-30
KR20210002355A (ko) 2021-01-07
TW202101384A (zh) 2021-01-01
CN110263733A (zh) 2019-09-20
SG11202009661VA (en) 2021-01-28
WO2020258598A1 (zh) 2020-12-30
CN110263733B (zh) 2021-07-23
JP2021531523A (ja) 2021-11-18
TWI734375B (zh) 2021-07-21

Similar Documents

Publication Publication Date Title
JP7163397B2 (ja) 画像処理方法、候補評価方法および関連装置
Sindagi et al. Jhu-crowd++: Large-scale crowd counting dataset and a benchmark method
Xu et al. Deep learning for multiple object tracking: a survey
CN107038221B (zh) 一种基于语义信息引导的视频内容描述方法
Kumar et al. Eratosthenes sieve based key-frame extraction technique for event summarization in videos
CN109101896B (zh) 一种基于时空融合特征和注意力机制的视频行为识别方法
Zhao et al. Temporal action detection with structured segment networks
CN110347872B (zh) 视频封面图像提取方法及装置、存储介质及电子设备
CN110309353A (zh) 视频索引方法及装置
CN109858407B (zh) 一种基于多种信息流特征和异步融合的视频行为识别方法
CN102165464A (zh) 用于对视频内容中的人进行自动注释的方法和***
Zhang et al. Key frame proposal network for efficient pose estimation in videos
CN111984820B (zh) 一种基于双自注意力胶囊网络的视频摘要方法
CN111401149B (zh) 基于长短期时域建模算法的轻量级视频行为识别方法
Wang et al. The monkeytyping solution to the youtube-8m video understanding challenge
CN111428087B (zh) 视频截取方法、装置、计算机设备和存储介质
Kim et al. Efficient action recognition via dynamic knowledge propagation
Wang et al. Fast and accurate action detection in videos with motion-centric attention model
CN114245232B (zh) 一种视频摘要生成方法、装置、存储介质及电子设备
Su et al. Progressive cross-stream cooperation in spatial and temporal domain for action localization
CN115033739A (zh) 搜索方法、模型训练方法、装置、电子设备和介质
CN112906586B (zh) 时序动作提名生成方法和相关产品
CN109241315B (zh) 一种基于深度学习的快速人脸检索方法
CN113010736A (zh) 一种视频分类方法、装置、电子设备及存储介质
CN115984742A (zh) 视频选帧模型的训练方法、视频处理方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200812

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221019

R150 Certificate of patent or registration of utility model

Ref document number: 7163397

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150