KR20210002355A - 이미지 처리 방법, 후보 평가 방법 및 관련 장치 - Google Patents

이미지 처리 방법, 후보 평가 방법 및 관련 장치 Download PDF

Info

Publication number
KR20210002355A
KR20210002355A KR1020207023267A KR20207023267A KR20210002355A KR 20210002355 A KR20210002355 A KR 20210002355A KR 1020207023267 A KR1020207023267 A KR 1020207023267A KR 20207023267 A KR20207023267 A KR 20207023267A KR 20210002355 A KR20210002355 A KR 20210002355A
Authority
KR
South Korea
Prior art keywords
candidate
feature
probability
series
sequence
Prior art date
Application number
KR1020207023267A
Other languages
English (en)
Inventor
하이솅 수
멩멩 왕
웨이하오 간
Original Assignee
상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20210002355A publication Critical patent/KR20210002355A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • G06K9/00744
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06K9/00771
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 출원의 실시예는 컴퓨터 시각 분야에 관한 것으로, 시계열 후보 생성 방법 및 장치를 개시하고, 상기 시계열 후보 생성 방법은, 비디오 스트림의 제1 특징 계열을 획득하는 단계; 상기 제1 특징 계열에 기반하여, 제1 객체 경계 확률 계열을 획득하는 단계 - 상기 제1 객체 경계 확률 계열은 상기 복수 개의 세그먼트가 객체 경계에 속해 있을 확률을 포함함 - ; 상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 객체 경계 확률 계열을 획득하는 단계 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ; 및 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 시계열 객체 후보 세트를 생성하는 단계를 포함할 수 있다.

Description

이미지 처리 방법, 후보 평가 방법 및 관련 장치
관련 출원의 상호 참조
본 출원은 2019년 06월 24일에 중국 특허청에 제출한 출원 번호가 CN2019105523605이고, 출원 명칭이 "이미지 처리 방법, 후보 평가 방법 및 관련 장치"인 중국 특허 출원의 우선권을 요청하며, 그 전부 내용을 인용하여 본 출원에 결합하였다.
본 발명은 이미지 처리 분야에 관한 것으로서, 특히 이미지 처리 방법, 후보 평가 방법 및 관련 장치에 관한 것이다.
시계열 객체 검출 기술은 비디오의 행동 이해 분야에서 중요하고 도전적인 과제이다. 시계열 객체 검출 기술은 비디오 권장, 보안 모니터링 및 스마트 홈 등과 같은 많은 분야에서 모두 중요한 역할을 한다.
시계열 객체 검출 작업은 트리밍되지 않은 롱 비디오에서 객체의 구체적인 출현 시간 및 카테고리를 파악하는 것을 목적으로 하고 있다. 이러한 과제는 생성된 시계열 객체 후보의 품질을 어떻게 향상시키는가 하는 하나의 큰 난제가 있다. 고품질의 시계열 객체 후보는 두 개의 키 속성을 구비해야 한다. 즉 (1) 생성된 후보는 실제 객체 레이블을 가능한 한 포함해야 한다. (2) 후보의 품질은 포괄적이고 정확하게 평가될 수 있어야 하며, 각 후보를 위해 후속 검색을 위한 하나의 신뢰도 점수를 생성한다. 현재, 사용된 시계열 후보 생성 방법은 일반적으로 후보를 생성하는 경계가 정확하지 않은 문제가 존재한다.
본 발명의 실시예는 비디오 처리 방안을 제공한다.
제1 측면에 있어서, 본 출원의 실시예는 이미지 처리 방법을 제공하고, 상기 이미지 처리 방법은, 비디오 스트림의 제1 특징 계열을 획득하는 단계 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ; 상기 제1 특징 계열에 기반하여, 제1 객체 경계 확률 계열을 획득하는 단계 - 상기 제1 객체 경계 확률 계열은 상기 복수 개의 세그먼트가 객체 경계에 속해 있을 확률을 포함함 - ; 상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 객체 경계 확률 계열을 획득하는 단계 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ; 및 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 시계열 객체 후보 세트를 생성하는 단계를 포함할 수 있다.
본 출원의 실시예에 있어서, 융합된 객체 경계 확률 계열에 기반하여 시계열 객체 후보 세트를 생성하여, 경계가 더욱 정확한 확률 계열을 얻어, 품질이 더 높은 시계열 객체 후보를 생성할 수 있다.
선택 가능한 구현 방식에 있어서, 상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 객체 경계 확률 계열을 획득하기 전에, 상기 이미지 처리 방법은, 상기 제1 특징 계열에 대해 시계열 반전 처리를 수행하여, 상기 제2 특징 계열을 획득하는 단계를 더 포함한다.
상기 구현 방식에 있어서, 제2 특징 계열을 획득하기 위해 제1 특징 계열에 대해 시계열 반전 처리를 수행함으로써, 조작이 간단하다.
선택 가능한 구현 방식에 있어서, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 시계열 객체 후보 세트를 생성하는 단계는, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득하는 단계; 및 상기 타겟 경계 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계를 포함한다.
상기 구현 방식에 있어서, 두 개의 객체 경계 계열에 대해 융합 처리를 수행함으로써 경계가 더욱 정확한 확률 계열을 얻어, 품질이 더 높은 시계열 객체 후보를 생성할 수 있다.
선택 가능한 구현 방식에 있어서, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득하는 단계는, 상기 제2 객체 경계 확률 계열에 대해 시계열 반전 처리를 수행하여, 제3 객체 경계 확률 계열을 획득하는 단계; 및 상기 제1 객체 경계 확률 계열 및 상기 제3 객체 경계 확률 계열을 융합하여, 상기 타겟 경계 확률 계열을 획득하는 단계를 포함한다.
상기 구현 방식에 있어서, 두 개의 시계열 방향으로부터 비디오에서 각 세그먼트의 경계 확률을 평가하고, 간단하고 효과적인 융합 전략을 사용하여 소음을 제거하여, 최종적으로 위치 결정된 시계열 경계는 더욱 높은 정밀도를 갖는다.
선택 가능한 구현 방식에 있어서, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열 중 각 객체 경계 확률 계열은 시작 확률 계열 및 종료 확률 계열을 포함하고; 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득하는 단계는, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에서의 시작 확률 계열에 대해 융합 처리를 수행하여, 타겟 시작 확률 계열을 획득하는 단계; 및
상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에서의 종료 확률 계열에 대해 융합 처리를 수행하여, 타겟 종료 확률 계열을 획득하는 단계 - 상기 타겟 경계 확률 계열은 상기 타겟 초기 확률 계열 및 상기 타겟 종료 확률 계열 중 적어도 하나를 포함함 - 중 적어도 하나를 포함한다.
상기 구현 방식에 있어서, 두 개의 시계열 방향으로부터 비디오 중 각 세그먼트의 경계 확률을 평가하고, 간단하고 효과적인 융합 전략을 사용하여 소음을 제거하여, 최종적으로 위치 결정된 시계열 경계는 더욱 높은 정밀도를 갖는다.
선택 가능한 구현 방식에 있어서, 상기 타겟 경계 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계는, 상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계; 또는,
상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 상기 제1 객체 경계 확률 계열에 포함된 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계; 또는,
상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 상기 제2 객체 경계 확률 계열에 포함된 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계; 또는,
상기 제1 객체 경계 확률 계열에 포함된 시작 확률 계열 및 상기 타겟 경계 확률 계열에 포함된 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계; 또는,
상기 제2 객체 경계 확률 계열에 포함된 시작 확률 계열 및 상기 타겟 경계 확률 계열에 포함된 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계를 포함한다.
상기 구현 방식에 있어서, 후보 시계열 객체 후보 세트를 빠르고, 정확하게 생성할 수 있다.
선택 가능한 구현 방식에 있어서, 상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계는, 상기 타겟 시작 확률 계열에 포함된 상기 복수 개의 세그먼트의 타겟 시작 확률에 기반하여, 제1 세그먼트 세트를 획득하고, 상기 타겟 종료 확률 계열에 포함된 상기 복수 개의 세그먼트의 타겟 종료 확률에 기반하여, 제2 세그먼트 세트를 획득하는 단계 - 상기 제1 세그먼트 세트는 타겟 시작 확률이 제1 임계값보다 큰 세그먼트 및 타겟 시작 확률이 적어도 두 개의 인접한 세그먼트보다 높은 세그먼트 중 적어도 하나를 포함하고, 상기 제2 세그먼트 세트는 타겟 종료 확률이 제2 임계값보다 큰 세그먼트 및 타겟 종료 확률이 적어도 두 개의 인접한 세그먼트보다 높은 세그먼트 중 적어도 하나를 포함함 - ; 및 상기 제1 세그먼트 세트 및 상기 제2 세그먼트 세트에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계를 포함한다.
상기 구현 방식에 있어서, 제1 세그먼트 세트 및 제2 세그먼트 세트를 빠르고, 정확하게 선별할 수 있음으로써, 상기 제1 세그먼트 세트 및 상기 제2 세그먼트 세트에 따라 시계열 객체 후보 세트를 생성한다.
선택 가능한 구현 방식에 있어서, 상기 이미지 처리 방법은, 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계 - 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 길고, 상기 제1 시계열 객체 후보는 상기 시계열 객체 후보 세트에 포함됨 - ; 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계 - 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일함 - ; 및 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 더 포함한다.
상기 방식에 있어서, 장기간 후보 특징 및 단기간 후보 특징 사이의 인터랙션 정보 및 다른 다중 입도 단서를 통합하여 풍부한 후보 특징을 생성할 수 있음으로써, 후보 품질 평가의 정확성을 향상시킨다.
선택 가능한 구현 방식에 있어서, 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 장기간 후보 특징을 획득하기 전에, 상기 이미지 처리 방법은, 상기 제1 특징 계열 및 상기 제2 특징 계열 중 적어도 하나에 기반하여, 타겟 동작 확률 계열을 획득하는 단계; 및 상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 상기 비디오 특징 계열을 획득하는 단계를 더 포함한다.
상기 구현 방식에 있어서, 스플라이싱 동작 확률 계열 및 제1 특징 계열을 통해, 더 많은 특징 정보를 포함하는 특징 계열을 빠르게 획득할 수 있음으로써, 샘플링하여 획득된 후보 특징에 포함된 정보는 더욱 풍부하다.
선택 가능한 구현 방식에 있어서, 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계는, 상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 비디오 특징 계열을 샘플링하여, 상기 단기간 후보 특징을 획득하는 단계를 포함한다.
상기 구현 방식에 있어서, 단기간 후보 특징을 빠르고, 정확하게 추출할 수 있다.
선택 가능한 구현 방식에 있어서, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계; 및 상기 제1 시계열 객체 후보의 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함한다.
상기 구현 방식에 있어서, 장기간 후보 특징 및 단기간 후보 특징을 통합하는 것을 통해 품질이 더욱 좋은 후보 특징을 획득하여, 시계열 객체 후보의 품질을 더욱 정확하게 평가할 수 있다.
선택 가능한 구현 방식에 있어서, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계는, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 대해 비국소적 주의력 작업을 실행하여, 중간 후보 특징을 획득하는 단계; 및 상기 단기간 후보 특징 및 상기 중간 후보 특징을 스플라이싱하여, 상기 타겟 후보 특징을 획득하는 단계를 포함한다.
상기 구현 방식에 있어서, 비국소적 주의력 작업 및 융합 작업을 통해, 특징이 더욱 풍부한 후보 특징을 획득하여, 시계열 객체 후보의 품질을 더욱 정확하게 평가할 수 있다.
선택 가능한 구현 방식에 있어서, 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계는, 상기 비디오 특징 계열 중 참조 시간 구간에 대응되는 특징 데이터에 기반하여, 상기 장기간 후보 특징을 획득하는 단계 - 상기 참조 시간 구간은 상기 시계열 객체 후보 세트 중 첫 번째 시계열 객체의 시작 시간부터 마지막 시계열 객체의 종료 시간까지의 구간임 - 를 포함한다.
상기 구현 방식에 있어서, 장기간 후보 특징을 빠르게 획득할 수 있다.
선택 가능한 구현 방식에 있어서, 상기 이미지 처리 방법은, 상기 타겟 후보 특징을 후보 평가 네트워크에 입력하여 처리함으로써, 상기 제1 시계열 객체 후보의 적어도 두 개의 품질 지표를 획득하는 단계 - 상기 적어도 두 개의 품질 지표 중 제1 지표는 상기 제1 시계열 객체 후보와 참값과의 공통부분이 상기 제1 시계열 객체 후보의 길이에서 차지하는 비율을 특성화하기 위한 것이고, 상기 적어도 두 개의 품질 지표 중 제2 지표는 상기 제1 시계열 객체 후보와 상기 참값과의 공통부분이 상기 참값의 길이에서 차지하는 비율을 특성화하기 위한 것임 - ; 및 상기 적어도 두 개의 품질 지표에 따라, 상기 평가 결과를 획득하는 단계를 더 포함한다.
상기 구현 방식에 있어서, 적어도 두 개의 품질 지표에 따라 평가 결과를 획득하여, 시계열 객체 후보의 품질을 더욱 정확하게 평가할 수 있으며, 평가 결과 품질은 더욱 높다.
선택 가능한 구현 방식에 있어서, 상기 이미지 처리 방법은 시계열 후보 생성 네트워크에 적용되고, 상기 시계열 후보 생성 네트워크는 후보 생성 네트워크 및 후보 평가 네트워크를 포함하며; 상기 시계열 후보 생성 네트워크의 훈련 과정은, 훈련 샘플을 상기 시계열 후보 생성 네트워크에 입력하여 처리함으로써, 상기 후보 생성 네트워크에 의해 출력되는 샘플 시계열 후보 세트 및 상기 후보 평가 네트워크에 의해 출력되는 상기 샘플 시계열 후보 세트에 포함된 샘플 시계열 후보의 평가 결과를 획득하는 단계; 상기 훈련 샘플의 샘플 시계열 후보 세트 및 상기 샘플 시계열 후보 세트에 포함된 샘플 시계열 후보의 평가 결과와, 상기 훈련 샘플의 레이블 정보 사이와의 각각의 차이에 기반하여, 네트워크 손실을 획득하는 단계; 및 상기 네트워크 손실에 기반하여, 상기 시계열 후보 생성 네트워크의 네트워크 파라미터를 조정하는 단계를 포함한다.
상기 구현 방식에 있어서, 후보 생성 네트워크 및 후보 평가 네트워크를 하나로서 연합 훈련을 수행하여, 시계열 후보 세트의 정밀도를 효과적으로 향상시키는 동시에 후보 평가의 품질을 꾸준히 향상시킴으로써, 후속 후보 검색의 신뢰성을 보장한다.
선택 가능한 구현 방식에 있어서, 상기 이미지 처리 방법은 시계열 후보 생성 네트워크에 적용되고, 상기 시계열 후보 생성 네트워크는, 제1 후보 생성 네트워크, 제2 후보 생성 네트워크 및 후보 평가 네트워크를 포함하며; 상기 시계열 후보 생성 네트워크의 훈련 과정은, 제1 훈련 샘플을 상기 제1 후보 생성 네트워크에 입력하여 처리함으로써 제1 샘플 시작 확률 계열, 제1 샘플 동작 확률 계열, 제1 샘플 종료 확률 계열을 획득하고, 제2 훈련 샘플을 상기 제2 후보 생성 네트워크에 입력하여 처리함으로써 제2 샘플 시작 확률 계열, 제2 샘플 동작 확률 계열 및 제2 샘플 종료 확률 계열을 획득하는 단계; 상기 제1 샘플 시작 확률 계열, 상기 제1 샘플 동작 확률 계열, 상기 제1 샘플 종료 확률 계열, 상기 제2 샘플 시작 확률 계열, 상기 제2 샘플 동작 확률 계열 및 상기 제2 샘플 종료 확률 계열에 기반하여, 샘플 시계열 후보 세트 및 샘플 후보 특징 세트를 획득하는 단계; 상기 샘플 후보 특징 세트를 상기 후보 평가 네트워크에 입력하여 처리함으로써, 상기 샘플 후보 특징 세트 중 각 샘플 후보 특징의 적어도 두 개의 품질 지표를 획득하는 단계; 상기 각 샘플 후보 특징의 적어도 두 개의 품질 지표에 따라, 상기 각 샘플 후보 특징의 신뢰도 점수를 결정하는 단계; 및 상기 제1 후보 생성 네트워크 및 상기 제2 후보 생성 네트워크에 대응되는 제1 손실 및 상기 후보 평가 네트워크에 대응되는 제2 손실의 가중치 합에 따라, 상기 제1 후보 생성 네트워크, 상기 제2 후보 생성 네트워크 및 상기 후보 평가 네트워크를 업데이트하는 단계를 포함한다.
상기 구현 방식에 있어서, 제1 후보 생성 네트워크, 제2 후보 생성 네트워크, 후보 평가 네트워크를 하나의 전체로서 연합 훈련을 수행하여, 시계열 후보 세트의 정밀도를 효과적으로 향상시키는 동시에 후보 평가의 품질을 꾸준히 향상시킴으로써, 후속 후보 검색의 신뢰성을 보장한다.
선택 가능한 구현 방식에 있어서, 상기 제1 샘플 시작 확률 계열, 상기 제1 샘플 동작 확률 계열, 상기 제1 샘플 종료 확률 계열, 상기 제2 샘플 시작 확률 계열, 상기 제2 샘플 동작 확률 계열 및 상기 제2 샘플 종료 확률 계열에 기반하여, 샘플 시계열 후보 세트를 획득하는 단계는, 상기 제1 샘플 시작 확률 계열 및 상기 제2 샘플 시작 확률 계열을 융합하여, 타겟 샘플 시작 확률 계열을 획득하는 단계; 상기 제1 샘플 종료 확률 계열 및 상기 제2 샘플 종료 확률 계열을 융합하여, 타겟 샘플 종료 확률 계열을 획득하는 단계; 및 상기 타겟 샘플 시작 확률 계열 및 상기 타겟 샘플 종료 확률 계열에 기반하여, 상기 샘플 시계열 후보 세트를 생성하는 단계를 포함한다.
상기 구현 방식에 있어서, 두 개의 시계열 방향으로부터 비디오 중 각 세그먼트의 경계 확률을 평가하고, 간단하고 효과적인 융합 전략을 사용하여 소음을 제거하여, 최종적으로 위치 결정된 시계열 경계는 더욱 높은 정밀도를 갖는다.
선택 가능한 구현 방식에 있어서, 상기 제1 손실은, 상기 타겟 샘플 시작 확률 계열이 실제 샘플 시작 확률 계열에 대한 손실, 상기 타겟 샘플 종료 확률 계열이 실제 샘플 종료 확률 계열에 대한 손실 및 상기 타겟 샘플 동작 확률 계열이 실제 샘플 동작 확률 계열에 대한 손실 중 어느 하나 또는 적어도 두 개의 가중치 합이고; 상기 제2 손실은 상기 각 샘플 후보 특징의 적어도 하나의 품질 지표가 각 샘플 후보 특징의 실제 품질 지표에 대한 손실이다.
상기 구현 방식에 있어서, 제1 후보 생성 네트워크, 제2 후보 생성 네트워크 및 후보 평가 네트워크를 빠르게 훈련하여 획득할 수 있다.
제2 측면에 있어서, 본 출원의 실시예는 후보 평가 방법을 제공하고, 상기 이미지 처리 방법은, 비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계 - 상기 비디오 특징 계열은 상기 비디오 스트림에 포함된 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터 및 상기 비디오 스트림에 기반하여 획득된 동작 확률 계열을 포함하고, 또는, 상기 비디오 특징 계열은 상기 비디오 스트림에 기반하여 획득된 동작 확률 계열이며, 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 길고, 상기 제1 시계열 객체 후보는 상기 비디오 스트림에 기반하여 획득된 시계열 객체 후보 세트를 포함함 - ; 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계 - 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일함 - ; 및 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함할 수 있다.
본 출원의 실시예에 있어서, 장기간 후보 특징 및 단기간 후보 특징 사이의 인터랙션 정보 및 다른 다중 입도 단서를 통합하여 풍부한 후보 특징을 생성하는 것을 통해, 후보 품질 평가의 정확성을 향상시킨다.
선택 가능한 구현 방식에 있어서, 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하기 전에, 상기 이미지 처리 방법은, 제1 특징 계열 및 제2 특징 계열 중 적어도 하나에 기반하여, 타겟 동작 확률 계열을 획득하는 단계 - 상기 제1 특징 계열 및 상기 제2 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함하고, 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ; 및 상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 상기 비디오 특징 계열을 획득하는 단계를 더 포함한다.
상기 구현 방식에 있어서, 스플라이싱 동작 확률 계열 및 제1 특징 계열을 통해, 더 많은 특징 정보를 포함하는 특징 계열을 빠르게 획득할 수 있음으로써, 샘플링으로 획득된 후보 특징에 포함된 정보는 더욱 풍부하다.
선택 가능한 구현 방식에 있어서, 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계는, 상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 비디오 특징 계열을 샘플링하여, 상기 단기간 후보 특징을 획득하는 단계를 포함한다.
상기 구현 방식에 있어서, 단기간 후보 특징을 빠르게 획득할 수 있다.
선택 가능한 구현 방식에 있어서, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계; 및 상기 제1 시계열 객체 후보의 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함한다.
상기 구현 방식에 있어서, 장기간 후보 특징 및 단기간 후보 특징을 통합하는 것을 통해 품질이 더욱 좋은 후보 특징을 획득하여, 시계열 객체 후보의 품질을 더욱 정확하게 평가할 수 있다.
선택 가능한 구현 방식에 있어서, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계는, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 대해 비국소적 주의력 작업을 실행하여, 중간 후보 특징을 획득하는 단계; 및 상기 단기간 후보 특징 및 상기 중간 후보 특징을 스플라이싱하여, 상기 타겟 후보 특징을 획득하는 단계를 포함한다.
상기 구현 방식에 있어서, 비국소적 주의력 작업 및 융합 작업을 통해, 특징이 더욱 풍부한 후보 특징을 획득하여, 시계열 객체 후보의 품질을 더욱 정확하게 평가할 수 있다.
선택 가능한 구현 방식에 있어서, 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계는, 상기 비디오 특징 계열 중 참조 시간 구간에 대응되는 특징 데이터에 기반하여, 상기 장기간 후보 특징을 획득하는 단계 - 상기 참조 시간 구간은 상기 시계열 객체 후보 세트 중 첫 번째 시계열 객체의 시작 시간부터 마지막 시계열 객체의 종료 시간까지의 구간임 - 를 포함한다.
상기 구현 방식에 있어서, 장기간 후보 특징을 빠르게 획득할 수 있다.
선택 가능한 구현 방식에 있어서, 상기 제1 시계열 객체 후보의 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는, 상기 타겟 후보 특징을 후보 평가 네트워크에 입력하여 처리함으로써, 상기 제1 시계열 객체 후보의 적어도 두 개의 품질 지표를 획득하는 단계 - 상기 적어도 두 개의 품질 지표 중 제1 지표는 상기 제1 시계열 객체 후보와 참값과의 공통부분이 상기 제1 시계열 객체 후보의 길이에서 차지하는 비율을 특성화하기 위한 것이고, 상기 적어도 두 개의 품질 지표 중 제2 지표는 상기 제1 시계열 객체 후보와 상기 참값과의 공통부분이 상기 참값의 길이에서 차지하는 비율을 특성화하기 위한 것임 - ; 및 상기 적어도 두 개의 품질 지표에 따라, 상기 평가 결과를 획득하는 단계를 포함한다.
상기 구현 방식에 있어서, 적어도 두 개의 품질 지표에 따라 평가 결과를 획득하여, 시계열 객체 후보의 품질을 더욱 정확하게 평가할 수 있고, 평가 결과 품질은 더욱 높다.
제3 측면에 있어서, 본 출원의 실시예는 후보 평가 방법을 제공하고, 상기 이미지 처리 방법은, 비디오 스트림의 제1 특징 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하는 단계 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ; 상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 비디오 특징 계열을 획득하는 단계; 및 상기 비디오 특징 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함할 수 있다.
본 출원의 실시예에 있어서, 특징 계열 및 타겟 동작 확률 계열을 채널 차원에서 스플라이싱하여 더 많은 특징 정보를 포함하는 비디오 특징 계열을 획득하고, 샘플링으로 획득된 후보 특징에 포함된 정보는 더욱 풍부하다.
선택 가능한 구현 방식에 있어서, 상기 비디오 스트림의 제1 특징 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하는 단계는, 상기 제1 특징 계열에 기반하여, 제1 동작 확률 계열을 획득하는 단계; 상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 동작 확률 계열을 획득하는 단계 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ; 및 상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 대해 융합 처리를 수행하여, 상기 타겟 동작 확률 계열을 획득하는 단계를 포함한다.
상기 구현 방식에 있어서, 두 개의 시계열 방향으로부터 비디오 중 각 시각(즉 시간 포인트)의 경계 확률을 평가하고, 간단하고 효과적인 융합 전략을 사용하여 소음을 제거하여, 최종적으로 위치 결정된 시계열 경계는 더욱 높은 정밀도를 갖는다.
선택 가능한 구현 방식에 있어서, 상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 대해 융합 처리를 수행하여, 상기 타겟 동작 확률 계열을 획득하는 단계는, 상기 제2 동작 확률 계열에 대해 시계열 반전 처리를 수행하여, 제3 동작 확률 계열을 획득하는 단계; 및 상기 제1 동작 확률 계열 및 상기 제3 동작 확률 계열을 융합하여, 상기 타겟 동작 확률 계열을 획득하는 단계를 포함한다.
선택 가능한 구현 방식에 있어서, 상기 비디오 특징 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는, 상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 비디오 특징 계열을 샘플링하여, 타겟 후보 특징을 획득하는 단계; 및 상기 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함한다.
선택 가능한 구현 방식에 있어서, 상기 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는, 상기 타겟 후보 특징을 후보 평가 네트워크에 입력하여 처리함으로써, 상기 제1 시계열 객체 후보의 적어도 두 개의 품질 지표를 획득하는 단계 - 상기 적어도 두 개의 품질 지표 중 제1 지표는 상기 제1 시계열 객체 후보와 참값과의 공통부분이 상기 제1 시계열 객체 후보의 길이에서 차지하는 비율을 특성화하기 위한 것이고, 상기 적어도 두 개의 품질 지표 중 제2 지표는 상기 제1 시계열 객체 후보와 상기 참값과의 공통부분이 상기 참값의 길이에서 차지하는 비율을 특성화하기 위한 것임 - ; 및 상기 적어도 두 개의 품질 지표에 따라, 상기 평가 결과를 획득하는 단계를 포함한다.
선택 가능한 구현 방식에 있어서, 상기 비디오 특징 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하기 전에, 상기 이미지 처리 방법은, 상기 제1 특징 계열에 기반하여, 제1 객체 경계 확률 계열을 획득하는 단계 - 상기 제1 객체 경계 확률 계열은 상기 복수 개의 세그먼트가 객체 경계에 속해 있을 확률을 포함함 - ; 상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 객체 경계 확률 계열을 획득하는 단계; 및 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 상기 제1 시계열 객체 후보를 생성하는 단계를 더 포함한다.
선택 가능한 구현 방식에 있어서, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 상기 제1 시계열 객체 후보를 생성하는 단계는, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득하는 단계; 및 상기 타겟 경계 확률 계열에 기반하여, 상기 제1 시계열 객체 후보를 생성하는 단계를 포함한다.
선택 가능한 구현 방식에 있어서, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득하는 단계는, 상기 제2 객체 경계 확률 계열에 대해 시계열 반전 처리를 수행하여, 제3 객체 경계 확률 계열을 획득하는 단계; 및 상기 제1 객체 경계 확률 계열 및 상기 제3 객체 경계 확률 계열을 융합하여, 상기 타겟 경계 확률 계열을 획득하는 단계를 포함한다.
제4 측면에 있어서, 본 출원의 실시예는 다른 후보 평가 방법을 제공하고, 상기 이미지 처리 방법은, 비디오 스트림의 제1 특징 계열에 기반하여, 제1 동작 확률 계열을 획득하는 단계 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ; 상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 동작 확률 계열을 획득하는 단계 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ; 상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하는 단계; 및 상기 비디오 스트림의 타겟 동작 확률 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함할 수 있다.
본 출원의 실시예에 있어서, 제1 동작 확률 계열 및 제2 동작 확률 계열에 기반하여 더 정확한 타겟 동작 확률 계열을 획득할 수 있으므로, 상기 타겟 동작 확률 계열을 이용하여 시계열 객체 후보의 품질을 더 정확하게 평가함에 있어서 용이하다.
선택 가능한 구현 방식에 있어서, 상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하는 단계는, 상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 대해 융합 처리를 수행하여, 상기 타겟 동작 확률 계열을 획득하는 단계를 포함한다.
선택 가능한 구현 방식에 있어서, 상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 대해 융합 처리를 수행하여, 상기 타겟 동작 확률 계열을 획득하는 단계는, 상기 제2 동작 확률 계열에 대해 시계열 반전을 수행하여, 제3 동작 확률 계열을 획득하는 단계; 및 상기 제1 동작 확률 계열 및 상기 제3 동작 확률 계열을 융합하여, 상기 타겟 동작 확률 계열을 획득하는 단계를 포함한다.
선택 가능한 구현 방식에 있어서, 상기 비디오 스트림의 타겟 동작 확률 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는, 상기 타겟 동작 확률 계열에 기반하여, 상기 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계 - 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 김 - ; 상기 타겟 동작 확률 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계 - 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일함 - ; 및 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함한다.
선택 가능한 구현 방식에 있어서, 상기 타겟 동작 확률 계열에 기반하여, 상기 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계는, 상기 타겟 동작 확률 계열을 샘플링하여, 상기 장기간 후보 특징을 획득하는 단계를 포함한다.
선택 가능한 구현 방식에 있어서, 상기 타겟 동작 확률 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계는, 상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 타겟 동작 확률 계열을 샘플링하여, 상기 단기간 후보 특징을 획득하는 단계를 포함한다.
선택 가능한 구현 방식에 있어서, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계; 및 상기 제1 시계열 객체 후보의 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함한다.
선택 가능한 구현 방식에 있어서, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계는, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 대해 비국소적 주의력 작업을 실행하여, 중간 후보 특징을 획득하는 단계; 및 상기 단기간 후보 특징 및 상기 중간 후보 특징을 스플라이싱하여, 상기 타겟 후보 특징을 획득하는 단계를 포함한다.
제5 측면에 있어서, 본 출원의 실시예는 이미지 처리 장치를 제공하고, 상기 장치는,
비디오 스트림의 제1 특징 계열을 획득하기 위한 획득 유닛 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ;
상기 제1 특징 계열에 기반하여, 제1 객체 경계 확률 계열을 획득하고 - 상기 제1 객체 경계 확률 계열은 상기 복수 개의 세그먼트가 객체 경계에 속해 있을 확률을 포함함 - , 상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 객체 경계 확률 계열을 획득 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - 하기 위한 처리 유닛; 및
상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 시계열 객체 후보 세트를 생성하기 위한 생성 유닛을 포함한다.
제6 측면에 있어서, 본 출원의 실시예는 후보 평가 장치를 제공하고, 상기 장치는, 비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하기 위한 특징 결정 유닛 - 상기 비디오 특징 계열은 상기 비디오 스트림에 포함된 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터 및 상기 비디오 스트림에 기반하여 획득된 동작 확률 계열을 포함하고, 또는, 상기 비디오 특징 계열은 상기 비디오 스트림에 기반하여 획득된 동작 확률 계열이며, 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 길고, 상기 제1 시계열 객체 후보는 상기 비디오 스트림에 기반하여 획득된 시계열 객체 후보 세트를 포함함 - ; 및 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 평가 유닛을 포함하고; 상기 특징 결정 유닛은 또한, 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하기 위한 것이며, 여기서, 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일하다.
제7 측면에 있어서, 본 출원의 실시예는 다른 후보 평가 장치를 제공하고, 상기 장치는, 비디오 스트림의 제1 특징 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하기 위한 처리 유닛 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ; 상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 비디오 특징 계열을 획득하기 위한 스플라이싱 유닛; 및 상기 비디오 특징 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 평가 유닛을 포함할 수 있다.
제8 측면에 있어서, 본 출원의 실시예는 후보 평가 장치를 제공하고, 상기 장치는, 비디오 스트림의 제1 특징 계열에 기반하여, 제1 동작 확률 계열을 획득하고 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ; 상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 동작 확률 계열을 획득하며 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ; 상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하기 위한 처리 유닛; 및 상기 비디오 스트림의 타겟 동작 확률 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 평가 유닛을 포함할 수 있다.
제9 측면에 있어서, 본 출원의 실시예는 프로그램을 저장하기 위한 메모리; 및 상기 메모리에 저장된 상기 프로그램을 실행하기 위한 프로세서를 포함하는 전자 기기를 제공하고, 상기 프로그램이 실행될 경우, 상기 프로세서는 상기 제1 측면 내지 제4 측면 및 임의의 선택 가능한 구현 방식의 방법을 실행하기 위한 것이다.
제10 측면에 있어서, 본 출원의 실시예는 프로세서와 데이터 인터페이스를 포함하는 칩을 제공하고, 상기 프로세서는 상기 데이터 인터페이스를 통해 메모리에 저장된 명령어를 판독하며, 상기 제1 측면 내지 제4 측면 및 임의의 선택 가능한 구현 방식의 방법을 실행한다.
제11 측면에 있어서, 본 출원의 실시예는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 컴퓨터 프로그램은 프로그램 명령어를 포함하며, 상기 프로그램 명령어가 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 상기 제1 측면 내지 제3 측면 및 임의의 선택 가능한 구현 방식의 방법을 실행하도록 한다.
제12 측면에 있어서, 본 출원의 실시예는 프로그램 명령어를 포함하는 컴퓨터 프로그램을 제공하고, 상기 프로그램 명령어가 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 상기 제1 측면 내지 제3 측면 및 임의의 선택 가능한 구현 방식의 방법을 실행하도록 한다.
본 발명의 실시예에서의 기술방안을 더 명확하게 설명하기 위해, 아래에 본 발명의 실시예 또는 배경 기술에서 사용되어야 하는 도면을 설명한다.
도 1은 본 출원의 실시예에서 제공한 이미지 처리 방법의 흐름도이다.
도 2는 본 출원의 실시예에서 제공한 시계열 객체 후보 세트를 생성하는 단계의 과정의 예시도이다.
도 3은 본 출원의 실시예에서 제공한 샘플링 과정의 예시도이다.
도 4는 본 출원의 실시예에서 제공한 비국소적 주의력 작업의 계산 과정의 예시도이다.
도 5는 본 출원의 실시예에서 제공한 이미지 처리 장치의 구조의 예시도이다.
도 6은 본 출원의 실시예에서 제공한 후보 평가 방법의 흐름도이다.
도 7은 본 출원의 실시예에서 제공한 다른 후보 평가 방법의 흐름도이다.
도 8은 본 출원의 실시예에서 제공한 또 다른 후보 평가 방법의 흐름도이다.
도 9는 본 출원의 실시예에서 제공한 다른 이미지 처리 장치의 구조의 예시도이다.
도 10은 본 출원의 실시예에서 제공한 후보 평가 장치의 구조의 예시도이다.
도 11은 본 출원의 실시예에서 제공한 다른 후보 평가 장치의 구조의 예시도이다.
도 12는 본 출원의 실시예에서 제공한 또 다른 후보 평가 장치의 구조의 예시도이다.
도 13은 본 출원의 실시예에서 제공한 서버의 구조의 예시도이다.
본 기술 분야의 기술자가 본 본 출원의 실시예 방안을 더 잘 이해할 수 있도록 하기 위해, 아래에 본 출원의 실시예에서의 도면을 참조하여, 본 출원의 실시예에서의 기술방안을 명확하게 설명하며, 설명된 실시예는 본 출원의 실시예 중 일부일 뿐이며, 모든 실시예가 아닌 것은 명백하다.
본 출원의 명세서 실시예 및 청구 범위 및 상기 도면에서의 용어 "제1", "제2" 및 "제3" 등은 유사한 객체를 구별하기 위한 것이지, 특정 순서 또는 앞뒤 순서를 설명하기 위한 것이 아니다. 또한, 용어 "포함" 및 "갖는" 및 이들의 임의의 변형은 일련의 단계 또는 유닛을 포함하는 등과 같이 비배타적인 포함을 포함하도록 의도된다. 방법, 시스템, 제품 또는 기기는 명확하게 나열된 단계 또는 유닛에 한정되지 않으며, 명확하게 나열되지 않거나 이러한 과정, 방법, 제품 또는 기기에 고유한 다른 단계 또는 유닛을 포함할 수 있다.
이해해야 할 것은, 본 발명의 실시예는 다양한 시계열 객체 후보의 생성 및 평가에 적용될 수 있고, 예를 들어, 비디오 스트림 중 특정 인물이 나타나는 시간대를 검출하거나 비디오 스트림 중 동작이 나타나는 시간대를 검출하는 것 등이고, 이해의 용이함을 위해, 아래의 예에서 동작 후보를 설명하지만, 본 발명의 실시예는 이에 대해 한정하지 않는다.
시계열 객체 검출 작업은 트리밍되지 않은 롱 비디오에서 객체의 구체적인 출현 시간 및 카테고리를 파악하는 것을 목적으로 하고 있다. 이러한 과제는 생성된 시계열 객체 후보의 품질을 어떻게 향상시키는가 하는 하나의 큰 난제가 있다. 현재 주류의 시계열 동작 후보 생성 방법은 고품질의 시계열 동작 후보를 획득할 수 없다. 따라서, 고품질의 시계열 동작 후보를 획득하기 위해, 새로운 시계열 후보 생성 방법을 연구해야 한다. 본 출원의 실시예에서 제공한 기술방안에 있어서, 두 개 또는 두 개 이상의 시계열 평가 비디오 중 임의의 시각의 동작 확률 또는 경계 확률에 따라, 또한 획득된 복수 개의 평가 결과(동작 확률 또는경계 확률)를 융합하여, 고품질의 확률 계열을 획득함으로써, 고품질의 시계열 객체 후보 세트(제안 후보 세트로도 지칭됨)를 생성한다.
본 출원의 실시예에서 제공한 시계열 후보 생성 방법은 스마트 비디오 분석, 보안 모니터링 등 시나리오에 적용될 수 있다. 아래에 각각 본 출원의 실시예에서 제공한 시계열 후보 생성 방법이 스마트 비디오 분석 시나리오 및 보안 모니터링 시나리오에서의 응용을 간단하게 소개한다.
스마트 비디오 분석 시나리오에 있어서, 예를 들어, 이미지 처리 장치, 예를 들어 서버는, 비디오로부터 추출된 특징 계열을 처리하여 제안 후보 세트 및 상기 제안 후보 세트 중 각 후보의 신뢰도 점수를 획득하고; 상기 제안 후보 세트 및 상기 제안 후보 세트 중 각 후보의 신뢰도 점수에 따라 시계열 동작 위치 결정을 수행함으로써, 상기 비디오에서의 하이라이트 세그먼트(예를 들어 파이팅 세그먼트)를 추출한다. 또 예를 들어, 이미지 처리 장치, 예를 들어 서버는, 사용자가 시청했던 비디오에 대해 시계열 동작 검출을 수행함으로써, 상기 사용자가 좋아하는 비디오 타입을 예측하고, 상기 사용자에게 유사한 비디오를 권장한다.
보안 모니터링 시나리오에 있어서, 이미지 처리 장치는, 모니터링 비디오로부터 추출된 특징 계열을 처리하여 제안 후보 세트 및 상기 제안 후보 세트 중 각 후보의 신뢰도 점수를 획득하고; 상기 제안 후보 세트 및 상기 제안 후보 세트 중 각 후보의 신뢰도 점수에 따라 시계열 동작 위치 결정을 수행함으로써, 상기 모니터링 비디오에서 일부 시계열 동작을 포함하는 세그먼트를 추출한다. 예를 들어, 특정 교차로의 모니터링 비디오에서 차량이 출입하는 세그먼트를 추출한다. 또 예를 들어, 복수 개의 모니터링 비디오에 대해 시계열 동작 검출을 수행함으로써, 상기 복수 개의 모니터링 비디오에서 차가 사람을 치는 동작과 같은 일부 시계열 동작의 비디오를 찾아낸다.
상기 시나리오에서, 본 출원에서 제공한 시계열 후보 생성 방법을 사용하면 고품질의 시계열 객체 후보 세트를 획득하여, 시계열 동작 검출 작업을 효과적으로 완료할 수 있다. 시계열 동작을 예로 들어 아래에 기술방안을 설명하지만, 본 발명의 실시예는 다른 타입의 시계열 객체 검출에 적용될 수도 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다.
도 1을 참조하면, 도 1은 본 출원의 실시예에서 제공한 이미지 처리 방법이다.
단계 101에 있어서, 비디오 스트림의 제1 특징 계열을 획득한다.
상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함한다. 본 출원의 실시예의 실행 주체는 이미지 처리 장치이고, 예를 들어, 서버, 단말 기기 또는 다른 컴퓨터 기기이다. 비디오 스트림의 제1 특징 계열을 획득하는 단계는 이미지 처리 장치가 상기 비디오 스트림의 시계열에 따라 상기 비디오 스트림에 포함된 복수 개의 세그먼트 중 각 세그먼트에 대해 특징 추출을 수행하여 상기 제1 특징 계열을 획득하는 단계일 수 있다. 일부 실시예에 있어서, 상기 제1 특징 계열은 이미지 처리 장치가 2-스트림 네트워크(two-stream network)를 이용하여 상기 비디오 스트림에 대해 특징 추출을 수행하여 획득된 원래 2-스트림 특징 계열일 수 있다. 또는, 제1 특징 계열은 이미지 처리 장치가 다른 타입의 신경 네트워크를 이용하여 비디오 스트림에 대해 특징 추출을 수행하여 획득되거나, 제1 특징 계열은 이미지 처리 장치가 다른 단말 또는 네트워크 기기로부터 획득되며, 본 발명의 실시예는 이에 대해 한정하지 않는다.
단계 102에 있어서, 제1 특징 계열에 기반하여, 제1 객체 경계 확률 계열을 획득한다.
상기 제1 객체 경계 확률 계열은 상기 복수 개의 세그먼트가 객체 경계에 속해 있을 확률을 포함하고, 예를 들어, 복수 개의 세그먼트 중 각 세그먼트가 객체 경계에 속해 있을 확률을 포함한다. 일부 실시예에 있어서, 상기 제1 특징 계열을 후보 생성 네트워크에 입력하여 처리함으로써 상기 제1 객체 경계 확률 계열을 획득할 수 있다. 제1 객체 경계 확률 계열은 제1 시작 확률 계열 및 제1 종료 확률 계열을 포함할 수 있다. 상기 제1 시작 확률 계열에서의 각 시작 확률은 상기 비디오 스트림에 포함된 복수 개의 세그먼트 중 어느 한 세그먼트가 시작 동작에 대응되는 확률을 나타내며, 즉 어느 한 세그먼트는 동작 시작 세그먼트인 확률이다. 상기 제1 종료 확률 계열에서의 각 종료 확률은 상기 비디오 스트림에 포함된 복수 개의 세그먼트 중 어느 한 세그먼트가 종료 동작에 대응되는 확률을 나타내며, 즉 어느 한 세그먼트는 동작 종료 세그먼트인 확률이다.
단계 103에 있어서, 비디오 스트림의 제2 특징 계열에 기반하여, 제2 객체 경계 확률 계열을 획득한다.
상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대된다. 예를 들어, 제1 특징 계열은 제1 특징 내지 제M 특징을 순차적으로 포함하고, 제2 특징 계열은 상기 제M 특징 내지 상기 제1 특징을 순차적으로 포함하며, M은 1보다 큰 정수이다. 선택적으로, 일부 실시예에 있어서, 상기 제2 특징 계열은 상기 제1 특징 계열에서의 특징 데이터의 시계열을 반전하여 획득된 특징 계열일 수 있거나, 반전 후 다른 추가적인 처리에 의해 획득될 수 있다. 선택적으로, 이미지 처리 장치는 단계 103을 실행하기 전에, 상기 제1 특징 계열에 대해 시계열 반전 처리를 수행하여, 상기 제2 특징 계열을 획득한다. 또는, 제2 특징 계열은 다른 방식을 통해 획득되고, 본 발명의 실시예는 이에 대해 한정하지 않는다.
일부 실시예에 있어서, 상기 제2 특징 계열을 후보 생성 네트워크에 입력하여 처리함으로써 상기 제2 객체 경계 확률 계열을 획득할 수 있다. 제2 객체 경계 확률 계열은 제2 시작 확률 계열 및 제2 종료 확률 계열을 포함할 수 있다. 상기 제2 시작 확률 계열에서의 각 시작 확률은 상기 비디오 스트림에 포함된 복수 개의 세그먼트 중 어느 한 세그먼트가 시작 동작에 대응되는 확률을 나타내며, 즉 어느 한 세그먼트는 동작 시작 세그먼트인 확률이다. 상기 제2 종료 확률 계열에서의 각 종료 확률은 상기 비디오 스트림에 포함된 복수 개의 세그먼트 중 어느 한 세그먼트가 종료 동작에 대응되는 확률을 나타내며, 즉 어느 한 세그먼트는 동작 종료 세그먼트인 확률이다. 이로써, 상기 제1 시작 확률 계열 및 상기 제2 시작 확률 계열은 복수 개의 동일한 세그먼트에 대응되는 시작 확률을 포함한다. 예를 들어, 제1 시작 확률 계열은 제1 세그먼트 내지 제N 세그먼트에 대응되는 시작 확률을 순차적으로 포함하고, 제2 시작 확률 계열은 상기 제N 세그먼트 내지 제1 세그먼트에 대응되는 시작 확률을 순차적으로 포함한다. 유사하게, 상기 제1 종료 확률 계열 및 상기 제2 종료 확률 계열은 복수 개의 동일한 세그먼트에 대응되는 종료 확률을 포함한다. 예를 들어, 제1 종료 확률 계열은 제1 세그먼트 내지 제N 세그먼트에 대응되는 종료 확률을 순차적으로 포함하고, 제2 종료 확률 계열은 상기 제N 세그먼트 내지 제1 세그먼트에 대응되는 종료 확률을 포함한다.
단계 104에 있어서, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 시계열 객체 후보 세트를 생성한다.
일부 실시예에 있어서, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득할 수 있고; 상기 타겟 경계 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성할 수 있다. 예를 들어, 상기 제2 객체 경계 확률 계열에 대해 시계열 반전 처리를 수행하여, 제3 객체 경계 확률 계열을 획득하고; 상기 제1 객체 경계 확률 계열 및 상기 제3 객체 경계 확률 계열을 융합하여, 상기 타겟 경계 확률 계열을 획득한다. 또 예를 들어, 상기 제1 객체 경계 확률 계열에 대해 시계열 반전 처리를 수행하여, 제4 객체 경계 확률 계열을 획득하고; 상기 제2 객체 경계 확률 계열 및 상기 제4 객체 경계 확률 계열을 융합하여, 상기 타겟 경계 확률 계열을 획득한다.
본 출원의 실시예에 있어서, 융합된 확률 계열에 기반하여 시계열 객체 후보 세트를 생성하여, 경계가 더욱 정밀한 확률 계열을 획득하여, 생성된 시계열 객체 후보의 경계는 더 정확할 수 있다.
아래에 단계 101의 구체적인 구현 방식을 소개한다.
일부 실시예에 있어서, 이미지 처리 장치는 두 개의 후보 생성 네트워크를 이용하여 상기 제1 특징 계열 및 제2 특징 계열을 각각 처리하고, 예를 들어, 이미지 처리 장치는 상기 제1 특징 계열을 제1 후보 생성 네트워크에 입력하여 처리함으로써, 상기 제1 객체 경계 확률 계열을 획득하며, 또한 상기 제2 특징 계열을 제2 후보 생성 네트워크에 입력하여 처리함으로써, 상기 제2 객체 경계 확률 계열을 획득한다. 상기 제1 후보 생성 네트워크 및 제2 후보 생성 네트워크는 동일하거나, 상이할 수 있다. 선택적으로, 상기 제1 후보 생성 네트워크 및 제2 후보 생성 네트워크의 구조 및 파라미터 구성은 동일하고, 이미지 처리 장치는 이 두 개의 네트워크를 이용하여 상기 제1 특징 계열 및 상기 제2 특징 계열을 병렬 처리 또는 임의의 선후순서로 처리할 수 있고, 또는 제1 후보 생성 네트워크 및 제2 후보 생성 네트워크는 동일한 하이퍼 파라미터를 갖지만, 네트워크 파라미터는 훈련 과정에서 학습되며, 그 값은 동일하거나, 상이할 수 있다.
다른 일부 실시예에 있어서, 이미지 처리 장치는 동일한 후보 생성 네트워크를 이용하여 상기 제1 특징 계열 및 상기 제2 특징 계열을 직렬 처리할 수 있다. 예를 들어, 이미지 처리 장치는 먼저 상기 제1 특징 계열을 후보 생성 네트워크에 입력하여 처리함으로써, 상기 제1 객체 경계 확률 계열을 획득한 다음, 상기 제2 특징 계열을 후보 생성 네트워크에 입력하여 처리함으로써, 상기 제2 객체 경계 확률 계열을 획득한다.
본 발명의 실시예에 있어서, 선택적으로, 후보 생성 네트워크는 3 개의 시계열 컨볼루션 계층을 포함하고, 또는 다른 개수의 컨볼루션 계층 및 다른 타입의 처리 계층 중 적어도 하나를 포함한다. 각 시계열 컨볼루션 계층은
Figure pct00001
으로 정의되고, 여기서,
Figure pct00002
,
Figure pct00003
,
Figure pct00004
는 컨볼루션 커널 개수, 컨볼루션 커널 및 활성화 함수를 각각 나타낸다. 하나의 예에 있어서, 각 후보 생성 네트워크의 이전 두 개의 시계열 컨볼루션 계층의 경우,
Figure pct00005
는 512일 수 있고, k는 3일 수 있으며, 정류 선형 유닛(Rectified Linear Unit, ReLU)을 활성화 함수로서 사용하고, 마지막 시계열 컨볼루션 계층의
Figure pct00006
는 3일 수 있으며,
Figure pct00007
는 1일 수 있으며, Sigmoid 활성화 함수를 예측 출력으로서 사용하며, 본 발명의 실시예는 후보 생성 네트워크의 구체적인 구현에 대해 한정하지 않는다.
상기 구현 방식에 있어서, 이미지 처리 장치는 각각 제1 특징 계열 및 제2 특징 계열을 처리하여, 두 개의 처리하여 획득된 객체 경계 확률 계열을 융합하여 더 정확한 객체 경계 확률 계열을 획득한다.
아래에 제1 객체 경계 확률 계열 및 제2 객체 경계 확률 계열에 대해 융합 처리하여, 타겟 경계 확률 계열을 획득하는 방법을 설명한다.
선택 가능한 구현 방식에 있어서, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열 중 각 객체 경계 확률 계열은 시작 확률 계열 및 종료 확률 계열을 포함한다. 상응하게, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에서의 시작 확률 계열에 대해 융합 처리를 수행하여, 타겟 시작 확률 계열을 획득하는 것; 및 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에서의 종료 확률 계열에 대해 융합 처리를 수행하여, 타겟 종료 확률 계열을 획득하는 것 중 적어도 하나이고, 여기서, 상기 타겟 경계 확률 계열은 상기 타겟 초기 확률 계열 및 상기 타겟 종료 확률 계열 중 적어도 하나를 포함한다.
선택 가능한 예에 있어서, 상기 제2 시작 확률 계열 중 각 확률의 순서를 반전하여 참조 시작 확률 계열을 획득하고, 상기 제1 시작 확률 계열에서의 확률 및 상기 참조 시작 확률 계열에서의 확률은 대응되며; 상기 제1 시작 확률 계열 및 상기 참조 시작 확률 계열을 융합하여, 타겟 시작 확률 계열을 획득한다. 예를 들어, 제1 시작 확률 계열에서 순차적으로 제1 세그먼트 내지 제N 세그먼트에 대응되는 시작 확률이고, 제2 시작 확률 계열에서 순차적으로 상기 제N 세그먼트 내지 제1 세그먼트에 대응되는 시작 확률이며, 상기 제2 시작 확률 계열 중 각 확률의 순서를 반전하여 획득된 참조 시작 확률 계열에서 순차적으로 상기 제1 세그먼트 내지 상기 제N 세그먼트에 대응되는 시작 확률이며; 상기 제1 시작 확률 계열 및 상기 참조 시작 확률 계열에서 제1 세그먼트 내지 제N 세그먼트에 대응되는 시작 확률의 평균값을 순차적으로 상기 타겟 시작 확률 중 상기 제1 세그먼트 내지 상기 제N 세그먼트에 대응되는 시작 확률로 사용하여, 상기 타겟 시작 확률 계열을 획득하며, 다시 말해, 상기 제1 시작 확률 계열 중 제i 세그먼트에 대응되는 시작 확률 및 상기 참조 시작 확률 계열 중 제i 세그먼트의 시작 확률의 평균값을 상기 타겟 시작 확률 중 상기 제i 세그먼트에 대응되는 시작 확률로 사용하며, 여기서, i=1, ……, N이다.
유사하게, 선택 가능한 구현 방식에 있어서, 상기 제2 종료 확률 계열에서의 각 확률의 순서를 반전하여 참조 종료 확률 계열을 획득하고, 상기 제1 종료 확률 계열에서의 확률 및 상기 참조 종료 확률 계열에서의 확률은 순차적으로 대응되며; 상기 제1 종료 확률 계열 및 상기 참조 종료 확률 계열을 융합하여, 상기 타겟 종료 확률 계열을 획득한다. 예를 들어, 제1 종료 확률 계열에서 순차적으로 제1 세그먼트 내지 제N 세그먼트에 대응되는 종료 확률이고, 제2 종료 확률 계열에서 순차적으로 상기 제N 세그먼트 내지 제1 세그먼트에 대응되는 종료 확률이며, 상기 제2 종료 확률 계열 중 각 확률의 순서를 반전하여 획득된 참조 종료 확률 계열에서 순차적으로 상기 제1 세그먼트 내지 상기 제N 세그먼트에 대응되는 종료 확률이며; 상기 제1 종료 확률 계열 및 상기 참조 종료 확률 계열 중 제1 세그먼트 내지 제N 세그먼트에 대응되는 종료 확률의 평균값을 상기 타겟 종료 확률 중 상기 제1 세그먼트 내지 상기 제N 세그먼트에 대응되는 종료 확률로서 순차적으로 사용하여, 타겟 종료 확률 계열을 획득한다.
선택적으로, 다른 방식으로 두 개의 확률 계열에서의 시작 확률 또는 종료 확률을 융합할 수도 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다.
본 출원의 실시예에 있어서, 두 개의 객체 경계 계열에 대해 융합 처리를 수행하는 것을 통해 경계가 더욱 정확한 객체 경계 확률 계열을 획득할 수 있음으로써, 품질이 더 높은 시계열 객체 후보 세트를 생성한다.
아래에 타겟 경계 확률 계열에 기반하여 시계열 객체 후보 세트를 생성하는 구체적인 구현 방식을 설명한다.
선택 가능한 구현 방식에 있어서, 타겟 경계 확률 계열은 타겟 시작 확률 계열 및 타겟 종료 확률 계열을 포함하고, 이에 상응하게, 상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성할 수 있다.
다른 선택 가능한 구현 방식에 있어서, 타겟 경계 확률 계열은 타겟 시작 확률 계열을 포함하고, 이에 따라, 상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 상기 제1 객체 경계 확률 계열에 포함된 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성할 수 있고; 또는, 상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 상기 제2 객체 경계 확률 계열에 포함된 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성할 수 있다.
다른 선택 가능한 구현 방식에 있어서, 타겟 경계 확률 계열은 타겟 종료 확률 계열을 포함하고, 이에 상응하게, 상기 제1 객체 경계 확률 계열에 포함된 시작 확률 계열 및 상기 타겟 경계 확률 계열에 포함된 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하고; 또는, 상기 제2 객체 경계 확률 계열에 포함된 시작 확률 계열 및 상기 타겟 경계 확률 계열에 포함된 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성한다.
아래에 타겟 시작 확률 계열 및 타겟 종료 확률 계열을 예로 들어, 시계열 객체 후보 세트를 생성하는 방법을 소개한다.
선택적으로, 상기 타겟 시작 확률 계열에 포함된 상기 복수 개의 세그먼트의 타겟 시작 확률에 기반하여, 제1 세그먼트 세트를 획득할 수 있고, 여기서, 상기 제1 세그먼트 세트는 복수 개의 객체 시작 세그먼트를 포함하며; 상기 타겟 종료 확률 계열에 포함된 상기 복수 개의 세그먼트의 타겟 종료 확률에 기반하여, 제2 세그먼트 세트를 획득하며, 여기서, 상기 제2 세그먼트 세트는 복수 개의 객체 종료 세그먼트를 포함하며; 상기 제1 세그먼트 세트 및 상기 제2 세그먼트 세트에 기반하여, 상기 시계열 객체 후보 세트를 생성한다.
일부 예에 있어서, 복수 개의 세그먼트 중 각 세그먼트의 타겟 시작 확률에 기반하여, 복수 개의 세그먼트로부터 객체 시작 세그먼트를 선택할 수 있으며, 예를 들어, 타겟 시작 확률이 제1 임계값보다 큰 세그먼트를 객체 시작 세그먼트로 사용하거나, 일부 영역에서 최고 타겟 시작 확률을 갖는 세그먼트를 객체 시작 세그먼트로 사용하거나, 타겟 시작 확률이 적어도 두 개의 이에 인접한 세그먼트의 타겟 시작 확률보다 높은 세그먼트를 객체 시작 세그먼트로 사용하거나, 타겟 시작 확률이 이전 세그먼트 및 다음 세그먼트의 타겟 시작 확률보다 높은 세그먼트를 객체 시작 세그먼트로 사용하는 것 등이며, 본 발명의 실시예는 객체 시작 세그먼트를 결정하는 구체적인 구현에 대해 한정하지 않는다.
일부 예에 있어서, 복수 개의 세그먼트 중 각 세그먼트의 타겟 종료 확률에 기반하여, 복수 개의 세그먼트로부터 객체 종료 세그먼트를 선택할 수 있으며, 예를 들어, 타겟 종료 확률이 제1 임계값보다 큰 세그먼트를 객체 종료 세그먼트로 사용하거나, 일부 영역에서 최고 타겟 종료 확률을 갖는 세그먼트를 객체 종료 세그먼트로 사용하거나, 타겟 종료 확률이 적어도 두 개의 이와 인접한 세그먼트의 타겟 종료 확률보다 높은 세그먼트를 객체 종료 세그먼트로 사용하거나, 타겟 종료 확률이 이전 세그먼트 및 다음 세그먼트의 타겟 종료 확률보다 높은 세그먼트를 객체 종료 세그먼트로 사용하는 것 등이며, 본 발명의 실시예는 객체 종료 세그먼트를 결정하는 구체적인 구현에 대해 한정하지 않는다.
선택 가능한 실시형태에 있어서, 상기 제1 세그먼트 세트 중 하나의 세그먼트에 대응되는 시간 포인트를 시계열 객체 후보의 시작 시간 포인트로 사용하고 상기 제2 세그먼트 세트 중 하나의 세그먼트에 대응되는 시간 포인트를 상기 시계열 객체 후보의 종료 시간 포인트로 사용한다. 예를 들어, 제1 세그먼트 세트 중 하나의 세그먼트가 제1 시간 포인트에 대응되고, 제2 세그먼트 세트 중 하나의 세그먼트가 제2 시간 포인트에 대응되면, 상기 제1 세그먼트 세트 및 상기 제2 세그먼트 세트에 기반하여 생성된 시계열 객체 후보 세트에 포함된 하나의 시계열 객체 후보는 [제1 시간 포인트, 제2 시간 포인트]가 된다. 상기 제1 임계값은 0.7, 0.75, 0.8, 0.85, 0.9 등일 수 있다. 상기 제2 임계값은 0.7, 0.75, 0.8, 0.85, 0.9 등일 수 있다.
선택적으로, 상기 타겟 시작 확률 계열에 기반하여 제1 시간 포인트 세트를 획득하고, 상기 타겟 종료 확률 계열에 기반하여 제2 시간 포인트 세트를 획득하며; 상기 제1 시간 포인트 세트는 상기 타겟 시작 확률 계열 중 대응되는 확률이 제1 임계값의 시간 포인트 및 적어도 하나의 부분 시간 포인트 중 적어도 하나를 포함하고, 임의의 하나의 부분 시간 포인트가 상기 타겟 시작 확률 계열에서 대응되는 확률은 상기 임의의 하나의 부분 시간 포인트에 인접한 시간 포인트가 상기 타겟 시작 확률 계열 중 대응되는 확률보다 높으며; 상기 제2 시간 포인트 세트는 상기 타겟 종료 확률 계열 중 대응되는 확률이 제2 임계값보다 큰 시간 포인트 및 적어도 하나의 참조 시간 포인트 중 적어도 하나를 포함하고, 임의의 하나의 참조 시간 포인트가 상기 타겟 종료 확률 계열 중 대응되는 확률은 상기 임의의 하나의 참조 시간 포인트에 인접한 시간 포인트가 상기 타겟 종료 확률 계열 중 대응되는 확률보다 높으며; 상기 제1 시간 포인트 세트 및 상기 제2 시간 포인트 세트에 기반하여, 상기 시계열 후보 세트를 생성하며; 상기 시계열 후보 세트 중 어느 한 후보의 시작 시간 포인트는 상기 제1 시간 포인트 세트 중 하나의 시간 포인트이며, 상기 어느 한 후보의 종료 시간 포인트는 상기 제2 시간 포인트 세트 중 하나의 시간 포인트이며; 상기 시작 시간 포인트는 상기 종료 시간 포인트 전에 위치한다.
상기 제1 임계값은 0.7, 0.75, 0.8, 0.85, 0.9 등일 수 있다. 상기 제2 임계값은 0.7, 0.75, 0.8, 0.85, 0.9 등일 수 있다. 제1 임계값 및 제2 임계값은 동일하거나 상이할 수 있다. 임의의 하나의 부분 시간 포인트는 타겟 시작 확률 계열 중 대응되는 확률이 이전 시간 포인트에 대응되는 확률 및 다음 시간 포인트에 대응되는 확률보다 높은 시간 포인트일 수 있다. 임의의 하나의 참조 시간 포인트는 타겟 종료 확률 계열 중 대응되는 확률이 이전 시간 포인트에 대응되는 확률 및 다음 시간 포인트에 대응되는 확률보다 높은 시간 포인트일 수 있다. 시계열 객체 후보 세트를 생성하는 과정은, 후보 시계열 경계 노드(후보 시작 시간 포인트 및 후보 종료 시간 포인트를 포함함)로서, 타겟 시작 확률 계열 및 타겟 종료 확률 계열에서, (1) 상기 시간 포인트의 확률이 하나의 임계값보다 높고, (2) 상기 시간 포인트의 확률이 이전 하나 또는 복수 개의 시간 포인트 및 다음 하나 또는 복수 개의 시간 포인트의 확률(즉 하나의 확률 피크값에 대응되는 시간 포인트)보다 높은 조건 중 하나를 만족하는 시간 포인트를 먼저 선택하고; 다음, 후보 시작 시간 포인트 및 후보 종료 시간 포인트를 서로 결합하여, 보류 지속 시간이 요건에 부합되는 후보 시작 시간 포인트-후보 종료 시간 포인트의 조합을 시계열 동작 후보로 사용하는 것으로 이해할 수 있다. 지속 시간이 요구에 부합되는 후보 시작 시간 포인트-후보 종료 시간 포인트의 조합은 후보 시작 시간 포인트가 후보 종료 시간 포인트 전의 조합일 수 있고; 후보 시작 시간 포인트와 후보 종료 시간 포인트 사이의 간격이 제3 임계값 및 제3 임계값과 제4 임계값의 조합보다 작은 것일 수도 있으며, 여기서, 상기 제3 임계값 및 상기 제4 임계값은 실제 필요에 따라 구성될 수 있으며, 예를 들어 상기 제3 임계값은 1ms이고, 상기 제4 임계값은 100ms이다.
여기서, 후보 시작 시간 포인트는 상기 제1 시간 포인트 세트에 포함된 시간 포인트이고, 후보 종료 시간 포인트는 상기 제2 시간 포인트 세트에 포함된 시간 포인트이다. 도 2는 본 출원의 실시예에서 제공한 시계열 후보 세트를 생성하는 단계의 과정의 예시도이다. 도 2에 도시된 바와 같이, 대응되는 확률이 제1 임계값보다 큰 시작 시간 포인트 및 확률 피크값에 대응되는 시간 포인트는 후보 시작 시간 포인트이고; 대응되는 확률이 제2 임계값보다 큰 종료 시간 포인트 및 확률 피크값에 대응되는 시간 포인트는 후보 종료 시간 포인트이다. 도 2에서 각 연결선은 하나의 시계열 후보(즉 하나의 후보 시작 시간 포인트와 후보 종료 시간 포인트의 조합)에 대응되고, 각 시계열 후보 중 후보 시작 시간 포인트는 후보 종료 시간 포인트 전에 위치하며, 후보 시작 시간 포인트 및 후보 종료 시간 포인트 사이의 시간 간격은 지속 시간 요구에 부합된다.
상기 구현 방식에 있어서, 시계열 객체 후보 세트를 더욱 빠르고, 정확하게 생성할 수 있다.
전술한 실시예는 시계열 객체 후보 세트를 생성하는 방식을 설명하였고, 실제 응용에서 시계열 객체 후보 세트를 획득한 후 일반적으로 각 시계열 객체 후보에 대해 품질 평가를 수행하고, 품질 평가 결과에 기반하여 시계열 객체 후보 세트를 출력해야 한다. 아래에 시계열 객체 후보의 품질을 평가하는 방식을 소개한다.
선택 가능한 구현 방식에 있어서, 후보 특징 세트를 획득하고, 여기서, 상기 후보 특징 세트는 시계열 객체 후보 세트 중 각 시계열 객체 후보의 후보 특징을 포함하며; 상기 후보 특징 세트를 후보 평가 네트워크에 입력하여 처리함으로써, 상기 시계열 객체 후보 세트 중 각 시계열 객체 후보의 적어도 두 개의 품질 지표를 획득하며; 상기 각 시계열 객체 후보의 적어도 두 개의 품질 지표에 따라, 각 시계열 객체 후보의 평가 결과(예를 들어 신뢰도 점수)를 획득한다.
선택적으로, 상기 후보 평가 네트워크는 신경 네트워크일 수 있고, 상기 후보 평가 네트워크는 상기 후보 특징 세트 중 각 후보 특징을 처리하여, 각 시계열 객체 후보의 적어도 두 개의 품질 지표를 획득하기 위한 것이며; 상기 후보 평가 네트워크는 두 개 또는 두 개 이상의 병렬된 후보 평가 서브 네트워크를 포함할 수도 있으며, 각 후보 평가 서브 네트워크는 각 시계열이 후보에 대응되는 품질 지표를 결정하기 위한 것이다. 예를 들어, 상기 후보 평가 네트워크는 3 개의 병렬된 후보 평가 서브 네트워크 즉 제1 후보 평가 서브 네트워크, 제2 후보 평가 서브 네트워크 및 제3 후보 평가 서브 네트워크를 포함하고, 각 후보 평가 서브 네트워크는 3 개의 완전 연결층을 포함하며, 여기서 앞 두 개의 완전 연결층은 각각 1024 개의 유닛을 포함하여 입력된 후보 특징을 처리하며, Relu를 활성화 함수로서 사용하며, 세 번째 완전 연결층은 하나의 출력 노드를 포함하며, Sigmoid 활성화 함수를 통해 대응되는 예측 결과를 출력하며; 상기 제1 후보 평가 서브 네트워크는 시계열 후보의 전반적인 품질(overall-quality)을 반영하는 제1 지표(즉 시계열 후보와 참값과의 공통부분이 전체에서 차지하는 비율)를 출력하며, 상기 제2 후보 평가 서브 네트워크는 시계열 후보의 완전한 품질(completeness-quality)을 반영하는 제2 지표(즉 시계열 후보와 참값과의 공통부분이 시계열 후보 길이에서 차지하는 비율)를 출력하며, 상기 제3 후보 평가 서브 네트워크는 시계열 후보의 동작 품질(actionness-quality)을 반영하는 제3 지표(시계열 후보와 참값과의 공통부분이 참값 길이에서 차지하는 비율)를 출력한다. IoU, IoP, IoG는 상기 제1 지표, 상기 제2 지표 및 상기 제3 지표를 순차적으로 나타낼 수 있다. 상기 후보 평가 네트워크에 대응되는 손실 함수는,
Figure pct00008
(1)일 수 있고;
여기서, λIoU, λIoP, λIoG는 트레이드 오프 요소이고 실제 상황에 따라 구성될 수 있다.
Figure pct00009
,
Figure pct00010
,
Figure pct00011
는 제1 지표(IoU), 제2 지표(IoP) 및 제3 지표(IoG)의 손실을 순차적으로 나타낸다.
Figure pct00012
,
Figure pct00013
,
Figure pct00014
는 손실 함수
Figure pct00015
를 사용하여 계산할 수 있고, 다른 손실 함수를 사용할 수도 있다. 손실 함수
Figure pct00016
는,
Figure pct00017
(2)로 정의되며;
Figure pct00018
의 경우, 식 (2)에서 x는 IoU이고;
Figure pct00019
의 경우, 식 (2)에서 x는 IoP이며;
Figure pct00020
의 경우, 식 (2)에서 x는 IoG이다. IoU, IoP 및 IoG의 정의에 따라, 이미지 처리 장치는 IoP 및 IoG에 의해
Figure pct00021
가 추가로 계산된 다음, 위치 결정 점수
Figure pct00022
를 획득할 수 있다. 여기서, pIoU는 시계열 후보의 IoU를 나타내며, pIoU'는 시계열 후보의
Figure pct00023
를 나타낸다. 다시 말해, pIoU'
Figure pct00024
이고, pIoU는 IoU이다. α는 0.6으로 설정될 수 있고, 다른 상수로 설정될 수도 있다. 이미지 처리 장치는 아래와 같은 공식을 사용하여 후보된 신뢰도 점수를 계산하여 획득할 수 있다.
Figure pct00025
(3);
여기서,
Figure pct00026
는 상기 시계열 후보에 대응되는 시작 확률을 나타내고,
Figure pct00027
는 상기 시계열 후보에 대응되는 종료 확률을 나타낸다.
아래에 이미지 처리 장치가 후보 특징 세트를 획득하는 방식을 설명한다.
선택적으로, 후보 특징 세트를 획득하는 단계는, 제1 특징 계열 및 타겟 동작 확률 계열을 채널 차원에서 스플라이싱하여, 비디오 특징 계열을 획득하는 단계; 제1 시계열 객체 후보이 상기 비디오 특징 계열에서 대응되는 타겟 비디오 특징 계열을 획득하는 단계 - 상기 제1 시계열 객체 후보는 상기 시계열 객체 후보 세트에 포함되고, 상기 제1 시계열 객체 후보에 대응되는 시간대는 상기 타겟 비디오 특징 계열에 대응되는 시간대와 동일함 - ; 및 상기 타겟 비디오 특징 계열을 샘플링하여, 타겟 후보 특징을 획득하는 단계 - 상기 타겟 후보 특징은 상기 제1 시계열 객체 후보의 후보 특징이고, 상기 후보 특징 세트를 포함함 - 를 포함할 수 있다.
선택적으로, 상기 타겟 동작 확률 계열은 상기 제1 특징 계열을 상기 제1 후보 생성 네트워크에 입력하여 처리함으로써 획득된 제1 동작 확률 계열일 수 있거나, 상기 제2 특징 계열을 상기 제2 후보 생성 네트워크에 입력하여 처리함으로써 획득된 제2 동작 확률 계열일 수 있거나, 상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열을 융합하여 획득된 확률 계열일 수 있다. 상기 제1 후보 생성 네트워크, 상기 제2 후보 생성 네트워크 및 상기 후보 평가 네트워크는 하나의 네트워크로서 연합 훈련하여 획득된 것이다. 상기 제1 특징 계열 및 상기 타겟 동작 확률 계열은 하나의 3 차원 매트릭스에 대응된다. 상기 제1 특징 계열 및 상기 타겟 동작 확률 계열에 포함된 채널 개수는 동일하거나 상이하며, 각 채널에서 대응되는 2 차원 매트릭스의 크기는 동일하다. 따라서, 상기 제1 특징 계열 및 상기 타겟 동작 확률 계열은 채널 차원에서 스플라이싱될 수 있어, 상기 비디오 특징 계열을 획득한다. 예를 들어, 제1 특징 계열이 400 개의 채널을 포함하는 3 차원 매트릭스에 대응되고, 타겟 동작 확률 계열이 2 차원 매트릭스(하나의 채널을 포함하는 하나의 3 차원 매트릭스로 이해할 수 있음)에 대응되면, 상기 비디오 특징 계열은 401 개의 채널을 포함하는 3 차원 매트릭스에 대응된다.
상기 제1 시계열 객체 후보는 시계열 객체 후보 세트에서의 어느 한 시계열 객체 후보이다. 이해할 수 있는 것은, 이미지 처리 장치는 동일한 방식을 사용하여 시계열 객체 후보 세트 중 각 시계열 객체 후보의 후보 특징을 결정할 수 있다. 비디오 특징 계열은 이미지 처리 장치가 비디오 스트림에 포함된 복수 개의 세그먼트로부터 추출된 특징 데이터를 포함한다. 제1 시계열 객체 후보이 상기 비디오 특징 계열에서 대응되는 타겟 비디오 특징 계열을 획득하는 단계는 상기 비디오 특징 계열 중 상기 제1 시계열 객체 후보에 대응되는 시간대에 대응되는 타겟 비디오 특징 계열을 획득하는 단계일 수 있다. 예를 들어, 제1 시계열 객체 후보에 대응되는 시간대가 제P 밀리초 내지 제 Q 밀리초이면, 비디오 특징 계열 중 제P 밀리초 내지 제Q 밀리초에 대응되는 서브 특징 계열은 타겟 비디오 특징 계열이다. P 및 Q는 0보다 큰 실수이다. 상기 타겟 비디오 특징 계열을 샘플링하여, 타겟 후보 특징을 획득하는 단계는, 상기 타겟 비디오 특징 계열을 샘플링하여, 타겟 길이의 타겟 후보 특징을 획득하는 단계일 수 있다. 이해할 수 있는 것은, 이미지 처리 장치는 각 시계열 객체 후보에 대응되는 비디오 특징 계열을 샘플링하여, 타겟 길이의 후보 특징을 획득한다. 다시 말해, 각 시계열 객체 후보의 후보 특징의 길이는 동일하다. 각 시계열 객체 후보의 후보 특징은 복수 개의 채널을 포함하는 매트릭스에 대응되고, 각 채널에서 타겟 길이의 1 차원 매트릭스이다. 예를 들어, 비디오 특징 계열은 401 개의 채널을 포함하는 3 차원 매트릭스에 대응되고, 각 시계열 객체 후보의 후보 특징은 TS 행 401 열의 2 차원 매트릭스에 대응되는 것은, 각 행이 하나의 채널에 대응되는 것으로 이해할 수 있다. TS는 타겟 길이이고, TS는 16일 수 있다.
상기 방식에 있어서, 이미지 처리 장치는 지속 시간이 상이한 시계열 후보에 따라, 고정 길이의 후보 특징을 획득할 수 있고, 구현은 간단하다.
선택적으로, 후보 특징 세트를 획득하는 단계는, 상기 제1 특징 계열 및 타겟 동작 확률 계열을 채널 차원에서 스플라이싱하여, 비디오 특징 계열을 획득하는 단계; 상기 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계 - 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 길고, 상기 제1 시계열 객체 후보는 상기 시계열 객체 후보 세트에 포함됨 - ; 상기 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계 - 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일함 - ; 및 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계를 포함할 수도 있다. 이미지 처리 장치는 상기 제1 특징 계열 및 상기 제2 특징 계열 중 적어도 하나에 기반하여, 타겟 동작 확률 계열을 획득할 수 있다. 상기 타겟 동작 확률 계열은 상기 제1 특징 계열을 상기 제1 후보 생성 네트워크에 입력하여 처리함으로써 획득된 제1 동작 확률 계열일 수 있거나, 상기 제2 특징 계열을 상기 제2 후보 생성 네트워크에 입력하여 처리함으로써 획득된 제2 동작 확률 계열일 수 있거나, 상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열을 융합하여 획득된 확률 계열일 수 있다.
상기 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계는, 상기 비디오 특징 계열 중 참조 시간 구간에 대응되는 특징 데이터에 기반하여, 상기 장기간 후보 특징을 획득하는 단계일 수 있고, 여기서, 상기 참조 시간 구간은 상기 시계열 객체 후보 세트 중 첫 번째 시계열 객체의 시작 시간부터 마지막 시계열 객체의 종료 시간이다. 상기 장기간 후보 특징은 복수 개의 채널을 포함하는 매트릭스일 수 있고, 각 채널에서 길이가 TL인 1 차원 매트릭스일 수 있다. 예를 들어, 장기간 후보 특징은 TL 행 401 열의 2 차원 매트릭스인 것은, 각 행이 하나의 채널에 대응되는 것으로 이해할 수 있다. TL은 TS보다 큰 정수이다. 예를 들어 TS는 16이고, TL은 100이다. 상기 비디오 특징 계열을 샘플링하여, 장기간 후보 특징을 획득하는 단계는, 상기 비디오 특징 계열에서 참조 시간 구간 내의 특징을 샘플링하여, 상기 장기간 후보 특징을 획득하는 단계일 수 있고; 상기 참조 시간 구간은 상기 시계열 객체 후보 세트에 기반하여 결정된 첫 번째 동작의 시작 시간 및 마지막 동작의 종료 시간에 대응된다. 도 3은 본 출원의 실시예에서 제공한 샘플링 과정의 예시도이다. 도 3에 도시된 바와 같이, 참조 시간 구간은 시작 영역(301), 중심 영역(302) 및 종료 영역(303)을 포함하고, 중심 영역(302)의 시작 세그먼트는 첫 번째 동작의 시작 세그먼트가고, 중심 영역(302)의 종료 세그먼트는 마지막 동작의 종료 세그먼트가며, 시작 영역(301) 및 종료 영역(303)에 대응되는 지속 시간은 중심 영역(302)에 대응되는 지속 시간의 십분의 일이며; 304는 샘플링으로 획득된 장기간 후보 특징을 나타낸다.
일부 실시예에 있어서, 상기 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계는, 상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 비디오 특징 계열을 샘플링하여, 상기 단기간 후보 특징을 획득하는 단계일 수 있다. 여기서 상기 비디오 특징 계열을 샘플링하여, 단기간 후보 특징을 획득하는 방식은 상기 비디오 특징 계열을 샘플링하여, 장기간 후보 특징을 획득하는 방식과 유사하고, 여기서 더이상 상세히 설명하지 않는다.
일부 실시예에 있어서, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계는, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 대해 비국소적 주의력 작업을 실행하여, 중간 후보 특징을 획득하는 단계; 및 상기 단기간 후보 특징 및 상기 중간 후보 특징을 스플라이싱하여, 상기 타겟 후보 특징을 획득하는 단계일 수 있다.
도 4는 본 출원의 실시예에서 제공한 비국소적 주의력 작업의 계산 과정의 예시도이다. 도 4에 도시된 바와 같이, S는 단기간 후보 특징을 나타내고, L은 장기간 후보 특징을 나타내며, C(0보다 큰 정수)는 채널수에 대응되며, 단계 401 내지 단계 403 및 단계 407은 선형 변환 작업을 나타내며, 단계 405는 정규화 처리를 나타내며, 단계 404 및 단계 406은 매트릭스 곱셈 작업을 나타내며, 단계 408은 과적합 처리를 나타내며, 단계 409는 합산 작업을 나타낸다. 단계 401은 단기간 후보 특징에 대해 선형 변환을 수행하고; 단계 402는 상기 장기간 후보 특징에 대해 선형 변환을 수행하며; 단계 403은 장기간 후보 특징에 대해 선형 변환을 수행하며; 단계 404는 2 차원 매트릭스(TS×C) 및 2 차원 매트릭스(C×TL)의 곱을 계산하며; 단계 405는 단계 404로부터 계산하여 획득된 2 차원 매트릭스(TS×TL)에 대해 정규화 처리를 수행하여, 상기 2 차원 매트릭스(TS×TL) 중 각 열의 원소의 합이 1이 되도록 하며; 단계 406은 단계 405에서 출력된 2 차원 매트릭스(TS×TL)와 2 차원 매트릭스(TL×C)의 곱을 출력하여, 새로운 (TS×C)의 2 차원 매트릭스를 획득하며; 단계 407은 상기 새로운 2 차원 매트릭스(TS×C)에 대해 선형 변환을 수행하여 참조 후보 특징을 획득하며; 단계 408은 과적합 처리를 수행하고, 즉 dropout를 실행하여 과적합 문제를 해결하며; 단계 409는 상기 참조 후보 특징과 상기 단기간 후보 특징의 합을 계산하여, 중간 후보 특징(S')을 획득한다. 상기 참조 후보 특징과 상기 단기간 후보 특징에 대응되는 매트릭스의 크기는 동일하다. 표준화된 비국소적 블록(Non-local block)에 의해 실행된 비국소적 주의력 작업과 상이하게, 본 출원의 실시예에서 사용한 것은 S와 L 사이의 인터랙션 주의력으로 자체 주의력 매커니즘을 대안하는 것이다. 여기서, 정규화 처리의 구현 방식은 먼저 단계 404에서 계산하여 획득된 2 차원 매트릭스(TS×TL) 중 각 요소에
Figure pct00028
를 곱하여 새로운 2 차원 매트릭스(TS×TL)를 획득한 다음, Softmax 작업을 실행하는 것일 수 있다. 단계 401 내지 단계 403 및 단계 407에서 실행된 선형 작업은 동일하거나 상이하다. 선택적으로, 단계 401 내지 단계 403 및 단계 407는 동일한 선형 함수에 대응된다. 상기 단기간 후보 특징 및 상기 중간 후보 특징을 채널 차원에서 스플라이싱하여, 상기 타겟 후보 특징을 획득하는 단계는 먼저 상기 중간 후보 특징의 채널수를 C 개로부터 D 개로 낮춘 다음, 상기 단기간 후보 특징 및 처리된 중간 후보 특징(D 개의 채널수에 대응됨)을 채널 차원에서 스플라이싱하는 단계일 수 있다. 예를 들어, 단기간 후보 특징은 (TS×401)의 2 차원 매트릭스이고, 중간 후보 특징은 (TS×401)의 2 차원 매트릭스이며, 선형 변환을 이용하여 상기 중간 후보 특징을 (TS×128)의 2 차원 매트릭스로 변환시키며, 상기 단기간 후보 특징 및 변환된 중간 후보 특징을 채널 차원에서 스플라이싱하여, (TS×529)의 2 차원 매트릭스를 획득하며; 여기서, D는 C보다 작고 0보다 큰 정수이며, 401은 C에 대응되고, 128은 D에 대응된다.
상기 방식에 있어서, 장기간 후보 특징 및 단기간 후보 특징 사이의 인터랙션 정보 및 다른 다중 입도 단서를 통합하여 풍부한 후보 특징을 생성할 수 있음으로써, 후보 품질 평가의 정확성을 향상시킨다.
본 출원에서 제공한 시계열 후보의 생성 방식 및 후보 품질 평가의 방식을 더 명확하게 설명하고자 한다. 아래에 이미지 처리 장치의 구조를 결합하여 추가로 소개한다.
도 5는 본 출원의 실시예에서 제공한 이미지 처리 장치의 구조의 예시도이다. 도 5에 도시된 바와 같이, 상기 이미지 처리 장치는 4 개 부분을 포함할 수 있고, 제1 부분은 특징 추출 블록(501)이고, 제2 부분은 양방향 평가 모듈(502)이며, 제3 부분은 장기간 특징 작업 블록(503)이며, 제4 부분은 후보 채점 블록(504)이다. 특징 추출 블록(501)은 한번도 트리밍되지 않은 비디오에 대해 특징 추출을 수행하여 원래 2-스트림 특징 계열(즉 제1 특징 계열)을 획득하기 위한 것이다.
특징 추출 블록(501)은 2-스트림 네트워크(two-stream network)를 사용하여 트리밍되지 않은 비디오에 대해 특징 추출을 수행할 수 있고, 다른 네트워크를 사용하여 상기 트리밍되지 않은 비디오에 대해 특징 추출을 수행할 수도 있으며, 본 출원은 이를 한정하지 않는다. 트리밍되지 않은 비디오에 대해 특징 추출을 수행하여 특징 계열을 획득하는 것은 본 분야에서 흔히 사용되는 기술 수단이며, 여기서 더이상 상세히 설명하지 않는다.
양방향 평가 모듈(502)은 처리 유닛 및 생성 유닛을 포함할 수 있다. 도 5에서, 5021은 제1 후보 생성 네트워크를 나타내고, 5022는 제2 후보 생성 네트워크를 나타내며, 상기 제1 후보 생성 네트워크는 입력된 제1 특징 계열을 처리하여 제1 시작 확률 계열, 제1 종료 확률 계열 및 제1 동작 확률 계열을 획득하기 위한 것이며, 상기 제2 후보 생성 네트워크는 입력된 제2 특징 계열을 처리하여 제2 시작 확률 계열, 제2 종료 확률 계열 및 제2 동작 확률 계열을 획득하기 위한 것이다. 도 5에 도시된 바와 같이, 제1 후보 생성 네트워크 및 제2 후보 생성 네트워크는 3 개의 시계열 컨볼루션 계층을 포함하고, 구성된 파라미터가 동일하다. 처리 유닛은, 제1 후보 생성 네트워크 및 제2 후보 생성 네트워크의 기능을 구현하기 위한 것이다. 도 5에서의 F는 반전 작업을 나타내고, 하나의 F는 상기 제1 특징 계열 중 각 특징의 순서에 대해 시계열 반전을 수행하여 제2 특징 계열을 획득하는 것을 나타내며; 다른 F는 제2 시작 확률 계열 중 각 확률의 순서를 반전하여 참조 시작 확률 계열을 획득하고, 제2 종료 확률 계열 중 각 확률의 순서를 반전하여 참조 종료 확률 계열을 획득하며 제2 동작 확률 계열 중 각 확률의 순서를 반전하여 참조 동작 확률 계열을 획득하는 것을 나타낸다. 처리 유닛은 도 5에서의 반전 작업을 구현하기 위한 것이다. 도 5에서의 "+"는 융합 작업을 나타내고, 처리 유닛은 또한, 제1 시작 확률 계열 및 참조 시작 확률 계열을 융합하여 타겟 시작 확률 계열을 획득하고, 제1 종료 확률 계열 및 참조 종료 확률 계열을 융합하여 타겟 종료 확률 계열을 획득하며 제1 동작 확률 계열 및 참조 동작 확률 계열을 융합하여 타겟 동작 확률 계열을 획득하기 위한 것이다. 처리 유닛은 또한, 상기 제1 세그먼트 세트 및 상기 제2 세그먼트 세트를 결정하기 위한 것이다. 생성 유닛은, 상기 제1 세그먼트 세트 및 상기 제2 세그먼트 세트에 따라, 시계열 객체 후보 세트(즉 도 5에서의 제안 후보 세트)를 생성하기 위한 것이다. 구체적인 구현 과정에 있어서, 생성 유닛은 단계 104에서 언급된 방법 및 동등 대안 가능한 방법을 구현할 수 있고; 처리 유닛은 구체적으로 단계 102 및 단계 103에서 언급된 방법 및 동등 대안 가능한 방법을 실행하기 위한 것이다.
장기간 특징 작업 블록(503)은 본 출원의 실시예에서의 특징 결정 유닛에 대응된다. 도 5에서의 "C"는 스플라이싱 작업을 나타내고, 하나의 "C"는 제1 특징 계열 및 타겟 동작 확률 계열을 채널 차원에서 스플라이싱하여, 비디오 특징 계열을 획득하는 것을 나타내며; 다른 "C"는 원래의 단기간 후보 특징 및 조정된 단기간 후보 특징(중간 후보 특징에 대응됨)을 채널 차원에서 스플라이싱하여, 타겟 후보 특징을 획득하는 것을 나타낸다. 장기간 특징 작업 블록(503)은, 상기 비디오 특징 계열에서의 특징을 샘플링하여, 장기간 후보 특징을 획득하기 위한 것이고; 또한 각 시계열 객체 후보이 상기 비디오 특징 계열에 대응되는 서브 특징 계열에서, 각 시계열 객체 후보이 상기 비디오 특징 계열에 대응되는 서브 특징 계열에서 샘플링하여 각 시계열 객체 후보의 단기간 후보 특징(상기 원래의 단기간 후보 특징에 대응됨)을 획득하는 것으로 결정하기 위한 것이며; 또한 상기 장기간 후보 특징 및 각 시계열 객체 후보의 단기간 후보 특징을 입력으로서 비국소적 주의력 작업을 실행하여 각 시계열 객체 후보에 대응되는 중간 후보 특징을 획득하기 위한 것이며; 또한 각 시계열 객체 후보의 단기간 후보 특징과 각 시계열 객체 후보에 대응되는 중간 후보 특징을 채널에서 스플라이싱하여 후보 특징 세트를 획득하기 위한 것이다.
후보 채점 블록(504)은 본 출원에서의 평가 유닛에 대응된다. 도 5에서의 5041은 후보 평가 네트워크이고, 상기 후보 평가 네트워크는 3 개 서브 네트워크, 즉 제1 후보 평가 서브 네트워크, 제2 후보 평가 서브 네트워크 및 제3 후보 평가 서브 네트워크를 포함할 수 있으며; 상기 제1 후보 평가 서브 네트워크는 입력된 후보 특징 세트을 처리하여 시계열 객체 후보 세트 중 각 시계열 객체 후보의 제1 지표(즉 IoU)를 출력하기 위한 것이며, 상기 제2 후보 평가 서브 네트워크는 입력된 후보 특징 세트를 처리하여 시계열 객체 후보 세트 중 각 시계열 객체 후보의 제2 지표(즉 IoP)를 출력하기 위한 것이며, 상기 제3 후보 평가 서브 네트워크는 입력된 후보 특징 세트응 처리하여 시계열 객체 후보 세트 중 각 시계열 객체 후보의 제3 지표(즉 IoG)를 출력하기 위한 것이다. 이 3 개의 후보 평가 서브 네트워크의 네트워크 구조는 동일하거나 상이할 수 있으며, 각 후보 평가 서브 네트워크에 대응되는 파라미터는 상이하다. 후보 채점 블록(504)은 후보 평가 네트워크의 기능을 구현하기 위한 것이고; 또한 각 시계열 객체 후보의 적어도 두 개의 품질 지표에 따라, 상기 각 시계열 객체 후보의 신뢰도 점수를 결정하기 위한 것이다.
설명해야 할 것은, 도 5에 도시된 이미지 처리 장치의 각 블록의 분할은 논리 기능적 분할일 뿐이고, 실제 구현할 경우 전부 또는 부분적으로 하나의 물리적 엔티티에 통합시킬 수 있으며, 물리적으로 분리될 수도 있는 것을 이해해야 한다. 이러한 블록은 모두 소프트웨어가 처리 요소를 통해 호출하는 형태로 구현될 수 있고; 전부 하드웨어의 형태로 구현될 수도 있으며; 또한 부분 블록이 소프트웨어가 처리 요소를 통해 호출하는 형태로 구현되고, 부분 블록이 하드웨어의 형태로 구현될 수 있다.
도 5로부터 알 수 있듯이, 이미지 처리 장치는, 시계열 동작 후보 생성 및 후보 품질 평가하는 두 개의 서브 작업을 주로 완료하였다. 여기서, 양방향 평가 모듈(502)은 시계열 동작 후보 생성을 완료하기 위한 것이고, 장기간 특징 작업 블록(503) 및 후보 채점 블록(504)은 후보 품질 평가를 완료하기 위한 것이다. 실제 응용에서, 이미지 처리 장치는 이 두 개의 서브 작업을 실행하기 전, 제1 후보 생성 네트워크(5021), 제2 후보 생성 네트워크(5022) 및 후보 평가 네트워크(5041)를 획득해야 하거나 훈련하여 획득해야 한다. 일반적으로 사용된 상향식 후보 생성 방법에서, 시계열 후보 생성 및 후보 품질 평가는 독립적으로 훈련되며, 전반적인 최적화가 부족하다. 본 출원의 실시예에 있어서, 시계열 동작 후보 생성 및 후보 품질 평가를 하나의 통일된 프레임워크에 통합하여 연합 훈련한다. 아래에 제1 후보 생성 네트워크, 제2 후보 생성 네트워크 및 후보 평가 네트워크를 훈련하여 획득하는 방식을 소개한다.
선택적으로, 훈련 과정은, 제1 훈련 샘플을 상기 제1 후보 생성 네트워크에 입력하여 처리함으로써 제1 샘플 시작 확률 계열, 제1 샘플 동작 확률 계열, 제1 샘플 종료 확률 계열을 획득하고, 제2 훈련 샘플을 상기 제2 후보 생성 네트워크에 입력하여 처리함으로써 제2 샘플 시작 확률 계열, 제2 샘플 동작 확률 계열, 제2 샘플 종료 확률 계열을 획득하는 단계; 상기 제1 샘플 시작 확률 계열 및 상기 제2 샘플 시작 확률 계열을 융합하여, 타겟 샘플 시작 확률 계열을 획득하는 단계; 상기 제1 샘플 종료 확률 계열 및 상기 제2 샘플 종료 확률 계열을 융합하여, 타겟 샘플 종료 확률 계열을 획득하는 단계; 상기 제1 샘플 동작 확률 계열 및 상기 제2 샘플 동작 확률 계열을 융합하여, 타겟 샘플 동작 확률 계열을 획득하는 단계; 상기 타겟 샘플 시작 확률 계열 및 상기 타겟 샘플 종료 확률 계열에 기반하여, 상기 샘플 시계열 객체 후보 세트를 생성하는 단계; 샘플 시계열 객체 후보 세트, 타겟 샘플 동작 확률 계열 및 제1 훈련 샘플에 기반하여 샘플 후보 특징 세트를 획득하는 단계; 상기 샘플 후보 특징 세트를 상기 후보 평가 네트워크에 입력하여 처리함으로써, 상기 샘플 후보 특징 세트 중 각 샘플 후보 특징의 적어도 하나의 품질 지표를 획득하는 단계; 상기 각 샘플 후보 특징의 적어도 하나의 품질 지표에 따라, 상기 각 샘플 후보 특징의 신뢰도 점수를 결정하는 단계; 및 상기 제1 후보 생성 네트워크 및 상기 제2 후보 생성 네트워크에 대응되는 제1 손실 및 상기 후보 평가 네트워크에 대응되는 제2 손실의 가중치 합에 따라, 상기 제1 후보 생성 네트워크, 상기 제2 후보 생성 네트워크 및 상기 후보 평가 네트워크를 업데이트하는 단계를 포함한다.
샘플 시계열 객체 후보 세트, 타겟 샘플 동작 확률 계열 및 제1 훈련 샘플에 기반하여 샘플 후보 특징 세트를 획득하는 작업과 도 5에서 장기간 특징 작업 블록(503)이 후보 특징 세트를 획득하는 작업은 유사하고, 여기서 더이상 상세히 설명하지 않는다. 이해할 수 있는 것은, 훈련 과정에서 샘플 후보 특징 세트를 획득하는 과정은 응용 과정에서 시계열 객체 후보 세트를 생성하는 과정과 동일하고; 훈련 과정에서 각 샘플 시계열 후보의 신뢰도 점수를 결정하는 과정은 응용 과정에서 각 시계열 후보의 신뢰도 점수를 결정하는 과정과 동일하다. 훈련 과정은 응용 과정과 비교하면, 주요한 차이는, 상기 제1 후보 생성 네트워크 및 상기 제2 후보 생성 네트워크에 대응되는 제1 손실 및 상기 후보 평가 네트워크에 대응되는 제2 손실의 가중치 합에 따라, 상기 제1 후보 생성 네트워크, 상기 제2 후보 생성 네트워크 및 상기 후보 평가 네트워크를 업데이트하는 것에 있다.
제1 후보 생성 네트워크 및 제2 후보 생성 네트워크에 대응되는 제1 손실은 양방향 평가 모듈(502)에 대응되는 손실이다. 제1 후보 생성 네트워크 및 제2 후보 생성 네트워크에 대응되는 제1 손실을 계산하는 손실 함수는 아래와 같다.
Figure pct00029
(4);
여기서, λs, λe, λa는 트레이드 오프 요소이고 실제 상황에 따라 구성될 수 있으며, 예를 들어 모두 1로 설정되며,
Figure pct00030
,
Figure pct00031
,
Figure pct00032
는 타겟 시작 확률 계열, 타겟 종료 확률 계열 및 타겟 동작 확률 계열의 손실을 순차적으로 나타내며,
Figure pct00033
,
Figure pct00034
,
Figure pct00035
는 교차 엔트로피 손실 함수이며, 구체적인 형태는,
Figure pct00036
(5)이며;
여기서,
Figure pct00037
이고, 각 시각에 매칭된 대응하는 IoP 참값(
Figure pct00038
)을 이진화하기 위한 것이다.
Figure pct00039
Figure pct00040
는 훈련 동안 양성 및 음성 샘플의 비율의 균형을 맞추기 위한 것이다. 또한
Figure pct00041
,
Figure pct00042
이다. 여기서,
Figure pct00043
,
Figure pct00044
이다.
Figure pct00045
,
Figure pct00046
,
Figure pct00047
에 대응되는 함수는 유사하다.
Figure pct00048
의 경우, 식 (5)에서
Figure pct00049
는 타겟 시작 확률 계열 중 시각(t)의 시작 확률이고,
Figure pct00050
는 시각(t)에 매칭된 대응하는 IoP 참값이며;
Figure pct00051
의 경우, 식 (5)에서
Figure pct00052
는 타겟 종료 확률 계열 중 시각(t)의 종료 확률이고,
Figure pct00053
는 시각(t)에 매칭된 대응하는 IoP 참값이며;
Figure pct00054
의 경우, 식 (5)에서
Figure pct00055
는 타겟 동작 확률 계열 중 시각(t)의 동작 확률이며,
Figure pct00056
는 시각(t)에 매칭된 대응하는 IoP 참값이다.
후보 평가 네트워크에 대응되는 제2 손실은 후보 채점 블록(504)에 대응되는 손실이다. 후보 평가 네트워크에 대응되는 제2 손실을 계산하는 손실 함수는 아래와 같다.
Figure pct00057
(6);
여기서,
Figure pct00058
,
Figure pct00059
,
Figure pct00060
는 트레이드 오프 요소이고 실제 상황에 따라 구성될 수 있다.
Figure pct00061
,
Figure pct00062
,
Figure pct00063
는 제1 지표(IoU), 제2 지표(IoP) 및 제3 지표(IoG)의 손실을 순차적으로 나타낸다.
제1 후보 생성 네트워크 및 제2 후보 생성 네트워크에 대응되는 제1 손실 및 후보 평가 네트워크에 대응되는 제2 손실의 가중합은 전체 네트워크 프레임워크의 손실이다. 전체 네트워크 프레임워크의 손실 함수는,
Figure pct00064
(7)이며;
여기서, β는 트레이드 오프 요소이고 10으로 설정될 수 있으며,
Figure pct00065
은 제1 후보 생성 네트워크 및 제2 후보 생성 네트워크에 대응되는 제1 손실을 나타내며,
Figure pct00066
은 후보 평가 네트워크에 대응되는 제2 손실을 나타낸다. 이미지 처리 장치는 반전파 알고리즘을 사용하여 식 (7)에서 계산하여 획득된 손실에 따라, 제1 후보 생성 네트워크, 제2 후보 생성 네트워크 및 후보 평가 네트워크의 파라미터를 업데이트할 수 있다. 훈련을 정지하는 조건은 반복 업데이트하는 차수가 만 번과 같이 임계값에 도달한 것일 수 있고; 전체 네트워크 프레임워크의 손실값이 수렴하는 것, 즉 전체 네트워크 프레임워크의 손실이 더이상 감소되지 않는 것일 수도 있다.
본 출원의 실시예에 있어서, 제1 후보 생성 네트워크, 제2 후보 생성 네트워크, 후보 평가 네트워크를 하나로서 연합 훈련을 수행하여, 시계열 객체 후보 세트의 정밀도를 효과적으로 향상시키는 동시에 후보 평가의 품질을 꾸준히 향상시킴으로써, 후속 후보 검색의 신뢰성을 보장한다.
실제 응용에서, 후보 평가 장치는 적어도 전술한 실시예에서 설명한 세 가지 부동한 방법을 사용하여 시계열 객체 후보의 품질을 평가할 수 있다. 아래에 도면을 결합하여 이 세 가지의 후보 평가 방법의 방법 플로우를 각각 소개한다.
도 6은 본 출원의 실시예에서 제공한 후보 평가 방법의 흐름도이고, 상기 방법은 아래와 같은 단계를 포함할 수 있다.
단계 601에 있어서, 비디오 스트림의 비디오 특징 계열에 기반하여, 비디오 스트림의 제1 시계열 객체 후보의 장기간 후보 특징을 획득한다.
상기 비디오 특징 계열은 상기 비디오 스트림에 포함된 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함하고, 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 길고;
단계 602에 있어서, 비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 단기간 후보 특징을 획득한다.
상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일하다.
단계 603에 있어서, 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 제1 시계열 객체 후보의 평가 결과를 획득한다.
본 출원의 실시예에 있어서, 장기간 후보 특징 및 단기간 후보 특징 사이의 인터랙션 정보 및 다른 다중 입도 단서를 통합하여 풍부한 후보 특징을 생성하는 것을 통해, 후보 품질 평가의 정확성을 향상시킨다.
이해해야 할 것은, 본 발명의 실시예에서 제공한 후보 평가 방법의 구체적인 구현은 상기 명세서의 구체적인 설명을 참조할 수 있고, 간결함을 위해, 여기서 더이상 반복하여 설명하지 않는다.
도 7은 본 출원의 실시예에서 제공한 다른 후보 평가 방법의 흐름도이고, 상기 방법은 아래와 같은 단계를 포함할 수 있다.
단계 701에 있어서, 비디오 스트림의 제1 특징 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득한다.
상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함한다.
단계 702에 있어서, 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 비디오 특징 계열을 획득한다.
단계 703에 있어서, 비디오 특징 계열에 기반하여, 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득한다.
본 출원의 실시예에 있어서, 특징 계열 및 타겟 동작 확률 계열을 채널 차원에서 스플라이싱하여 더 많은 특징 정보를 포함하는 비디오 특징 계열을 획득하고, 샘플링으로 획득된 후보 특징에 포함된 정보는 더욱 풍부하다.
이해해야 할 것은, 본 발명의 실시예에서 제공한 후보 평가 방법의 구체적인 구현은 상기 명세서의 구체적인 설명을 참조할 수 있고, 간결함을 위해, 여기서 더이상 반복하여 설명하지 않는다.
도 8은 본 출원의 실시예에서 제공한 다른 후보 평가 방법의 흐름도이고, 상기 방법은 아래와 같은 단계를 포함할 수 있다.
단계 801에 있어서, 비디오 스트림의 제1 특징 계열에 기반하여, 제1 동작 확률 계열을 획득한다.
상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함한다.
단계 802에 있어서, 비디오 스트림의 제2 특징 계열에 기반하여, 제2 동작 확률 계열을 획득한다.
상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대된다.
단계 803에 있어서, 제1 동작 확률 계열 및 제2 동작 확률 계열에 기반하여, 비디오 스트림의 타겟 동작 확률 계열을 획득한다.
단계 804에 있어서, 비디오 스트림의 타겟 동작 확률 계열에 기반하여, 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득한다.
본 출원의 실시예에 있어서, 제1 동작 확률 계열 및 제2 동작 확률 계열에 기반하여 더 정확한 타겟 동작 확률 계열을 획득할 수 있으므로, 상기 타겟 동작 확률 계열을 이용하여 시계열 객체 후보의 품질을 더 정확하게 평가함에 있어서 용이하다.
이해해야 할 것은, 본 발명의 실시예에서 제공한 후보 평가 방법의 구체적인 구현은 상기 명세서의 구체적인 설명을 참조할 수 있고, 간결함을 위해, 여기서 더이상 반복하여 설명하지 않는다.
도 9는 본 출원의 실시예에서 제공한 이미지 처리 장치의 구조의 예시도이다. 도 9에 도시된 바와 같이, 상기 이미지 처리 장치는,
비디오 스트림의 제1 특징 계열을 획득하기 위한 획득 유닛(901) - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ;
상기 제1 특징 계열에 기반하여, 제1 객체 경계 확률 계열을 획득하고 - 상기 제1 객체 경계 확률 계열은 상기 복수 개의 세그먼트가 객체 경계에 속해 있을 확률을 포함함 - , 상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 객체 경계 확률 계열을 획득 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - 하기 위한 처리 유닛(902); 및
상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 시계열 객체 후보 세트를 생성하기 위한 생성 유닛(903)을 포함한다.
본 출원의 실시예에 있어서, 융합된 확률 계열에 기반하여 시계열 객체 후보 세트를 생성하는 것은, 확률 계열을 더욱 정확하게 결정할 수 있음으로써, 생성된 시계열 후보의 경계가 더욱 정확해지도록 한다.
선택 가능한 구현 방식에 있어서, 시계열 반전 유닛(904)은, 상기 제1 특징 계열에 대해 시계열 반전 처리를 수행하여, 상기 제2 특징 계열을 획득하기 위한 것이다.
선택 가능한 구현 방식에 있어서, 생성 유닛(903)은 구체적으로, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득하고; 상기 타겟 경계 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것이다.
상기 구현 방식에 있어서, 이미지 처리 장치는 두 개의 객체 경계 확률 계열에 대해 융합 처리를 수행하여 더 정확한 객체 경계 확률 계열을 획득함으로써, 더 정확한 시계열 객체 후보 세트를 획득한다.
선택 가능한 구현 방식에 있어서, 생성 유닛(903)은 구체적으로, 상기 제2 객체 경계 확률 계열에 대해 시계열 반전 처리를 수행하여, 제3 객체 경계 확률 계열을 획득하고; 상기 제1 객체 경계 확률 계열 및 상기 제3 객체 경계 확률 계열을 융합하여, 상기 타겟 경계 확률 계열을 획득하기 위한 것이다.
선택 가능한 구현 방식에 있어서, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열 중 각 객체 경계 확률 계열은 시작 확률 계열 및 종료 확률 계열을 포함하고;
생성 유닛(903)은 구체적으로, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에서의 시작 확률 계열에 대해 융합 처리를 수행하여, 타겟 시작 확률 계열을 획득하는 것; 및
생성 유닛(903)은 구체적으로, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에서의 종료 확률 계열에 대해 융합 처리를 수행하여, 타겟 종료 확률 계열을 획득하는 것 중 적어도 하나를 수행하기 위한 것이며, 여기서, 상기 타겟 경계 확률 계열은 상기 타겟 초기 확률 계열 및 상기 타겟 종료 확률 계열 중 적어도 하나를 포함한다.
선택 가능한 구현 방식에 있어서, 생성 유닛(903)은 구체적으로, 상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것이고;
또는, 생성 유닛(903)은 구체적으로, 상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 상기 제1 객체 경계 확률 계열에 포함된 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것이며;
또는, 생성 유닛(903)은 구체적으로, 상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 상기 제2 객체 경계 확률 계열에 포함된 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것이며;
또는, 생성 유닛(903)은 구체적으로, 상기 제1 객체 경계 확률 계열에 포함된 시작 확률 계열 및 상기 타겟 경계 확률 계열에 포함된 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것이며;
또는, 생성 유닛(903)은 구체적으로, 상기 제2 객체 경계 확률 계열에 포함된 시작 확률 계열 및 상기 타겟 경계 확률 계열에 포함된 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것이다.
선택 가능한 구현 방식에 있어서, 생성 유닛(903)은 구체적으로, 상기 타겟 시작 확률 계열에 포함된 상기 복수 개의 세그먼트의 타겟 시작 확률에 기반하여, 제1 세그먼트 세트를 획득하고, 상기 타겟 종료 확률 계열에 포함된 상기 복수 개의 세그먼트의 타겟 종료 확률에 기반하여, 제2 세그먼트 세트를 획득하며 - 상기 제1 세그먼트 세트는 타겟 시작 확률이 제1 임계값보다 큰 세그먼트 및 타겟 시작 확률이 적어도 두 개의 인접한 세그먼트보다 높은 세그먼트 중 적어도 하나를 포함하고, 상기 제2 세그먼트 세트는 타겟 종료 확률이 제2 임계값보다 큰 세그먼트 및 타겟 종료 확률이 적어도 두 개의 인접한 세그먼트보다 높은 세그먼트 중 적어도 하나를 포함함 - ; 상기 제1 세그먼트 세트 및 상기 제2 세그먼트 세트에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것이다.
선택 가능한 구현 방식에 있어서, 상기 장치는,
상기 비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하고 - 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 길고, 상기 제1 시계열 객체 후보는 상기 시계열 객체 후보 세트에 포함됨 - ; 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하기 위한 특징 결정 유닛(905) - 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일함 - ; 및
상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 평가 유닛(906)을 포함한다.
선택 가능한 구현 방식에 있어서, 특징 결정 유닛(905)은 또한, 상기 제1 특징 계열 및 상기 제2 특징 계열 중 적어도 하나에 기반하여, 타겟 동작 확률 계열을 획득하고; 상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 상기 비디오 특징 계열을 획득하기 위한 것이다.
선택 가능한 구현 방식에 있어서, 특징 결정 유닛(905)은 구체적으로, 상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 비디오 특징 계열을 샘플링하여, 상기 단기간 후보 특징을 획득하기 위한 것이다.
선택 가능한 구현 방식에 있어서, 특징 결정 유닛(905)은 구체적으로, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하기 위한 것이고;
평가 유닛(906)은 구체적으로, 상기 제1 시계열 객체 후보의 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 것이다.
선택 가능한 구현 방식에 있어서, 특징 결정 유닛(905)은 구체적으로, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 대해 비국소적 주의력 작업을 실행하여, 중간 후보 특징을 획득하고; 상기 단기간 후보 특징 및 상기 중간 후보 특징을 스플라이싱하여, 상기 타겟 후보 특징을 획득하기 위한 것이다.
선택 가능한 구현 방식에 있어서, 특징 결정 유닛(905)은 구체적으로, 상기 비디오 특징 계열 중 참조 시간 구간에 대응되는 특징 데이터에 기반하여, 상기 장기간 후보 특징을 획득하기 위한 것이고, 여기서, 상기 참조 시간 구간은 상기 시계열 객체 후보 세트 중 첫 번째 시계열 객체의 시작 시간부터 마지막 시계열 객체의 종료 시간이다.
선택 가능한 구현 방식에 있어서, 평가 유닛(905)은 구체적으로, 상기 타겟 후보 특징을 후보 평가 네트워크에 입력하여 처리함으로써, 상기 제1 시계열 객체 후보의 적어도 두 개의 품질 지표를 획득하고 - 상기 적어도 두 개의 품질 지표 중 제1 지표는 상기 제1 시계열 객체 후보와 참값과의 공통부분이 상기 제1 시계열 객체 후보의 길이에서 차지하는 비율을 특성화하기 위한 것이고, 상기 적어도 두 개의 품질 지표 중 제2 지표는 상기 제1 시계열 객체 후보와 상기 참값과의 공통부분이 상기 참값의 길이에서 차지하는 비율을 특성화하기 위한 것임 - ; 상기 적어도 두 개의 품질 지표에 따라, 상기 평가 결과를 획득하기 위한 것이다.
선택 가능한 구현 방식에 있어서, 장치에 의해 실행된 이미지 처리 방법은 시계열 후보 생성 네트워크에 적용되고, 상기 시계열 후보 생성 네트워크는 후보 생성 네트워크 및 후보 평가 네트워크를 포함하며; 여기서, 상기 처리 유닛은 상기 후보 생성 네트워크의 기능을 구현하기 위한 것이며, 상기 평가 유닛은 상기 후보 평가 네트워크의 기능을 구현하기 위한 것이며;
상기 시계열 후보 생성 네트워크의 훈련 과정은,
훈련 샘플을 상기 시계열 후보 생성 네트워크에 입력하여 처리함으로써, 상기 후보 생성 네트워크에 의해 출력되는 샘플 시계열 후보 세트 및 상기 후보 평가 네트워크에 의해 출력되는 상기 샘플 시계열 후보 세트에 포함된 샘플 시계열 후보의 평가 결과를 획득하는 단계;
상기 훈련 샘플의 샘플 시계열 후보 세트 및 상기 샘플 시계열 후보 세트에 포함된 샘플 시계열 후보의 평가 결과와, 상기 훈련 샘플의 레이블 정보 사이와의 각각의 차이에 기반하여, 네트워크 손실을 획득하는 단계; 및
상기 네트워크 손실에 기반하여, 상기 시계열 후보 생성 네트워크의 네트워크 파라미터를 조정하는 단계를 포함한다.
도 10은 본 출원의 실시예에서 제공한 후보 평가 장치의 구조의 예시도이다. 도 10에 도시된 바와 같이, 상기 후보 평가 장치는,
비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하고 - 상기 비디오 특징 계열은 상기 비디오 스트림에 포함된 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터 및 상기 비디오 스트림에 기반하여 획득된 동작 확률 계열을 포함하고, 또는, 상기 비디오 특징 계열은 상기 비디오 스트림에 기반하여 획득된 동작 확률 계열이며, 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 길고, 상기 제1 시계열 객체 후보는 상기 비디오 스트림에 기반하여 획득된 시계열 객체 후보 세트를 포함함 - , 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득 - 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일함 - 하기 위한 특징 결정 유닛(1001); 및
상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 평가 유닛(1002)을 포함한다.
본 출원의 실시예에 있어서, 장기간 후보 특징 및 단기간 후보 특징 사이의 인터랙션 정보 및 다른 다중 입도 단서를 통합하여 풍부한 후보 특징을 생성함으로써, 후보 품질 평가의 정확성을 향상시킨다.
선택 가능한 구현 방식에 있어서, 상기 후보 평가 장치는,
제1 특징 계열 및 제2 특징 계열 중 적어도 하나에 기반하여, 타겟 동작 확률 계열을 획득하기 위한 처리 유닛(1003) - 상기 제1 특징 계열 및 상기 제2 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함하고, 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ; 및
상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 상기 비디오 특징 계열을 획득하기 위한 스플라이싱 유닛(1004)을 더 포함한다.
선택 가능한 구현 방식에 있어서, 특징 결정 유닛(1001)은 구체적으로, 상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 비디오 특징 계열을 샘플링하여, 상기 단기간 후보 특징을 획득하기 위한 것이다.
선택 가능한 구현 방식에 있어서, 특징 결정 유닛(1001)은 구체적으로, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하기 위한 것이고;
평가 유닛(1002)은 구체적으로, 상기 제1 시계열 객체 후보의 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 것이다.
선택 가능한 구현 방식에 있어서, 특징 결정 유닛(1001)은 구체적으로, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 대해 비국소적 주의력 작업을 실행하여, 중간 후보 특징을 획득하고; 상기 단기간 후보 특징 및 상기 중간 후보 특징을 스플라이싱하여, 상기 타겟 후보 특징을 획득하기 위한 것이다.
선택 가능한 구현 방식에 있어서, 특징 결정 유닛(1001)은 구체적으로, 상기 비디오 특징 계열 중 참조 시간 구간에 대응되는 특징 데이터에 기반하여, 상기 장기간 후보 특징을 획득하기 위한 것이고, 여기서, 상기 참조 시간 구간은 상기 시계열 객체 후보 세트 중 첫 번째 시계열 객체의 시작 시간부터 마지막 시계열 객체의 종료 시간이다.
선택 가능한 구현 방식에 있어서, 평가 유닛(1002)은 구체적으로, 상기 타겟 후보 특징을 후보 평가 네트워크에 입력하여 처리함으로써, 상기 제1 시계열 객체 후보의 적어도 두 개의 품질 지표를 획득하고 - 상기 적어도 두 개의 품질 지표 중 제1 지표는 상기 제1 시계열 객체 후보와 참값과의 공통부분이 상기 제1 시계열 객체 후보의 길이에서 차지하는 비율을 특성화하기 위한 것이고, 상기 적어도 두 개의 품질 지표 중 제2 지표는 상기 제1 시계열 객체 후보와 상기 참값과의 공통부분이 상기 참값의 길이에서 차지하는 비율을 특성화하기 위한 것임 - ; 상기 적어도 두 개의 품질 지표에 따라, 상기 평가 결과를 획득하기 위한 것이다.
도 11은 본 출원의 실시예에서 제공한 다른 후보 평가 장치의 구조의 예시도이다. 도 11에 도시된 바와 같이, 상기 후보 평가 장치는,
비디오 스트림의 제1 특징 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하기 위한 처리 유닛(1101) - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ;
상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 비디오 특징 계열을 획득하기 위한 스플라이싱 유닛(1102); 및
상기 비디오 특징 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 평가 유닛(1103)을 포함할 수 있다.
선택적으로, 평가 유닛(1103)은 구체적으로, 상기 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 타겟 후보 특징을 획득하고 - 상기 타겟 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일하며, 상기 제1 시계열 객체 후보는 상기 비디오 스트림에 기반하여 획득된 시계열 객체 후보 세트를 포함함 - ; 상기 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 것이다.
본 출원의 실시예에 있어서, 특징 계열 및 타겟 동작 확률 계열을 채널 차원에서 스플라이싱하여 더 많은 특징 정보를 포함하는 비디오 특징 계열을 획득하고, 샘플링으로 획득된 후보 특징에 포함된 정보는 더욱 풍부하다.
선택 가능한 구현 방식에 있어서, 처리 유닛(1101)은 구체적으로, 상기 제1 특징 계열에 기반하여, 제1 동작 확률 계열을 획득하고; 상기 제2 특징 계열에 기반하여, 제2 동작 확률 계열을 획득하며; 상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열을 융합하여 상기 타겟 동작 확률 계열을 획득하기 위한 것이다. 선택적으로, 상기 타겟 동작 확률 계열은 상기 제1 동작 확률 계열 또는 상기 제2 동작 확률 계열일 수 있다.
도 12는 본 출원의 실시예에서 제공한 또 다른 후보 평가 장치의 구조의 예시도이다. 도 12에 도시된 바와 같이, 상기 후보 평가 장치는,
비디오 스트림의 제1 특징 계열에 기반하여, 제1 동작 확률 계열을 획득하고 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ;
상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 동작 확률 계열을 획득하며 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ;
상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하기 위한 처리 유닛(1201); 및
상기 비디오 스트림의 타겟 동작 확률 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 평가 유닛(1202)을 포함할 수 있다.
선택적으로, 처리 유닛(1201)은 구체적으로, 상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 대해 융합 처리를 수행하여, 상기 타겟 동작 확률 계열을 획득하기 위한 것이다.
본 출원의 실시예에 있어서, 제1 동작 확률 계열 및 제2 동작 확률 계열에 기반하여 더 정확한 타겟 동작 확률 계열을 획득할 수 있으므로, 상기 타겟 동작 확률 계열을 이용하여 시계열 객체 후보의 품질을 더 정확하게 평가하도록 한다.
상기 이미지 처리 장치 및 후보 평가 장치의 각 유닛의 분할은 논리 기능적 분할일 뿐이고, 실제 구현할 경우 전부 또는 부분적으로 하나의 물리적 엔티티에 통합시킬 수 있으며, 물리적으로 분리될 수도 있는 것을 이해해야 한다. 예를 들어, 상기 각 유닛은 독립적으로 설치된 처리 요소일 수 있고, 동일한 칩에 통합되어 구현될 수도 있으며, 또한, 프로그램 코드의 형태로 컨트롤러에 저장 요소에 저장될 수도 있으며, 프로세서의 어느 한 처리 요소에 의해 상기 각 유닛의 기능이 호출되어 실행된다. 또한 각 유닛은 함께 통합될 수 있고, 독립적으로 구현될 수도 있다. 여기서 처리 요소는 신호의 처리 능력을 구비한 집적 회로 칩일 수 있다. 구현 과정에서, 상기 방법의 각 단계 또는 상기 각 유닛은 프로세서 요소에서의 하드웨어의 집적 논리 회로 또는 소프트웨어 형태의 명령어를 통해 완료될 수 있다. 상기 처리 요소는 중앙처리장치(Central Processing Unit, CPU)와 같은 범용 프로세서일 수 있고, 또한 상기 방법의 하나 또는 복수 개의 집적 회로를 실시하도록 구성될 수 있으며, 예를 들어, 하나 또는 복수 개의 주문형 집적 회로(Application-Specific Integrated Circuit, ASIC), 또는, 하나 또는 복수 개의 마이크로 프로세서(Digital Signal Processor, DSP), 또는, 하나 또는 복수 개의 필드 프로그래머블 게이트 어레이(Field-Programmable Gate Array, FPGA) 등이다.
도 13은 본 발명의 실시예에서 제공한 서버 구조의 예시도이고, 상기 서버(1300)는 구성 또는 성능이 상이함으로 인해 비교적 큰 차이를 생성할 수 있고, 하나 또는 하나 이상의 중앙처리장치(Central Processing Units, CPU)(1322)(예를 들어, 하나 또는 하나 이상의 프로세서) 및 메모리(1332), 하나 또는 하나 이상의 응용 프로그램(1342) 또는 데이터(1344)를 저장하는 저장 매체(1330)(예를 들어 하나 또는 하나 이상의 대용량 저장 기기)를 포함할 수 있다. 여기서, 메모리(1332) 및 저장 매체(1330)는 단기 저장 또는 영구 저장일 수 있다. 저장 매체(1330)에 저장된 프로그램은 하나 또는 하나 이상의 블록(도면에서 표시되지 않음)을 포함할 수 있고, 각 블록은 서버에서의 일련의 명령어 작업을 포함할 수 있다. 더 나아가, 중앙처리장치(1322)는 저장 매체(1330)와 통신하고, 서버(1300)에서 저장 매체(1330)에서의 일련의 명령어 작업을 실행하도록 설정될 수 있다. 서버(1300)는 본 출원에서 제공한 이미지 처리 장치일 수 있다.
서버(1300)는 또한 하나 또는 하나 이상의 전원(1326), 하나 또는 하나 이상의 유선 또는 무선 네트워크 인터페이스(1350), 하나 또는 하나 이상의 입력 출력 인터페이스(1358) 및 하나 또는 하나 이상의 운영체제(1341) 중 적어도 하나를 포함할 수 있으며, 예를 들어 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 등이다.
상기 실시예에서 서버에 의해 실행되는 단계는 상기 도 13에 도시된 서버 구조에 기반할 수 있다. 구체적으로, 중앙처리장치(1322)는 도 9 내지 도 12 중 각 유닛의 기능을 구현할 수 있다.
본 발명의 실시예에서 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 비디오 스트림의 제1 특징 계열을 획득하는 단계 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ; 상기 제1 특징 계열에 기반하여, 제1 객체 경계 확률 계열을 획득하는 단계 - 상기 제1 객체 경계 확률 계열은 상기 복수 개의 세그먼트가 객체 경계에 속해 있을 확률을 포함함 - ; 상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 객체 경계 확률 계열을 획득하는 단계 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ; 및 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 시계열 객체 후보 세트를 생성하는 단계를 구현한다.
본 발명의 실시예에서 컴퓨터 프로그램이 저장되어 있는 다른 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계 - 상기 비디오 특징 계열은 상기 비디오 스트림에 포함된 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터 및 상기 비디오 스트림에 기반하여 획득된 동작 확률 계열을 포함하고, 또는, 상기 비디오 특징 계열은 상기 비디오 스트림에 기반하여 획득된 동작 확률 계열이며, 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 길고, 상기 제1 시계열 객체 후보는 상기 비디오 스트림에 기반하여 획득된 시계열 객체 후보 세트를 포함함 - ; 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계 - 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일함 - ; 및 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 구현한다.
본 발명의 실시예에서 컴퓨터 프로그램이 저장되어 있는 또 다른 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1 특징 계열 및 제2 특징 계열 중 적어도 하나에 기반하여, 타겟 동작 확률 계열을 획득하는 단계 - 상기 제1 특징 계열 및 상기 제2 특징 계열은 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함하고, 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ; 상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 비디오 특징 계열을 획득하는 단계; 상기 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계 - 상기 타겟 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일하고, 상기 제1 시계열 객체 후보는 상기 비디오 스트림에 기반하여 획득된 시계열 객체 후보 세트를 포함함 - ; 및 상기 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 구현한다.
이상의 설명은 본 발명의 구체적인 실시형태일 뿐이지만, 본 발명의 보호 범위는 이에 한정되지 않으며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자라면 본 발명에 시작된 기술적 범위 내에서 쉽게 생각할 수 있는 다양한 동등한 효과의 변화 또는 교체를 쉽게 생각할 수 있으며, 이러한 트리밍 또는 교체는 본 발명의 보호 범위 내에 속해야 한다. 따라서, 본 출원의 보호 범위는 특허청구범위의 보호 범위를 참조으로 해야 한다.

Claims (80)

  1. 이미지 처리 방법으로서,
    비디오 스트림의 제1 특징 계열을 획득하는 단계 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ;
    상기 제1 특징 계열에 기반하여, 제1 객체 경계 확률 계열을 획득하는 단계 - 상기 제1 객체 경계 확률 계열은 상기 복수 개의 세그먼트가 객체 경계에 속해 있을 확률을 포함함 - ;
    상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 객체 경계 확률 계열을 획득하는 단계 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ; 및
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 시계열 객체 후보 세트를 생성하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  2. 제1항에 있어서,
    상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 객체 경계 확률 계열을 획득하기 전에, 상기 이미지 처리 방법은,
    상기 제1 특징 계열에 대해 시계열 반전 처리를 수행하여, 상기 제2 특징 계열을 획득하는 단계를 더 포함하는 것을 특징으로 하는 이미지 처리 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 시계열 객체 후보 세트를 생성하는 단계는,
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득하는 단계; 및
    상기 타겟 경계 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  4. 제3항에 있어서,
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득하는 단계는,
    상기 제2 객체 경계 확률 계열에 대해 시계열 반전 처리를 수행하여, 제3 객체 경계 확률 계열을 획득하는 단계; 및
    상기 제1 객체 경계 확률 계열 및 상기 제3 객체 경계 확률 계열을 융합하여, 상기 타겟 경계 확률 계열을 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  5. 제3항 또는 제4항에 있어서,
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열 중 각 객체 경계 확률 계열은 시작 확률 계열 및 종료 확률 계열을 포함하고;
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득하는 단계는,
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에서의 시작 확률 계열에 대해 융합 처리를 수행하여, 타겟 시작 확률 계열을 획득하는 단계; 및
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에서의 종료 확률 계열에 대해 융합 처리를 수행하여, 타겟 종료 확률 계열을 획득하는 단계 - 상기 타겟 경계 확률 계열은 상기 타겟 초기 확률 계열 및 상기 타겟 종료 확률 계열 중 적어도 하나를 포함함 - 중 적어도 하나를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  6. 제3항 내지 제5항 중 어느 한 항에 있어서,
    상기 타겟 경계 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계는,
    상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계;
    또는, 상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 상기 제1 객체 경계 확률 계열에 포함된 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계;
    또는, 상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 상기 제2 객체 경계 확률 계열에 포함된 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계;
    또는, 상기 제1 객체 경계 확률 계열에 포함된 시작 확률 계열 및 상기 타겟 경계 확률 계열에 포함된 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계;
    또는, 상기 제2 객체 경계 확률 계열에 포함된 시작 확률 계열 및 상기 타겟 경계 확률 계열에 포함된 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  7. 제6항에 있어서,
    상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계는,
    상기 타겟 시작 확률 계열에 포함된 상기 복수 개의 세그먼트의 타겟 시작 확률에 기반하여, 제1 세그먼트 세트를 획득하고, 상기 타겟 종료 확률 계열에 포함된 상기 복수 개의 세그먼트의 타겟 종료 확률에 기반하여, 제2 세그먼트 세트를 획득하는 단계 - 상기 제1 세그먼트 세트는 타겟 시작 확률이 제1 임계값보다 큰 세그먼트 및 타겟 시작 확률이 적어도 두 개의 인접한 세그먼트보다 높은 세그먼트 중 적어도 하나를 포함하고, 상기 제2 세그먼트 세트는 타겟 종료 확률이 제2 임계값보다 큰 세그먼트 및 타겟 종료 확률이 적어도 두 개의 인접한 세그먼트보다 높은 세그먼트 중 적어도 하나를 포함함 - ; 및
    상기 제1 세그먼트 세트 및 상기 제2 세그먼트 세트에 기반하여, 상기 시계열 객체 후보 세트를 생성하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 이미지 처리 방법은,
    상기 비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계 - 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 길고, 상기 제1 시계열 객체 후보는 상기 시계열 객체 후보 세트에 포함됨 - ;
    상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계 - 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일함 - ; 및
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 더 포함하는 것을 특징으로 하는 이미지 처리 방법.
  9. 제8항에 있어서,
    상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 장기간 후보 특징을 획득하기 전에, 상기 이미지 처리 방법은,
    상기 제1 특징 계열 및 상기 제2 특징 계열 중 적어도 하나에 기반하여, 타겟 동작 확률 계열을 획득하는 단계; 및
    상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 상기 비디오 특징 계열을 획득하는 단계를 더 포함하는 것을 특징으로 하는 이미지 처리 방법.
  10. 제8항 또는 제9항에 있어서,
    상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계는,
    상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 비디오 특징 계열을 샘플링하여, 상기 단기간 후보 특징을 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  11. 제8항 내지 제10항 중 어느 한 항에 있어서,
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는,
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계; 및
    상기 제1 시계열 객체 후보의 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  12. 제11항에 있어서,
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계는,
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 대해 비국소적 주의력 작업을 실행하여, 중간 후보 특징을 획득하는 단계; 및
    상기 단기간 후보 특징 및 상기 중간 후보 특징을 스플라이싱하여, 상기 타겟 후보 특징을 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  13. 제8항 내지 제10항 중 어느 한 항에 있어서,
    상기 비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계는,
    상기 비디오 특징 계열 중 참조 시간 구간에 대응되는 특징 데이터에 기반하여, 상기 장기간 후보 특징을 획득하는 단계 - 상기 참조 시간 구간은 상기 시계열 객체 후보 세트 중 첫 번째 시계열 객체의 시작 시간부터 마지막 시계열 객체의 종료 시간까지의 구간임 - 를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  14. 제8항 내지 제13항 중 어느 한 항에 있어서,
    상기 이미지 처리 방법은,
    상기 타겟 후보 특징을 후보 평가 네트워크에 입력하여 처리함으로써, 상기 제1 시계열 객체 후보의 적어도 두 개의 품질 지표를 획득하는 단계 - 상기 적어도 두 개의 품질 지표 중 제1 지표는 상기 제1 시계열 객체 후보와 참값과의 공통부분이 상기 제1 시계열 객체 후보의 길이에서 차지하는 비율을 특성화하기 위한 것이고, 상기 적어도 두 개의 품질 지표 중 제2 지표는 상기 제1 시계열 객체 후보와 상기 참값과의 공통부분이 상기 참값의 길이에서 차지하는 비율을 특성화하기 위한 것임 - ; 및
    상기 적어도 두 개의 품질 지표에 따라, 상기 평가 결과를 획득하는 단계를 더 포함하는 것을 특징으로 하는 이미지 처리 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서,
    상기 이미지 처리 방법은 시계열 후보 생성 네트워크에 적용되고, 상기 시계열 후보 생성 네트워크는 후보 생성 네트워크 및 후보 평가 네트워크를 포함하며;
    상기 시계열 후보 생성 네트워크의 훈련 과정은,
    훈련 샘플을 상기 시계열 후보 생성 네트워크에 입력하여 처리함으로써, 상기 후보 생성 네트워크에 의해 출력되는 샘플 시계열 후보 세트 및 상기 후보 평가 네트워크에 의해 출력되는 상기 샘플 시계열 후보 세트에 포함된 샘플 시계열 후보의 평가 결과를 획득하는 단계;
    상기 훈련 샘플의 샘플 시계열 후보 세트 및 상기 샘플 시계열 후보 세트에 포함된 샘플 시계열 후보의 평가 결과와, 상기 훈련 샘플의 레이블 정보 사이와의 각각의 차이에 기반하여, 네트워크 손실을 획득하는 단계; 및
    상기 네트워크 손실에 기반하여, 상기 시계열 후보 생성 네트워크의 네트워크 파라미터를 조정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  16. 후보 평가 방법으로서,
    비디오 스트림의 비디오 특징 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계 - 상기 비디오 특징 계열은 상기 비디오 스트림에 포함된 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함하고, 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 김 - ;
    상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계 - 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일함 - ; 및
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  17. 제16항에 있어서,
    상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 장기간 후보 특징을 획득하기 전에, 상기 후보 평가 방법은,
    제1 특징 계열 및 제2 특징 계열 중 적어도 하나에 기반하여, 타겟 동작 확률 계열을 획득하는 단계 - 상기 제1 특징 계열 및 상기 제2 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함하고, 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터의 배열 순서는 반대됨 - ; 및
    상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 상기 비디오 특징 계열을 획득하는 단계를 더 포함하는 것을 특징으로 하는 후보 평가 방법.
  18. 제16항 또는 제17항에 있어서,
    상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계는,
    상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 비디오 특징 계열을 샘플링하여, 상기 단기간 후보 특징을 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  19. 제16항 내지 제18항 중 어느 한 항에 있어서,
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는,
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계; 및
    상기 제1 시계열 객체 후보의 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  20. 제19항에 있어서,
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계는,
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 대해 비국소적 주의력 작업을 실행하여, 중간 후보 특징을 획득하는 단계; 및
    상기 단기간 후보 특징 및 상기 중간 후보 특징을 스플라이싱하여, 상기 타겟 후보 특징을 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  21. 제16항 내지 제20항 중 어느 한 항에 있어서,
    상기 비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계는,
    상기 비디오 특징 계열 중 참조 시간 구간에 대응되는 특징 데이터에 기반하여, 상기 장기간 후보 특징을 획득하는 단계 - 상기 참조 시간 구간은 상기 비디오 스트림의 시계열 객체 후보 세트 중 첫 번째 시계열 객체의 시작 시간부터 마지막 시계열 객체의 종료 시간까지의 구간이며, 상기 시계열 객체 후보 세트는 상기 제1 시계열 객체 후보를 포함함 - 를 포함하는 것을 특징으로 하는 후보 평가 방법.
  22. 제19항 내지 제21항 중 어느 한 항에 있어서,
    상기 제1 시계열 객체 후보의 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는,
    상기 타겟 후보 특징을 후보 평가 네트워크에 입력하여 처리함으로써, 상기 제1 시계열 객체 후보의 적어도 두 개의 품질 지표를 획득하는 단계 - 상기 적어도 두 개의 품질 지표 중 제1 지표는 상기 제1 시계열 객체 후보와 참값과의 공통부분이 상기 제1 시계열 객체 후보의 길이에서 차지하는 비율을 특성화하기 위한 것이고, 상기 적어도 두 개의 품질 지표 중 제2 지표는 상기 제1 시계열 객체 후보와 상기 참값과의 공통부분이 상기 참값의 길이에서 차지하는 비율을 특성화하기 위한 것임 - ; 및
    상기 적어도 두 개의 품질 지표에 따라, 상기 평가 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  23. 후보 평가 방법으로서,
    비디오 스트림의 제1 특징 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하는 단계 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ;
    상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 비디오 특징 계열을 획득하는 단계; 및
    상기 비디오 특징 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  24. 제23항에 있어서,
    상기 비디오 스트림의 제1 특징 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하는 단계는,
    상기 제1 특징 계열에 기반하여, 제1 동작 확률 계열을 획득하는 단계;
    상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 동작 확률 계열을 획득하는 단계 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ; 및
    상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 대해 융합 처리를 수행하여, 상기 타겟 동작 확률 계열을 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  25. 제24항에 있어서,
    상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 대해 융합 처리를 수행하여, 상기 타겟 동작 확률 계열을 획득하는 단계는,
    상기 제2 동작 확률 계열에 대해 시계열 반전 처리를 수행하여, 제3 동작 확률 계열을 획득하는 단계; 및
    상기 제1 동작 확률 계열 및 상기 제3 동작 확률 계열을 융합하여, 상기 타겟 동작 확률 계열을 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  26. 제23항 내지 제25항 중 어느 한 항에 있어서,
    상기 비디오 특징 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는,
    상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 비디오 특징 계열을 샘플링하여, 타겟 후보 특징을 획득하는 단계; 및
    상기 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  27. 제26항에 있어서,
    상기 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는,
    상기 타겟 후보 특징을 후보 평가 네트워크에 입력하여 처리함으로써, 상기 제1 시계열 객체 후보의 적어도 두 개의 품질 지표를 획득하는 단계 - 상기 적어도 두 개의 품질 지표 중 제1 지표는 상기 제1 시계열 객체 후보와 참값과의 공통부분이 상기 제1 시계열 객체 후보의 길이에서 차지하는 비율을 특성화하기 위한 것이고, 상기 적어도 두 개의 품질 지표 중 제2 지표는 상기 제1 시계열 객체 후보와 상기 참값과의 공통부분이 상기 참값의 길이에서 차지하는 비율을 특성화하기 위한 것임 - ; 및
    상기 적어도 두 개의 품질 지표에 따라, 상기 평가 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  28. 제24항 내지 제27항 중 어느 한 항에 있어서,
    상기 비디오 특징 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하기 전에, 상기 후보 평가 방법은,
    상기 제1 특징 계열에 기반하여, 제1 객체 경계 확률 계열을 획득하는 단계 - 상기 제1 객체 경계 확률 계열은 상기 복수 개의 세그먼트가 객체 경계에 속해 있을 확률을 포함함 - ;
    상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 객체 경계 확률 계열을 획득하는 단계; 및
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 상기 제1 시계열 객체 후보를 생성하는 단계를 더 포함하는 것을 특징으로 하는 후보 평가 방법.
  29. 제28항에 있어서,
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 상기 제1 시계열 객체 후보를 생성하는 단계는,
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득하는 단계; 및
    상기 타겟 경계 확률 계열에 기반하여, 상기 제1 시계열 객체 후보를 생성하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  30. 제29항에 있어서,
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득하는 단계는,
    상기 제2 객체 경계 확률 계열에 대해 시계열 반전 처리를 수행하여, 제3 객체 경계 확률 계열을 획득하는 단계; 및
    상기 제1 객체 경계 확률 계열 및 상기 제3 객체 경계 확률 계열을 융합하여, 상기 타겟 경계 확률 계열을 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  31. 후보 평가 방법으로서,
    비디오 스트림의 제1 특징 계열에 기반하여, 제1 동작 확률 계열을 획득하는 단계 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ;
    상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 동작 확률 계열을 획득하는 단계 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ;
    상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하는 단계; 및
    상기 비디오 스트림의 타겟 동작 확률 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  32. 제31항에 있어서,
    상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하는 단계는,
    상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 대해 융합 처리를 수행하여, 상기 타겟 동작 확률 계열을 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  33. 제32항에 있어서,
    상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 대해 융합 처리를 수행하여, 상기 타겟 동작 확률 계열을 획득하는 단계는,
    상기 제2 동작 확률 계열에 대해 시계열 반전을 수행하여, 제3 동작 확률 계열을 획득하는 단계; 및
    상기 제1 동작 확률 계열 및 상기 제3 동작 확률 계열을 융합하여, 상기 타겟 동작 확률 계열을 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  34. 제31항 내지 제33항 중 어느 한 항에 있어서,
    상기 비디오 스트림의 타겟 동작 확률 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는,
    상기 타겟 동작 확률 계열에 기반하여, 상기 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계 - 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 김 - ;
    상기 타겟 동작 확률 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계 - 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일함 - ; 및
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  35. 제34항에 있어서,
    상기 타겟 동작 확률 계열에 기반하여, 상기 제1 시계열 객체 후보의 장기간 후보 특징을 획득하는 단계는,
    상기 타겟 동작 확률 계열을 샘플링하여, 상기 장기간 후보 특징을 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  36. 제34항에 있어서,
    상기 타겟 동작 확률 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하는 단계는,
    상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 타겟 동작 확률 계열을 샘플링하여, 상기 단기간 후보 특징을 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  37. 제34항 내지 제36항 중 어느 한 항에 있어서,
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계는,
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계; 및
    상기 제1 시계열 객체 후보의 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  38. 제37항에 있어서,
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하는 단계는,
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 대해 비국소적 주의력 작업을 실행하여, 중간 후보 특징을 획득하는 단계; 및
    상기 단기간 후보 특징 및 상기 중간 후보 특징을 스플라이싱하여, 상기 타겟 후보 특징을 획득하는 단계를 포함하는 것을 특징으로 하는 후보 평가 방법.
  39. 이미지 처리 장치로서,
    비디오 스트림의 제1 특징 계열을 획득하기 위한 획득 유닛 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ;
    상기 제1 특징 계열에 기반하여, 제1 객체 경계 확률 계열을 획득 - 상기 제1 객체 경계 확률 계열은 상기 복수 개의 세그먼트가 객체 경계에 속해 있을 확률을 포함함 - 하고, 상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 객체 경계 확률 계열을 획득 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - 하기 위한 처리 유닛;
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 시계열 객체 후보 세트를 생성하기 위한 생성 유닛을 포함하는 것을 특징으로 하는 이미지 처리 장치.
  40. 제39항에 있어서,
    상기 이미지 처리 장치는,
    상기 제1 특징 계열에 대해 시계열 반전 처리를 수행하여, 상기 제2 특징 계열을 획득하기 위한 시계열 반전 유닛을 더 포함하는 것을 특징으로 하는 이미지 처리 장치.
  41. 제39항 또는 제40항에 있어서,
    상기 생성 유닛은 구체적으로, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득하고; 상기 타겟 경계 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  42. 제41항에 있어서,
    상기 생성 유닛은 구체적으로, 상기 제2 객체 경계 확률 계열에 대해 시계열 반전 처리를 수행하여, 제3 객체 경계 확률 계열을 획득하고; 상기 제1 객체 경계 확률 계열 및 상기 제3 객체 경계 확률 계열을 융합하여, 상기 타겟 경계 확률 계열을 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  43. 제41항 또는 제42항에 있어서,
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열 중 각 객체 경계 확률 계열은 시작 확률 계열 및 종료 확률 계열을 포함하고;
    상기 생성 유닛은 구체적으로, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에서의 시작 확률 계열에 대해 융합 처리를 수행하여, 타겟 시작 확률 계열을 획득하는 것; 및
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에서의 종료 확률 계열에 대해 융합 처리를 수행하여, 타겟 종료 확률 계열을 획득하는 것 - 상기 타겟 경계 확률 계열은 상기 타겟 초기 확률 계열 및 상기 타겟 종료 확률 계열 중 적어도 하나를 포함함 - 중 적어도 하나를 수행하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  44. 제41항 내지 제43항 중 어느 한 항에 있어서,
    상기 생성 유닛은 구체적으로, 상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것이고;
    또는, 상기 생성 유닛은 구체적으로, 상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 상기 제1 객체 경계 확률 계열에 포함된 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것이며;
    또는, 상기 생성 유닛은 구체적으로, 상기 타겟 경계 확률 계열에 포함된 타겟 시작 확률 계열 및 상기 제2 객체 경계 확률 계열에 포함된 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것이며;
    또는, 상기 생성 유닛은 구체적으로, 상기 제1 객체 경계 확률 계열에 포함된 시작 확률 계열 및 상기 타겟 경계 확률 계열에 포함된 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것이며;
    또는, 상기 생성 유닛은 구체적으로, 상기 제2 객체 경계 확률 계열에 포함된 시작 확률 계열 및 상기 타겟 경계 확률 계열에 포함된 타겟 종료 확률 계열에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  45. 제44항에 있어서,
    상기 생성 유닛은 구체적으로, 상기 타겟 시작 확률 계열에 포함된 상기 복수 개의 세그먼트의 타겟 시작 확률에 기반하여, 제1 세그먼트 세트를 획득하고, 상기 타겟 종료 확률 계열에 포함된 상기 복수 개의 세그먼트의 타겟 종료 확률에 기반하여, 제2 세그먼트 세트를 획득하며 - 상기 제1 세그먼트 세트는 타겟 시작 확률이 제1 임계값보다 큰 세그먼트 및 타겟 시작 확률이 적어도 두 개의 인접한 세그먼트보다 높은 세그먼트 중 적어도 하나를 포함하고, 상기 제2 세그먼트 세트는 타겟 종료 확률이 제2 임계값보다 큰 세그먼트 및 타겟 종료 확률이 적어도 두 개의 인접한 세그먼트보다 높은 세그먼트 중 적어도 하나를 포함함 - ;
    상기 제1 세그먼트 세트 및 상기 제2 세그먼트 세트에 기반하여, 상기 시계열 객체 후보 세트를 생성하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  46. 제39항 내지 제45항 중 어느 한 항에 있어서,
    상기 이미지 처리 장치는,
    상기 비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하고 - 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 길고, 상기 제1 시계열 객체 후보는 상기 시계열 객체 후보 세트에 포함됨 - ; 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하기 위한 특징 결정 유닛 - 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일함 - ; 및
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 평가 유닛을 더 포함하는 것을 특징으로 하는 이미지 처리 장치.
  47. 제46항에 있어서,
    상기 특징 결정 유닛은 또한, 상기 제1 특징 계열 및 상기 제2 특징 계열 중 적어도 하나에 기반하여, 타겟 동작 확률 계열을 획득하고; 상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 상기 비디오 특징 계열을 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  48. 제46항 또는 제47항에 있어서,
    상기 특징 결정 유닛은 구체적으로, 상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 비디오 특징 계열을 샘플링하여, 상기 단기간 후보 특징을 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  49. 제46항 내지 제48항에 있어서,
    상기 특징 결정 유닛은 구체적으로, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하기 위한 것이고;
    상기 평가 유닛은 구체적으로, 상기 제1 시계열 객체 후보의 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  50. 제49항에 있어서,
    상기 특징 결정 유닛은 구체적으로, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 대해 비국소적 주의력 작업을 실행하여, 중간 후보 특징을 획득하고; 상기 단기간 후보 특징 및 상기 중간 후보 특징을 스플라이싱하여, 상기 타겟 후보 특징을 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  51. 제46항 내지 제48항 중 어느 한 항에 있어서,
    상기 특징 결정 유닛은 구체적으로, 상기 비디오 특징 계열 중 참조 시간 구간에 대응되는 특징 데이터에 기반하여, 상기 장기간 후보 특징을 획득하기 위한 것 - 상기 참조 시간 구간은 상기 시계열 객체 후보 세트 중 첫 번째 시계열 객체의 시작 시간부터 마지막 시계열 객체의 종료 시간까지의 구간임 - 임을 특징으로 하는 이미지 처리 장치.
  52. 제46항 내지 제51항 중 어느 한 항에 있어서,
    상기 평가 유닛은 구체적으로, 상기 타겟 후보 특징을 후보 평가 네트워크에 입력하여 처리함으로써, 상기 제1 시계열 객체 후보의 적어도 두 개의 품질 지표를 획득하고 - 상기 적어도 두 개의 품질 지표 중 제1 지표는 상기 제1 시계열 객체 후보와 참값과의 공통부분이 상기 제1 시계열 객체 후보의 길이에서 차지하는 비율을 특성화하기 위한 것이고, 상기 적어도 두 개의 품질 지표 중 제2 지표는 상기 제1 시계열 객체 후보와 상기 참값과의 공통부분이 상기 참값의 길이에서 차지하는 비율을 특성화하기 위한 것임 - ; 상기 적어도 두 개의 품질 지표에 따라, 상기 평가 결과를 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  53. 제39항 내지 제52항 중 어느 한 항에 있어서,
    상기 이미지 처리 장치에 의해 실행되는 이미지 처리 방법은 시계열 후보 생성 네트워크에 적용되며, 상기 시계열 후보 생성 네트워크는 후보 생성 네트워크 및 후보 평가 네트워크를 포함하며; 상기 처리 유닛은 상기 후보 생성 네트워크의 기능을 구현하기 위한 것이고, 상기 평가 유닛은 상기 후보 평가 네트워크의 기능을 구현하기 위한 것이며;
    상기 시계열 후보 생성 네트워크의 훈련 과정은,
    훈련 샘플을 상기 시계열 후보 생성 네트워크에 입력하여 처리함으로써, 상기 후보 생성 네트워크에 의해 출력되는 샘플 시계열 후보 세트 및 상기 후보 평가 네트워크에 의해 출력되는 상기 샘플 시계열 후보 세트에 포함된 샘플 시계열 후보의 평가 결과를 획득하는 단계;
    상기 훈련 샘플의 샘플 시계열 후보 세트 및 상기 샘플 시계열 후보 세트에 포함된 샘플 시계열 후보의 평가 결과와, 상기 훈련 샘플의 레이블 정보 사이와의 각각의 차이에 기반하여, 네트워크 손실을 획득하는 단계; 및
    상기 네트워크 손실에 기반하여, 상기 시계열 후보 생성 네트워크의 네트워크 파라미터를 조정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 장치.
  54. 후보 평가 장치로서,
    비디오 스트림의 비디오 특징 계열에 기반하여, 제1 시계열 객체 후보의 장기간 후보 특징을 획득하고 - 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 길고, 상기 제1 시계열 객체 후보는 상기 시계열 객체 후보 세트에 포함됨 - ; 상기 비디오 스트림의 비디오 특징 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하기 위한 특징 결정 유닛 - 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일함 - ; 및
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 평가 유닛을 포함하는 것을 특징으로 하는 후보 평가 장치.
  55. 제54항에 있어서,
    상기 후보 평가 장치는,
    제1 특징 계열 및 제2 특징 계열 중 적어도 하나에 기반하여, 타겟 동작 확률 계열을 획득하기 위한 처리 유닛 - 상기 제1 특징 계열 및 상기 제2 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함하고, 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ; 및
    상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 상기 비디오 특징 계열을 획득하기 위한 스플라이싱 유닛을 더 포함하는 것을 특징으로 하는 후보 평가 장치.
  56. 제54항 또는 제55항에 있어서,
    상기 특징 결정 유닛은 구체적으로, 상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 비디오 특징 계열을 샘플링하여, 상기 단기간 후보 특징을 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  57. 제54항 내지 제56항 중 어느 한 항에 있어서,
    상기 특징 결정 유닛은 구체적으로, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하기 위한 것이고;
    상기 평가 유닛은 구체적으로, 상기 제1 시계열 객체 후보의 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  58. 제57항에 있어서,
    상기 특징 결정 유닛은 구체적으로, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 대해 비국소적 주의력 작업을 실행하여, 중간 후보 특징을 획득하고; 상기 단기간 후보 특징 및 상기 중간 후보 특징을 스플라이싱하여, 상기 타겟 후보 특징을 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  59. 제54항 내지 제58항 중 어느 한 항에 있어서,
    상기 특징 결정 유닛은 구체적으로, 상기 비디오 특징 계열 중 참조 시간 구간에 대응되는 특징 데이터에 기반하여, 상기 장기간 후보 특징을 획득하기 위한 것 - 상기 참조 시간 구간은 상기 시계열 객체 후보 세트 중 첫 번째 시계열 객체의 시작 시간부터 마지막 시계열 객체의 종료 시간까지의 구간임 - 임을 특징으로 하는 후보 평가 장치.
  60. 제57항 내지 제59항 중 어느 한 항에 있어서,
    상기 평가 유닛은 구체적으로, 상기 타겟 후보 특징을 후보 평가 네트워크에 입력하여 처리함으로써, 상기 제1 시계열 객체 후보의 적어도 두 개의 품질 지표를 획득하고 - 상기 적어도 두 개의 품질 지표 중 제1 지표는 상기 제1 시계열 객체 후보와 참값과의 공통부분이 상기 제1 시계열 객체 후보의 길이에서 차지하는 비율을 특성화하기 위한 것이고, 상기 적어도 두 개의 품질 지표 중 제2 지표는 상기 제1 시계열 객체 후보와 상기 참값과의 공통부분이 상기 참값의 길이에서 차지하는 비율을 특성화하기 위한 것임 - ; 상기 적어도 두 개의 품질 지표에 따라, 상기 평가 결과를 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  61. 후보 평가 장치로서,
    비디오 스트림의 제1 특징 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하기 위한 처리 유닛 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ;
    상기 제1 특징 계열 및 상기 타겟 동작 확률 계열을 스플라이싱하여, 비디오 특징 계열을 획득하기 위한 스플라이싱 유닛; 및
    상기 비디오 특징 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 평가 유닛을 포함하는 것을 특징으로 하는 후보 평가 장치.
  62. 제61항에 있어서,
    상기 처리 유닛은 구체적으로, 상기 제1 특징 계열에 기반하여, 제1 동작 확률 계열을 획득하고;
    상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 동작 확률 계열을 획득하며 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ;
    상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 대해 융합 처리를 수행하여, 상기 타겟 동작 확률 계열을 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  63. 제62항에 있어서,
    상기 처리 유닛은 구체적으로, 상기 제2 동작 확률 계열에 대해 시계열 반전 처리를 수행하여, 제3 동작 확률 계열을 획득하고;
    상기 제1 동작 확률 계열 및 상기 제3 동작 확률 계열을 융합하여, 상기 타겟 동작 확률 계열을 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  64. 제61항 내지 제63항 중 어느 한 항에 있어서,
    상기 평가 유닛은 구체적으로, 상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 비디오 특징 계열을 샘플링하여, 타겟 후보 특징을 획득하고;
    상기 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  65. 제64항에 있어서,
    상기 평가 유닛은 구체적으로, 상기 타겟 후보 특징을 후보 평가 네트워크에 입력하여 처리함으로써, 상기 제1 시계열 객체 후보의 적어도 두 개의 품질 지표를 획득하고 - 상기 적어도 두 개의 품질 지표 중 제1 지표는 상기 제1 시계열 객체 후보와 참값과의 공통부분이 상기 제1 시계열 객체 후보의 길이에서 차지하는 비율을 특성화하기 위한 것이고, 상기 적어도 두 개의 품질 지표 중 제2 지표는 상기 제1 시계열 객체 후보와 상기 참값과의 공통부분이 상기 참값의 길이에서 차지하는 비율을 특성화하기 위한 것임 - ;
    상기 적어도 두 개의 품질 지표에 따라, 상기 평가 결과를 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  66. 제62항 내지 제65항 중 어느 한 항에 있어서,
    상기 처리 유닛은 또한, 상기 제1 특징 계열에 기반하여, 제1 객체 경계 확률 계열을 획득하고 - 상기 제1 객체 경계 확률 계열은 상기 복수 개의 세그먼트가 객체 경계에 속해 있을 확률을 포함함 - ;
    상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 객체 경계 확률 계열을 획득하며;
    상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 기반하여, 상기 제1 시계열 객체 후보를 생성하기 위한 것임을 특징으로 하는 후보 평가 장치.
  67. 제66항에 있어서,
    상기 처리 유닛은 구체적으로, 상기 제1 객체 경계 확률 계열 및 상기 제2 객체 경계 확률 계열에 대해 융합 처리를 수행하여, 타겟 경계 확률 계열을 획득하고;
    상기 타겟 경계 확률 계열에 기반하여, 상기 제1 시계열 객체 후보를 생성하기 위한 것임을 특징으로 하는 후보 평가 장치.
  68. 제66항에 있어서,
    상기 처리 유닛은 구체적으로, 상기 제2 객체 경계 확률 계열에 대해 시계열 반전 처리를 수행하여, 제3 객체 경계 확률 계열을 획득하고;
    상기 제1 객체 경계 확률 계열 및 상기 제3 객체 경계 확률 계열을 융합하여, 상기 타겟 경계 확률 계열을 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  69. 후보 평가 장치로서,
    비디오 스트림의 제1 특징 계열에 기반하여, 제1 동작 확률 계열을 획득하고 - 상기 제1 특징 계열은 상기 비디오 스트림의 복수 개의 세그먼트 중 각 세그먼트의 특징 데이터를 포함함 - ;
    상기 비디오 스트림의 제2 특징 계열에 기반하여, 제2 동작 확률 계열을 획득하며 - 상기 제2 특징 계열 및 상기 제1 특징 계열에 포함된 특징 데이터는 동일하고 배열 순서는 반대됨 - ;
    상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 기반하여, 상기 비디오 스트림의 타겟 동작 확률 계열을 획득하기 위한 처리 유닛; 및
    상기 비디오 스트림의 타겟 동작 확률 계열에 기반하여, 상기 비디오 스트림의 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 평가 유닛을 포함하는 것을 특징으로 하는 후보 평가 장치.
  70. 제69항에 있어서,
    상기 처리 유닛은 구체적으로, 상기 제1 동작 확률 계열 및 상기 제2 동작 확률 계열에 대해 융합 처리를 수행하여, 상기 타겟 동작 확률 계열을 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  71. 제70항에 있어서,
    상기 처리 유닛은 구체적으로, 상기 제2 동작 확률 계열에 대해 시계열 반전을 수행하여, 제3 동작 확률 계열을 획득하고;
    상기 제1 동작 확률 계열 및 상기 제3 동작 확률 계열을 융합하여, 상기 타겟 동작 확률 계열을 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  72. 제69항 내지 제71항 중 어느 한 항에 있어서,
    상기 평가 유닛은 구체적으로, 상기 타겟 동작 확률 계열에 기반하여, 상기 제1 시계열 객체 후보의 장기간 후보 특징을 획득하고 - 상기 장기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대보다 김 - ;
    상기 타겟 동작 확률 계열에 기반하여, 상기 제1 시계열 객체 후보의 단기간 후보 특징을 획득하며 - 상기 단기간 후보 특징에 대응되는 시간대는 상기 제1 시계열 객체 후보에 대응되는 시간대와 동일함 - ;
    상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  73. 제72항에 있어서,
    상기 평가 유닛은 구체적으로, 상기 타겟 동작 확률 계열을 샘플링하여, 상기 장기간 후보 특징을 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  74. 제72항에 있어서,
    상기 평가 유닛은 구체적으로, 상기 제1 시계열 객체 후보에 대응되는 시간대에 기반하여, 상기 타겟 동작 확률 계열을 샘플링하여, 상기 단기간 후보 특징을 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  75. 제72항 내지 제74항 중 어느 한 항에 있어서,
    상기 평가 유닛은 구체적으로, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 타겟 후보 특징을 획득하고;
    상기 제1 시계열 객체 후보의 타겟 후보 특징에 기반하여, 상기 제1 시계열 객체 후보의 평가 결과를 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  76. 제75항에 있어서,
    상기 평가 유닛은 구체적으로, 상기 장기간 후보 특징 및 상기 단기간 후보 특징에 대해 비국소적 주의력 작업을 실행하여, 중간 후보 특징을 획득하고;
    상기 단기간 후보 특징 및 상기 중간 후보 특징을 스플라이싱하여, 상기 타겟 후보 특징을 획득하기 위한 것임을 특징으로 하는 후보 평가 장치.
  77. 칩으로서,
    상기 칩은 프로세서와 데이터 인터페이스를 포함하고, 상기 프로세서는 상기 데이터 인터페이스를 통해 메모리에 저장된 명령어를 판독하여, 제1항 내지 제38항 중 어느 한 항에 따른 방법을 실행하는 것을 특징으로 하는 칩.
  78. 전자 기기로서,
    프로그램을 저장하기 위한 메모리; 및 상기 메모리에 저장된 상기 프로그램을 실행하기 위한 프로세서를 포함하고, 상기 프로그램이 실행될 경우, 상기 프로세서는 제1항 내지 제38항 중 어느 한 항에 따른 방법을 실행하기 위한 것임을 특징으로 하는 전자 기기.
  79. 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 저장 매체에는 컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램은 프로그램 명령어를 포함하며, 상기 프로그램 명령어가 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 제1항 내지 제38 중 어느 한 항에 따른 방법을 실행하도록 하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
  80. 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 프로그램 제품은 프로그램 명령어를 포함하고, 상기 프로그램 명령어가 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 제1항 내지 제38항 중 어느 한 항에 따른 방법을 실행하도록 하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
KR1020207023267A 2019-06-24 2019-10-16 이미지 처리 방법, 후보 평가 방법 및 관련 장치 KR20210002355A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910552360.5A CN110263733B (zh) 2019-06-24 2019-06-24 图像处理方法、提名评估方法及相关装置
CN201910552360.5 2019-06-24
PCT/CN2019/111476 WO2020258598A1 (zh) 2019-06-24 2019-10-16 图像处理方法、提名评估方法及相关装置

Publications (1)

Publication Number Publication Date
KR20210002355A true KR20210002355A (ko) 2021-01-07

Family

ID=67921137

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207023267A KR20210002355A (ko) 2019-06-24 2019-10-16 이미지 처리 방법, 후보 평가 방법 및 관련 장치

Country Status (7)

Country Link
US (1) US20230094192A1 (ko)
JP (1) JP7163397B2 (ko)
KR (1) KR20210002355A (ko)
CN (1) CN110263733B (ko)
SG (1) SG11202009661VA (ko)
TW (1) TWI734375B (ko)
WO (1) WO2020258598A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263733B (zh) * 2019-06-24 2021-07-23 上海商汤智能科技有限公司 图像处理方法、提名评估方法及相关装置
CN111327949B (zh) * 2020-02-28 2021-12-21 华侨大学 一种视频的时序动作检测方法、装置、设备及存储介质
CN111368786A (zh) * 2020-03-16 2020-07-03 平安科技(深圳)有限公司 动作区域提取方法、装置、设备及计算机可读存储介质
CN112200103A (zh) * 2020-04-07 2021-01-08 北京航空航天大学 一种基于图注意力的视频分析***和方法
CN112906586B (zh) * 2021-02-26 2024-05-24 上海商汤科技开发有限公司 时序动作提名生成方法和相关产品
CN114627556B (zh) 2022-03-15 2023-04-07 北京百度网讯科技有限公司 动作检测方法、动作检测装置、电子设备以及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8171030B2 (en) * 2007-06-18 2012-05-01 Zeitera, Llc Method and apparatus for multi-dimensional content search and video identification
TWI430664B (zh) * 2011-04-13 2014-03-11 Chunghwa Telecom Co Ltd Intelligent Image Monitoring System Object Track Tracking System
CN103902966B (zh) * 2012-12-28 2018-01-05 北京大学 基于序列时空立方体特征的视频交互事件分析方法及装置
CN104200494B (zh) * 2014-09-10 2017-05-17 北京航空航天大学 一种基于光流的实时视觉目标跟踪方法
US9881380B2 (en) * 2016-02-16 2018-01-30 Disney Enterprises, Inc. Methods and systems of performing video object segmentation
CN108234821B (zh) * 2017-03-07 2020-11-06 北京市商汤科技开发有限公司 检测视频中的动作的方法、装置和***
CN108229280B (zh) * 2017-04-20 2020-11-13 北京市商汤科技开发有限公司 时域动作检测方法和***、电子设备、计算机存储介质
GB2565775A (en) * 2017-08-21 2019-02-27 Nokia Technologies Oy A Method, an apparatus and a computer program product for object detection
CN110472647B (zh) * 2018-05-10 2022-06-24 百度在线网络技术(北京)有限公司 基于人工智能的辅助面试方法、装置及存储介质
CN108898614B (zh) * 2018-06-05 2022-06-21 南京大学 一种基于层次式时空区域合并的物体轨迹提议方法
CN108875610B (zh) * 2018-06-05 2022-04-05 北京大学深圳研究生院 一种基于边界查找的用于视频中动作时间轴定位的方法
US10936630B2 (en) * 2018-09-13 2021-03-02 Microsoft Technology Licensing, Llc Inferring topics with entity linking and ontological data
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN110263733B (zh) * 2019-06-24 2021-07-23 上海商汤智能科技有限公司 图像处理方法、提名评估方法及相关装置

Also Published As

Publication number Publication date
US20230094192A1 (en) 2023-03-30
TW202101384A (zh) 2021-01-01
CN110263733A (zh) 2019-09-20
JP7163397B2 (ja) 2022-10-31
SG11202009661VA (en) 2021-01-28
WO2020258598A1 (zh) 2020-12-30
CN110263733B (zh) 2021-07-23
JP2021531523A (ja) 2021-11-18
TWI734375B (zh) 2021-07-21

Similar Documents

Publication Publication Date Title
KR20210002355A (ko) 이미지 처리 방법, 후보 평가 방법 및 관련 장치
CN108804619B (zh) 兴趣偏好预测方法、装置、计算机设备及存储介质
Shen et al. Pcw-net: Pyramid combination and warping cost volume for stereo matching
CN110046706B (zh) 模型生成方法、装置及服务器
CN111294819B (zh) 一种网络优化方法及装置
KR102047953B1 (ko) 얼굴 인식 시스템 및 방법
Zheng et al. Model compression based on differentiable network channel pruning
CN113539304B (zh) 视频拆条方法和装置
CN113869521A (zh) 构建预测模型的方法、装置、计算设备和存储介质
JP2022548293A (ja) 目標検出モデルの自動モデリング方法及び装置
CN112200173B (zh) 多网络模型训练方法、图像标注方法和人脸图像识别方法
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
CN108681490B (zh) 针对rpc信息的向量处理方法、装置以及设备
CN111723227B (zh) 基于人工智能和互联网的数据分析方法及云计算服务平台
CN112906586A (zh) 时序动作提名生成方法和相关产品
CN111291886B (zh) 神经网络模型的融合训练方法及装置
CN110728359B (zh) 搜索模型结构的方法、装置、设备和存储介质
CN110956127A (zh) 用于生成特征向量的方法、装置、电子设备和介质
CN115146844A (zh) 一种基于多任务学习的多模式交通短时客流协同预测方法
CN111353428B (zh) 动作信息识别方法、装置、电子设备及存储介质
KR102455745B1 (ko) 오브젝트 검출 방법, 장치, 장비 및 컴퓨터 판독 가능 저장 매체
Chen et al. Class‐wise boundary regression by uncertainty in temporal action detection
CN115858911A (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
CN112153370B (zh) 基于群敏感对比回归的视频动作质量评价方法及***
CN110991508A (zh) 异常检测器推荐方法、装置及设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E902 Notification of reason for refusal
E601 Decision to refuse application