KR102365521B1 - 비디오 인식 및 훈련 방법과 장치, 전자 기기와 매체 - Google Patents

비디오 인식 및 훈련 방법과 장치, 전자 기기와 매체 Download PDF

Info

Publication number
KR102365521B1
KR102365521B1 KR1020197029255A KR20197029255A KR102365521B1 KR 102365521 B1 KR102365521 B1 KR 102365521B1 KR 1020197029255 A KR1020197029255 A KR 1020197029255A KR 20197029255 A KR20197029255 A KR 20197029255A KR 102365521 B1 KR102365521 B1 KR 102365521B1
Authority
KR
South Korea
Prior art keywords
key frame
frame
video
feature
fusion
Prior art date
Application number
KR1020197029255A
Other languages
English (en)
Other versions
KR20190126366A (ko
Inventor
탕공루이 헤
홍웨이 진
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20190126366A publication Critical patent/KR20190126366A/ko
Application granted granted Critical
Publication of KR102365521B1 publication Critical patent/KR102365521B1/ko

Links

Images

Classifications

    • G06K9/6256
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

본원의 실시예는 비디오 인식 및 훈련 방법과 장치, 전자 기기와 매체를 개시하였고, 여기서, 비디오 인식 방법은, 비디오 중의 제1 키 프레임의 특징을 추출하는 단계; 상기 제1 키 프레임의 특징과 상기 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하여, 상기 제1 키 프레임의 융합 특징을 획득하는 단계 - 상기 제2 키 프레임은 상기 비디오에서 검출 타이밍이 상기 제1 키 프레임 이전임 - ; 및 상기 제1 키 프레임의 융합 특징에 따라 상기 제1 키 프레임에 대해 검출을 진행하여, 상기 제1 키 프레임의 객체 검출 결과를 획득하는 단계를 포함한다. 본원의 실시예는 반복적인 멀티 프레임 특징 융합 방식을 통해, 비디오에서 이러한 키 프레임의 공유 특징에 포함된 정보를 강화시키고, 프레임 인식의 정확도 및 비디오 인식 효율을 향상시킨다.

Description

비디오 인식 및 훈련 방법과 장치, 전자 기기와 매체
관련 출원의 상호 참조
본 출원은 2017년 12월 13일에 중국 특허청에 제출한 출원 번호가 CN201711329718.5이고, 발명의 명칭이 "비디오 인식 및 훈련 방법과 장치, 전자 기기, 프로그램과 매체"인 중국 특허 출원의 우선권을 요청하며, 그 전부 내용을 인용하여 본 출원에 결합하였다.
본원은 컴퓨터 시각 기술, 특히 비디오 인식 및 훈련 방법과 장치, 전자 기기와 매체에 관한 것이다.
비디오 인식은 딥 러닝(deep learning) 방법에 기반하여 구현한 이미지 콘텐츠 이해를 의미하며, 픽셀 레벨 시맨틱(semantic) 분할, 객체 검출, 키 포인트 검출 등을 포함하지만 이에 한정되지 않는다. 비디오 인식은 자율 주행, 보안 모니터링 등 분야에서 중요하게 응용되고 있다. 비디오 인식은 이미지 인식을 기반으로 하지만, 비디오에 모션블러(motion blur), 아웃포커스(out of focus) 등 이미지 프레임이 존재하기 때문에, 단일 이미지에 대한 인식 기술이 비디오 인식에 직접 적용되는 경우, 인식 성능이 떨어지고 작동 속도가 느리며, 비디오 인식 작업의 요구를 충족시킬 수 없다.
본원의 실시예는 비디오 인식 기술적 해결수단 및 비디오 인식 네트워크의 훈련 기술적 해결수단을 제공한다.
본원의 실시예들의 일 측면에 따르면, 제공되는 비디오 인식 방법은, 비디오 중의 제1 키 프레임의 특징을 추출하는 단계; 상기 제1 키 프레임의 특징과 상기 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하여, 상기 제1 키 프레임의 융합 특징을 획득하는 단계 - 상기 제2 키 프레임은 상기 비디오에서의 검출 타이밍이 상기 제1 키 프레임 이전임 - ; 및 상기 제1 키 프레임의 융합 특징에 따라 상기 제1 키 프레임에 대해 검출을 진행하여, 상기 제1 키 프레임의 객체 검출 결과를 획득하는 단계를 포함한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 제2 키 프레임은 상기 비디오에서 상기 제1 키 프레임에 인접한 이전 키 프레임을 포함한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 제2 키 프레임의 융합 특징은 상기 제2 키 프레임의 특징과 상기 비디오에서 검출 타이밍이 상기 제2 키 프레임 이전인 제3 키 프레임의 융합 특징을 융합 처리하여 획득한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 제1 키 프레임의 특징과 상기 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계 전에, 상기 제1 키 프레임과 상기 제2 키 프레임 사이의 옵티컬 플로우 필드(optical flow field)를 획득하는 단계; 및 상기 제1 키 프레임과 상기 제2 키 프레임 사이의 옵티컬 플로우 필드에 따라, 상기 제2 키 프레임의 융합 특징과 상기 제1 키 프레임을 정렬시키는 단계; 를 더 포함하고, 상기 제1 키 프레임의 특징과 상기 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계는, 정렬된 상기 제2 키 프레임의 융합 특징과 상기 제1 키 프레임의 특징에 대해 융합을 진행하는 단계를 포함한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 제1 키 프레임의 특징과 상기 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계는, 상기 제1 키 프레임의 특징과 상기 제2 키 프레임의 융합 특징의 가중 계수를 결정하는 단계; 및 상기 제1 키 프레임의 특징과 상기 제2 키 프레임의 융합 특징의 가중 계수에 따라, 상기 제1 키 프레임의 특징과 상기 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계; 를 포함한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 방법은, 상기 제1 키 프레임이 상기 비디오에서 첫 번째 키 프레임인지 여부를 결정하는 단계를 더 포함하고, 상기 제1 키 프레임의 특징과 상기 비디오에서 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계는, 상기 제1 키 프레임이 상기 비디오에서 첫 번째 키 프레임이 아닌 것에 응답하여, 상기 제1 키 프레임의 특징과 상기 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계를 포함한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 방법은, 상기 제1 키 프레임이 상기 비디오에서 첫 번째 키 프레임인 것에 응답하여, 상기 제1 키 프레임의 특징에 따라, 상기 제1 키 프레임의 객체 검출 결과를 획득하는 단계를 더 포함한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 비디오에서 제1 키 프레임을 선택하는 단계를 더 포함한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 비디오에서 상기 제1 키 프레임을 선택하는 단계는,상기 비디오에서 무작위로 선택된 이미지 프레임을 상기 제1 키 프레임으로서 사용하는 단계; 상기 비디오에서 여러 프레임 간격으로 선택된 이미지 프레임을 상기 제1 키 프레임으로서 사용하는 단계; 상기 비디오를 복수 개의 짧은 비디오 시퀀스로 분할하고, 각 짧은 비디오 시퀀스에서 상기 각 짧은 비디오 시퀀스의 키 프레임으로서 이미지 프레임을 각각 선택하는 단계 - 상기 복수 개의 짧은 비디오 시퀀스의 키 프레임은 상기 제1 키 프레임을 포함 - ; 상기 비디오에서 짧은 비디오 시퀀스를 선택하고, 선택한 상기 짧은 비디오 시퀀스로부터 선택된 이미지 프레임을 상기 제1 키 프레임으로서 사용하는 단계; 를 포함한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 짧은 비디오 시퀀스로부터 선택된 이미지 프레임을 상기 제1 키 프레임으로서 사용하는 단계는, 상기 짧은 비디오 시퀀스에서 무작위로 선택된 이미지 프레임을 상기 제1 키 프레임으로서 사용하는 단계; 상기 짧은 비디오 시퀀스에서의 중간 프레임을 상기 제1 키 프레임으로 선택하는 단계 - 상기 중간 프레임은 상기 중간 프레임이 위치하는 상기 짧은 비디오 시퀀스에서 첫 번째 프레임 및 마지막 프레임을 제외한 이미지 프레임을 포함함 - 를 포함한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 중간 프레임은, 상기 중간 프레임이 위치한 상기 짧은 비디오 시퀀스에서 중심 위치 또는 중심 위치에 가까운 위치에 위치하는 이미지 프레임을 포함한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 제1 비 키 프레임과 상기 제1 키 프레임 사이의 옵티컬 플로우 필드를 획득하는 단계; 상기 제1 비 키 프레임과 상기 제1 키 프레임 사이의 옵티컬 플로우 필드 및 상기 제1 키 프레임의 융합 특징에 따라, 상기 제1 비 키 프레임의 특징을 획득하는 단계; 및 상기 제1 비 키 프레임의 특징에 따라 상기 제1 비 키 프레임에 대해 검출을 진행하여, 상기 제1 비 키 프레임의 객체 검출 결과를 획득하는 단계; 를 더 포함한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 제1 키 프레임과 상기 제1 비 키 프레임 사이의 거리는 기설정된 임계값보다 작으며; 또는, 상기 제1 키 프레임은 상기 비디오의 키 프레임에서 상기 제1 비 키 프레임과 거리가 가장 가까운 키 프레임이며; 또는, 상기 제1 비 키 프레임과 상기 제1 키 프레임은 동일한 짧은 비디오 시퀀스에 속한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 제1 비 키 프레임과 상기 제1 키 프레임 사이의 옵티컬 플로우 필드를 획득하는 단계 이후, 상기 제1 비 키 프레임과 상기 제1 키 프레임 사이의 옵티컬 플로우 필드에 따라, 상기 제1 키 프레임의 융합 특징과 상기 제1 비 키 프레임을 정렬시키는 단계를 더 포함하며; 상기 제1 비 키 프레임과 상기 제1 키 프레임 사이의 옵티컬 플로우 필드 및 상기 제1 키 프레임의 융합 특징에 따라, 상기 제1 비 키 프레임의 특징을 획득하는 단계는, 상기 제1 비 키 프레임과 상기 제1 키 프레임 사이의 옵티컬 플로우 필드 및 정렬된 상기 제1 키 프레임의 융합 특징에 따라, 상기 제1 비 키 프레임의 특징을 획득하는 단계를 포함한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 비디오의 이미지 프레임에는 태그 정보가 있으며; 상기 방법은, 상기 비디오에서 적어도 하나의 이미지 프레임의 객체 검출 결과와 태그 정보 사이의 차이에 기반하여, 상기 비디오 인식 방법의 비디오 인식 네트워크에 대해 훈련을 진행하는 단계 - 상기 적어도 하나의 이미지 프레임은 상기 제1 키 프레임을 포함함 - 를 더 포함한다.
선택적으로, 본원의 상기 각 비디오 인식 방법 실시예에 있어서, 상기 태그 정보는, 이미지 프레임에 포함된 적어도 하나의 객체의 위치 정보와 카테고리 정보를 포함하며; 상기 객체 검출 결과는, 객체 검출 박스와 상기 객체 검출 박스에 대응되는 객체 카테고리를 포함하며; 상기 비디오에서 적어도 하나의 이미지 프레임의 객체 검출 결과와 태그 정보 사이의 차이에 기반하여, 상기 비디오 인식 방법의 비디오 인식 네트워크에 대해 훈련을 진행하는 단계는, 상기 비디오에서 적어도 하나의 이미지 프레임의 객체 검출 결과 중의 객체 검출 박스와 태그 정보에서의 위치 정보 사이의 차이 및 상기 객체 검출 박스에 대응되는 객체 카테고리와 태그 정보에서의 카테고리 정보 사이의 차이 중 적어도 하나에 따라, 상기 비디오 인식 네트워크에서의 네트워크 파라미터 값을 조정하는 단계를 포함한다.
본원의 실시예의 다른 일 측면에 따르면, 제공되는 비디오 인식 네트워크의 훈련 방법은, 비디오 인식 네트워크를 이용하여 비디오 샘플로부터 현재 키 프레임의 특징과 이전 키 프레임의 특징을 추출하는 단계; 상기 비디오 인식 네트워크를 이용하여, 상기 현재 키 프레임의 특징과 상기 이전 키 프레임의 특징에 대해 융합을 진행하여, 상기 현재 키 프레임의 융합 특징을 획득하고, 상기 비디오 샘플 중의 현재 목표 프레임과 상기 현재 키 프레임 사이의 옵티컬 플로우 필드를 획득하는 단계 - 상기 현재 목표 프레임과 상기 현재 키 프레임은 상기 비디오 샘플의 동일한 세그먼트(segment)에 속함 - ; 상기 비디오 인식 네트워크를 이용하여, 상기 현재 목표 프레임과 상기 현재 키 프레임 사이의 옵티컬 플로우 필드 및 상기 현재 키 프레임의 융합 특징에 따라, 상기 현재 목표 프레임의 특징을 획득하는 단계; 상기 비디오 인식 네트워크를 이용하여, 상기 현재 목표 프레임의 특징에 따라 상기 현재 목표 프레임에 대해 검출을 진행하여, 상기 현재 목표 프레임의 객체 검출 결과를 획득하는 단계; 및 상기 현재 목표 프레임의 객체 검출 결과와 상기 현재 목표 프레임의 태그 정보 사이의 차이에 기반하여, 상기 비디오 인식 네트워크의 네트워크 파라미터 값을 조정하는 단계를 포함한다.
선택적으로, 본원의 상기 각 훈련 방법 실시예에 있어서, 상기 현재 키 프레임의 특징과 상기 이전 키 프레임의 특징에 대해 융합을 진행하는 단계는, 상기 현재 키 프레임과 상기 이전 키 프레임 사이의 옵티컬 플로우 필드를 획득하는 단계; 상기 현재 키 프레임과 상기 이전 키 프레임 사이의 옵티컬 플로우 필드에 따라, 상기 이전 키 프레임의 특징과 상기 현재 키 프레임을 정렬시키는 단계; 및 정렬된 상기 이전 키 프레임의 특징과 상기 현재 키 프레임의 특징에 대해 융합을 진행하는 단계를 포함한다.
선택적으로, 본원의 상기 각 훈련 방법 실시예에 있어서, 상기 이전 키 프레임의 특징과 상기 현재 키 프레임의 특징에 대해 융합을 진행하는 단계는, 상기 이전 키 프레임의 특징과 상기 현재 키 프레임의 특징의 가중 계수를 결정하는 단계; 및 상기 이전 키 프레임의 특징과 상기 현재 키 프레임의 특징의 가중 계수에 따라, 상기 이전 키 프레임의 특징과 상기 현재 키 프레임의 특징에 대해 융합을 진행하는 단계를 포함한다.
선택적으로, 본원의 상기 각 훈련 방법 실시예에 있어서, 비디오 샘플로부터 현재 키 프레임의 특징과 이전 키 프레임의 특징을 추출하는 단계 전에, 상기 비디오 샘플로부터 상기 현재 키 프레임, 상기 이전 키 프레임 및 상기 현재 목표 프레임을 선택하는 단계를 더 포함한다.
선택적으로, 본원의 상기 각 훈련 방법 실시예에 있어서, 상기 비디오 샘플로부터 상기 현재 키 프레임, 상기 이전 키 프레임 및 상기 현재 목표 프레임을 선택하는 단계는, 상기 비디오 샘풀에서 선택된 이미지 프레임을 상기 현재 목표 프레임으로서 사용하는 단계; 및 상기 비디오 샘플로부터 상기 현재 목표 프레임을 시작점으로 앞으로 향한 제1 거리에서 샘플링된 이미지 프레임을 상기 이전 키 프레임으로서 사용하고, 상기 비디오 샘플로부터 상기 현재 목표 프레임을 시작점으로부터 뒤로 향한 제2 거리에서 샘플링된 이미지 프레임을 상기 현재 키 프레임으로서 사용하는 단계를 포함한다.
선택적으로, 본원의 상기 각 훈련 방법 실시예에 있어서, 상기 제2 거리는 상기 제1 거리보다 작다.
선택적으로, 본원의 상기 각 훈련 방법 실시예에 있어서, 상기 현재 목표 프레임의 태그 정보는, 상기 현재 목표 프리임 중에 포함된 적어도 하나의 객체의 위치 정보와 카테고리 정보를 포함하며; 상기 현재 목표 프레임의 객체 검출 결과는, 상기 현재 목표 프레임 중의 객체 검출 박스와 상기 객체 검출 박스에 대응되는 객체 카테고리를 포함하며; 상기 현재 목표 프레임의 객체 검출 결과와 상기 현재 목표 프레임의 태그 정보 사이의 차이에 기반하여, 상기 비디오 인식 네트워크에 대해 훈련을 진행하는 단계는, 상기 현재 목표 프레임의 객체 검출 결과에서, 객체 검출 박스와 태그 정보에서의 위치 사이의 차이 및 상기 객체 검출 박스에 대응되는 객체 카테고리와 태그 정보에서의 카테고리 정보 사이의 차이 중 적어도 하나에 기반하여, 상기 비디오 인식 네트워크에서의 네트워크 파라미터 값을 조정하는 단계를 포함한다.
선택적으로, 본원의 상기 각 훈련 방법 실시예에 있어서, 각 그룹의 상기 현재 키 프레임, 상기 이전 키 프레임 및 상기 현재 목표 프레임으로 훈련 샘플을 구성하고, 적어도 하나의 훈련 샘플로 훈련 샘플 세트를 구성하고, 상기 훈련 샘플 세트로부터 훈련 샘플을 순차적으로 선택하며, 상기 비디오 인식 네트워크에 대해 기설정된 훈련 완료 조건이 충족될 때까지 반복 훈련을 진행한다.
본원의 실시예의 또 다른 일 측면에 따르면, 제공되는 다른 비디오 인식 방법은, 인식될 비디오를 획득하는 단계; 및 비디오 인식 네트워크를 이용하여 상기 비디오를 인식하여, 상기 비디오의 인식 결과를 획득하는 단계 - 상기 비디오 인식 네트워크는 본원의 상기 실시예에서 설명된 어느 한 훈련 방법을 통해 훈련하여 얻은 것임 - 를 포함한다.
본원의 실시예의 또 다른 일 측면에 따르면, 제공되는 비디오 인식 장치는, 비디오에서 제1 키 프레임의 특징을 추출하기 위한 특징 추출 네트워크; 상기 제1 키 프레임의 특징과 상기 비디오에서 제2 키 프레임의 융합 특징에 대해 융합을 진행하여, 상기 제1 키 프레임의 융합 특징을 획득하기 위한 하이브리드 네트워크 - 상기 제2 키 프레임이 상기 비디오에서의 검출 타이밍은 상기 제1 키 프레임 이전임 - ; 및 상기 제1 키 프레임의 융합 특징에 따라 상기 제1 키 프레임에 대해 검출을 진행하여, 상기 제1 키 프레임의 객체 검출 결과를 획득하기 위한 검출 네트워크를 포함한다.
선택적으로, 상기 비디오 인식 장치는 상기 임의의 가능한 비디오 인식 방법을 수행하기 위한 것이며, 상응하게, 상기 비디오 인식 장치는 상기 비디오 인식 방법 중 어느 한 단계나 프로세스를 수행하기 위한 모듈을 포함한다.
본원의 실시예의 또 다른 일 측면에 따르면, 제공되는 비디오 인식 네트워크의 훈련 장치는, 비디오 인식 네트워크 - 비디오 샘플로부터 현재 키 프레임의 특징과 이전 키 프레임의 특징을 추출하기 위한 것이며; 상기 현재 키 프레임의 특징과 상기 이전 키 프레임의 특징에 대해 융합을 진행하여, 상기 현재 키 프레임의 융합 특징을 획득 및 상기 비디오 샘플 중의 현재 목표 프레임과 상기 현재 키 프레임 사이의 옵티컬 플로우 필드를 획득하기 위한 것이며, 여기서, 상기 현재 목표 프레임과 상기 현재 키 프레임은 상기 비디오 샘플의 동일한 세그먼트에 속하며; 상기 현재 목표 프레임과 상기 현재 키 프레임 사이의 옵티컬 플로우 필드 및 상기 현재 키 프레임의 융합 특징에 따라, 상기 현재 목표 프레임의 객체 검출 결과를 획득하기 위한 것이며; 상기 현재 목표 프레임의 특징에 따라 상기 현재 목표 프레임에 대해 검출을 진행하여, 상기 현재 목표 프레임의 객체 검출 결과를 획득하기 위한 것임 - ; 및 훈련 모듈 - 상기 현재 목표 프레임의 객체 검출 결과와 상기 현재 목표 프레임의 태그 정보 사이의 차이에 기반하여, 상기 비디오 인식 네트워크의 네트워크 파라미터 값을 조정하기 위한 것임 - 을 포함한다.
선택적으로, 상기 비디오 인식 네트워크의 훈련 장치는 상기 임의의 가능한 비디오 인식 네트워크의 훈련 방법을 수행하기 위한 것이며, 상응하게, 상기 비디오 인식 방법의 훈련 장치는 상기 비디오 인식 네트워크의 훈련 방법 중 어느 한 단계나 프로세스를 수행하기 위한 모듈을 포함한다.
본원의 실시예의 또 다른 일 측면에 따르면, 제공되는 비디오 인식 장치는, 획득 모듈 - 인식될 비디오를 획득하기 위한 것임 - ; 및 인식 모듈 - 비디오 인식 네트워크를 이용하여 상기 비디오를 인식하여, 상기 비디오의 인식 결과를 획득하기 위한 것이며, 여기서, 상기 비디오 인식 네트워크는 상기 임의의 가능한 훈련 방법을 통해 훈련하여 얻은 것임 - 을 포함한다.
본원의 실시예의 또 다른 일 측면에 따르면, 제공되는 전자 기기는, 메모리 - 컴퓨터 판독 가능 명령어를 저장하기 위한 것임 - ; 및 프로세서 - 상기 컴퓨터 판독 가능 명령어를 수행하여 본원의 상기 어느 한 실시예에 따른 방법을 수행하도록 함 - 를 포함한다.
본원의 실시예의 또 다른 일 측면에 따르면, 제공되는 컴퓨터 저장 매체는, 컴퓨터 판독 가능 명령어를 저장하기 위한 것이며, 상기 컴퓨터 판독 가능 명령어가 기기에서 작동될 경우, 상기 기기 중의 프로세서는 본원의 상기 어느 한 실시예에 따른 상기 방법을 수행한다.
본원의 실시예의 또 다른 일 측면에 따르면, 제공되는 컴퓨터 프로그램은 컴퓨터 판독 가능 명령어를 포함하며, 상기 컴퓨터 판독 가능 명령어가 기기에서 작동될 경우, 상기 기기 중의 프로세서는 본원의 상기 어느 한 실시예에 따른 상기 방법을 수행한다.
본원의 실시예의 또 다른 일 측면에 따르면, 제공되는 컴퓨터 프로그램 제품은, 컴퓨터 판독 가능 명령어를 저장하기 위한 것이며, 상기 명령어는 작동될 경우, 컴퓨터로 하여금 상기 구현 방식에서 설명된 임의의 가능한 방법을 수행하도록 한다.
하나의 선택적인 실시 형태에 있어서, 상기 컴퓨터 프로그램 제품은 컴퓨터 저장 매체일 수 있으며, 다른 하나의 선택적인 실시 형태에 있어서, 상기 컴퓨터 프로그램 제품은 소프트웨어 제품일 수 있으며, 예를 들어, SDK 등이다.
본원의 상기 실시예에서 제공되는 비디오 인식 방법과 장치, 전자 기기, 프로그램 및 매체는, 제1 키 프레임의 특징과 비디오에서 제2 키 프레임의 융합 특징에 대해 융합을 진행하여, 제1 키 프레임의 융합 특징을 획득하며, 제1 키 프레임의 융합 특징에 따라 제1 키 프레임에 대해 검출을 진행하고, 제1 키 프레임의 객체 검출 결과를 획득하므로, 비디오 인식 효율을 향상시킴에 있어서 유리하다.
명세서의 일부를 구성하는 첨부 도면은 본원의 실시예를 설명하고, 또한 설명과 결합하여 본원의 원리를 해석한다.
이하의 상세한 설명에 따르면, 본원은 첨부 도면을 참조하여 더욱 명확하게 이해될 수 있다.
도 1은 본원의 실시예에 따른 비디오 인식 방법의 흐름도이다.
도 2는 본원의 실시예에 따른 비디오 인식 방법의 다른 흐름도이다.
도 3은 도 2에 도시된 비디오 인식 방법의 하나의 예에 따른 대응 과정 모식도이다.
도 4는 본원의 실시예에 따른 비디오 인식 네트워크의 훈련 방법의 흐름도이다.
도 5는 도 4에 도시된 훈련 방법의 하나의 예에 따른 대응 과정 모식도이다.
도 6은 본원의 실시예에 따른 비디오 인식 장치의 구조 모식도이다.
도 7은 본원의 실시예에 따른 비디오 인식 장치의 다른 구조 모식도이다.
도 8은 본원의 실시예에 따른 비디오 인식 네트워크의 훈련 장치의 모식도이다.
도 9는 본원의 실시예에 따른 비디오 인식 네트워크의 훈련 장치의 다른 모식도이다..
도 10은 본원의 실시예에 따른 전자 기기의 하나의 응용 예의 모식도이다.
이하, 첨부 도면을 참조하여 본원의 다양한 예시적 실시예를 상세히 설명한다. 유의해야 할 것은, 달리 업급되지 않는 한, 이러한 실시예들에서 제시된 구성 요소, 단계의 상대적 배열, 수치 표현 및 값은 본원의 범위를 한정하지 않는다.
이해해야 할 것은, 본 발명의 실시예에서 "제1", "제2" 등 용어들은 다만 구별을 위해 사용되며, 본 발명의 실시예들에 대한 한정으로서 이해되지 말아야 한다.
더 이해해야 할 것은, 본 발명에서, "복수 개의"는 둘 이상을 의미할 수 있고, "적어도 하나"는 하나 또는 둘 이상을 의미할 수 있다.
더 이해해야 할 것은, 본 발명에서 언급된 임의의 컴포넌트, 데이터 또는 구조에 대해 문맥상 명백한 한정이 없거나 반대 동기가 없는 경우, 일반적으로 하나 또는 복수 개로 이해될 수 있다.
더 이해해야 할 것은, 본 발명은 각 실시예의 설명에 대해 각 실시예 사이의 차이점에 초점을 맞추고, 실시예의 동일하거나 유사한 부분에 대해서는 서로 참조할 수 있으며, 간결함을 위해 더이상 설명하지 않는다.
또한, 설명의 편의를 위해, 도면에 도시된 각 부분의 크기는 실제 비율로 도시되지 않았다는 것을 이해해야 한다.
적어도 하나의 예시적 실시예에 대한 다음의 설명은 다만 예시적인 것이며, 본원 및 그 응용 또는 사용을 한정하려는 것은 아니다.
관련 기술 분야의 통상의 기술자에게 공지된 기술, 방법 및 기기는 상세하게 논의되지 않을 수 있지만, 상기 기술, 방법 및 기기는 적절한 상황에서 본 명세서의 일부로서 고려되어야 한다.
유의해야 할 것은, 다음의 첨부 도면에서 유사한 참조 번호와 문자는 유사한 항목을 표시하므로, 어느 한 항목이 하나의 도면에서 정의되면, 후속 첨부 도면에서 이에 대해 추가로 논의될 필요가 없다.
본원의 실시예는 다수의 다른 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성과 함께 동작될 수 있는, 단말 기기, 컴퓨터 시스템 및 서버와 같은 전자 기기에 적용될 수 있다. 단말 기기, 컴퓨터 시스템 및 서버와 같은 전자 기기와 함께 사용되기에 적합한 잘 알려진 단말 기기, 컴퓨팅 시스템, 환경 및 구성 중 적어도 하나의 예는 개인용 컴퓨터 시스템, 서버 컴퓨터 시스템, 씬 클라이언트, 씩 클라이언트, 핸드헬드 또는 랩톱 기기, 마이크로 프로세서 기반 시스템, 셋톱 박스, 프로그래머블 가전 제품, 네트워크 개인용 컴퓨터, 소형 컴퓨터 시스템, 대형 컴퓨터 시스템 및 상기 임의의 시스템을 포함한 분산형 클라우드 컴퓨팅 기술 환경을 포함하나 이에 한정되지 않는다.
단말 기기, 컴퓨터 시스템, 서버 등 전자 기기는 컴퓨터 시스템에 의해 수행되는 컴퓨터 시스템의 수행 가능 명령어(예를 들어, 프로그램 모듈)의 일반적인 맥락에서 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 수행하거나 특정 추상 데이터 타입을 구현하는 루틴(routine), 프로그램, 목표 프로그램, 어셈블리, 논리, 데이터 구조 등을 포함한다. 컴퓨터 시스템/서버는 통신 네트워크를 통해 연결된 원격 처리 기기에서 작업을 수행하는 분산형 클라우드 컴퓨팅 환경에서 실행된다. 분산형 클라우드 컴퓨팅 환경에서, 프로그램 모듈은 저장 기기를 포함하는 로컬 또는 원격 컴퓨팅 시스템 저장 매체에 위치할 수 있다.
도 1은 본원의 실시예에서 제공되는 비디오 인식 방법의 흐름도이다. 선택적으로, 상기 비디오 인식 방법은 비디오 인식 네트워크를 이용하여 구현되지만, 본원의 실시예는 이에 한정되지 않는다.
단계 102에 있어서, 비디오에서 제1 키 프레임의 특징을 추출한다.
여기서, 선택적으로, 상기 제1 키 프레임은 비디오의 임의의 키 프레임일 수 있으며, 예를 들어, 상기 제1 키 프레임은 비디오의 복수 개의 키 프레임에서 현재 처리될 키 프레임일 수 있다. 또는, 상기 제1 키 프레임은 복수 개의 프레임을 포함하며, 본원의 실시예는 이를 한정하지 않는다.
하나의 선택적인 예에 있어서, 상기 단계 102는 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행될 수 있거나, 프로세서에 의해 작동되는 특징 추출 네트워크에 의해 수행될 수도 있다.
단계 104에 있어서, 제1 키 프레임의 특징과 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하여, 상기 제1 키 프레임의 융합 특징을 획득한다.
여기서, 제2 키 프레임은 상기 비디오에서 검출 타이밍이 제1 키 프레임 이전에 위치한다. 하나 또는 복수 개의 선택적인 실시예에 있어서, 상기 제2 키 프레임은, 예를 들어, 상기 비디오에서 제1 키 프레임에 인접한 이전 키 프레임일 수 있다. 다시 말하면, 상기 제2 키 프레임은 비디오의 복수 개의 키 프레임에서 제1 키 프레임 이전에 위치하고 제1 키 프레임에 인접한 키 프레임일 수 있다. 또는, 상기 제2 키 프레임은 상기 제1 키 프레임 이전의 다른 키 프레임일 수 있으며, 본원의 실시예는 이를 한정하지 않는다.
상기 제2 키 프레임의 융합 특징은 상기 제2 키 프레임의 특징과 하나 또는 복수 개의 다른 프레임의 특징에 대해 융합을 진행하여 얻은 것일 수 있다. 여기서, 다른 프레임은 상기 제2 키 프레임과 상이한 프레임일 수 있으며, 선택적으로, 상기 다른 프레임은 상기 비디오에서 검출 타이밍이 상기 제2 키 프레임 이전인 프레임일 수 있다. 하나의 선택적인 예에 있어서, 상기 다른 프레임은 상기 제2 키 프레임 이전에 위치하는 하나 또는 복수 개의 키 프레임을 포함한다. 본원의 각 실시예의 하나의 선택적인 실시 형태에 있어서, 제2 키 프레임의 융합 특징은 상기 제2 키 프레임의 특징과 상기 비디오에서 검출 타이밍이 상기 제2 키 프레임 이전인 제3 키 프레임의 융합 특징을 융합 처리하여 획득한다. 여기서, 선택적으로, 제3 키 프레임은 제2 키 프레임의 이전 키 프레임일 수 있으며, 상응하게, 먼저 제2 키 프레임의 특징과 이의 이전 키 프레임(제3 키 프레임)의 융합 특징에 대해 융합을 진행하여, 제2 키 프레임의 융합 특징을 얻으며, 그 다음, 제2 키 프레임의 융합 특징과 이의 후 키 프레임(제1 키 프레임)의 특징에 대해 융합을 진행하여, 제1 키 프레임의 융합 특징을 얻으며, 이와 같이, 비디오에서 최신 하나의 융합되지 않은 키 프레임의 특징을 추가하여 융합을 진행함으로써, 특징의 융합 - 전파 - 융합 - 전파를 번갈아 진행하는 방식을 통해, 제1 키 프레임의 특징과 제1 키 프레임 이전에 위치한 모든 키 프레임의 특징을 한번에 융합하는 방식에 비해, 특징 융합의 계산 오버헤드를 감소시킨다.
본원의 하나 또는 복수 개의 선택적인 실시예에 있어서, 상기 제2 키 프레임의 융합 특징은 비디오의 복수 개의 키 프레임에서 상기 제2 키 프레임 이전에 위치한 적어도 하나의 키 프레임의 특징에 기반하여 융합하여 얻은 특징이지만, 본원의 실시예는 이을 한정하지 않는다.
하나의 선택적인 예에 있어서, 상기 단계 104는 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행될 수 있으며, 프로세서에 의해 작동되는 하이브리드 네트워크에 의해 수행될 수도 있다.
단계 106에 있어서, 상기 제1 키 프레임의 융합 특징에 따라 상기 제1 키 프레임에 대해 검출을 진행하여, 제1 키 프레임의 객체 검출 결과를 획득한다.
여기서, 제1 키 프레임의 객체 검출 결과는, 예를 들어, 제1 키 프레임의 카테고리, 또는 제1 키 프레임 중의 객체 검출 박스 및 이에 대응되는 객체 카테고리를 포함한다.
하나의 선택적인 예에 있어서, 상기 단계 106은 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행될 수 있으며, 프로세서에 의해 작동되는 검출 네트워크에 의해 수행될 수도 있다.
본원의 상기 실시예에서 제공되는 비디오 인식 방법은, 제1 키 프레임의 특징과 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하여, 상기 제1 키 프레임의 융합 특징을 획득하며, 상기제1 키 프레임의 융합 특징에 따라 상기 제1 키 프레임에 대해 검출을 진행하여, 상기 제1 키 프레임의 객체 검출결과를 획득함으로써, 비디오 인식 효율을 향상시킬 수 있다.
본원의 실시예에서 비디오에 대해 인식을 진행할 경우, 각 키 프레임을 현재 키 프레임(즉, 상기 제1 키 프레임)으로서 사용하고, 상기 현재 키 프레임의 특징과 비디오에서 사전 키 프레임(즉, 상기 현재 키 프레임 이전인 키 프레임)의 융합 특징에 대해 융합을 진행하여, 현재 키 프레임의 융합 특징을 획득하며, 획득된 현재 키 프레임의 융합 특징에 기반하여 상기 현재 키 프레임을 인식하며, 반복적인 멀티 프레임 특징 융합 방식을 통해 비디오에서 이러한 키 프레임의 공유 특징이 포함하는 정보를 강화시키고, 프레임 인식의 정확도를 향상시키며, 비디오 인식 성능을 향상시킨다.
본원의 실시예의 비디오 인식 방법의 다른 예에 있어서, 제1 키 프레임의 특징과 비디오에서 제2 키 프레임의 융합 특징에 대해 융합을 진행하기 전에, 제1 키 프레임과 제2 키 프레임 사이의 옵티컬 플로우 필드(optical flow field)를 획득할 수 있으며, 여기서, 상기 옵티컬 플로우 필드는 제1 키 프레임과 제2 키 프레임에서 픽셀 단위 변위 벡터를 포함한다. 또한, 제1 키 프레임과 제2 키 프레임 사이의 옵티컬 플로우 필드에 따라, 제2 키 프레임의 융합 특징과 제1 키 프레임을 정렬시킬 수 있으며, 예를 들어, 옵티컬 플로우 필드 중의 변위 벡터에 따라 제2 키 프레임의 융합 특징을 왜곡하여 제1 키 프레임과 정렬시킬 수 있다. 이 경우, 단계 104에서, 정렬된 제2 키 프레임의 융합 특징과 제1 키 프레임의 특징에 대해 융합을 진행하여, 제1 키 프레임의 융합 특징을 얻는다.
본원의 실시예에 따른 비디오 인식 방법의 하나의 선택적인 실시 형태에 있어서, 제1 키 프레임의 특징 및 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계는, 제1 키 프레임의 특징 및 제2 키 프레임의 융합 특징의 가중 계수를 결정하는 단계; 및 제1 키 프레임의 특징 및 제2 키 프레임의 융합 특징의 가중 계수에 따라, 제1 키 프레임의 특징 및 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계를 포함한다. 여기서, 제1 키 프레임의 특징의 가중 계수와 제2 키 프레임의 융합 특징의 가중 계수는, 특징 융합을 진행하는 경우의 제1 키 프레임의 특징 및 제2 키 프레임의 융합 특징의 비율을 각각 표시하기 위한 것이다. 적어도 하나의 선택적인 실시예에 있어서, 제1 키 프레임의 특징 및 제2 키 프레임의 융합 특징의 가중 계수에 따라, 제1 키 프레임의 특징 및 그 가중 계수의 곱과 제2 키 프레임의 융합 특징 및 그 가중 계수의 곱에 대해 융합을 진행하지만, 본원의 실시예는 다른 방식을 사용하여 특징의 융합을 진행할 수도 있으며, 본원의 실시예는 특징 융합의 구현에 대해 한정하지 않는다.
예를 들어, 상기 선택적인 실시 형태에 있어서, 제1 키 프레임의 융합 특징은 다음 식에 의해 획득된다.
[수학식 1]
Figure 112019101484136-pct00001
여기서, 상기 식 1에서, ffuse는 제1 키 프레임의 융합 특징을 표시하고,
Figure 112019101484136-pct00002
는 제1 키 프레임의 특징을 표시하며, w는 제1 키 프레임의 특징의 가중 계수를 표시하고,
Figure 112019101484136-pct00003
는 제2 키 프레임의 융합 특징을 표시하며, (1-w) 제2 키 프레임의 융합 특징의 가중 계수를 표시하고, w의 값은 0보다 크고 1보다 작다.
본원의 실시예에 따른 비디오 인식 방법의 또 다른 예에 있어서, 어느 키 프레임이 비디오의 첫 번째 키 프레임인 경우, 특징 융합의 단계를 수행하지 않고, 객체 검출은 첫 번째 키 프레임의 특징에 따라 직접 수행될 수 있다. 상응하게, 상기 비디오 인식 방법 방법은,
비디오에서 상기 제1 키 프레임이 첫 번째 키 프레임(이하, 1st 키 프레임이라 지칭함)인지 여부를 결정하는 단계;
비디오에서 상기 제1 키 프레임이 1st 키 프레임인 것에 응답하여, 상기 1st 키 프레임의 특징에 따라 1st 키 프레임에 대해 검출을 진행하여, 상기 1st 키 프레임의 객체 검출 결과를 획득한다.
또한, 1st 키 프레임의 특징은 다음 키 프레임(이하 2nd 키 프레임이라 지칭함)으로 전파되고 상기 다음 키 프레임의 특징과 융합을 진행할 수 있다. 다시 말하면, 비디오에서 2nd 키 프레임의 융합 특징은 1st 키 프레임의 특징 및 2nd 키 프레임의 특징에 대한 융합 처리를 통해 얻는다. 이 경우, 1st 키 프레임의 특징은 1st 키 프레임의 융합 특징으로 간주될 수 있지만, 본원의 실시예는 이를 한정하지 않는다.
선택적으로, 비디오에서 제1 키 프레임이 1st 키 프레임이 아닌 것에 응답하여, 상기 각 실시예에서 제1 키 프레임의 특징 및 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 동작을 수행할 수 있다.
또한, 본원의 실시예에 따른 비디오 인식 방법의 하나 또는 복수 개의 선택적인 예에 있어서, 제1 키 프레임은 비디오로부터 선택될 수도 있다.
본원의 각 비디오 인식 방법 실시예의 하나의 선택적인 실시 형태에 있어서, 제1 키 프레임은 비디오로부터 선택된다. 본원의 실시예에서, 키 프레임은 다양한 방식으로 선택될 수 있다. 하나의 선택적인 예에 있어서, 비디오로부터 무작위로 선택된 이미지 프레임은 제1 키 프레임으로서 사용된다. 다른 하나의 선택적인 예에 있어서, 비디오에서 여러 프레임의 간격으로 선택된 이미지 프레임은 제1 키 프레임으로서 사용되며, 예를 들어, 비디오에서 9 개 프레임 간격으로 하나의 프레임이 선택되어 키 프레임으로서 사용된다. 상응하게, 비디오의 복수 개의 제1 키 프레임 사이의 간격은 고정될 수 있다. 다른 선택적인 예에 있어서, 비디오는 복수 개의 짧은 비디오 시퀀스(sequence)(또는 세그먼트(segment))로 분할될 수 있고, 각 짧은 비디오 시퀀스(또는 세그먼트)로부터 각각 선택된 이미지 프레임은 상기 짧은 비디오 시퀀스(또는 세그먼트)의 키 프레임으로서 사용되고, 상기 복수 개의 짧은 비디오 시퀀스(또는 세그먼트)의 키 프레임은 상기제1 키 프레임을 포함한다. 예를 들어, 비디오는 수 개의 프레임 내지 수십 개의 프레임을 포함하는 복수 개의 짧은 비디오 시퀀스 또는 세그먼트로 분할될 수 있으며, 여기서, 상기 복수 개의 짧은 비디오 시퀀스 또는 세그먼트는 동일한 길이를 가질 수 있으며, 즉 상기 복수 개의 짧은 비디오 시퀀스 또는 세그먼트에 포함된 프레임 수는 예를 들어 10 개의 프레임으로서 동일하며, 또는 상기 복수 개의 짧은 비디오 시퀀스 또는 세그먼트는 길이가 동일하지 않을 수 있으며, 그 다음, 각 짧은 비디오 시퀀스 또는 세그먼트로부터 키 프레임을 선택하고, 본원의 실시예는 이를 한정하지 않는다. 상응하게, 복수 개의 짧은 비디오 시퀀스 또는 세그먼트 및 이에 대응되는 키 프레임을 먼저 결정한 다음, 각 키 프레임에 대해 객체 검출을 진행한다.
또 다른 선택적인 예에 있어서, 비디오로부터 짧은 비디오 시퀀스를 선택할 수 있으며, 선택된 짧은 비디오 시퀀스로부터 선택된 이미지 프레임은 제1 키 프레임으로서 사용된다. 상응하게, 객체 검출을 진행할 필요가 있을 때마다, 짧은 비디오 시퀀스 또는 세그먼트 및 제1 키 프레임이 선택되고, 여기서, 선택적으로, 기설정된 길이를 갖는 짧은 비디오 시퀀스가 선택되거나, 하나의 길이를 갖는 짧은 비디오 시퀀스가 무작위로 선택되며, 본원의 실시예는 이를 한정하지 않는다.
본원의 실시예에 있어서, 제1 키 프레임은 다양한 방식으로 짧은 비디오 시퀀스 또는 세그먼트로부터 선택된다. 하나의 선택적인 예에 있어서, 짧은 비디오시퀀스로부터 무작위로 선택된 이미지 프레임은 제1 키 프레임으로서 사용될 수 있다. 또는, 짧은 비디오 시퀀스의 중간 프레임은 제1 키 프레임으로서 선택될 수 있으며, 여기서, 중간 프레임은 짧은 비디오 시퀀스에서 첫 번째 프레임 및 마지막 프레임 이외의 이미지 프레임을 의미하며, 예를 들어, 10 개 프레임(0 번째 ~ 9 번째 프레임)을 포함하는 짧은 비디오 시퀀스에 있어서, 중간 프레임은 1 번째 프레임 ~ 8 번째 프레임 중의 하나의 이미지 프레임일 수 있다. 상기 중간 프레임은 임의의 하나의 기설정된 조건을 만족시키며, 예를 들어 상기 중간 프레임의 프레임 번호는 기설정된 값인 것 등을 만족할 수 있다. 하나의 선택적인 예에 있어서, 중간 프레임은 짧은 비디오 시퀀스에서 중간 또는 중간에 인접한 위치의 이미지 프레임일 수 있다. 예를 들어, 10 개의 프레임(0 번째 프레임 ~ 9 번째 프레임으로 표시됨)을 포함하는 짧은 비디오 시퀀스의 경우, 상기 중간 프레임은 4 번째 프레임 또는 5 번째 프레임일 수 있으며, 3 번째 프레임 또는 6 번째 프레임 등일 수 있으며; 11 개의 프레임(0 번째 프레임 ~ 10 번째 프레임)을 포함하는 짧은 비디오 시퀀스의 경우, 상기 중간 프레임은 5 번째 프레임일 수 있거나, 그에 인접한 4 번째 프레임 또는 6 번째 프레임일 수도 있다. 선택적으로, 본원의 실시예에 있어서, 짧은 비디오시퀀스의 첫 번째 프레임 또는 마지막 프레임은 선택되어 상기 짧은 비디오 시퀀스의 제1 키 프레임으로서 사용될 수도 있다.
선택적으로, 제1 키 프레임은 다른 방식으로도 선택되며, 본원의 실시예는 제1 키 프레임의 선택 방식을 한정하지 않는다.
비디오에서 공유 특징을 재사용 하기 위해, 본원의 실시예에 있어서, 인식 과정에서, 비디오는 짧은 비디오 시퀀스로 분할되고, 각 짧은 비디오 시퀀스에서 하나의 프레임(키 프레임)의 특징만이 추출되고, 그 다음, 상기 키 프레임의 특징은 옵티컬 플로우 필드에 기반한 특징 전파 방식에 의해, 상기 짧은 비디오 시퀀스 중의 다른 프레임(비 키 프레임)으로 전파된다. 짧은 비디오 시퀀스에서 첫 번째 프레임 또는 마지막 프레임을 키 프레임으로 선택하는 경우에 비해, 중간 프레임이 키 프레임으로 선택되면, 평균 특징 전파 거리가 단축되므로, 짧은 비디오 시퀀스에서 프레임 사이 특징 전파로 인한 오류를 최소화하며, 짧은 비디오 시퀀스에서 전체 특징 전파 시간을 단축시키고, 검출 결과의 정확도를 향상시킨다.
본원의 실시예의 비디오 인식 방법의 또 다른 예에 있어서, 키 프레임의 특징에 따라, 비 키 프레임에 대해 객체 검출을 진행할 수 있다. 이해의 용이성을 위해, 제1 비 키 프레임의 객체 검출을 예로서 설명하며, 여기서, 선택적으로, 상기 제1 비 키 프레임은 비디오에서 키 프레임이 아닌 임의의 프레임 또는 비디오에서 어떠한 조건을 만족시키는 비 키 프레임이다.
하나의 선택적인 예에 있어서, 제1 비 키 프레임과 제1 키 프레임사이의 옵티컬 플로우 필드를 획득할 수 있으며, 제1 비 키 프레임과 제1 키 프레임사이의 옵티컬 플로우 필드 및 제1 키 프레임의 융합 특징에 따라, 제1 비 키 프레임의 특징을 획득하고, 제1 비 키 프레임의 특징에 따라 상기 제1 비 키 프레임에 대해 검출을 진행하여, 제1 비 키 프레임의 객체 검출 결과를 획득한다.
예시적으로, 제1 키 프레임과 제1 비 키 프레임사이의 거리는 기설정된 임계값보다 작으며, 이 경우, 어느 비 키 프레임에 대해, 이와의 거리가 기설정된 임계값보다 작거나 같은 키 프레임을 이용하여, 상기 비 키 프레임에 대해 객체 검출을 진행하며, 선택적으로, 상기 거리 조건을 만족시키는 키 프레임이 적어도 2 개(즉 복수 개)인 경우, 조건을 만족시키는 적어도 2 개 프레임으로부터 무작위로 선택되거나 기설정된 조건에 의해 하나의 키 프레임이 선택될 수 있다. 또는, 제1 키 프레임은 비디오의 복수 개의 키 프레임에서 제1 비 키 프레임에 가장 가까운 키 프레임이며, 이 경우, 비디오의 어느 비 키 프레임에 대해, 가장 가까운 키 프레임을 이용할 수 있으며, 상기 비 키 프레임에 대해 객체 검출을 진행할 수 있다. 또는, 제1 비 키 프레임 및 제1 키 프레임은 동일한 짧은 비디오 시퀀스 또는 세그먼트에 속하고, 이 경우, 짧은 비디오 시퀀스 또는 세그먼트 중의 모든 비 키 프레임은 동일한 하나의 키 프레임(즉 상기 짧은 비디오 시퀀스 또는 세그먼트 중의 키 프레임)의 융합 특징을 이용하여 객체 검출을 진행할 수 있으나, 본원의 실시예는 이에 한정되지 않는다.
하나의 선택적인 예에 있어서, 제1 비 키 프레임과 제1 키 프레임사이의 옵티컬 플로우 필드를 획득한 이후, 제1 비 키 프레임과 제1 키 프레임사이의 옵티컬 플로우 필드에 따라, 제1 키 프레임의 융합 특징과 제1 비 키 프레임을 정렬시킬 수 있다. 이 경우, 제1 비 키 프레임과 제1 키 프레임사이의 옵티컬 플로우 필드, 및 정렬된 제1 키 프레임의 융합 특징에 따라, 제1 비 키 프레임의 특징을 획득할 수 있다. 선택적으로, 제1 비 키 프레임의 특징은 또한 다른 방식으로도 획득되며, 본원의 실시예는 이를 한정하지 않는다.
상기 적어도 하나의 실시예에 기반하여, 짧은 비디오 시퀀스에서 관심 있는 비 키 프레임의 검출을 구현할 수 있고, 짧은 비디오 시퀀스에서의 모든 프레임에 대해 검출을 진행할 필요가 없으며, 예를 들어, 10 개의 프레임을 갖는 짧은 비디오 시퀀스에 대해, 5 번째 프레임을 키 프레임으로서 사용하여 검출을 진행하는 외에, 2 번째, 8 번째 프레임을 선택하여 검출을 진행할 수도 있다.
상기 적어도 하나의 실시예에 기반하여, 짧은 비디오 시퀀스에 대한 프레임별 검출을 구현할 수도 있으므로, 비디오의 프레임별 검출을 구현할 수 있다.
상응하게, 짧은 비디오 시퀀스에 대해, 다만 하나의 프레임(즉, 키 프레임)의 특징이 추출되고, 나머지 프레임의 특징은 광류 전파에 의해 획득되며, 키 프레임 특징은 재사용되어, 비 키 프레임의 특징 추출을 피함으로써, 비 키 프레임에 대한 특징 추출을 피하여, 중복 계산을 피하고, 프레임 인식 정확도를 향상시킨다.
도 2는 본원의 실시예에 따른 비디오 인식 방법의 다른 개략적인 흐름도이다.
단계 202에 있어서, 비디오를 복수 개의 짧은 비디오 시퀀스(또는 세그먼트)로 분할한다.
상기 복수 개의 짧은 비디오 시퀀스는 동일한 프레임 개수를 포함하거나, 상이한 프레임 개수를 포함하며, 또는 일부 짧은 비디오 시퀀스는 동일한 프레임 개수를 포함하는 반면, 다른 일부 짧은 비디오 시퀀스는 상이한 프레임 개수를 포함한다.
단계 204에 있어서, 순차적으로 복수 개의 짧은 비디오 시퀀스에서 하나의 짧은 비디오 시퀀스를 선택하여 현재 짧은 비디오 시퀀스로서 사용한다.
단계 206에 있어서, 현재 짧은 비디오 시퀀스에서 하나의 중간 프레임을 선택하여 현재 짧은 비디오 시퀀스의 키 프레임, 즉 제1 키 프레임으로서 사용하고, 제1 키 프레임의 특징을 추출한다.
하나의 선택적인 예에 있어서, 상기 단계 202 ~ 단계 206은 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행될 수 있거나, 프로세서에 의해 작동되는 선택 모듈에 의해 수행될 수 있다.
단계 208에 있어서, 제1 키 프레임이 비디오의 첫 번째 키 프레임(즉 1st 키 프레임)인지 여부를 결정한다.
선택적으로, 현재 짧은 비디오 시퀀스가 복수 개의 짧은 비디오 시퀀스에서 첫 번째로 검출을 진행하는 짧은 비디오 시퀀스인지 여부를 결정한다.
제1 키 프레임이 비디오에서 1st 키 프레임이면, 단계 210 ~ 단계 212가 수행된다. 그렇지 않으면, 제1 키 프레임이 비디오에서 1st 키 프레임이 아닌 경우, 단계 214가 수행된다.
하나의 선택적인 예에 있어서, 상기 단계 208은 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행되거나, 프로세서에 의해 작동되는 결정 모듈에 의해 수행된다.
단계 210에 있어서, 1st 키 프레임의 특징은 상기 1st 키 프레임의 융합 특징으로서 사용된다.
선택적으로, 1st 키 프레임의 특징은 1st 키 프레임의 융합 특징으로서 캐싱된다.
하나의 선택적인 예에 있어서, 상기 단계 210은 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행될 수 있거나, 프로세서에 의해 작동되는 광 처리 모듈에 의해 수행될 수도 있다.
단계 212에 있어서, 1st 키 프레임의 특징에 따라 1st 키 프레임에 대해 검출을 진행하여, 상기 1st 키 프레임의 객체 검출 결과를 획득한다.
하나의 선택적인 예에 있어서, 상기 단계 212는 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행될 수 있으며, 프로세서에 의해 작동되는 검출 네트워크에 의해 수행될 수도 있다.
그 후, 단계 220을 수행할 수 있다.
단계 214에 있어서, 제1 키 프레임과 제2 키 프레임사이의 옵티컬 플로우 필드에 따라, 상기 제2 키 프레임의 융합 특징과 제1 키 프레임을 정렬시킨다.
제2 키 프레임은 비디오에서의 검출 타이밍이 제1 키 프레임 이전이다. 선택적으로, 상기 제2 키 프레임은 앞서 검출된 키 프레임이다.
제2 키 프레임의 융합 특징은 상기 제2 키 프레임의 특징과 상기 비디오에서 검출 타이밍이 상기 제2 키 프레임 이전인 제3 키 프레임의 융합 특징을 융합 처리하여 획득한다.
하나의 선택적인 예에 있어서, 상기 단계 214는 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행될 수 있으며, 프로세서에 의해 작동되는 광류 전파 모듈에 의해 수행될 수 있다.
단계 216에 있어서, 정렬된 제2 키 프레임의 융합 특징과 제1 키 프레임의 특징에 대해 융합을 진행하여, 제1 키 프레임의 융합 특징을 획득한다.
하나의 선택적인 예에 있어서, 상기 단계 216은 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행될 수 있으며, 프로세서에 의해 작동되는 하이브리드 네트워크에 의해 수행될 수도 있다.
단계 218에 있어서, 제1 키 프레임의 융합 특징에 따라 상기 제1 키 프레임에 대해 검출을 진행하여, 제1 키 프레임의 객체 검출 결과를 획득한다.
본원의 각 실시예에 있어서, 이미지 프레임의 객체 검출 결과는 상기 이미지 프레임의 카테고리일 수 있으며, 또는 상기 이미지 프레임에서 적어도 하나의 객체 검출 박스 및 이에 대응되는 객체 카테고리일 수 있다. 여기서, 제1 키 프레임의 객체 검출 결과는 예를 들어 제1 키 프레임의 카테고리, 또는 제1 키 프레임 중의 적어도 하나의 객체 검출 박스 및 이에 대응되는 객체 카테고리일 수 있으며, 본원의 실시예는 이를 한정하지 않는다.
하나의 선택적인 예에 있어서, 상기 단계 218은 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행될 수 있으며, 프로세서에 의해 작동되는 검출 네트워크에 의해 수행될 수도 있다.
단계 220에 있어서, 현재 짧은 비디오 시퀀스로부터 다른 하나의 프레임을 제1 비 키 프레임으로서 선택하고, 상기 제1 비 키 프레임과 제1 키 프레임사이의 옵티컬 플로우 필드를 획득한다.
여기서, 선택적인 실시 형태로서, 현재 짧은 비디오 시퀀스로부터 다른 하나의 프레임을 제1 비 키 프레임으로서 선택하고, 현재 짧은 비디오 시퀀스의 모든 프레임이 모두 선택될 때까지, 다른 하나의 프레임은 제1 비 키 프레임으로서 제1 키 프레임의 타이밍의 역방향을 따라 순차적으로 선택되며, 다른 하나의 프레임은 제1 비 키 프레임으로서 타이밍의 순방향을 따라 순차적으로 선택될 수도 있으며, 또는 다른 하나의 프레임은 제1 비 키 프레임으로서 타이밍 순방향 및 타이밍 역방향을 따라 순차적으로 번갈아 선택될 수도 있다. 또한, 다른 하나의 선택적인 실시 형태로서, 현재 짧은 비디오 시퀀스의 각각의 이미지 프레임을 모두 인식할 필요가 없으며, 이 경우, 유사한 방식을 참조함으로써, 현재 짧은 비디오 시퀀스로부터 하나 또는 복수 개의 다른 프레임이 선택되어 제1 비 키 프레임으로서 사용되지만, 본원의 실시예는 이에 한정하지 않는다.
단계 222에 있어서, 제1 비 키 프레임과 제1 키 프레임사이의 옵티컬 플로우 필드에 따라, 상기 제1 비 키 프레임과 제1 키 프레임의 융합 특징을 정렬시킨다.
단계 224에 있어서, 제1 비 키 프레임과 제1 키 프레임사이의 옵티컬 플로우 필드 및 정렬된 제1 키 프레임의 융합 특징에 따라, 제1 비 키 프레임의 특징을 획득한다.
하나의 선택적인 예에 있어서, 상기 단계 220 ~ 단계 224는 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행될 수 있으며, 프로세서에 의해 작동된 광류 전파 모듈에 의해 수행될 수 있다.
단계 226에 있어서, 제1 비 키 프레임의 특징에 따라 상기 제1 비 키 프레임에 대해 검출을 진행하여, 제1 비 키 프레임의 객체 검출 결과를 획득한다.
여기서, 제1 비 키 프레임의 객체 검출 결과는, 예를 들어 제1 비 키 프레임의 카테고리, 또는 제1 비 키 프레임의 적어도 하나의 객체 검출 박스 및 이에 대응되는 객체 카테고리일 수 있다.
하나의 선택적인 예에 있어서, 상기 단계 226은 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행될 수 있으며, 프로세서에 의해 작동되는 검출 네트워크에 의해 수행될 수도 있다.
하나 또는 복수 개의 선택적인 예에 있어서, 현재 짧은 비디오 시퀀스에서 인식될 필요가 있는 비 키 프레임에 대해, 현재 짧은 비디오 시퀀스에서 인식될 필요가 있는 비 키 프레임이 모두 인식될 때까지 단계 220 ~ 단계 226을 순차적으로 수행하며, 그 다음, 모든 짧은 비디오 시퀀스가 인식될 때까지 다음 짧은 비디오 시퀀스에 대해 상기 프로세스를 수행한다.
본원의 실시예에서 제공되는 비디오 인식 방법에 있어서, 각 키 프레임의 특징은 그 프레임의 인식을 위한 것일 뿐만 아니라, 하나의 전체 비디오에 걸친 공유 융합 특징에 기여한다. 상기 공유 융합 특징은 복수 개의 키 프레임의 정보를 흡수하고, 각 키 프레임에서 현재 키 프레임 자체의 심층 특징과 융합을 진행하며, 그 키 프레임 특징을 강화시켜 대응되는 이미지가 흐린 경우에도 인식에 실패하지 않도록 한다. 공유된 융합 특징은 키 프레임별로 전파되고, 동시에 각 키 프레임에서 업데이트된다. 강화된 키 프레임 특징은 다른 비 키 프레임의 인식을 위해 전파된다.
전형적인 비디오 특징 재사용은 먼저 속도가 비교적 빠른 알고리즘을 사용하여 두 프레임 사이의 옵티컬 플로우 필드를 계산하며, 이어서, 쌍 선형 차이 값 특징 변형을 사용하여 참조 프레임의 특징을 목표 프레임에 빠르게 전파한다. 그러나, 광류 알고리즘의 오류로 인해 추가 노이즈가 발생하여 정확도가 떨어진다. 주의력 메커니즘을 기반으로 한 비디오 특징 강화는 모션 블러(motion blur), 아웃 포커스(out of focus) 등으로 인한 정확도가 떨어지는 문제에 어느 정도 대응할 수 있으나, 이러한 방법은 옵티컬 플로우 필드를 사용하여 특징을 정렬시켜야 하며, 많은 양의 광류 계산은 속도를 급격히 감소시킨다. 본원의 실시예에서 제공되는 비디오 인식 방법에서, 비디오 정보의 중복성(redundancy) 및 상보성을 충분히 이용하고, 희소한 특징 추출을 통해 중복 계산을 피하며, 광류 전파를 통해 특징을 재사용하며; 이를 기반으로, 최적화된 키 프레임 위치 선택을 통해 광류 계산에 의해 발생되는 노이즈가 감소되고, 반복적인 특징 융합 알고리즘을 통해 공유 특징에 포함된 정보를 강화시켜, 다른 비디오 특징 재사용 방법에 비해, 속도와 정확도를 동시에 확보한다.
본원의 실시예는 반복적인 멀티 프레임 특징 융합 방식을 통해 비디오에서 이들 키 프레임의 공유 특징에 포함된 정보를 강회하고, 프레임 인식의 정확도를 향상시키며, 비디오 인식 성능을 향상시키며; 또한, 모든 제2 키 프레임의 특징 및 제1 키 프레임의 특징에 대해 융합을 진행하는 것이 아니라, 매번 최신 하나의 융합되지 않은 키 프레임의 특징을 추가하여 융합을 진행함으로써 특징 융합의 계산 오버헤드를 감소시키고 비디오 인식 효율을 향상시킨다. 두 번째로, 중간 프레임을 키 프레임으로 선택하는 키 프레임 위치 선택 방식은, 첫 번째 프레임을 키 프레임으로 정기적으로 선택하는 것과 비교하여, 평균 특징 전파 거리를 감소시켜, 짧은 비디오 시퀀스에서 이미지 프레임 사이의 특징 전파에 의해 야기되는 오류를 최소화하며, 짧은 비디오 시퀀스의 전체 특징 전파 시간을 단축시키고, 검출 결과의 정확도를 향상시킨다. 또한, 비디오에서 각 이미지 프레임 사이 정보의 중복성 및 상보성을 충분히 이용하고, 각 이미지 프레임에 대해 특징 추출은 진행하는 것이 아니라, 다만 키 프레임의 특징을 추출하며, 광류 전파 방식을 통해 이미지 프레임 사이의 특징을 재사용하며, 희소한 특징 추출을 통해 중복 계산을 피함으로써, 프레임 단위로 특징을 추출하는 방식에 비해, 비디오 인식의 속도 및 효율을 향상시킨다.
또한, "융합 - 전파 - 융합 - 전파"를 번갈아 진행하는 방식을 통해, 융합이 수행될 때마다 최신 하나의 융합되지 않은 프레임의 특징만을 전파하므로, 융합 동작이 수행될 때마다 광류를 통해 융합될 각 프레임의 특징을 전파하는 다른 방식과 비교하여, 특징 전파의 계산 오버헤드를 감소시킨다.
본원의 실시예에서 제공되는 비디오 인식 방법은 다양한 시나리오에 적용될 수 있다. 예를 들어, 지능형 드론으로 야생 동물을 공중 촬영하는 동안 실시간 분석을 구현하기 위해, 가능한 빠르고 정확하게 화면 속의 동물을 인식해야 한다. 그러나 공기 흐름 등 영향으로 인해, 화면이 흔들리거나 흐리게 나타날 수 있으며, 또한 야생 동물도 빨리 달리고 있을 수 있다. 이러한 요소들로 인해 화질이 저하될 수 있으며, 종래의 비디오 인식 네트워크는 실제 응용에서 정확도 및 속도에 대한 요구 사항을 충족시킬 수 없지만, 본원의 실시예에서 제공되는 기술적 해결수단은 비디오 인식의 정확도 및 속도를 향상시킬 수 있다.
도 3에 도시된 바와 같이, 도 2에 도시된 비디오 인식 방법의 하나의 예의 대응되는 프로세스 모식도이다. 이해해야 할 것은, 도 2 및 도 3의 예는 오직 본원의 기술적 해결수단의 이해를 돕기 위한 것이며, 본원을 한정하는 것으로 이해되어서는 안된다.
본원의 상기 각 실시예의 비디오 인식 방법은 하나의 훈련된 비디오 인식 네트워크를 통해 구현될 수 있고, 비디오 인식 네트워크는 하나의 신경 네트워크를 통해 구현될 수 있으며, 여기서 신경 네트워크는 예를 들어 심층 신경 네트워크일 수 있다. 비디오 인식 네트워크를 통해 상기 각 실시예의 비디오 인식 방법을 구현하기 전에, 비디오 인식 네트워크에 대해 훈련을 진행할 수 있다.
하나 또는 복수 개의 선택적인 실시예에 있어서, 상기 비디오 인식 방법은 비디오 인식 네트워크의 훈련을 구현할 수도 있다. 선택적으로, 상기 비디오의 이미지 프레임(키 프레임 및 비 키 프레임에서 적어도 하나를 포함함)은 샘플이미지 프레임으로서 사용되며, 여기서, 샘플 이미지 프레임은 태그 정보를 갖는다. 이 경우, 상기 비디오 인식 방법은, 비디오에서 적어도 하나의 이미지 프레임의 객체 검출 결과와 태그 정보 사이의 차이에 기반하여, 비디오 인식 네트워크에 대해 훈련을 진행하는 단계 - 상기 적어도 하나의 이미지 프레임은 상기 제1 키 프레임을 포함함 - 를 더 포함한다. 예를 들어, 비디오 인식 네트워크는 기설정된 훈련 완료 조건이 충족될 때까지, 확률 기울기 하강법(stochastic gradient descent)을 사용하여 훈련된다. 여기서 기설정된 훈련 완료 조건은, 예를 들어, 적어도 하나의 이미지 프레임의 객체 검출 결과와 태그 정보 사이의 차이가 특정 조건을 만족시키는 것 및 비디오 인식 네트워크의 훈련이 기설정된 횟수에 도달되는 것 중 적어도 하나를 포함한다.
하나의 선택적인 실시 형태에 있어서, 상기 태그 정보는, 이미지 프레임에 포함된 적어도 하나의 객체의 위치 정보(예를 들어, 객체 박스의 위치 정보) 및 카테고리 정보 중 적어도 하나를 포함한다. 상응하게, 객체 검출 결과는 객체 검출 박스 및 객체 검출 박스에 대응되는 객체 카테고리를 포함한다. 하나 또는 복수 개의 선택적인 예에 있어서, 비디오 인식 네트워크를 훈련시킬 경우, 비디오에서 적어도 하나의 이미지 프레임의 객체 검출 결과 중 객체 검출 박스와 태그 정보 중의 대응 위치 정보 사이의 차이 및 상기 객체 검출 박스에 대응되는 객체 카테고리와 태그 정보 중의 카테고리 정보 사이의 차이 중 적어도 하나에 기반하여, 비디오 인식 네트워크에서의 네트워크 파라미터 값을 조정할 수 있다.
이하 도 4를 결합하여, 본원의 실시예에서 제공한 비디오 인식 네트워크의 훈련 방법을 상세하게 설명된다.
도 4는 본원의 실시예에 따른 비디오 인식 네트워크의 훈련 방법의 흐름도이다.
단계 402에 있어서, 비디오 인식 네트워크를 이용하여, 비디오 샘플로부터 현재 키 프레임의 특징과 이전 키 프레임의 특징을 추출한다.
단계 404에 있어서, 비디오 인식 네트워크를 이용하여, 현재 키 프레임의 특징과 이전 키 프레임의 특징에 대해 융합을 진행하여, 현재 키 프레임의 융합 특징을 획득하고, 비디오 샘플 중의 현재 목표 프레임과 현재 키 프레임 사이의 옵티컬 플로우 필드를 획득한다.
여기서, 현재 목표 프레임과 현재 키 프레임은 비디오 샘플 중의 동일한 세그먼트(현재 세그먼트라 칭함)에 속하며, 상기 현재 세그먼트에서 키 프레임 이외의 프레임일 수 있다.
단계 406에 있어서, 비디오 인식 네트워크를 이용하여, 현재 목표 프레임과 현재 키 프레임 사이의 옵티컬 플로우 필드 및 현재 키 프레임의 융합 특징에 따라, 현재 목표 프레임의 특징을 획득한다.
단계 408에 있어서, 비디오 인식 네트워크를 이용하여, 현재 목표 프레임의 특징에 따라, 현재 목표 프레임에 대해 검출을 진행하여, 현재 목표 프레임의 객체 검출 결과를 획득한다.
하나의 선택적인 예에 있어서, 상기 단계 402 ~ 단계 408은 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행될 수 있거나, 프로세서에 의해 작동되는 비디오 인식 네트워크 또는 비디오 인식 장치에서 대응되는 모듈에 의해 수행될 수 있다.
단계 410에 있어서, 현재 목표 프레임의 객체 검출 결과와 현재 목표 프레임의 태그 정보 사이의 차이에 기반하여, 비디오 인식 네트워크에 대해 훈련을 진행하며, 즉 비디오 인식 네트워크의 네트워크 파라미터 값을 조정한다.
하나의 선택적인 예에 있어서, 상기 단계 410은 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출하여 수행될 수 있거나, 프로세서에 의해 작동되는 훈련 모듈에 의해 수행될 수 있다.
본원의 상기 실시예에서 제공되는 비디오 인식 네트워크의 훈련 방법에 기반하여, 비디오 샘플로부터 현재 키 프레임의 특징과 이전 키 프레임의 특징에 대해 융합을 진행하여, 현재 키 프레임의 융합 특징을 획득하며, 그 다음 상기 현재 키 프레임의 융합 특징을 현재 목표 프레임으로 전파하고 검출을 진행하여, 현재 목표 프레임의 객체 검출 결과를 획득하며, 현재 목표 프레임의 객체 검출 결과와 태그 정보 사이의 차이에 기반하여, 비디오 인식 네트워크에 대해 훈련을 진행하며, 본원의 실시예의 비디오 인식 네트워크의 훈련 방법에 기반하여 훈련하여 얻은 비디오 인식 네트워크는, 비디오가 인식 될 때, 각각의 키 프레임의 특징은 모두 이전 키 프레임 특징과 융합을 진행하고 다시 현재 목표 프레임으로 전파되어 검출을 진행하며, 반복적인 멀티 프레임 특징 융합 방식을 통해 비디오에서 이러한 키 프레임의 공유 특징에 포함된 정보를 강화시키고, 프레임 인식의 정확도를 향상시키며, 비디오 인식 성능을 향상시키며; 또한, 모든 제2 키 프레임의 특징 및 제1 키 프레임의 특징에 대해 융합을 진행하는 것이 아니라, 매번 최신 하나의 융합되지 않은 키 프레임의 특징을 추가하여 융합을 진행함으로써 특징 융합의 계산 오버헤드를 감소시키고 비디오 인식 효율을 향상시킨다.
하나의 선택적인 예에 있어서, 상기 훈련 방법은 반복 수행 과정이며, 다시 말하면, 비디오의 각 프레임은 현재 목표 프레임으로서 사용되어, 기설정된 훈련 완료 조건이 충족될 때까지 상기 프로세스를 수행하여 비디오 인식 네트워크의 훈련을 완료한다.
본원의 실시예의 훈련 방법의 하나의 선택적인 실시 형태에 있어서, 현재 키 프레임의 특징과 이전 키 프레임의 특징에 대해 융합을 진행하는 단계는,
현재 키 프레임과 이전 키 프레임 사이의 옵티컬 플로우 필드를 획득하는 단계;
현재 키 프레임과 이전 키 프레임 사이의 옵티컬 플로우 필드에 따라, 이전 키 프레임의 특징과 현재 키 프레임을 정렬시키는 단계; 및
정렬된 이전 키 프레임의 특징과 현재 키 프레임의 특징에 대해 융합을 진행하는 단계를 포함한다.
본원의 실시예의 훈련 방법의 하나의 선택적인 실시 형태에 있어서, 이전 키 프레임의 특징과 현재 키 프레임의 특징에 대해 융합을 진행하는 단계는,
이전 키 프레임의 특징과 현재 키 프레임의 특징의 가중 계수를 결정하는 단계; 및
이전 키 프레임의 특징과 현재 키 프레임의 특징의 가중 계수에 따라, 이전 키 프레임의 특징과 현재 키 프레임의 특징에 대해 융합을 진행하는 단계를 포함한다.
본원의 상기 각 훈련 방법 실시예 이전에, 비디오 샘플로부터 현재 키 프레임, 이전 키 프레임 및 현재 목표 프레임을 선택하는 단계를 더 포함한다.
여기서, 하나의 선택적인 실시 형태에 있어서, 비디오 샘플로부터 현재 키 프레임, 이전 키 프레임 및 현재 목표 프레임을 선택하는 단계는,
비디오 샘플로부터 선택된 이미지 프레임을 현재 목표 프레임으로서 사용하는 단계;
상기 비디오 샘플에서 상기 현재 목표 프레임을 시작점으로 앞으로 향한 제1 거리에서 샘플링된 이미지 프레임을 이전 키 프레임으로서 사용하고, 상기 비디오에서 현재 목표 프레임을 시작점으로부터 뒤로 향한 제2 거리에서 샘플링된 이미지 프레임을 현재 키 프레임으로서 사용한다.
하나의 선택적인 예에 있어서, 상기 제2 거리는 제1 거리보다 작을 수 있다. 그러므로, 상기 현재 목표 프레임과 현재 키 프레임의 거리는 상기 현재 목표 프레임과 이전 키 프레임의 거리보다 작을 수 있다.
예를 들어, 하나의 응용 예에 있어서, 이미지 프레임은 비디오 샘플로부터 무작위로 먼저 선택되어 현재 목표 프레임으로서 사용될 수 있으며, 상기 현재 목표 프레임에 대해 상기 태그 정보가 태그된다. 또한, 상기 비디오 샘플에서 현재 목표 프레임으로부터 앞으로 향한 랜덤 거리(즉 제1 거리)에서 하나의 이미지 프레임을 샘플링하여 이전의 하나의 짧은 비디오 시퀀스의 키 프레임(즉 이전 키 프레임)으로서 사용하며, 예를 들어, 짧은 비디오 시퀀스는 길이가 10 프레임이면, 상기 이전 키 프레임은 현재 목표 프레임에서 앞으로 향한 5 프레임과 15 프레임 사이에 위치하며; 또한, 이미지 프레임은 상기 비디오 샘플에서 현재 목표 프레임으로부터 뒤로 향한 비교적 작은 랜덤 거리(즉 제2 거리)에서 샘플링되어 현재 세그먼트의 키 프레임(즉 현재 키 프레임)으로서 사용되며, 예를 들어, 짧은 비디오 시퀀스 길이가 10 프레임이면, 상기 현재 키 프레임은 현재 목표 프레임으로부터 뒤로 향한 -5 프레임과 5 프레임 사이에 위치할 수 있다. 선택적으로, 본원의 실시예에서 어느 이미지 프레임의 이전 키 프레임 및 현재 키 프레임은 다른 방식을 통해 획득되고, 본원의 실시예는 이를 한정하지 않는다.
또한, 본원의 실시예의 상기 훈련 방법에 있어서, 선택적으로, 상기 비디오에서 현재 목표 프레임의 태그 정보는, 현재 목표 프레임에 포함된 적어도 하나의 객체의 위치 정보(예를 들어 객체 박스의 위치 정보) 및 카테고리 정보 중 적어도 하나를 포함하며; 현재 목표 프레임의 객체 검출 결과는 현재 목표 프레임 중의 적어도 하나의 객체 검출 박스 및 객체 검출 박스에 대응되는 객체 카테고리 중 적어도 하나를 포함한다. 상응하게, 상기 실시예에서, 현재 목표 프레임의 객체 검출 결과와 현재 목표 프레임의 태그 정보 사이의 차이에 기반하여, 비디오 인식 네트워크에 대해 훈련을 진행하는 단계는, 현재 목표 프레임의 객체 검출 결과 중의 객체 검출 박스와 태그 정보 중의 위치 정보 사이의 차이 및 상기 객체 검출 박스에 대응되는 객체 카테고리와 태그 정보 중의 카테고리 정보 사이의 차이 중 적어도 하나에 기반하여, 비디오 인식 네트워크에서의 네트워크 파라미터 값을 조정하는 단계를 포함한다.
본원의 상기 각 훈련 방법 실시예에 있어서, 훈련 샘플은 각 그룹에서 선택된 현재 키 프레임, 이전 키 프레임 및 현재 목표 프레임으로 구성되며, 훈련 샘플 세트는 적어도 하나의 훈련 샘플로 구성되며, 훈련 샘플 세트로부터 훈련 샘플을 순차적으로 선택하여, 상기 훈련 방법 프로세스를 수행하며, 기설정된 훈련 완료 조건이 충족될 때까지, 비디오 인식 네트워크에 대해 반복 훈련을 진행하며, 예를 들어, 현재 목표 프레임의 객체 검출 결과와 현재 목표 프레임의 태그 카테고리 정보 사이의 차이가 기설정된 차이보다 작거나 및/또는 비디오 인식 네트워크에 대한 훈련이 기설정된 횟수에 도달할 때까지 훈련을 진행한다. 도 5에 도시된 바와 같이, 도 5는 도 4에 도시된 실시예의 하나의 대응되는 과정 모식도이다. 이해해야 할 것은, 도 4 및 도 5의 예는 오직 본원의 기술적 해결수단의 이해를 돕기 위한 것이며, 본원을 한정하는 것으로 이해되어서는 안된다.
본원의 실시예에서 제공되는 훈련 방법에 있어서, 비디오에서 무작위로 샘플링된 3 개의 이미지는 적용 동안 작업 상태를 시뮬레이션하기 위한 것이다. 하나의 프레임은 무작위로 먼저 선택되어 현재 인식 목표 프레임으로서 사용되며, 그 다음, 하나의 프레임은 앞으로 향한 랜덤 거리에서 샘플링되어, 이전 세그먼트의 키 프레임으로서 사용되며, 이어서, 하나의 프레임은 뒤로 향한 비교적 작은 랜덤 거리에서 샘플링되어, 현재 세그먼트의 키 프레임으로서 사용된다. 이전 세그먼트의 키 프레임 특징은 광류를 통해 현재 세그먼트의 키 프레임까지 전파되며, 위치별 융합 가중치는 하나의 서브 네트워크를 통해 생성된 후, 둘은 이 가중치를 평균화하여 융합된 키 프레임 특징을 얻는다. 융합된 키 프레임 특징은 광류를 통해 현재 인식 목표 프레임까지 전파되어, 구체적인 인식 작업 네트워크로 전송되고, 태그에 대해 오류가 생성되며, 오류는 역방향으로 전파되어 전체 프레임을 최적화한다.
또한, 본원의 실시예는 다른 비디오 인식 방법을 제공하였으며, 상기 방법은 인식될 비디오를 획득하는 단계; 비디오 인식 네트워크를 이용하여 비디오를 인식하여, 비디오의 인식 결과를 획득하는 단계 - 비디오 인식 네트워크는 본원의 상기 임의의 실시예의 훈련 방법을 통해 훈련하여 얻은 것임 - 를 포함한다.
본원의 실시예에서 제공되는 임의의 비디오 인식 방법 또는 비디오 인식 네트워크의 훈련 방법은 단말 기기 및 서버 등을 포함하지만 이에 한정되지 않는 데이터 처리 능력을 갖는 임의의 적절한 기기에 의해 수행된다. 또는, 본원의 실시예에서 제공되는 임의의 비디오 인식 방법 또는 비디오 인식 네트워크의 훈련 방법은 프로세서에 의해 수행되며, 예를 들어, 프로세서는 메모리에 저장된 대응되는 명령어를 호출하여 본원의 실시예에서 제공된 임의의 비디오 인식 방법 또는 비디오 인식 네트워크의 훈련 방법을 수행한다. 이에 대해 아래에서 더이상 설명하지 않는다.
본 기술분야의 통상의 기술자는 상기 방법 실시예를 구현하기 위한 모든 또는 일부 동작은 프로그램 명령어와 관련되는 하드웨어를 통해 완성되며, 전술한 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있으며, 상기 프로그램이 수행될 때, 상기 방법 실시예를 포함하는 동작을 수행하며; 전술한 저장 매체는 판독 전용 메모리(Read Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.
도 6은 본원의 실시예에 따른 비디오 인식 장치의 구조 모식도이다. 상기 비디오 인식 장치는 본원의 실시예에서 제공되는 상기 비디오 인식 방법을 구현하기 위한 것일 수 있다. 도 6에 도시된 바와 같이, 상기 비디오 인식 장치는, 특징 추출 네트워크, 하이브리드(hybrid) 네트워크 및 검출 네트워크를 포함한다. 여기서:
특징 추출 네트워크는 비디오에서 제1 키 프레임의 특징을 추출하기 위한 것이다. 여기서, 상기 제1 키 프레임은 비디오에서 임의의 키 프레임이며, 비디오의 복수 개의 키 프레임에서 현재 처리될 키 프레임으로 간주할 수 있다.
하이브리드 네트워크는 제1 키 프레임의 특징과 상기 비디오에서 제2 키 프레임의 융합 특징에 대해 융합을 진행하여, 제1 키 프레임의 융합 특징을 획득하기 위한 것이며; 여기서, 제2 키 프레임은 비디오에서 검출 타이밍이 제1 키 프레임 이전이며, 상기 제2 키 프레임은 예를 들어 상기 비디오에서 제1 키 프레임에 인접한 이전 키 프레임일 수 있다. 본원의 각 실시예의 하나의 실시 형태에 있어서, 제2 키 프레임의 융합 특징은 상기 제2 키 프레임의 특징과 상기 비디오에서 검출 타이밍이 상기 제2 키 프레임 이전인 제3 키 프레임의 융합 특징을 융합 처리하여 획득한다.
검출 네트워크는 상기 제1 키 프레임의 융합 특징에 따라 제1 키 프레임에 대해 검출을 진행하여, 제1 키 프레임의 객체 검출 결과를 획득하기 위한 것이다. 여기서, 제1 키 프레임의 객체 검출 결과는, 예를 들어, 제1 키 프레임의 카테고리, 또는 제1 키 프레임 중의 객체 검출 박스 및 이에 대응되는 객체 카테고리를 포함한다.
본원의 상기 실시예에서 제공되는 비디오 인식 장치에 기반하여, 제1 키 프레임의 특징과 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하여, 제1 키 프레임의 융합 특징을 획득하며, 제1 키 프레임의 융합 특징에 따라 제1 키 프레임에 대해 검출을 진행하여, 비 키 프레임의 객체 검출 결과를 획득한다. 본원의 실시예에서, 비디오가 인식될 때, 각 키 프레임은 모두 비디오 중의 제2 키 프레임의 융합 특징과 융합을 진행하며, 획득된 제1 키 프레임의 융합 특징에 기반하여 인식을 더 진행하며, 반복적인 멀티 프레임 특징 융합 방식을 통해 비디오에서 이러한 키 프레임의 공유 특징에 포함된 정보를 강화시키고, 프레임 인식의 정확도를 향상시키며, 비디오 인식 성능을 향상시키며; 또한, 모든 제2 키 프레임의 특징 및 제1 키 프레임의 특징에 대해 융합을 진행하는 것이 아니라, 매번 최신 하나의 융합되지 않은 키 프레임의 특징을 추가하여 융합을 진행함으로써 특징 융합의 계산 오버헤드를 감소시키고 비디오 인식 효율을 향상시킨다.
도 7은 본원의 실시예에 따른 비디오 인식 장치의 다른 구조 모식도이다. 도 7에 도시된 바와 같이, 도 6에 도시된 비디오 인식 장치와 비교하여, 상기 비디오 인식 장치는, 제1 키 프레임과 제2 키 프레임 사이의 옵티컬 플로우 필드를 획득하고; 제1 키 프레임과 제2 키 프레임 사이의 옵티컬 플로우 필드에 따라, 제2 키 프레임의 융합 특징과 제1 키 프레임을 정렬시키기 위한 것인 광류 전파 모듈을 더 포함한다. 상응하게, 하이브리드 네트워크는 정렬된 제2 키 프레임의 융합 특징과 제1 키 프레임의 융합 특징에 대해 융합을 진행하여 제1 키 프레임의 융합 특징을 획득하기 위한 것이다.
본원의 하나의 선택적인 실시 형태에 있어서, 하이브리드 네트워크가 제1 키 프레임의 특징과 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행할 경우, 제1 키 프레임의 특징과 제2 키 프레임의 융합 특징의 가중 계수를 결정하고; 제1 키 프레임의 특징과 제2 키 프레임의 융합 특징의 가중 계수에 따라, 제1 키 프레임의 특징과 제2 키 프레임의 융합 특징에 대해 융합을 진행하기 위한 것이다.
또한, 다시 도 7을 참조하면, 본원의 실시예의 비디오 인식 장치의 또 다른 예에 있어서, 결정 모듈 - 제1 키 프레임이 비디오에서 첫 번째 키 프레임인지 여부를 결정하기 위한 것임 - 을 더 포함한다. 상응하게, 하이브리드 네트워크는 결정 모듈의 결정 결과에 따라, 제1 키 프레임이 비디오에서 첫 번째 키 프레임이 아닌 것에 응답하여, 제1 키 프레임의 특징과 비디오에서 제2 키 프레임의 융합 특징에 대해 융합을 진행하기 위한 것이다.
또한, 선택적으로, 다른 하나의 가능한 구현 방식에 있어서, 검출 네트워크는 결정 모듈의 결정 결과에 따라, 제1 키 프레임이 비디오에서 첫 번째키 프레임인 것에 응답하여, 첫 번째 키 프레임의 특징에 따라 제1 키 프레임에 대해 검출을 진행하여, 첫 번째 키 프레임의 객체 검출 결과를 더 획득하기 위한 것일 수 있다.
또한, 다시 도 7을 참조하면, 본원의 실시예의 비디오 인식 장치의 또 다른 예에 있어서, 선택 모듈 - 비디오로부터 제1 키 프레임을 선택하기 위한 것임 - 을 더 포함한다.
일 실시 형태에 있어서, 선택 모듈은, 비디오로부터 무작위로 이미지 프레임을 선택하여 제1 키 프레임으로서 사용하기 위한 것이며; 또는, 비디오에서 여러 프레임의 간격으로 이미지 프레임을 선택하여 제1 키 프레임으로서 사용하기 위한 것이며; 또는, 비디오를 복수 개의 짧은 비디오 시퀀스로 분할하여, 각 짧은 비디오 시퀀스에서 이미지 프레임을 선택하여 각 짧은 비디오 시퀀스의 키 프레임으로서 사용하기 위한 것이고, 복수 개의 짧은 비디오 시퀀스의 키 프레임은 제1 키 프레임을 포함하며; 또는, 비디오로부터 하나의 짧은 비디오 시퀀스를 선택하여, 선택된 짧은 비디오 시퀀스로부터 선택된 이미지 프레임을 상기 제1 키 프레임으로서 사용하기 위한 것이다.
선택적인 일 예에 있어서, 선택 모듈은 짧은 비디오 시퀀스로부터 선택된 이미지 프레임을 제1 키 프레임으로서 사용하고, 짧은 비디오 시퀀스로부터 무작위로 선택된 이미지 프레임을 제1 키 프레임으로서 사용하기 위한 것이며; 또는 짧은 비디오 시퀀스 중의 중간 프레임을 제1 키 프레임으로서 사용하기 위한 것이며; 여기서, 중간 프레임은 상기 중간 프레임이 위치한 짧은 비디오 시퀀스에서 첫 번째 프레임과 마지막 프레임 이외의 이미지 프레임을 포함한다. 여기서 중간 프레임은 예를 들어, 상기 중간 프레임이 위치한 짧은 비디오 시퀀스에서 중간 또는 중간에 인접한 위치의 이미지 프레임을 포함한다.
또한, 상기 각 비디오 인식 장치 실시예에 있어서, 광류 전파 모듈은 제1 비 키 프레임과 제1 키 프레임 사이의 옵티컬 플로우 필드를 더 획득하기 위한 것일 수 있으며; 제1 비 키 프레임과 제1 키 프레임 사이의 옵티컬 플로우 필드 및 제1 키 프레임의 융합 특징에 따라, 제1 비 키 프레임의 특징을 더 획득하기 위한 것일 수 있다. 상응하게, 검출 네트워크는 제1 비 키 프레임의 특징에 따라 제1 비 키 프레임에 대해 검출을 진행하여, 제1 비 키 프레임의 객체 검출 결과를 더 획득하기 위한 것일 수 있다.
여기서, 제1 키 프레임과 제1 비 키 프레임 사이의 거리는 기설정된 임계값보다 작으며; 또는 제1 키 프레임은 비디오의 키 프레임에서 제1 비 키 프레임에 가장 가까운 키 프레임이며; 또는 제1 비 키 프레임과 제1 키 프레임은 동일한 짧은 비디오 시퀀스에 속한다.
일 실시 형태에 있어서, 광류 전파 모듈은, 제1 비 키 프레임과 제1 키 프레임사이의 옵티컬 플로우 필드에 따라, 제1 키 프레임의 융합 특징과 제1 비 키 프레임을 정렬시키기 위한 것이며; 제1 비 키 프레임과 제1 키 프레임사이의 옵티컬 플로우 필드 및 정렬된 제1 키 프레임의 융합 특징에 따라, 제1 비 키 프레임의 특징을 획득하기 위한 것이다.
선택적으로, 본원의 실시예에서 제공되는 상기 비디오 인식 장치는 비디오 인식 네트워크를 통해 구현될 수 있으며; 상기 비디오의 이미지 프레임에는 태그 정보가 태그되어 있다. 상응하게, 비디오 인식 장치의 일부 가능한 구현 방식에 있어서, 훈련 모듈 - 비디오 중의 적어도 하나의 이미지 프레임의 객체 검출 결과와 태그 정보 사이의 차이에 기반하여, 비디오 인식 네트워크에 대해 훈련을 진행하기 위한 것이며, 상기 적어도 하나의 이미지 프레임은 제1 키 프레임을 포함함 - 을 더 포함한다.
일 실시 형태에 있어서, 상기 태그 정보는, 적어도 하나의 객체의 위치 정보(예를 들어 객체 박스의 위치 정보)와 카테고리 정보를 포함하며; 객체 검출 결과는 객체 검출 박스와 객체 검출 박스에 대응되는 객체 카테고리를 포함한다. 상응하게, 훈련 모듈은, 비디오 중의 적어도 하나의 이미지 프레임의 객체 검출 결과에서의 객체 검출 박스와 태그 정보에서의 위치 정보 사이의 차이 및 상기 객체 검출 박스에 대응되는 객체 카테고리와 태그 정보에서 카테고리 정보 사이의 차이에 기반하여, 비디오 인식 네트워크에서의 네트워크 파라미터 값을 조정하기 위한 것이다.
도 8은 본원의 실시예의 비디오 인식 네트워크의 훈련 장치의 구조 모식도이다. 상기 훈련 장치는 본원의 상기 도 4에 도시된 비디오 인식 네트워크의 훈련 방법을 구현하기 위한 것일 수 있다. 도 8에 도시된 바와 같이, 상기 훈련 장치는 비디오 인식 네트워크 및 훈련 모듈을 포함한다. 여기서,
비디오 인식 네트워크는 비디오 샘플에서 현재 키 프레임의 특징과 이전 키 프레임의 특징을 추출하며; 현재 키 프레임의 특징과 이전 키 프레임의 특징에 대해 융합을 진행하여, 현재 키 프레임의 융합 특징을 획득하고; 비디오 샘플 중의 현재 목표 프레임과 현재 키 프레임 사이의 옵티컬 플로우 필드를 획득하며; 여기서, 현재 목표 프레임과 현재 키 프레임은 비디오 샘플의 동일한 세그먼트에 속하며, 예를 들어, 상기 현재 키 프레임이 위치한 세그먼트에서 현재 키 프레임 이외의 다른 프레임에 속하며; 현재 목표 프레임과 현재 키 프레임 사이의 옵티컬 플로우 필드 및 현재 키 프레임의 융합 특징에 따라, 현재 목표 프레임의 특징을 획득하며; 현재 목표 프레임의 특징에 따라 현재 목표 프레임에 대해 검출을 진행하여, 현재 목표 프레임의 객체 검출 결과를 획득하기 위한 것이다.
훈련 모듈은 현재 목표 프레임의 객체 검출 결과와 현재 목표 프레임의 태그 정보 사이의 차이에 기반하여, 상기 비디오 인식 네트워크에 대해 훈련을 진행하기 위한 것이며, 즉 비디오 인식 네트워크의 네트워크 파라미터 값을 조정하기 위한 것이다.
본원의 상기 실시예의 비디오 인식 네트워크의 훈련 장치에 기반하여, 비디오 샘플 중의 현재 키 프레임의 특징과 이전 키 프레임의 특징에 대해 융합을 진행하여, 현재 키 프레임의 융합 특징을 획득하며, 그 다음 상기 현재 키 프레임의 융합 특징을 현재 목표 프레임으로 전파하고 검출을 진행하여, 현재 목표 프레임의 객체 검출 결과를 획득하며, 현재 목표 프레임의 객체 검출 결과와 태그 정보 사이의 차이에 기반하여, 비디오 인식 네트워크에 대해 훈련을 진행하며, 본원의 실시예의 비디오 인식 네트워크의 훈련 장치에 기반하여 훈련하여 얻은 비디오 인식 네트워크는, 비디오가 인식 될 때, 각각의 키 프레임의 특징은 모두 이전 키 프레임의 특징과 융합을 진행하고 다시 현재 목표 프레임으로 전파되어 검출이 진행되며, 반복적인 멀티 프레임 특징 융합 방식을 통해 비디오에서 이러한 키 프레임의 공유 특징에 포함된 정보를 강화시키고, 프레임 인식의 정확도를 향상시키며, 비디오 인식 성능을 향상시키며; 또한, 모든 제2 키 프레임의 특징 및 제1 키 프레임의 특징에 대해 융합을 진행하는 것이 아니라, 매번 최신 하나의 융합되지 않은 키 프레임의 특징을 추가하여 융합을 진행함으로써 특징 융합의 계산 오버헤드를 감소시키고 비디오 인식 효율을 향상시킨다.
도 9는 본원의 실시예에 따른 비디오 인식 네트워크의 훈련 장치의 다른 구조 모식도이다. 도 9에 도시된 바와 같이, 비디오 인식 네트워크는, 특징 추출 네트워크, 광류 전파 모듈, 하이브리드 네트워크 및 검출 네트워크를 포함한다. 여기서:
특징 추출 네트워크는 비디오에서 현재 키 프레임의 특징과 이전 키 프레임의 특징을 추출하기 위한 것이다.
광류 전파 모듈은 현재키 프레임과 이전 키 프레임사이의 옵티컬 플로우 필드를 획득하기 위한 것이며, 현재 키 프레임과 이전 키 프레임사이의 옵티컬 플로우 필드에 따라, 이전 키 프레임의 특징과 현재 키 프레임을 정렬시키며; 현재 목표 프레임과 현재키 프레임사이의 옵티컬 플로우 필드를 획득하고, 현재 목표 프레임과 현재 키 프레임 사이의 옵티컬 플로우 필드 및 현재 키 프레임의 융합 특징에 따라, 현재 목표 프레임의 특징을 획득하기 위한 것이다.
하이브리드 네트워크는 정렬된 이전 키 프레임의 특징과 현재 키 프레임의 특징에 대해 융합을 진행하여, 현재 키 프레임의 융합 특징을 획득하기 위한 것이다.
검출 네트워크는 현재 목표 프레임의 특징에 따라 현재 목표 프레임에 대해 검출을 진행하여, 현재 목표 프레임의 객체 검출 결과를 획득하기 위한 것이다.
일 실시 형태에 있어서, 하이브리드 네트워크는 이전 키 프레임의 특징과 현재 키 프레임의 특징이 융합될 경우, 이전 키 프레임의 특징과 현재 키 프레임의 특징의 가중 계수를 결정하며; 이전 키 프레임의 특징과 현재 키 프레임의 특징의 가중 계수에 따라, 이전 키 프레임의 특징과 현재 키 프레임의 특징에 대해 융합을 진행하기 위한 것이다.
또한, 다시 도 9를 참조하면, 비디오 인식 네트워크의 훈련 장치의 또 다른 예에 있어서, 선택 모듈 - 비디오 샘플로부터 현재 키 프레임, 이전 키 프레임 및 현재 목표 프레임을 선택하기 위한 것임 - 을 더 포함한다.
일 실시 형태에 있어서, 선택 모듈은 비디오 샘플로부터 선택된 이미지 프레임을 현재 목표 프레임으로서 사용하고; 비디오 샘플로부터 현재 목표 프레임을 시작점으로 앞으로 향한 제1 거리에서 샘플링된 이미지 프레임을 이전 키 프레임으로서 사용하고, 비디오 샘플로부터 현재 목표 프레임을 시작점으로 뒤로 향한 제2 거리에서 샘플링된 이미지 프레임을 현재 키 프레임으로서 사용한다.
예시적으로, 제2 거리는 제1 거리보다 작을 수 있다.
상기 훈련 장치에 있어서, 선택적으로, 현재 목표 프레임의 태그 정보는, 현재 목표 프레임에 포함된 적어도 하나의 객체의 위치 정보(예를 들어 객체 박스의 위치 정보)와 카테고리 정보를 포함하며; 현재 목표 프레임의 객체 검출 결과는 현재 목표 프레임 중의 객체 검출 박스와 객체 검출 박스에 대응되는 객체 카테고리를 포함한다. 상응하게, 훈련 모듈은 현재 목표 프레임의 객체 검출 결과에서의 객체 검출 박스와 태그 정보에서의 위치 정보 사이의 차이 및 객체 검출 박스에 대응되는 객체 카테고리와 태그 정보에서 카테고리 정보 사이의 차이에 기반하여, 비디오 인식 네트워크에서의 네트워크 파라미터 값을 조정하기 위한 것이다.
상기 훈련 장치의 다양한 가능한 구현 방식에 있어서, 각 그룹의 현재 키 프레임, 이전 키 프레임 및 현재 목표 프레임으로 훈련 샘플을 구성하고, 적어도 하나의 훈련 샘플로 훈련 샘플 세트를 구성한다. 훈련 모듈은, 순차적으로 훈련 샘플 세트로부터 훈련 샘플을 선택하고, 기설정된 훈련 조건이 충족될 때까지 비디오 인식 네트워크에 대해 반복 훈련을 진행한다.
또한, 본원의 실시예는 본원의 상기 임의의 실시예에 따른 비디오 인식 장치 또는 비디오 인식 네트워크의 훈련 장치를 포함하는 전자 기기를 더 제공한다.
또한, 본원의 실시예는 다른 전자 기기를 더 제공하며, 상기 전자 기기는,
메모리 - 수행 가능한 명령어를 저장하기 위한 것임 - ; 및
프로세서 - 본원의 상기 임의의 실시예에서 비디오 인식 방법 또는 비디오 인식 네트워크의 훈련 방법의 동작을 완료하기 위한 수행 가능한 명령어를 수행하도록 메모리와 통신하기 위한 것임 - 를 포함한다.
도 10은 본원의 실시예에 따른 전자 기기의의 응용 예의 구조 모식도이다. 도 10을 참조하면, 본 출원의 실시예의 단말 기기 또는 서버를 구현하기에 적합한 전자 기기의 구조 모식도이다. 도 10에 도시된 바와 같이, 상기 전자 기기는 하나 또는 복수 개의 프로세서, 통신부 등을 포함하며, 상기 하나 또는 복수 개의 프로세서는 예를 들어, 하나 또는 복수 개의 중앙 처리 장치(Central Processing Unit, CPU), 및 하나 또는 복수 개의 그래픽 처리 장치(Graphic Processing Unit, GPU) 중 적어도 하나이며, 프로세서는 판독 전용 메모리(Read Only Memory, ROM)에 저장된 수행 가능 명령어 또는 저장 섹션으로부터 랜덤 액세스 메모리(Random Access Memory, RAM)에 로딩된 수행 가능 명령어에 따라 다양한 적절한 동작 및 처리를 수행할 수 있다. 통신부는 랜 카드를 포함할 수 있으나 이에 한정되지 않으며, 상기 랜 카드는 인피니 밴드(Infiniband, IB) 랜 카드를 포함할 수 있으나 이에 한정되지 않으며, 프로세서는 판독 전용 메모리 및 랜덤 액세스 메모리 중 적어도 하나와 통신하여 수행 가능한 명령어를 수행할 수 있으며, 프로세서는 버스를 통해 통신부에 연결되고, 통신부를 통해 다른 목표 기기와 통신함으로써, 본 출원의 실시예에서 제공되는 임의의 방법의 대응되는 동작을 완성하며, 예를 들어, 비디오에서 제1 키 프레임의 특징을 추출하며; 상기 제1 키 프레임의 특징과 상기 비디오에서 제2 키 프레임의 융합 특징에 대해 융합을 진행하여, 상기 제1 키 프레임의 융합 특징을 획득하며; 여기서, 상기 제2 키 프레임이 상기 비디오에서의 검출 타이밍은 상기 제1 키 프레임 이전에 위치하고; 상기 제1 키 프레임의 융합 특징에 따라 상기 제1 키 프레임에 대해 검출을 진행하여, 상기 제1 키 프레임의 객체 검출 결과를 획득한다. 다른 예에서, 비디오 인식 네트워크를 이용하여 비디오에서 현재 키 프레임의 특징과 이전 키 프레임의 특징을 추출하며; 상기 비디오 인식 네트워크를 이용하여, 상기 현재 키 프레임의 특징과 상기 이전 키 프레임의 특징에 대해 융합을 진행하여, 현재 키 프레임의 융합 특징 및 상기 비디오 중의 현재 목표 프레임과 상기 현재 키 프레임 사이의 옵티컬 플로우 필드를 획득하고; 여기서, 상기 현재 목표 프레임은 상기 현재 키 프레임이 위치한 세그먼트에서 상기 현재 키 프레임 이외의 다른 프레임이며; 상기 비디오 인식 네트워크를 이용하여, 상기 현재 목표 프레임과 상기 현재 키 프레임 사이의 옵티컬 플로우 필드 및 상기 현재 키 프레임의 융합 특징에 따라, 상기 현재 목표 프레임의 특징을 획득하며; 상기 비디오 인식 네트워크를 이용하여, 상기 현재 목표 프레임의 특징에 따라 상기 현재 목표 프레임에 대해 검출을 진행하여, 상기 현재 목표 프레임의 객체 검출 결과를 획득하며; 및 상기 현재 목표 프레임의 객체 검출 결과와 상기 현재 목표 프레임의 태그 정보 사이의 차이에 기반하여, 상기 비디오 인식 네트워크에 대해 훈련을 진행한다.
또한, RAM에서, 장치의 동작에 필요한 다양한 프로그램 및 데이터를 더 저장할 수 있다. CPU, ROM 및 RAM은 버스를 통해 서로 연결된다. RAM이 있는 경우, ROM은 옵션 모듈이다. RAM은 수행 가능 명령어를 저장할 수 있으며, 또는 수행 중, 수행 가능 명령어를 ROM에 기록하며, 수행 가능 명령어는 프로세서로 하여금 본원에 따른 상기 임의의 방법의 대응되는 동작을 수행하도록 한다. 입력/출력(I/O) 인터페이스도 버스에 연결된다. 통신부는 통합될 수 있거나, 버스에 연결된 복수 개의 서브 모듈(예를 들어 복수 개의 IB 랜 카드)을 갖도록 구성될 수 있다.
다음의 구성 요소, 즉 키보드, 마우스 등을 포함하는 입력 부분; 음극 선관(CRT), 액정 디스플레이(LCD), 스피커 등을 포함하는 출력 부분; 하드웨어 등을 포함하는 저장 부분; 및 LAN 카드, 모뎀 등을 포함하는 네트워크 인터페이스의 통신 부분은 I/O 인터페이스에 연결된다. 통신 부분은 인터넷과 같은 네트워크를 통해 통신 처리를 수행한다. 드라이브는 필요에 따라 I/O 인터페이스에 연결될 수도 있다. 자기 디스크, 광 디스크, 광 자기 디스크, 반도체 메모리 등과 같은 제거 가능한 매체는 필요에 따라 제거 가능한 매체로부터 판독된 컴퓨터 프로그램이 필요에 따라 저장부에 설치되도록 필요에 따라 드라이브에 장착된다.
설명해야 할 것은, 도 10에 도시된 아키텍쳐는 다만 선택적인 구현 방식일 뿐, 구체적인 실천 과정에서, 상기 도 10의 구성 요소의 개수 및 타입은 실제 필요에 따라 선택, 감소, 증가 또는 교체되며; 상이한 기능적 구성 요소 설치에서 분리 설치 또는 통합 설치 등 구현 방식을 사용할 수 있으며, 예를 들어 GPU 및 CPU는 분리 설치되거나 GPU가 CPU에 통합되며, 통신부는 분리 설치되거나 CPU 또는 GPU에 통합 설치될 수 있는 등이 존재한다. 이들 대안적인 실시 형태는 모두 본원에 개시된 보호 범위에 속한다.
또한, 본원의 실시예는 컴퓨터 판독 가능 명령어를 저장하기 위한 컴퓨터 저장 매체를 제공하며, 상기 명령어가 수행될 때, 본원의 어느 한 상기 실시예에 따른 비디오 인식 방법 또는 비디오 인식 네트워크의 훈련 방법의 동작이 구현된다.
또한, 본원의 실시예는 컴퓨터 판독 가능 명령어를 포함하는 컴퓨터 프로그램을 더 제공하며, 컴퓨터 판독 가능 명령어가 기기에서 작동될 경우, 기기 중의 프로세서는 본원의 상기 어느 한 실시예에 따른 비디오 인식 방법 또는 비디오 인식 네트워크의 훈련 방법의 동작의 단계를 구현하기 위한 수행 가능 명령어를 수행한다.
하나의 선택적인 실시 형태에 있어서, 상기 컴퓨터 프로그램은 예를 들어, 소프트웨어 개발 키트(Software Development Kit, SDK) 등과 같은 소프트웨어 제품이다.
하나 또는 복수 개의 선택적인 실시 형태에 있어서, 본원의 실시예는 컴퓨터 판독 가능 명령어를 저장하기 위한 컴퓨터 프로그램 제품을 더 공개하며, 상기 명령어가 수행될 때 컴퓨터는 상기 임의의 가능한 구현 방식에 따른 본원의 상기 어느 한 실시예 중 비디오 인식 방법 또는 비디오 인식 네트워크의 훈련 방법의 동작을 수행하도록 한다.
상기 컴퓨터 프로그램 제품은 하드웨어, 소프트웨어 또는 이들의 조합에 의해 구현된다. 하나의 선택적인 예에 있어서, 상기 컴퓨터 프로그램 제품은 컴퓨터 저장 매체로서 구현되며, 다른 선택적인 예에 있어서, 상기 컴퓨터 프로그램 제품은 SDK 등과 같은 소프트웨어 제품으로서 구현된다.
하나 또는 복수 개의 선택적인 실시 형태에 있어서, 본원의 실시예는 비디오 인식 방법 및 이에 대응되는 장치와 전자 기기, 컴퓨터 저장 매체 컴퓨터 프로그램 및 컴퓨터 프로그램 제품을 더 제공하며, 여기서, 상기 방법은, 비디오에서 제1 키 프레임의 특징을 추출하는 단계; 상기 제1 키 프레임의 특징과 상기 비디오에서 제2 키 프레임의 융합 특징에 대해 융합을 진행하여, 상기 제1 키 프레임의 융합 특징을 획득하는 단계 - 상기 제2 키 프레임이 상기 비디오에서의 검출 타이밍은 상기 제1 키 프레임 이전임 - ; 및 상기 제1 키 프레임의 융합 특징에 따라 상기 제1 키 프레임에 대해 검출을 진행하여, 상기 제1 키 프레임의 객체 검출 결과를 획득하는 단계를 포함한다.
하나 또는 복수 개의 선택적인 실시 형태에 있어서, 본원의 실시예는 비디오 인식 훈련의 훈련 방법 및 이에 대응되는 장치와 전자 기기, 컴퓨터 저장 매체 컴퓨터 프로그램 및 컴퓨터 프로그램 제품을 더 제공하며, 여기서, 상기 방법은, 비디오 인식 네트워크를 이용하여 비디오에서 현재 키 프레임의 특징과 이전 키 프레임의 특징을 추출하는 단계; 상기 비디오 인식 네트워크를 사용하여, 상기 현재 키 프레임의 특징과 상기 이전 키 프레임의 특징에 대해 융합을 진행하여, 현재 키 프레임의 융합 특징을 획득하고; 상기 비디오의 현재 목표 프레임과 상기 현재 키 프레임 사이의 옵티컬 플로우 필드를 획득하는 단계 - 상기 현재 목표 프레임은 상기 현재 키 프레임이 위치한 세그먼트에서 상기 현재 키 프레임 이외의 다른 프레임임 - ; 상기 비디오 인식 네트워크를 이용하여, 상기 현재 목표 프레임과 상기 현재 키 프레임 사이의 옵티컬 플로우 필드 및 상기 현재 키 프레임의 융합 특징에 따라, 상기 현재 목표 프레임의 특징을 획득하는 단계; 상기 비디오 인식 네트워크를 이용하여, 상기 현재 목표 프레임의 특징에 따라 상기 현재 목표 프레임에 대해 검출을 진행하여, 상기 현재 목표 프레임의 객체 검출 결과를 획득하는 단계; 및 상기 현재 목표 프레임의 객체 검출 결과와 상기 현재 목표 프레임의 태그 정보 사이의 차이에 기반하여, 상기 비디오 인식 네트워크에 대해 훈련을 진행하는 단계를 포함한다.
특히, 본원의 실시예에 따른, 흐름도를 참조하여 설명된 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본원의 실시예는 컴퓨터 프로그램 제품을 포함하며, 상기 컴퓨터 프로그램 제품은 기계 판독 가능 매체에 유형적으로 포함된 컴퓨터 프로그램을 포함하며, 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함하며, 프로그램 코드는 본원의 실시예에서 제공하는 방법의 단계를 수행하기 위한 명령어를 포함할 수 있다.
하나 또는 복수 개의 선택적인 실시 형태에 있어서, 본 발명 실시예는 비디오 인식 방법 및 이에 대응되는 장치, 전자 기기, 컴퓨터 저장 매체, 컴퓨터 프로그램 및 컴퓨터 프로그램 제품을 더 제공하며, 여기서, 상기 방법은 제1 장치가 비디오 인식 지시를 제2 장치에 송신하는 단계 - 상기 지시는 제2 장치로 하여금 상기 가능한 어느 한 실시예 중의 비디오 인식 방법을 수행하도록 함 - ; 및 제1 장치가 제2 장치에 의해 송신된 객체 검출 결과를 수신하는 단계를 포함한다.
일부 실시예에 있어서, 상기 비디오 인식 지시는 호출 명령어일 수 있으며, 제1 장치는 호출을 통해 제2 장치로 하여금 비디오 인식을 수행하도록 지시할 수 있으며, 상응하게, 호출 명령어를 수신하는 것에 응답하여, 제2 장치는 상기 비디오 인식 방법의 어느 한 실시예 중의 단계 및 프로세스 중 적어도 하나를 수행하도록 한다.
본원의 실시예는 임의의 비디오 인식 시나리오에 적용되며, 예를 들어, 지능형 무인 항공기로 야생 동물을 공중 촬영하는 동안 실시간 분석을 구현하기 위해 가능한 빠르고 정확하게 화면 속의 동물을 인식해야 한다. 그러나 공기 흐름 등 영향으로 인해, 화면은 흔들리거나 흐리게 나타날 수 있며, 또한 야생 동물도 빨리 달리고 있을 수 있으며, 이러한 요인으로 인해 화질이 저하되고 종래의 인식 네트워크에서 오류가 발생할 수 있다. 본원의 실시예에 따른 비디오 인식 방법을 적용함으로써, 비디오에서 다른 프레임의 융합 특징이 현재 프레임으로 전파되어, 품질이 낮은 화면의 인식 정확도를 향상시킨다.
본 명세서에, 각 실시예는 모두 점진적으로 설명되며, 각 실시예는 다른 실시예와의 차이점에 초점을 맞추고, 각 실시예 사이의 동일하거나 유사한 부분은 서로 참조될 수 있다. 시스템 실시예는 방법 실시예에 거의 대응되므로, 이에 대한 설명은 비교적 간단하고, 관련 부분에 대해서는 방법 실시예의 설명을 참조할 수 있다.
본원의 방법과 장치는 많은 방식으로 구현될 수 있다. 예를 들어, 본원의 방법과 장치는 소프트웨어, 하드웨어, 펌웨어 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합으로 구현될 수 있다. 달리 구체적으로 언급되지 않는 한, 상기 방법의 상기 단계의 상기 순서는 다만 설명을 위한 것이며, 본원의 방법의 단계를 한정하려는 것은 아니다. 또한, 일부 실시예에 있어서, 본원은 기록 매체에 기록된 프로그램으로서 구현될 수도 있으며, 이들 프로그램은 본원의 방법을 구현하기 위한 기계 판독 가능 명령어를 포함한다. 그러므로, 본원은 본원에 따른 방법들을 수행하기 위한 프로그램을 저장하는 기록 매체를 더 포함한다.
본원의 설명은 예시 및 설명의 목적으로 제공되며, 누락되지 않는 형태로 설명하거나 본원을 개시된 형태로 한정하려는 것은 아니다. 본원에 대한 많은 수정과 변경은 본 기술분야의 통상의 기술자에게 분명하다. 실시예는 본원의 원리 및 실제 적용을 더 잘 설명하고, 본 기술분야의 통상의 기술자로 하여금 특정 사용에 적용 가능한 다양한 수정들을 갖는 다양한 실시예들을 설계하고 본원을 이해하도록 하기 위해 선택되고 설명된다.

Claims (49)

  1. 전자 기기에 의해 수행되는 비디오 인식 방법으로서,
    비디오 중의 제1 키 프레임의 특징을 추출하는 단계;
    상기 제1 키 프레임의 특징과 상기 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하여, 상기 제1 키 프레임의 융합 특징을 획득하는 단계 - 상기 제2 키 프레임은 상기 비디오에서의 검출 타이밍이 상기 제1 키 프레임 이전임 - ; 및
    상기 제1 키 프레임의 융합 특징에 따라 상기 제1 키 프레임에 대해 객체 검출을 진행하여, 상기 제1 키 프레임의 객체 검출 결과를 획득하는 단계 - 상기 제2 키 프레임의 융합 특징은 상기 제2 키 프레임의 특징과 상기 제2 키 프레임 이전에 위치한 적어도 하나의 제1 다른 키 프레임의 특징을 융합하여 얻은 것임 - 를 포함하는 것을 특징으로 하는 비디오 인식 방법.
  2. 제1항에 있어서,
    상기 제2 키 프레임은 상기 비디오에서 상기 제1 키 프레임에 인접한 이전 키 프레임을 포함하는 것을 특징으로 하는 비디오 인식 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 제1 키 프레임의 특징과 상기 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계 전에,
    상기 제1 키 프레임과 상기 제2 키 프레임 사이의 옵티컬 플로우 필드를 획득하는 단계; 및
    상기 제1 키 프레임과 상기 제2 키 프레임 사이의 옵티컬 플로우 필드에 따라, 상기 제2 키 프레임의 융합 특징과 상기 제1 키 프레임을 정렬시키는 단계를 더 포함하고,
    상기 제1 키 프레임의 특징과 상기 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계는,
    상기 제1 키 프레임과 정렬된 상기 제2 키 프레임의 융합 특징과 상기 제1 키 프레임의 특징에 대해 융합을 진행하는 단계를 포함하는 것을 특징으로 하는 비디오 인식 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 제1 키 프레임의 특징과 상기 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계는,
    상기 제1 키 프레임의 특징과 상기 제2 키 프레임의 융합 특징의 가중 계수를 결정하는 단계; 및
    상기 제1 키 프레임의 특징과 상기 제2 키 프레임의 융합 특징의 가중 계수에 따라, 상기 제1 키 프레임의 특징과 상기 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계를 포함하는 것을 특징으로 하는 비디오 인식 방법.
  5. 제1항 또는 제2항에 있어서,
    상기 방법은, 상기 제1 키 프레임이 상기 비디오 중의 첫 번째 키 프레임인지 여부를 결정하는 단계를 더 포함하며,
    상기 제1 키 프레임의 특징과 상기 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계는,
    상기 제1 키 프레임이 상기 비디오 중의 첫 번째 키 프레임이 아닌 것에 응답하여, 상기 제1 키 프레임의 특징과 상기 제2 키 프레임의 융합 특징에 대해 융합을 진행하는 단계; 및
    상기 제1 키 프레임이 상기 비디오 중의 첫 번째 키 프레임인 것에 응답하여, 상기 제1 키 프레임의 특징에 따라, 상기 제1 키 프레임의 객체 검출 결과를 획득하는 단계; 중 적어도 하나를 포함하는 것을 특징으로 하는 비디오 인식 방법.
  6. 제1항 또는 제2항에 있어서,
    상기 비디오로부터 무작위로 선택된 이미지 프레임을 상기 제1 키 프레임으로서 사용하는 단계; 또는
    상기 비디오로부터 여러 프레임 간격으로 선택된 이미지 프레임을 상기 제1 키 프레임으로서 사용하는 단계; 또는
    상기 비디오를 복수 개의 짧은 비디오 시퀀스로 분할하고, 각 짧은 비디오 시퀀스로부터 이미지 프레임을 각각 선택하여 상기 각 짧은 비디오 시퀀스의 키 프레임으로서 사용하는 단계 - 상기 복수 개의 짧은 비디오 시퀀스의 키 프레임은 상기 제1 키 프레임을 포함함 - ; 또는
    상기 비디오로부터 짧은 비디오 시퀀스를 선택하고, 선택된 상기 짧은 비디오 시퀀스로부터 선택된 이미지 프레임을 상기 제1 키 프레임으로서 사용하는 단계를 더 포함하는 것을 특징으로 하는 비디오 인식 방법.
  7. 제1항 또는 제2항에 있어서,
    제1 비 키 프레임과 상기 제1 키 프레임 사이의 옵티컬 플로우 필드를 획득하는 단계;
    상기 제1 비 키 프레임과 상기 제1 키 프레임 사이의 옵티컬 플로우 필드 및 상기 제1 키 프레임의 융합 특징에 따라, 상기 제1 비 키 프레임의 특징을 획득하는 단계; 및
    상기 제1 비 키 프레임의 특징에 따라 상기 제1 비 키 프레임에 대해 검출을 진행하여, 상기 제1 비 키 프레임의 객체 검출 결과를 획득하는 단계를 더 포함하는 것을 특징으로 하는 비디오 인식 방법.
  8. 제7항에 있어서,
    상기 제1 비 키 프레임과 상기 제1 키 프레임 사이의 옵티컬 플로우 필드를 획득하는 단계 이후,
    상기 제1 비 키 프레임과 상기 제1 키 프레임 사이의 옵티컬 플로우 필드에 따라, 상기 제1 키 프레임의 융합 특징과 상기 제1 비 키 프레임을 정렬시키는 단계를 더 포함하며;
    상기 제1 비 키 프레임과 상기 제1 키 프레임 사이의 옵티컬 플로우 필드 및 상기 제1 키 프레임의 융합 특징에 따라, 상기 제1 비 키 프레임의 특징을 획득하는 단계는,
    상기 제1 비 키 프레임과 상기 제1 키 프레임 사이의 옵티컬 플로우 필드 및 상기 제1 비 키 프레임과 정렬된 상기 제1 키 프레임의 융합 특징에 따라, 상기 제1 비 키 프레임의 특징을 획득하는 단계를 포함하는 것을 특징으로 하는 비디오 인식 방법.
  9. 제1항 또는 제2항에 있어서,
    상기 방법은,
    상기 비디오 중의 적어도 하나의 이미지 프레임의 객체 검출 결과 중의 객체 검출 박스와 태그 정보 중의 위치 정보 사이의 차이 및 상기 객체 검출 박스에 대응되는 객체 카테고리와 태그 정보 중의 카테고리 정보 사이의 차이 중 적어도 하나에 따라, 비디오 인식 네트워크에 대해 훈련을 진행하는 단계를 포함하는 것을 특징으로 하는 비디오 인식 방법.
  10. 전자 기기에 의해 수행되는 비디오 인식 네트워크의 훈련 방법으로서,
    비디오 인식 네트워크를 이용하여 비디오 샘플로부터 현재 키 프레임의 특징과 이전 키 프레임의 특징을 추출하는 단계;
    상기 비디오 인식 네트워크를 이용하여, 상기 현재 키 프레임의 특징과 상기 이전 키 프레임의 특징에 대해 융합을 진행하여, 상기 현재 키 프레임의 융합 특징을 획득하고, 상기 비디오 샘플 중의 현재 목표 프레임과 상기 현재 키 프레임 사이의 옵티컬 플로우 필드를 획득하는 단계 - 상기 현재 목표 프레임과 상기 현재 키 프레임은 상기 비디오 샘플의 동일한 세그먼트에 속함 - ;
    상기 비디오 인식 네트워크를 이용하여, 상기 현재 목표 프레임과 상기 현재 키 프레임 사이의 옵티컬 플로우 필드 및 상기 현재 키 프레임의 융합 특징에 대한 처리를 수행함으로써, 상기 현재 목표 프레임의 특징을 얻는 단계;
    상기 비디오 인식 네트워크를 이용하여, 상기 현재 목표 프레임의 특징에 따라, 상기 현재 목표 프레임에 대해 객체 검출을 진행하여, 상기 현재 목표 프레임의 객체 검출 결과를 획득하는 단계; 및
    상기 현재 목표 프레임의 객체 검출 결과와 상기 현재 목표 프레임의 태그 정보 사이의 차이에 기반하여, 상기 비디오 인식 네트워크에 대해 훈련을 진행하는 단계를 포함하는 것을 특징으로 하는 비디오 인식 네트워크의 훈련 방법.
  11. 제10항에 있어서,
    상기 현재 키 프레임의 특징과 상기 이전 키 프레임의 특징에 대해 융합을 진행하는 단계는,
    상기 현재 키 프레임과 상기 이전 키 프레임 사이의 옵티컬 플로우 필드를 획득하는 단계;
    상기 현재 키 프레임과 상기 이전 키 프레임 사이의 옵티컬 플로우 필드에 따라, 상기 이전 키 프레임의 특징과 상기 현재 키 프레임을 정렬시키는 단계; 및
    상기 현재 키 프레임과 정렬된 상기 이전 키 프레임의 특징과 상기 현재 키 프레임의 특징에 대해 융합을 진행하는 단계를 포함하는 것을 특징으로 하는 비디오 인식 네트워크의 훈련 방법.
  12. 제10항에 있어서,
    상기 이전 키 프레임의 특징과 상기 현재 키 프레임의 특징에 대해 융합을 진행하는 단계는,
    상기 이전 키 프레임의 특징과 상기 현재 키 프레임의 특징의 가중 계수를 결정하는 단계; 및
    상기 이전 키 프레임의 특징과 상기 현재 키 프레임의 특징의 가중 계수에 따라, 상기 이전 키 프레임의 특징과 상기 현재 키 프레임의 특징에 대해 융합을 진행하는 단계를 포함하는 것을 특징으로 하는 비디오 인식 네트워크의 훈련 방법.
  13. 제10항 내지 제12항 중 어느 한 항에 있어서,
    상기 비디오 샘플로부터 현재 키 프레임의 특징과 이전 키 프레임의 특징을 추출하는 단계 이전에,
    상기 비디오 샘플로부터 선택된 이미지 프레임을 상기 현재 목표 프레임으로서 사용하는 단계; 및
    상기 비디오 샘플로부터 상기 현재 목표 프레임을 시작점으로 앞으로 향한 제1 거리에서 샘플링된 이미지 프레임을 상기 이전 키 프레임으로서 사용하고, 상기 비디오 샘플로부터 상기 현재 목표 프레임을 시작점으로 뒤로 향한 제2 거리에서 샘플링된 이미지 프레임을 상기 현재 키 프레임으로서 사용하는 단계를 포함하는 것을 특징으로 하는 비디오 인식 네트워크의 훈련 방법.
  14. 제13항에 있어서,
    상기 제2 거리는 상기 제1 거리보다 작은 것을 특징으로 하는 비디오 인식 네트워크의 훈련 방법.
  15. 제10항 내지 제12항 중 어느 한 항에 있어서,
    상기 현재 목표 프레임의 태그 정보는, 상기 현재 목표 프리임 중에 포함된 적어도 하나의 객체의 위치 정보와 카테고리 정보를 포함하며;
    상기 현재 목표 프레임의 객체 검출 결과는, 상기 현재 목표 프레임 중의 객체 검출 박스와 상기 객체 검출 박스에 대응되는 객체 카테고리를 포함하며;
    상기 현재 목표 프레임의 객체 검출 결과와 상기 현재 목표 프레임의 태그 정보 사이의 차이에 기반하여, 상기 비디오 인식 네트워크에 대해 훈련을 진행하는 단계는, 상기 현재 목표 프레임의 객체 검출 결과에서, 객체 검출 박스와 태그 정보에서의 위치 사이의 차이 및 상기 객체 검출 박스에 대응되는 객체 카테고리와 태그 정보에서의 카테고리 정보 사이의 차이 중 적어도 하나에 기반하여, 상기 비디오 인식 네트워크에 대해 훈련을 진행하는 단계를 포함하는 것을 특징으로 하는 비디오 인식 네트워크의 훈련 방법.
  16. 전자 기기에 의해 수행되는 비디오 인식 방법으로서,
    인식될 비디오를 획득하는 단계; 및
    비디오 인식 네트워크를 이용하여 상기 비디오를 인식하여, 상기 비디오의 인식 결과를 획득하는 단계 - 상기 비디오 인식 네트워크는 제10항 내지 제12항 중 어느 한 항에 따른 비디오 인식 네트워크의 훈련 방법을 통해 훈련하여 얻은 것임 - 를 포함하는 것을 특징으로 하는 비디오 인식 방법.
  17. 비디오 인식 장치로서,
    비디오 중의 제1 키 프레임의 특징을 추출하기 위한 특징 추출 네트워크 모듈;
    제2 키 프레임의 특징과 상기 제2 키 프레임 이전에 위치한 적어도 하나의 제1 다른 키 프레임의 특징을 융합하여 상기 제2 키 프레임의 융합 특징을 얻고, 상기 제1 키 프레임의 특징과 상기 비디오 중의 제2 키 프레임의 융합 특징에 대해 융합을 진행하여, 상기 제1 키 프레임의 융합 특징을 획득하기 위한 하이브리드 네트워크 모듈 - 상기 제2 키 프레임은 상기 비디오에서의 검출 타이밍이 상기 제1 키 프레임 이전임 - ; 및
    상기 제1 키 프레임의 융합 특징에 따라 상기 제1 키 프레임에 대해 검출을 진행하여, 상기 제1 키 프레임의 객체 검출 결과를 획득하기 위한 검출 네트워크 모듈을 포함하는 것을 특징으로 하는 비디오 인식 장치.
  18. 비디오 인식 네트워크의 훈련 장치로서,
    비디오 샘플로부터 현재 키 프레임의 특징과 이전 키 프레임의 특징을 추출하며; 상기 현재 키 프레임의 특징과 상기 이전 키 프레임의 특징에 대해 융합을 진행하여, 상기 현재 키 프레임의 융합 특징을 획득하고, 상기 비디오 샘플 중의 현재 목표 프레임과 상기 현재 키 프레임 사이의 옵티컬 플로우 필드를 획득하며, 상기 현재 목표 프레임과 상기 현재 키 프레임은 상기 비디오 샘플의 동일한 세그먼트에 속하며; 상기 현재 목표 프레임과 상기 현재 키 프레임 사이의 옵티컬 플로우 필드 및 상기 현재 키 프레임의 융합 특징에 대한 처리를 수행함으로써, 상기 현재 목표 프레임의 특징을 얻고; 상기 현재 목표 프레임의 특징에 따라 상기 현재 목표 프레임에 대해 검출을 진행하여, 상기 현재 목표 프레임의 객체 검출 결과를 획득하기 위한 비디오 인식 네트워크 모듈; 및
    상기 현재 목표 프레임의 객체 검출 결과와 상기 현재 목표 프레임의 태그 정보 사이의 차이에 기반하여, 상기 비디오 인식 네트워크에 대해 훈련을 진행하기 위한 훈련 모듈을 포함하는 것을 특징으로 하는 비디오 인식 네트워크의 훈련 장치.
  19. 컴퓨터 판독 가능 명령어를 저장하기 위한 컴퓨터 저장 매체로서,
    상기 컴퓨터 판독 가능 명령어가 기기에서 작동될 경우, 상기 기기 중의 프로세서는 제1항, 제2항 및 제10항 내지 제12항 중 어느 한 항에 따른 방법을 수행하는 것을 특징으로 하는 컴퓨터 저장 매체.
  20. 저장 매체에 기록되는 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 기기에서 작동될 경우, 상기 기기 중의 프로세서는 제1항, 제2항 및 제10항 내지 제12항 중 어느 한 항에 따른 방법을 수행하는 것을 특징으로 하는 컴퓨터 프로그램.
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
KR1020197029255A 2017-12-13 2018-10-16 비디오 인식 및 훈련 방법과 장치, 전자 기기와 매체 KR102365521B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711329718.5 2017-12-13
CN201711329718.5A CN108229336B (zh) 2017-12-13 2017-12-13 视频识别及训练方法和装置、电子设备、程序和介质
PCT/CN2018/110500 WO2019114405A1 (zh) 2017-12-13 2018-10-16 视频识别及训练方法和装置、电子设备和介质

Publications (2)

Publication Number Publication Date
KR20190126366A KR20190126366A (ko) 2019-11-11
KR102365521B1 true KR102365521B1 (ko) 2022-02-21

Family

ID=62652263

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197029255A KR102365521B1 (ko) 2017-12-13 2018-10-16 비디오 인식 및 훈련 방법과 장치, 전자 기기와 매체

Country Status (6)

Country Link
US (1) US10909380B2 (ko)
JP (1) JP6837158B2 (ko)
KR (1) KR102365521B1 (ko)
CN (2) CN108229336B (ko)
SG (1) SG11201909887RA (ko)
WO (1) WO2019114405A1 (ko)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229336B (zh) * 2017-12-13 2021-06-04 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备、程序和介质
CN108810620B (zh) * 2018-07-18 2021-08-17 腾讯科技(深圳)有限公司 识别视频中的关键时间点的方法、装置、设备及存储介质
CN109344703B (zh) * 2018-08-24 2021-06-25 深圳市商汤科技有限公司 对象检测方法及装置、电子设备和存储介质
CN109389086B (zh) * 2018-10-09 2021-03-05 北京科技大学 检测无人机影像目标的方法和***
CN111353597B (zh) * 2018-12-24 2023-12-05 杭州海康威视数字技术股份有限公司 一种目标检测神经网络训练方法和装置
CN111383245B (zh) * 2018-12-29 2023-09-22 北京地平线机器人技术研发有限公司 视频检测方法、视频检测装置和电子设备
CN109886951A (zh) * 2019-02-22 2019-06-14 北京旷视科技有限公司 视频处理方法、装置及电子设备
CN111754544B (zh) * 2019-03-29 2023-09-05 杭州海康威视数字技术股份有限公司 一种视频帧融合方法、装置、电子设备
CN109977912B (zh) * 2019-04-08 2021-04-16 北京环境特性研究所 视频人体关键点检测方法、装置、计算机设备和存储介质
CN110060264B (zh) * 2019-04-30 2021-03-23 北京市商汤科技开发有限公司 神经网络训练方法、视频帧处理方法、装置及***
CN110427800A (zh) * 2019-06-17 2019-11-08 平安科技(深圳)有限公司 视频物体加速检测方法、装置、服务器及存储介质
CN110149482B (zh) * 2019-06-28 2021-02-02 Oppo广东移动通信有限公司 对焦方法、装置、电子设备和计算机可读存储介质
CN112199978A (zh) * 2019-07-08 2021-01-08 北京地平线机器人技术研发有限公司 视频物体检测方法和装置、存储介质和电子设备
CN110503076B (zh) * 2019-08-29 2023-06-30 腾讯科技(深圳)有限公司 基于人工智能的视频分类方法、装置、设备和介质
CN110751022B (zh) * 2019-09-03 2023-08-22 平安科技(深圳)有限公司 基于图像识别的城市宠物活动轨迹监测方法及相关设备
CN110738108A (zh) * 2019-09-09 2020-01-31 北京地平线信息技术有限公司 目标物体检测方法、装置、存储介质及电子设备
CN110751646A (zh) * 2019-10-28 2020-02-04 支付宝(杭州)信息技术有限公司 利用车辆视频中的多个图像帧进行损伤识别的方法及装置
CN110933429B (zh) * 2019-11-13 2021-11-12 南京邮电大学 基于深度神经网络的视频压缩感知与重构方法和装置
CN110909655A (zh) * 2019-11-18 2020-03-24 上海眼控科技股份有限公司 一种识别视频事件的方法及设备
CN110841287B (zh) * 2019-11-22 2023-09-26 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机可读存储介质和计算机设备
CN112862828B (zh) * 2019-11-26 2022-11-18 华为技术有限公司 一种语义分割方法、模型训练方法及装置
CN111062395B (zh) * 2019-11-27 2020-12-18 北京理工大学 一种实时的视频语义分割方法
CN111629262B (zh) * 2020-05-08 2022-04-12 Oppo广东移动通信有限公司 视频图像处理方法和装置、电子设备及存储介质
CN111582185B (zh) * 2020-05-11 2023-06-30 北京百度网讯科技有限公司 用于识别图像的方法和装置
CN111652081B (zh) * 2020-05-13 2022-08-05 电子科技大学 一种基于光流特征融合的视频语义分割方法
CN111881726B (zh) * 2020-06-15 2022-11-25 马上消费金融股份有限公司 一种活体检测方法、装置及存储介质
CN111783784A (zh) * 2020-06-30 2020-10-16 创新奇智(合肥)科技有限公司 建筑的空洞检测方法及装置、电子设备、存储介质
CN111860400B (zh) * 2020-07-28 2024-06-07 平安科技(深圳)有限公司 人脸增强识别方法、装置、设备及存储介质
CN112036446B (zh) * 2020-08-06 2023-12-12 汇纳科技股份有限公司 目标识别特征融合的方法、***、介质及装置
CN112085097A (zh) * 2020-09-09 2020-12-15 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN112115299A (zh) * 2020-09-17 2020-12-22 北京百度网讯科技有限公司 视频搜索方法、装置、推荐方法、电子设备及存储介质
CN112241470B (zh) * 2020-09-24 2024-02-02 北京影谱科技股份有限公司 一种视频分类方法及***
CN112435653A (zh) * 2020-10-14 2021-03-02 北京地平线机器人技术研发有限公司 语音识别方法、装置和电子设备
CN112528786B (zh) * 2020-11-30 2023-10-31 北京百度网讯科技有限公司 车辆跟踪方法、装置及电子设备
CN112766215A (zh) * 2021-01-29 2021-05-07 北京字跳网络技术有限公司 人脸融合方法、装置、电子设备及存储介质
CN112561912B (zh) * 2021-02-20 2021-06-01 四川大学 一种基于先验知识的医学图像***检测方法
CN113011371A (zh) * 2021-03-31 2021-06-22 北京市商汤科技开发有限公司 目标检测方法、装置、设备及存储介质
US20220383509A1 (en) * 2021-05-21 2022-12-01 Honda Motor Co., Ltd. System and method for learning temporally consistent video synthesis using fake optical flow
CN113963287A (zh) * 2021-09-15 2022-01-21 北京百度网讯科技有限公司 评分模型获取及视频识别方法、装置及存储介质
CN114120166B (zh) * 2021-10-14 2023-09-22 北京百度网讯科技有限公司 视频问答方法、装置、电子设备及存储介质
CN114528923B (zh) * 2022-01-25 2023-09-26 山东浪潮科学研究院有限公司 基于时域上下文的视频目标检测方法、装置、设备及介质
CN115115822B (zh) * 2022-06-30 2023-10-31 小米汽车科技有限公司 车端图像处理方法、装置、车辆、存储介质及芯片

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110081082A1 (en) 2009-10-07 2011-04-07 Wei Jiang Video concept classification using audio-visual atoms
US20150161450A1 (en) 2012-08-03 2015-06-11 Kodak Alaris Inc. Identifying scene boundaries using group sparsity analysis

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07181024A (ja) * 1993-12-24 1995-07-18 Canon Inc 3次元形状計測方法および装置
JP4181473B2 (ja) * 2003-10-15 2008-11-12 日本放送協会 映像オブジェクト軌跡合成装置、その方法及びそのプログラム
US8021160B2 (en) * 2006-07-22 2011-09-20 Industrial Technology Research Institute Learning assessment method and device using a virtual tutor
CN101673404B (zh) * 2009-10-19 2015-03-04 北京中星微电子有限公司 一种目标检测的方法和装置
CN102014295B (zh) * 2010-11-19 2012-11-28 嘉兴学院 一种网络敏感视频检测方法
CN102682302B (zh) * 2012-03-12 2014-03-26 浙江工业大学 一种基于关键帧的多特征融合的人体姿态识别方法
US9129399B2 (en) * 2013-03-11 2015-09-08 Adobe Systems Incorporated Optical flow with nearest neighbor field fusion
US9892745B2 (en) * 2013-08-23 2018-02-13 At&T Intellectual Property I, L.P. Augmented multi-tier classifier for multi-modal voice activity detection
BR112016006860B8 (pt) * 2013-09-13 2023-01-10 Arris Entpr Inc Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente
US10262426B2 (en) * 2014-10-31 2019-04-16 Fyusion, Inc. System and method for infinite smoothing of image sequences
KR20160099289A (ko) * 2015-02-12 2016-08-22 대전대학교 산학협력단 영상의 전역 특징과 이동객체의 지역 특징을 융합한 동영상 검색 방법 및 그 시스템
CN105005772B (zh) * 2015-07-20 2018-06-12 北京大学 一种视频场景检测方法
KR102444712B1 (ko) * 2016-01-12 2022-09-20 한국전자통신연구원 다중-모달리티 특징 융합을 통한 퍼스널 미디어 자동 재창작 시스템 및 그 동작 방법
US9805255B2 (en) * 2016-01-29 2017-10-31 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
US20170277955A1 (en) * 2016-03-23 2017-09-28 Le Holdings (Beijing) Co., Ltd. Video identification method and system
BR102016007265B1 (pt) * 2016-04-01 2022-11-16 Samsung Eletrônica da Amazônia Ltda. Método multimodal e em tempo real para filtragem de conteúdo sensível
JP6609505B2 (ja) * 2016-04-06 2019-11-20 Kddi株式会社 画像合成装置及びプログラム
CN106599907B (zh) * 2016-11-29 2019-11-29 北京航空航天大学 多特征融合的动态场景分类方法与装置
CN107392917B (zh) * 2017-06-09 2021-09-28 深圳大学 一种基于时空约束的视频显著性检测方法及***
CN107463881A (zh) * 2017-07-07 2017-12-12 中山大学 一种基于深度增强学习的人物图像搜索方法
CN107463949B (zh) * 2017-07-14 2020-02-21 北京协同创新研究院 一种视频动作分类的处理方法及装置
CN108229336B (zh) * 2017-12-13 2021-06-04 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备、程序和介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110081082A1 (en) 2009-10-07 2011-04-07 Wei Jiang Video concept classification using audio-visual atoms
US20150161450A1 (en) 2012-08-03 2015-06-11 Kodak Alaris Inc. Identifying scene boundaries using group sparsity analysis

Also Published As

Publication number Publication date
WO2019114405A1 (zh) 2019-06-20
CN110546645B (zh) 2023-09-19
US10909380B2 (en) 2021-02-02
CN108229336A (zh) 2018-06-29
US20190266409A1 (en) 2019-08-29
CN110546645A (zh) 2019-12-06
JP2020512647A (ja) 2020-04-23
CN108229336B (zh) 2021-06-04
SG11201909887RA (en) 2019-11-28
KR20190126366A (ko) 2019-11-11
JP6837158B2 (ja) 2021-03-03

Similar Documents

Publication Publication Date Title
KR102365521B1 (ko) 비디오 인식 및 훈련 방법과 장치, 전자 기기와 매체
KR102366733B1 (ko) 타겟 추적 방법 및 장치, 전자 기기, 저장 매체
US11455782B2 (en) Target detection method and apparatus, training method, electronic device and medium
US10943145B2 (en) Image processing methods and apparatus, and electronic devices
US20190138816A1 (en) Method and apparatus for segmenting video object, electronic device, and storage medium
US11270158B2 (en) Instance segmentation methods and apparatuses, electronic devices, programs, and media
CN108235116B (zh) 特征传播方法和装置、电子设备和介质
CN108154222B (zh) 深度神经网络训练方法和***、电子设备
US11164004B2 (en) Keyframe scheduling method and apparatus, electronic device, program and medium
CN114511041B (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
CN107992790B (zh) 目标长时跟踪方法及***、存储介质及电子终端
EP3249610A1 (en) A method, an apparatus and a computer program product for video object segmentation
CN115294332B (zh) 一种图像处理方法、装置、设备和存储介质
CN114781499B (zh) 一种构建基于ViT模型的密集预测任务适配器的方法
CN111327946A (zh) 视频质量评价和特征字典的训练方法、装置和介质
CN108509876B (zh) 针对视频的物体检测方法、装置、设备、存储介质及程序
CN110633597A (zh) 一种可行驶区域检测方法和装置
CN115457365B (zh) 一种模型的解释方法、装置、电子设备及存储介质
CN116363429A (zh) 图像识别模型的训练方法、图像识别方法、装置及设备
CN113139463B (zh) 用于训练模型的方法、装置、设备、介质和程序产品
CN113628192B (zh) 图像模糊检测方法、装置、设备、存储介质及程序产品
CN114821596A (zh) 文本识别方法、装置、电子设备和介质
CN114724144A (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN114282664A (zh) 自反馈模型训练方法、装置、路侧设备及云控平台
CN113011410A (zh) 字符识别模型的训练方法、字符识别方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant