KR102348002B1 - 보행자 재식별 방법, 장치, 전자 기기 및 저장 매체 - Google Patents

보행자 재식별 방법, 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR102348002B1
KR102348002B1 KR1020197038764A KR20197038764A KR102348002B1 KR 102348002 B1 KR102348002 B1 KR 102348002B1 KR 1020197038764 A KR1020197038764 A KR 1020197038764A KR 20197038764 A KR20197038764 A KR 20197038764A KR 102348002 B1 KR102348002 B1 KR 102348002B1
Authority
KR
South Korea
Prior art keywords
candidate
target
feature vector
video
pedestrian
Prior art date
Application number
KR1020197038764A
Other languages
English (en)
Other versions
KR20200015610A (ko
Inventor
다펭 첸
홍셴 리
통 시아오
슈아이 이
시아오강 왕
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20200015610A publication Critical patent/KR20200015610A/ko
Application granted granted Critical
Publication of KR102348002B1 publication Critical patent/KR102348002B1/ko

Links

Images

Classifications

    • G06K9/00744
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06K9/00758
    • G06K9/00771
    • G06K9/481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

본 출원의 실시예는 보행자 재식별 방법, 장치, 전자 기기 및 저장 매체를 개시하며, 여기서, 상기 보행자 재식별 방법은, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하는 단계(S100); 상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하는 단계(S102); 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계(S104) - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하는 단계(S106)를 포함한다. 본 발명의 실시예는 인코딩 결과의 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수 계산에 대한 정확도를 향상시킴으로써, 보행자 재식별의 정확도를 향상시킨다.

Description

보행자 재식별 방법, 장치, 전자 기기 및 저장 매체
본 출원은 2018년 2월 12일에 중국 특허청에 제출되고, 출원 번호가 CN201810145717.3인 중국 특허 출원의 우선권을 주장하며, 그 전체 내용은 인용되어 본원에 결합된다.
본 출원의 실시예는 이미지 처리 기술 분야에 관한 것이며, 특히, 보행자 재식별 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.
보행자 재식별은 지능형 비디오 모니터링 시스템의 핵심 기술로서, 주어진 목표 비디오와 후보 비디오 사이의 유사성을 측정하여, 대량의 후보 비디오에서 목표 비디오에서와 동일한 보행자가 포함된 후보 비디오를 찾는 것을 의도로 한다.
현재의 보행자 재식별 방법은 주로 일부 완전한 비디오를 인코딩하며, 인코딩 결과를 사용하여 전체 목표 비디오와 전체 후보 비디오 사이의 유사성을 측정하므로, 보행자 재식별의 효과가 나쁘다.
본 출원의 실시예는 보행자 재식별 기술 방안을 제공한다.
본 출원의 실시예의 제1 측면에 의하면, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하는 단계; 상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하는 단계; 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계 - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하는 단계를 포함하는 보행자 재식별 방법을 제공한다.
일 실시예에 있어서, 상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하는 단계는, 상기 각 목표 비디오 클립의 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 상기 각 후보 비디오 클립의 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득하고; 상기 인덱스 특징 벡터, 상기 제1 목표 특징 벡터 및 상기 제1 후보 특징 벡터에 따라, 주의 가중치 벡터를 생성하는 단계; 상기 주의 가중치 벡터, 상기 제2 목표 특징 벡터 및 상기 제2 후보 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과 및 상기 각 후보 비디오 클립의 인코딩 결과를 획득하는 단계를 포함한다.
일 실시예에 있어서, 상기 각 목표 비디오 클립의 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 상기 각 후보 비디오 클립의 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득하는 단계는, 상기 각 목표 비디오 프레임의 이미지 특징 벡터 및 상기 각 후보 비디오 프레임의 이미지 특징 벡터를 각각 추출하는 단계; 상기 각 목표 비디오 프레임의 이미지 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 생성하며, 상기 각 후보 비디오 프레임의 이미지 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 생성하는 단계를 포함한다.
일 실시예에 있어서, 상기 인덱스 특징 벡터, 상기 제1 목표 특징 벡터 및 상기 제1 후보 특징 벡터에 따라, 주의 가중치 벡터를 생성하는 단계는, 상기 인덱스 특징 벡터 및 상기 제1 목표 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 생성하며, 상기 인덱스 특징 벡터 및 상기 제1 후보 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 생성하는 단계를 포함한다.
일 실시예에 있어서, 본 발명의 방법은, 상기 인덱스 특징 벡터 및 상기 제1 목표 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 생성하는 단계가, 상기 인덱스 특징 벡터, 상기 각 목표 비디오 프레임의 상기 제1 목표 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 목표 히트 맵을 생성하는 단계; 상기 목표 히트 맵에 대해 정규화 처리를 진행하여 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 얻는 단계를 포함하는 것, 및, 상기 인덱스 특징 벡터 및 상기 제1 후보 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 생성하는 단계가, 상기 인덱스 특징 벡터, 상기 각 후보 비디오 프레임의 상기 제1 후보 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 후보 히트 맵을 생성하는 단계; 상기 후보 히트 맵에 대해 정규화 처리를 진행하여 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 얻는 단계를 포함하는 것 중의 적어도 하나를 포함한다.
일 실시예에 있어서, 상기 주의 가중치 벡터, 상기 제2 목표 특징 벡터 및 상기 제2 후보 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과 및 상기 각 후보 비디오 클립의 인코딩 결과를 획득하는 단계는, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과를 획득하며, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 상기 각 후보 비디오 클립의 인코딩 결과를 획득하는 단계를 포함한다.
일 실시예에 있어서, 본 발명의 방법은, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과를 획득하는 단계가, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 각자의 목표 비디오 프레임의 제2 목표 특징 벡터를 곱셈하는 단계; 시간 차원에서 상기 각 목표 비디오 프레임의 곱셈 결과를 합산하여, 상기 각 목표 비디오 클립의 인코딩 결과를 얻는 단계를 포함하는것; 및 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 상기 각 후보 비디오 클립의 인코딩 결과를 획득하는 단계가, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 각자의 후보 비디오 프레임의 제2 후보 특징 벡터를 곱셈하는 단계; 시간 차원에서 상기 각 후보 비디오 프레임의 곱셈 결과를 합산하여, 상기 각 후보 비디오 클립의 인코딩 결과를 얻는 단계를 포함하는 것 중 적어도 하나를 포함한다.
일 실시예에 있어서, 상기 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계는, 상기 각 목표 비디오 클립의 인코딩 결과와 상기 각 후보 비디오 클립의 인코딩 결과에 대해 순차적으로 감산 조작을 진행하는 단계; 감산 조작의 결과에 대해 각 차원에서 제곱 조작을 진행하는 단계; 제곱 조작에 의해 얻은 특징 벡터에 대해 완전 연결 조작을 진행하여 2 차원의 특징 벡터를 얻는 단계; 상기 2 차원의 특징 벡터에 대해 정규화 조작을 진행하여, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 얻는 단계를 포함한다.
일 실시예에 있어서, 상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하는 단계는, 적어도 하나의 상기 후보 비디오의 상기 각 후보 비디오 클립에 대해, 상기 각 후보 비디오의 유사성 점수로서, 점수가 가장 높은 기설정 비율 임계값의 상기 유사성 점수를 합산하는 단계; 상기 각 후보 비디오의 유사성 점수를 내림 순서로 정렬하는 단계; 상위에 정렬된 하나 이상의 상기 후보 비디오를 상기 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정하는 단계를 포함한다.
본 출원의 실시예의 제2 측면에 의하면, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하도록 구성된 획득 모듈; 상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하도록 구성된 인코딩 모듈; 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하도록 구성된 결정 모듈 - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하도록 구성된 식별 모듈을 포함하는 보행자 재식별 장치를 제공한다.
일 실시예에 있어서, 상기 인코딩 모듈은, 상기 각 목표 비디오 클립의 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 상기 각 후보 비디오 클립의 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득하도록 구성된 특징 벡터 획득 모듈; 상기 인덱스 특징 벡터, 상기 제1 목표 특징 벡터 및 상기 제1 후보 특징 벡터에 따라, 주의 가중치 벡터를 생성하도록 구성된 가중치 벡터 생성 모듈; 상기 주의 가중치 벡터, 상기 제2 목표 특징 벡터 및 상기 제2 후보 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과 및 상기 각 후보 비디오 클립의 인코딩 결과를 획득하도록 구성된 인코딩 결과 획득 모듈을 포함한다.
일 실시예에 있어서, 상기 특징 벡터 획득 모듈은, 상기 각 목표 비디오 프레임의 이미지 특징 벡터 및 상기 각 후보 비디오 프레임의 이미지 특징 벡터를 각각 추출하며; 상기 각 목표 비디오 프레임의 이미지 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 생성하고, 상기 각 후보 비디오 프레임의 이미지 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 생성하도록 구성된다.
일 실시예에 있어서, 상기 가중치 벡터 생성 모듈은, 상기 인덱스 특징 벡터 및 상기 제1 목표 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 생성하며, 상기 인덱스 특징 벡터 및 상기 제1 후보 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 생성하도록 구성된다.
일 실시예에 있어서, 상기 가중치 벡터 생성 모듈은, 상기 인덱스 특징 벡터, 상기 각 목표 비디오 프레임의 상기 제1 목표 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 목표 히트 맵을 생성하며; 상기 목표 히트 맵에 대해 정규화 처리를 진행하여 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 얻는 것; 및 상기 인덱스 특징 벡터, 상기 각 후보 비디오 프레임의 상기 제1 후보 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 후보 히트 맵을 생성하고; 상기 후보 히트 맵에 대해 정규화 처리를 진행하여 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 얻는 것 중 적어도 하나를 진행하도록 구성된다.
일 실시예에 있어서, 상기 인코딩 결과 획득 모듈은, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과를 획득하며, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 상기 각 후보 비디오 클립의 인코딩 결과를 획득하도록 구성된다.
일 실시예에 있어서, 상기 인코딩 결과 획득 모듈은, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 각자의 목표 비디오 프레임의 제2 목표 특징 벡터를 곱셈하며; 시간 차원에서 상기 각 목표 비디오 프레임의 곱셈 결과를 합산하여, 상기 각 목표 비디오 클립의 인코딩 결과를 얻는 것; 및 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 각자의 후보 비디오 프레임의 제2 후보 특징 벡터를 곱셈하고; 시간 차원에서 상기 각 후보 비디오 프레임의 곱셈 결과를 합산하여, 상기 각 후보 비디오 클립의 인코딩 결과를 얻는 것 중 적어도 하나를 진행하도록 구성된다.
일 실시예에 있어서, 상기 결정 모듈은, 상기 각 목표 비디오 클립의 인코딩 결과와 상기 각 후보 비디오 클립의 인코딩 결과에 대해 순차적으로 감산 조작을 진행하며; 감산 조작의 결과에 대해 각 차원에서 제곱 조작을 진행하고; 제곱 조작에 의해 얻은 특징 벡터에 대해 완전 연결 조작을 진행하여 2 차원의 특징 벡터를 얻으며; 상기 2 차원의 특징 벡터에 대해 정규화 조작을 진행하여, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 얻도록 구성된다.
일 실시예에 있어서, 상기 식별 모듈은, 적어도 하나의 상기 후보 비디오의 상기 각 후보 비디오 클립에 대해, 상기 각 후보 비디오의 유사성 점수로서, 점수가 가장 높은 기설정 비율 임계값의 상기 유사성 점수를 합산하며; 상기 각 후보 비디오의 유사성 점수를 내림 순서로 정렬하고; 상위에 정렬된 하나 이상의 상기 후보 비디오를 상기 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정하도록 구성된다.
본 출원의 실시예의 제3 측면에 의하면, 프로세서 및 메모리를 포함하며, 상기 프로세서가 제1 측면에 따른 보행자 재식별 방법을 수행하도록 하는 적어도 하나의 수행 가능한 명령어를 저장하기 위한 것인 전자기기를 제공한다.
본 출원의 실시예의 제4 측면에 의하면, 프로세서에 의해 수행될 경우, 제1 측면에 따른 보행자 재식별 방법을 구현하기 위한 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 제공한다.
본 출원의 실시예의 제5 측면에 의하면, 프로세서에 의해 수행될 경우, 제1 측면에 따른 보행자 재식별 방법을 구현하기 위한 적어도 하나의 수행 가능한 명령어를 포함하는 컴퓨터 프로그램 제품을 제공한다.
본 출원의 실시예는 보행자 재식별을 진행할 경우, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하며, 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하여, 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정하고, 유사성 점수에 따라 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행한다. 비디오 클립에 포함된 프레임 수가 전체 비디오에 포함된 프레임 수보다 훨씬 적기 때문에, 비디오 클립의 보행자 표면 정보의 변화 정도는 전체 비디오의 보행자 표면 정보의 변화 정도보다 훨씬 작다. 전체 목표 비디오 및 전체 후보 비디오를 인코딩하는 것과 비교하여, 각 목표 비디오 클립 및 각 후보 비디오 클립을 인코딩하면, 보행자 표면 정보의 변화를 효과적으로 줄이며, 동시에 상이한 비디오 프레임 중의 보행자 표면 정보의 다양성 및 비디오 프레임과 비디오 프레임 사이의 동적 상관성을 이용하여, 보행자 표면 정보의 이용율을 향상하고, 인코딩 결과의 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수 계산에 대한 정확도를 향상시킴으로써, 보행자 재식별의 정확도를 향상시킨다.
도 1은 본 출원의 실시예에 따른 보행자 재식별 방법의 일 실시예의 프로세스 모식도이다.
도 2는 본 출원의 실시예에 따른 보행자 재식별 방법의 일 실시예의 컴퓨팅 프레임 워크 모식도이다.
도 3은 본 출원의 실시예에 따른 보행자 재식별 방법의 다른 일 실시예의 프로세스 모식도이다.
도 4는 본 출원의 실시예에 따른 보행자 재식별 방법에서의 주의 인코딩 메커니즘 모식도이다.
도 5는 본 출원의 실시예에 따른 보행자 재식별 장치의 일 실시예의 구조 모식도이다.
도 6은 본 출원의 실시예에 따른 보행자 재식별 장치의 다른 일 실시예의 구조 모식도이다.
도 7은 본 출원의 실시예에 따른 전자 기기의 일 실시예의 구조 모식도이다.
이하, 도면(여러 도면에서 동일한 참조 번호는 동일한 요소를 나타냄) 및 실시예를 참조하여, 본 발명의 실시예의 구체적인 실시 형태를 더 상세하게 설명한다. 아래 실시예는 본 발명을 설명하기 위한 것이지, 본 발명의 범위를 한정하려는 것은 아니다.
당업자는 본 발명의 실시예에서의 "제1", “제2” 등 용어는 상이한 단계, 장치 또는 모듈 등을 구별하기 위해서만 사용되며, 어떠한 특정 기술적 의미를 대표하지 않을 뿐만 아니라, 이들 사이의 필연적 논리 순서도 나타내지 않는다는 것을 이해할 수 있다.
도 1을 참조하면, 본 출원의 실시예에 따른 보행자 재식별 방법의 일 실시예의 프로세스 모식도를 나타낸다.
본 출원의 실시예의 보행자 재식별 방법은 전자 기기의 프로세서가 메모리에 저장된 관련 명령어를 호출하여 다음 단계를 진행한다.
단계 S100에 있어서, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득한다.
본 출원의 실시예에서의 목표 비디오는 하나 또는 하나 이상의 목표 보행자를 포함할 수 있으며, 후보 비디오에는 하나 또는 하나 이상의 후보 보행자를 포함하거나 또는 후보 보행자를 포함하지 않을 수 있다. 본 출원의 실시예에서의 목표 비디오 및 적어도 하나의 후보 비디오는 비디오 수집 장치로부터의 비디오 이미지일 수 있고, 다른 장치로부터의 비디오 이미지일 수도 있으며, 본 출원의 실시예는 적어도 하나의 후보 비디오로부터 후보 보행자와 목표 보행자가 동일한 보행자인 후보 비디오를 얻는 것을 목적 중 하나로 한다.
선택적인 예에서, 상기 단계 S100는 프로세서가 메모리에 저장된 대응하는 명령어를 호출하는 것에 의해 수행될 수 있으며, 프로세서에 의해 실행되는 획득 모듈(50)에 의해 수행될 수도 있다.
단계 S102에 있어서, 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립을 각각 인코딩한다.
우선, 목표 비디오 및 후보 비디오에 대해 비디오 클립 컷팅을 진행하여, 목표 비디오의 각 목표 비디오 클립 및 후보 비디오의 각 후보 비디오 클립을 생성하며, 여기서, 각 목표 비디오 클립은 고정된 시간 길이를 가지고, 각 후보 비디오 클립은 고정된 시간 길이를 가지며, 또한, 각 목표 비디오 클립의 시간 길이는 각 후보 비디오 클립의 시간 길이와 동일하거나 상이할 수 있다.
다음, 각 목표 비디오 클립 및 각 후보 비디오 클립에 대해 각각 인코딩 조작을 진행하여, 각 목표 비디오 클립의 인코딩 결과 및 각 후보 비디오 클립의 인코딩 결과를 얻는다.
선택적인 예에서, 상기 단계 S102는 프로세서가 메모리에 저장된 대응하는 명령어를 호출하는 것에 의해 수행될 수 있고, 프로세서에 의해 실행되는 인코딩 모듈(52)에 의해 수행될 수도 있다.
단계 S104에 있어서, 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정한다.
본 출원의 실시예에서, 각 목표 비디오 클립의 인코딩 결과는 각 목표 비디오 클립의 보행자 특징 벡터의 표현 형태로 간주될 수 있고, 각 후보 비디오 클립의 인코딩 결과는 각 후보 비디오 클립의 보행자 특징 벡터의 표현 형태로 간주될 수 있다. 또는, 인코딩 결과가 보행자 특징 벡터이다. 어느 목표 비디오 클립과 어느 후보 비디오 클립 사이의 보행자 특징 벡터가 동일하거나 유사하면, 상기 목표 비디오 클립과 상기 후보 비디오 클립에는 동일한 목표 보행자가 포함될 가능성이 높다는 것을 나타내며, 즉, 상기 목표 비디오 클립과 상기 후보 비디오 클립 사이의 유사성 점수가 높다는 것을 나타내고; 어느 목표 비디오 클립과 어느 후보 비디오 클립 사이의 보행자 특징 벡터가 상이하면, 상기 목표 비디오 클립과 상기 후보 비디오 클립에는 동일한 목표 보행자가 포함될 가능성이 낮다는 것을 나타내며, 즉, 상기 목표 비디오 클립과 상기 후보 비디오 클립 사이의 유사성 점수가 낮다는 것을 나타낸다.
선택적인 예에서, 상기 단계 S104는 프로세서가 메모리에 저장된 대응하는 명령어를 호출하는 것에 의해 수행될 수 있고, 프로세서에 의해 실행되는 결정 모듈(54)에 의해 수행될 수도 있다.
단계 S106에 있어서, 유사성 점수에 따라 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행한다.
각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 얻은 후, 유사성 점수에 따라, 적어도 하나의 후보 비디오의 유사성 점수를 획득할 수 있다. 유사성 점수가 높은 후보 비디오를 목표 비디오에 있는 것과 동일한 목표 보행자를 포함하는 후보 비디오로 결정한다.
선택적인 예에서, 상기 단계 S106은 프로세서가 메모리에 저장된 대응하는 명령어를 호출하는 것에 의해 수행될 수 있고, 프로세서에 의해 실행되는 식별 모듈(56)에 의해 수행될 수도 있다.
본 출원의 실시예에서 제안된 보행자 재식별 방법은 도 2에 도시된 바와 같은 컴퓨팅 프레임 워크에서 수행될 수 있다. 우선, 비디오(목표 비디오 및 적어도 하나의 후보 비디오를 포함)를 컷팅하여, 고정된 길이를 갖는 비디오 클립을 생성한다. 여기서, p는 목표 비디오를 나타내고, g는 적어도 하나의 후보 비디오 중 하나의 후보 비디오를 나타내며, p n 은 목표 비디오p 중의 하나의 목표 비디오 클립을 나타내고, gk는 후보 비디오g 중의 하나의 후보 비디오 클립을 나타낸다. 목표 비디오p 및 후보 비디오g 중의 임의의 두 개의 비디오 클립의 유사성을 가늠하기 위해, 협력 주의 메커니즘을 갖는 딥 네트워크를 이용한다. 상기 딥 네트워크는 목표 비디오 클립p n 및 후보 비디오 클립g k 를 입력 항목으로 하고, 출력 항목m(p n , g k )을 목표 비디오 클립p n 과 후보 비디오 클립g k 사이의 유사성 점수로 한다. 목표 비디오p 및 후보 비디오g에서의 두 개의 비디오 클립(목표 비디오 클립 및 후보 비디오 클립)마다, 여러 개의 비디오 클립 사이의 유사성 점수를 획득할 수 있다. 목표 비디오p 및 후보 비디오g 사이의 유사성에 대해 효과적으로 추정하기 위해, 경쟁 메커니즘을 사용하여 유사성이 높은 일부 유사성 점수를 선택하고, 이러한 유사성 점수를 더하여 목표 비디오p 및 후보 비디오g 사이의 유사성에 대한 신뢰성 추정 c(p, g)를 획득할 수 있다.
본 출원의 실시예는, 보행자 재식별을 진행할 때, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하며, 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립에 대해 각각 인코딩하고, 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정하며, 유사성 점수에 따라, 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행한다. 비디오 클립에 포함된 프레임 수가 전체 비디오에 포함된 프레임 수보다 훨씬 적기 때문에, 비디오 클립의 보행자 표면 정보의 변화 정도는 전체 비디오의 보행자 표면 정보의 변화 정도보다 훨씬 작다. 전체 목표 비디오 및 전체 후보 비디오에 대해 인코딩하는 것과 비교하여, 각 목표 비디오 클립 및 각 후보 비디오 클립에 대해 인코딩하면, 보행자 표면 정보의 변화를 효과적으로 줄이고, 동시에 상이한 비디오 프레임 중의 보행자 표면 정보의 다양성 및 비디오 프레임과 비디오 프레임 사이의 동적 상관성을 이용하여, 보행자 표면 정보의 이용율을 향상하며, 인코딩 결과의 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수 계산에 대한 정확도를 향상시킴으로써, 보행자 재식별의 정확도를 향상시킨다.
도 3을 참조하면, 본 출원의 실시예에 따른 보행자 재식별 방법의 다른 일 실시예의 프로세스 모식도를 나타낸다.
유의해야 할 것은, 본 출원의 각 실시예에서 설명된 부분들은 모두 치중점을 갖고 있는 바, 어느 실시예에서 상세하게 설명되지 않은 부분은 본 출원의 다른 실시예에서의 소개 및 설명을 참조할 수 있으며, 반복하여 설명하지 않는다.
단계 S300에 있어서, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득한다.
단계 S302에 있어서, 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립을 각각 인코딩한다.
선택적으로, 본 단계 S302는 아래 단계를 포함할 수 있다.
단계 S3020에 있어서, 각 목표 비디오 클립의 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 각 후보 비디오 클립의 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득한다.
선택적 실시 형태에 있어서, 신경망을 사용하여 각 목표 비디오 프레임의 이미지 특징 벡터 및 각 후보 비디오 프레임의 이미지 특징 벡터를 추출할 수 있으며, 이미지 특징 벡터는 보행자 특징, 배경 특징 등과 같은 비디오 프레임 중의 이미지 특징을 반영하기 위한 것이다. 목표 비디오 프레임에 대해, 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 각 목표 비디오 클립의 인덱스 특징 벡터는 각 목표 비디오 프레임의 이미지 특징 벡터에 따라 생성되고, 인덱스 특징 벡터는 목표 비디오 클립의 정보를 포함하여, 유용한 정보와 노이즈 정보를 효과적으로 구별할 수 있다. 후보 비디오 프레임에 대해, 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터는 각 후보 비디오 프레임의 이미지 특징 벡터에 따라 생성된다. 구체적으로, 각 프레임 특징 선형 변환에 따라, 제1 목표 특징 벡터(“키”특징 벡터) 및 제1 후보 특징 벡터(“키”특징 벡터)를 생성할 수 있으며, 각 프레임 특징의 다른 선형 변환에 따라, 제2 목표 특징 벡터(“값”특징 벡터) 및 제2 후보 특징 벡터(“값”특징 벡터)를 생성할 수 있고, 장단기 메모리(Long Short-Term Memory, LSTM) 네트워크 및 각 목표 비디오 클립의 각 목표 비디오 프레임의 이미지 특징 벡터를 사용하여 각 목표 비디오 클립의 인덱스 특징 벡터를 생성할 수 있으며, 인덱스 특징 벡터는 목표 비디오 클립에 의해 생성되고, 목표 비디오 클립의 자체 및 모든 후보 비디오 클립에 작용한다.
단계 S3022에 있어서, 인덱스 특징 벡터, 제1 목표 특징 벡터 및 제1 후보 특징 벡터에 따라, 주의 가중치 벡터를 생성한다.
본 출원의 실시예에서, 제1 목표 특징 벡터 및 제1 후보 특징 벡터는 주의 가중치 벡터를 생성하기 위한 것이다. 선택적 실시 형태에 있어서, 목표 비디오 프레임에 대해, 각 목표 비디오 프레임의 목표 주의 가중치 벡터는 인덱스 특징 벡터 및 제1 목표 특징 벡터에 따라 생성될 수 있으며, 선택적으로, 인덱스 특징 벡터, 각 목표 비디오 프레임의 제1 목표 특징 벡터에 따라 각 목표 비디오 프레임의 목표 히트 맵이 생성되고, 구체적으로, 인덱스 특징 벡터, 각 목표 비디오 프레임의 제1 목표 특징 벡터에 따라, 내적 조작을 진행하여 각 목표 비디오 프레임의 목표 히트 맵을 얻으며; 시간 차원에서 softmax 함수를 이용해 목표 히트 맵에 대해 정규화 처리하여 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 얻는다. 후보 비디오 프레임에 대해, 인덱스 특징 벡터 및 제1 후보 특징 벡터에 따라 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 생성할 수 있으며, 선택적으로, 인덱스 특징 벡터, 각 후보 비디오 프레임의 제1 후보 특징 벡터에 따라 각 후보 비디오 프레임의 후보 히트 맵을 생성하고, 구체적으로, 인덱스 특징 벡터, 각 후보 비디오 프레임의 제1 후보 특징 벡터에 따라 내적 조작을 진행하여 각 후보 비디오 프레임의 후보 히트 맵을 얻으며; 시간 차원에서 softmax 함수를 이용해 후보 히트 맵에 대해 정규화 처리하여 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 얻는다.
주의 가중치 벡터는 인코딩 과정에서 효과적인 보행자 특징을 향상시키기 위한 것이며, 판별 능력 정보를 가진 가중치 벡터로서, 노이즈 정보의 영향을 줄일 수 있다.
단계 S3024에 있어서, 주의 가중치 벡터, 제2 목표 특징 벡터 및 제2 후보 특징 벡터에 따라, 각 목표 비디오 클립의 인코딩 결과 및 후보 비디오 클립의 인코딩 결과를 획득한다.
본 출원의 실시예에서, 제2 목표 특징 벡터는 목표 비디오 클립의 각 프레임의 이미지 특징을 반영하기 위한 것이며, 제2 후보 특징 벡터는 후보 비디오 클립의 각 프레임의 이미지 특징을 반영하기 위한 것이다. 선택적 실시 형태에 있어서, 목표 비디오 프레임에 대해, 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라 각 목표 비디오 클립의 인코딩 결과를 획득한다. 구체적으로, 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 각자의 목표 비디오 프레임의 제2 목표 특징 벡터를 곱셈하며; 각 목표 비디오 프레임의 곱셈 결과를 시간 차원에서 합산하여, 각 목표 비디오 클립의 인코딩 결과를 획득한다. 후보 비디오 프레임에 대해, 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 각 후보 비디오 클립의 인코딩 결과를 획득한다. 선택적으로, 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 각자의 후보 비디오 프레임의 제2 후보 특징 벡터를 곱셈하며; 각 후보 비디오 프레임의 곱셈 결과를 시간 차원에서 합산하여, 각 후보 비디오 클립의 인코딩 결과를 얻는다.
본 출원의 실시예의 단계 S302는 주의 인코딩 메커니즘에 의해 구현될 수 있으며, 즉, 비디오 클립(목표 비디오 클립 및 후보 비디오 클립)의 상이한 프레임 특징에 대한 정제에 의해 비디오 클립의 인코딩 결과를 획득하며, 그 과정은 도 4에 도시된 바와 같다. 우선, 목표 비디오 클립의 각 목표 비디오 프레임 및 후보 비디오 클립의 각 후보 비디오 프레임에 대해 컨볼루션 신경망 특징을 추출하며, 컨볼루션 신경망 특징에 따라, 각 목표 비디오 프레임 또는 각 후보 비디오 프레임에 대응하는 “키”특징 벡터 및 “값”특징 벡터를 생성하여, 각 목표 비디오 프레임 또는 각 후보 비디오 프레임의 “키”특징 벡터와 각 목표 비디오 클립의 인덱스 특징 벡터가 내적 조작되어 히트 맵을 형성하고, 히트 맵에 의해 목표 비디오 프레임 또는 후보 비디오 프레임 중의 각 특징과 전반적 정보의 상관성을 반영한다. 히트 맵은 시간 차원에서 softmax 함수를 사용하여 정규화 조작을 진행하여 주의 가중치 벡터를 형성하며, 상기 주의 가중치 벡터와 각 비디오 프레임의 “값”특징 벡터를 각 차원에서 대응되게 곱셈하고, 상이한 비디오 프레임이 획득한 결과를 시간 차원에서 합산함으로써, 각 비디오 클립의 인코딩 결과를 얻는다.
단계 S304에 있어서, 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정한다.
선택적 실시 형태에 있어서, 각 목표 비디오 클립의 인코딩 결과와 각 후보 비디오 클립의 인코딩 결과에 대해순차적으로 감산 조작, 제곱 조작, 완전 연결 조작 및 정규화 조작을 진행하여, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 얻는다. 구체적으로, 각 목표 비디오 클립의 인코딩 결과와 각 후보 비디오 클립의 인코딩 결과에 대해 순차적으로 감산 조작을 진행한 후, 보행자 이미지 차원 및 배경 이미지 차원을 포함하지만 이에 한정되지 않는 각 이미지 차원에서 제곱 조작을 진행한다. 여기서, 보행자 이미지 차원은 머리 이미지 차원, 상체 이미지 차원, 하체 이미지 차원 등을 포함하며; 배경 이미지 차원은 건축 이미지 차원, 거리 이미지 차원 등을 포함한다. 제곱 조작 후 얻은 특징 벡터는 완전 연결 계층을 통해 하나의 2 차원의 특징 벡터를 획득하며, 최종적으로 Sigmoid 함수의 비선형 정규화에 의해 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 획득한다.
단계 S306에 있어서, 유사성 점수에 따라, 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행한다.
선택적 실시 형태에 있어서, 적어도 하나의 후보 비디오의 각 후보 비디오에 대해, 각 후보 비디오의 유사성 점수로서, 기설정 임계값보다 크거나 같은 유사성 점수 또는 점수가 높은 유사성 점수(예를 들어, 상위 20 %에 위치한 유사성 점수)를 합산하며; 각 후보 비디오의 유사성 점수를 내림 순서로 정렬하고; 상위에 정렬된 하나 이상의 후보 비디오를 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정한다. 여기서, 기설정 임계값은 실제 상황에 따라 설정할 수 있으며, 높은 점수는 상대적 의미를 갖는다.
본 출원의 실시예에서 보행자 재식별을 진행할 때, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하며, 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립에 대해 각각 인코딩하고, 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정하며, 유사성 점수에 따라, 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행한다. 비디오 클립에 포함된 프레임 수가 전체 비디오에 포함된 프레임 수보다 훨씬 적기 때문에, 비디오 클립의 보행자 표면 정보의 변화 정도는 전체 비디오의 보행자 표면 정보의 변화 정도보다 훨씬 작다. 전체 목표 비디오 및 전체 후보 비디오에 대해 인코딩하는 것과 비교하여, 각 목표 비디오 클립 및 각 후보 비디오 클립에 대해 인코딩하면, 보행자 표면 정보의 변화를 효과적으로 줄이며, 동시에 상이한 비디오 프레임 중의 보행자 표면 정보의 다양성 및 비디오 프레임과 비디오 프레임 사이의 동적 상관성을 이용하여, 보행자 표면 정보의 이용율을 향상하고, 인코딩 결과의 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수 계산에 대한 정확도를 향상시킴으로써, 보행자 재식별의 정확도를 향상시킨다.
본 출원의 실시예에서의 후보 비디오의 인코딩 결과는 목표 비디오 클립의 인덱스 특징 벡터와 후보 비디오 클립의 “키”특징 벡터에 의해 얻은 것이며, 인코딩 과정에서, 목표 비디오 클립의 인덱스 특징 벡터를 지시 정보로 사용하여, 후보 비디오의 인코딩 결과의 유사성 점수를 결정하는데 대한 정확도를 향상한다. 목표 비디오 클립의 인덱스 특징 벡터를 사용하여 각 후보 비디오 프레임의 주의 가중치 벡터를 추정함으로써, 후보 비디오 중의 이상 후보 비디오 프레임이 후보 비디오 클립의 인코딩 결과에 대한 영향을 줄이고, 후보 비디오 중의 보행자 재식별의 타깃성을 향상시킨다.
본 출원의 실시예는 목표 비디오 및 후보 비디오에 대해 클립 컷팅을 진행하여, 목표 비디오 클립 및 후보 비디오 클립에 대해 인코딩을 진행함으로써, 후보 비디오의 보행자가 일부 후보 비디오 프레임에서 차단될 경우, 후보 비디오의 유효 후보 비디오 클립으로서 유사성 점수가 높은 후보 비디오 클립을 선택하고, 유사성 점수가 낮은 후보 비디오 클립을 무시한다.
도 5를 참조하면, 본 출원의 실시예에 따른 보행자 재식별 장치의 일 실시예의 구조 모식도를 나타낸다.
본 출원의 실시예에 의해 제공된 보행자 재식별 장치는 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하도록 구성된 획득 모듈(50); 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하도록 구성된 인코딩 모듈(52); 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정하도록 구성된 결정 모듈(54) - 유사성 점수는 목표 비디오 클립과 후보 비디오 클립의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 유사성 점수에 따라, 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행하도록 구성된 식별 모듈(56)을 포함한다.
본 출원의 실시예의 보행자 재식별 장치는 상기 실시예에 대응하는 보행자 재식별 방법을 구현하기 위한 것이며, 대응하는 방법 실시예의 유익한 효과를 가지고, 여기서 반복하여 설명하지 않는다.
도 6을 참조하면, 본 출원의 실시예에 따른 보행자 재식별 장치의 다른 일 실시예의 구조 모식도이다.
본 출원의 실시예에 의해 제공된 보행자 재식별 장치는, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하도록 구성된 획득 모듈(60); 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하도록 구성된 인코딩 모듈(62); 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정하도록 구성된 결정 모듈(64) - 유사성 점수목표 비디오 클립과 후보 비디오 클립의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 유사성 점수에 따라, 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행하도록 구성된 식별 모듈(66)을 포함한다.
선택적으로, 인코딩 모듈(62)은, 각 목표 비디오 클립의 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 각 후보 비디오 클립의 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득하도록 구성된 특징 벡터 획득 모듈(620); 인덱스 특징 벡터, 제1 목표 특징 벡터 및 제1 후보 특징 벡터에 따라, 주의 가중치 벡터를 생성하도록 구성된 가중치 벡터 생성 모듈(622); 주의 가중치 벡터, 제2 목표 특징 벡터 및 제2 후보 특징 벡터에 따라, 각 목표 비디오 클립의 인코딩 결과 및 각 후보 비디오 클립의 인코딩 결과를 획득하도록 구성된 인코딩 결과 획득 모듈(624)을 포함한다.
선택적으로, 특징 벡터 획득 모듈(620)은, 각 목표 비디오 프레임의 이미지 특징 벡터 및 각 후보 비디오 프레임의 이미지 특징 벡터를 각각 추출하며; 각 목표 비디오 프레임의 이미지 특징 벡터에 따라, 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 각 목표 비디오 클립의 인덱스 특징 벡터를 생성하고, 각 후보 비디오 프레임의 이미지 특징 벡터에 따라, 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 생성하도록 구성된다.
선택적으로, 가중치 벡터 생성 모듈(622)은, 인덱스 특징 벡터 및 제1 목표 특징 벡터에 따라, 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 생성하며, 인덱스 특징 벡터 및 제1 후보 특징 벡터에 따라, 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 생성하도록 구성된다.
선택적으로, 가중치 벡터 생성 모듈(622)은, 인덱스 특징 벡터, 각 목표 비디오 프레임의 제1 목표 특징 벡터에 따라, 각 목표 비디오 프레임의 목표 히트 맵을 생성하며; 목표 히트 맵에 대해 정규화 처리를 진행하여 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 얻는 것; 및 인덱스 특징 벡터, 각 후보 비디오 프레임의 제1 후보 특징 벡터에 따라, 각 후보 비디오 프레임의 후보 히트 맵을 생성하고; 후보 히트 맵에 대해 정규화 처리를 진행하여 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 얻는 것 중 적어도 하나를 진행하도록 구성된다.
선택적으로, 인코딩 결과 획득 모듈(624)은, 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라, 각 목표 비디오 클립의 인코딩 결과를 획득하며, 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 각 후보 비디오 클립의 인코딩 결과를 획득하도록 구성된다.
선택적으로, 인코딩 결과 획득 모듈(624)은, 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 각자의 목표 비디오 프레임의 제2 목표 특징 벡터를 곱셈하며; 시간 차원에서 각 목표 비디오 프레임의 곱셈 결과를 합산하여, 각 목표 비디오 클립의 인코딩 결과를 얻는 것; 및 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 각자의 후보 비디오 프레임의 제2 후보 특징 벡터를 곱셈하고; 시간 차원에서 각 후보 비디오 프레임의 곱셈 결과를 합산하여, 각 후보 비디오 클립의 인코딩 결과를 얻는 것 중 적어도 하나를 진행하도록 구성된다.
선택적으로, 결정 모듈(64)은, 각 목표 비디오 클립의 인코딩 결과와 각 후보 비디오 클립의 인코딩 결과에 대해 순차적으로 감산 조작을 진행하며; 감산 조작의 결과에 대해 각 차원에서 제곱 조작을 진행하고; 제곱 조작에 의해 얻은 특징 벡터에 대해 완전 연결 조작을 진행하여 2 차원의 특징 벡터를 얻으며; 2 차원의 특징 벡터에 대해 정규화 조작을 진행하여, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 얻도록 구성된다.
선택적으로, 식별 모듈(66)은, 적어도 하나의 후보 비디오의 각 후보 비디오 클립에 대해, 각 후보 비디오의 유사성 점수로서, 점수가 가장 높은 기설정 비율 임계값의 유사성 점수를 합산하며; 각 후보 비디오의 유사성 점수를 내림 순서로 정렬하고; 상위에 정렬된 하나 이상의 후보 비디오를 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정하도록 구성된다.
본 출원의 실시예의 보행자 재식별 장치는 상기 실시예에 대응하는 보행자 재식별 방법을 구현하기 위한 것이며, 대응하는 방법 실시예의 유리한 효과를 가지고, 여기서 반복하여 설명하지 않는다.
본 출원의 실시예는 또한 이동 단말기, 개인용 컴퓨터(PC), 태블릿 컴퓨터, 서버 등 일 수 있는 전자 기기를 제공한다. 아래 도 7을 참조하면, 본 출원의 실시예의 보행자 재식별 장치를 구현하기 위한 전자 기기(700)의 구조 모식도를 나타내며, 도 7에 도시된 바와 같이, 전자 기기(700)은 메모리 및 프로세서를 포함할 수 있다. 구체적으로, 전자 기기(700)는 하나 또는 하나 이상의 프로세서, 통신 소자 등을 포함할 수 있으며, 상기 하나 또는 하나 이상의 프로세서는 예를 들어, 하나 또는 하나 이상의 중앙 처리 장치(CPU, 701), 및 하나 또는 하나 이상의 이미지 프로세서(GPU, 713) 중 적어도 하나이고, 프로세서는 판독 전용 메모리(ROM, 702)에 저장된 수행 가능한 명령어 또는 저장 부분(708)으로부터 랜덤 액세스 메모리(RAM, 703)에 로딩된 수행 가능한 명령어에 의해, 다양한 적절한 동작과 처리를 수행할 수 있다. 통신 소자는 통신 컴포넌트(712) 및 통신 인터페이스(709) 중 적어도 하나를 포함한다. 여기서, 통신 컴포넌트(712)는 네트워크 카드를 포함할 수 있지만 이에 한정되지는 않으며, 상기 네트워크 카드는 인피니 밴드(Infiniband, IB) 네트워크 카드를 포함할 수 있지만 이에 한정되지는 않고, 통신 인터페이스(709)는 근거리 통신망(LAN, Local Area Network) 카드, 모뎀 등과 같은 네트워크 인터페이스 카드의 통신 인터페이스를 포함하며, 통신 인터페이스(709)는 인터넷과 같은 네트워크를 통해 통신 처리를 수행한다.
프로세서는 수행 가능한 명령어를 수행하기 위해, 판독 전용 메모리(702) 및 랜덤 액세스 메모리(703) 중 적어도 하나와 통신하며, 통신 버스(704)에 의해 통신 컴포넌트(712)와 연결되고, 통신 컴포넌트(712)를 통해 다른 목표 장치와 통신함으로써, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하는 단계; 상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하는 단계; 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계 - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하는 단계와 같은 본 출원의 실시예에 의해 제공된 임의의 하나의의 보행자 재식별 방법에 대응하는 조작을 완성한다.
또한, RAM(703)에는 장치 조작에 필요한 다양한 프로그램 및 데이터가 저장될 수 있다. CPU(701) 또는 GPU(713), ROM(702) 및 RAM(703)은 통신 버스(704)를 통해 서로 연결된다. RAM(703)을 구비한 경우, ROM(702)는 선택적 모듈이다. RAM(703)은 수행 가능한 명령어를 저장하거나, 또한 실행 시, ROM(702)에 수행 가능한 명령어를 기록하며, 수행 가능한 명령어는 프로세서로 하여금 상기 통신 방법에 대응하는 조작을 수행하도록 한다. 입/출력(I/O) 인터페이스(705)는 또한 통신 버스(704)에 연결된다. 통신 컴포넌트(712)는 통합 설치될 수 있으며, 여러 개의 서브 모듈(예를 들어, 여러 개의 IB 네트워크 카드)를 갖고, 통신 버스에 링크도록 설치될 수 있다.
키보드, 마우스 등을 포함하는 입력 부분(706); 음극선 관(CRT), 액정 디스플레이(LCD) 및 스피커 등을 포함하는 출력 부분(707); 하드 디스크 등을 포함하는 저장 부분(708); 및 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신 인터페이스(709) 등 부품은 I/O 인터페이스(705)에 연결된다. 드라이버(710)도 필요에 따라 I/O 인터페이스(705)에 연결된다. 자기 디스크, 광 디스크, 광 자기 디스크, 반도체 메모리 등과 같은 제거 가능한 매체(711)는, 필요에 따라 드라이버(710)에 설치되어, 그로부터 판독된 컴퓨터 프로그램이 필요에 따라 저장 부분(708)에 저장되도록 된다.
유의해야 할 것은, 도 7에 도시된 바와 같은 아키텍처는 선택적 구현 방식일 뿐이며, 구체적인 실천 과정에서는, 실제 요구에 따라, 상기 도 7의 부품 수 및 유형을 선택, 삭제, 추가 또는 교체할 수 있으며; GPU 및 CPU는 분리하여 설치하거나 또는 GPU를 CPU에 통합시킬수 있으며, 통신 소자는 분리하여 설치할 수 있고, 통합하여 CPU 또는 GPU에 설치할 수도 있는 등과 같이 상이한 기능 부품 설치에 있어서 분리 설치 또는 통합 설치 등 구현 방식을 사용할 수도 있다. 이러한 교체 가능한 실시 형태는 모두 본 발명의 보호 범위에 속한다.
본 출원의 실시예의 전자 기기는 상기 실시예에 대응하는 보행자 재식별 방법을 구현하기 위한 것일 수 있으며, 상기 전자 기기 중의 각 소자는 상기 방법 실시예에서의 각 단계를 수행하기 위한 것일 수 있고, 예를 들어, 전술한 보행자 재식별 방법은 메모리에 저장된 관련 명령어를 호출하는 전자 기기의 프로세서에 의해 구현될 수 있으며 간결성을 위해, 여기서 반복하여 설명하지 않는다.
본 출원의 실시예에 따르면, 흐름도를 참조하여 설명한 전술한 과정은 컴퓨터 프로그램 제품으로서 구현될 수 있다. 예를 들어, 본 출원의 실시예는 유형적으로 머신 판독 가능 매체에 포함된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함하며, 프로그램 코드는, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하는 단계; 상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하는 단계; 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계 - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하는 단계 등과 같은 본 출원의 실시예에 의해 제공된 방법 단계에 대응하여 수행하는 것에 대응되는 명령어를 포함할 수 있다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 소자를 통해 네트워크로부터 다운로드 및 설치될 수 있는 것, 및 제거 가능한 매체(711)로부터 설치되는 것 중 적어도 하나를 진행할 수 있다. 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 경우, 본 출원의 실시예의 방법에서 개시된 기능을 수행한다.
본 출원의 실시예의 방법과 장치, 전자 기기 및 저장 매체는 다양한 형태로 구현될 수 있다. 예를 들어, 소프트웨어, 하드웨어, 펌웨어 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합에 의해 본 출원의 실시예의 방법과 장치, 전자 기기 및 저장 매체를 구현할 수 있다. 특별히 달리 언급되지 않는 한, 방법의 단계의 상기 순서는 단지 설명을 위한 것뿐이며, 본 출원의 실시예의 방법의 단계는 상기에서 구체적으로 설명한 순서에 한정되지 않는다. 또한, 일부 실시예에서, 본 출원은 또한 기록 매체에 기록된 프로그램으로 구현될 수 있으며, 이러한 프로그램은 본 출원의 실시예에 따른 방법을 구현하기 위한 머신 판독 가능 명령어를 포함한다. 따라서, 본 출원은 또한 본 출원의 실시예에 따른 방법을 수행하기 위한 프로그램을 저장하는 기록 매체를 포함한다.
본 출원의 실시예의 설명은 예시 및 설명을 목적으로 제시되었으며, 완전하거나 또는 본 발명이 개시된 형태에 한정된 것은 아니고, 많은 수정 및 변화는 당업자에게 있어서 자명한 것이다. 실시예에 대한 선택 및 설명은 본 출원의 원리 및 실제 응용을 더욱 잘 설명하기 위한 것이며, 당업자가 본 출원을 이해하고 특정 용도에 적합한 다양한 수정을 가진 각종 실시예를 디자인하도록 하기 위한 것이다.

Claims (21)

  1. 보행자 재식별 방법으로서,
    목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하는 단계;
    상기 목표 비디오로부터 생성된 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오로부터 생성된 각 후보 비디오 클립을 각각 인코딩하여 인코딩 결과를획득하는 단계 - 상기 인코딩 결과는 보행자 특징을 포함함 - ;
    인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계 - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 및
    상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하여, 상기 유사성 점수가 기설정된 조건을 만족하는 후보 비디오를 상기 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정하는 단계를 포함하고;
    상기 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계는,
    상기 각 목표 비디오 클립의 인코딩 결과와 상기 각 후보 비디오 클립의 인코딩 결과에 대해 순차적으로 감산 조작을 진행하는 단계;
    감산 조작의 결과에 대해 각 차원에서 제곱 조작을 진행하는 단계;
    제곱 조작에 의해 얻은 특징 벡터에 대해 완전 연결 조작을 진행하여 2 차원의 특징 벡터를 얻는 단계;
    상기 2 차원의 특징 벡터에 대해 정규화 조작을 진행하여, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 얻는 단계를 포함하는 것을 특징으로 하는 보행자 재식별 방법.
  2. 제1항에 있어서,
    상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하는 단계는,
    상기 각 목표 비디오 클립의 각 목표 비디오 프레임의 이미지 특징의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 상기 각 후보 비디오 클립의 각 후보 비디오 프레임의 이미지 특징의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득하는 단계;
    상기 인덱스 특징 벡터, 상기 각 목표 비디오 프레임의 상기 제1 목표 특징 벡터에 대해 내적 조작을 진행하여, 상기 각 목표 비디오 프레임의 목표 히트 맵을 생성하는 단계;
    상기 목표 히트 맵에 대해 정규화 처리를 진행하여 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 얻는 단계;
    상기 인덱스 특징 벡터, 상기 각 후보 비디오 프레임의 상기 제1 후보 특징 벡터에 대해 내적 조작을 진행하여, 상기 각 후보 비디오 프레임의 후보 히트 맵을 생성하는 단계;
    상기 후보 히트 맵에 대해 정규화 처리를 진행하여 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 얻는 단계;
    상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과를 획득하며, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 상기 각 후보 비디오 클립의 인코딩 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 보행자 재식별 방법.
  3. 제2항에 있어서,
    상기 각 목표 비디오 클립의 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 상기 각 후보 비디오 클립의 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득하는 단계는,
    상기 각 목표 비디오 프레임의 이미지 특징 벡터 및 상기 각 후보 비디오 프레임의 이미지 특징 벡터를 각각 추출하는 단계; 및
    상기 각 목표 비디오 프레임의 이미지 특징 벡터에 대해 선형 변환을 진행하여, 상기 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터를 생성하고, 상기 각 목표 비디오 프레임의 이미지 특징 벡터에 따라 상기 각 목표 비디오 클립의 정보를 포함하는 인덱스 특징 벡터를 생성하며, 상기 각 후보 비디오 프레임의 이미지 특징 벡터에 대해 선형 변환을 진행하여, 상기 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 생성하는 단계를 포함하는 것을 특징으로 하는 보행자 재식별 방법.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 제2항에 있어서,
    상기 보행자 재식별 방법은,
    상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과를 획득하는 단계가,
    상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 각자의 목표 비디오 프레임의 제2 목표 특징 벡터를 곱셈하는 단계; 시간 차원에서 상기 각 목표 비디오 프레임의 곱셈 결과를 합산하여, 상기 각 목표 비디오 클립의 인코딩 결과를 얻는 단계를 포함하는 것, 및
    상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 상기 각 후보 비디오 클립의 인코딩 결과를 획득하는 단계가,
    상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 각자의 후보 비디오 프레임의 제2 후보 특징 벡터를 곱셈하는 단계; 시간 차원에서 상기 각 후보 비디오 프레임의 곱셈 결과를 합산하여, 상기 각 후보 비디오 클립의 인코딩 결과를 얻는 단계를 포함하는 것,
    중 적어도 하나를 포함하는 것을 특징으로 하는 보행자 재식별 방법.
  8. 삭제
  9. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하는 단계는,
    적어도 하나의 상기 후보 비디오의 상기 각 후보 비디오 클립에 대해, 상기 각 후보 비디오의 유사성 점수로서, 점수가 가장 높은 기설정 비율 임계값의 상기 유사성 점수를 합산하는 단계;
    상기 각 후보 비디오의 유사성 점수를 내림 순서로 정렬하는 단계;
    상위에 정렬된 하나 이상의 상기 후보 비디오를 상기 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정하는 단계를 포함하는 것을 특징으로 하는 보행자 재식별 방법.
  10. 보행자 재식별 장치로서,
    목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하도록 구성된 획득 모듈;
    상기 목표 비디오로부터 생성된 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오로부터 생성된 각 후보 비디오 클립을 각각 인코딩하여 인코딩 결과를 획득하도록 구성된 인코딩 모듈 - 상기 인코딩 결과는 보행자 특징을 포함함 - ;
    인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하도록 구성된 결정 모듈 - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ;
    상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하여, 상기 유사성 점수가 기설정된 조건을 만족하는 후보 비디오를 상기 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정하도록 구성된 식별 모듈을 포함하고;
    상기 결정 모듈은 또한,
    상기 각 목표 비디오 클립의 인코딩 결과와 상기 각 후보 비디오 클립의 인코딩 결과에 대해 순차적으로 감산 조작을 진행하고;
    감산 조작의 결과에 대해 각 차원에서 제곱 조작을 진행하며;
    제곱 조작에 의해 얻은 특징 벡터에 대해 완전 연결 조작을 진행하여 2 차원의 특징 벡터를 얻으며;
    상기 2 차원의 특징 벡터에 대해 정규화 조작을 진행하여, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 얻도록 구성된 것을 특징으로 하는 보행자 재식별 장치.
  11. 전자 기기로서,
    프로세서 및 메모리를 포함하며,
    상기 메모리는, 상기 프로세서가 제1항 내지 제3항 중 어느 한 항에 따른 보행자 재식별 방법을 수행하도록 하는 적어도 하나의 수행 가능한 명령어를 저장하기 위한 것임을 특징으로 하는 전자 기기.
  12. 컴퓨터 판독 가능 저장 매체로서,
    프로세서에 의해 수행될 경우, 제1항 내지 제3항 중 어느 한 항에 따른 보행자 재식별 방법을 구현하기 위한 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체.
  13. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램 제품으로서,
    프로세서에 의해 수행될 경우, 제1항 내지 제3항 중 어느 한 항에 따른 보행자 재식별 방법을 구현하기 위한 적어도 하나의 수행 가능한 명령어를 포함하는 컴퓨터 프로그램 제품.
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
KR1020197038764A 2018-02-12 2018-11-21 보행자 재식별 방법, 장치, 전자 기기 및 저장 매체 KR102348002B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810145717.3A CN108399381B (zh) 2018-02-12 2018-02-12 行人再识别方法、装置、电子设备和存储介质
CN201810145717.3 2018-02-12
PCT/CN2018/116600 WO2019153830A1 (zh) 2018-02-12 2018-11-21 行人再识别方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
KR20200015610A KR20200015610A (ko) 2020-02-12
KR102348002B1 true KR102348002B1 (ko) 2022-01-06

Family

ID=63096438

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197038764A KR102348002B1 (ko) 2018-02-12 2018-11-21 보행자 재식별 방법, 장치, 전자 기기 및 저장 매체

Country Status (7)

Country Link
US (1) US11301687B2 (ko)
JP (1) JP6905601B2 (ko)
KR (1) KR102348002B1 (ko)
CN (1) CN108399381B (ko)
PH (1) PH12020500050A1 (ko)
SG (1) SG11201913733QA (ko)
WO (1) WO2019153830A1 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399381B (zh) 2018-02-12 2020-10-30 北京市商汤科技开发有限公司 行人再识别方法、装置、电子设备和存储介质
JP7229698B2 (ja) * 2018-08-20 2023-02-28 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN111523569B (zh) * 2018-09-04 2023-08-04 创新先进技术有限公司 一种用户身份确定方法、装置及电子设备
CN109543537B (zh) * 2018-10-23 2021-03-23 北京市商汤科技开发有限公司 重识别模型增量训练方法及装置、电子设备和存储介质
CN110175527B (zh) * 2019-04-29 2022-03-25 北京百度网讯科技有限公司 行人再识别方法及装置、计算机设备及可读介质
CN110083742B (zh) * 2019-04-29 2022-12-06 腾讯科技(深圳)有限公司 一种视频查询方法和装置
US11062455B2 (en) * 2019-10-01 2021-07-13 Volvo Car Corporation Data filtering of image stacks and video streams
CN110827312B (zh) * 2019-11-12 2023-04-28 北京深境智能科技有限公司 一种基于协同视觉注意力神经网络的学习方法
CN111339849A (zh) * 2020-02-14 2020-06-26 北京工业大学 一种融合行人属性的行人重识别的方法
CN111339360B (zh) * 2020-02-24 2024-03-26 北京奇艺世纪科技有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN111538861B (zh) * 2020-04-22 2023-08-15 浙江大华技术股份有限公司 基于监控视频进行图像检索的方法、装置、设备及介质
CN111723645B (zh) * 2020-04-24 2023-04-18 浙江大学 用于同相机内有监督场景的多相机高精度行人重识别方法
CN111539341B (zh) * 2020-04-26 2023-09-22 香港中文大学(深圳) 目标定位方法、装置、电子设备和介质
CN112001243A (zh) * 2020-07-17 2020-11-27 广州紫为云科技有限公司 一种行人重识别数据标注方法、装置及设备
CN111897993A (zh) * 2020-07-20 2020-11-06 杭州叙简科技股份有限公司 一种基于行人再识别的高效目标人物轨迹生成方法
CN112069952A (zh) 2020-08-25 2020-12-11 北京小米松果电子有限公司 视频片段提取方法、视频片段提取装置及存储介质
CN112150514A (zh) * 2020-09-29 2020-12-29 上海眼控科技股份有限公司 视频的行人轨迹追踪方法、装置、设备及存储介质
CN112906483B (zh) * 2021-01-25 2024-01-23 ***股份有限公司 一种目标重识别方法、装置及计算机可读存储介质
CN113221641B (zh) * 2021-04-01 2023-07-07 哈尔滨工业大学(深圳) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN113011395B (zh) * 2021-04-26 2023-09-01 深圳市优必选科技股份有限公司 一种单阶段动态位姿识别方法、装置和终端设备
CN113255598B (zh) * 2021-06-29 2021-09-28 南京视察者智能科技有限公司 一种基于Transformer的行人重识别方法
CN113780066B (zh) * 2021-07-29 2023-07-25 苏州浪潮智能科技有限公司 行人重识别方法、装置、电子设备及可读存储介质
CN115150663B (zh) * 2022-07-01 2023-12-15 北京奇艺世纪科技有限公司 热度曲线的生成方法、装置、电子设备及存储介质
CN117522454B (zh) * 2024-01-05 2024-04-16 北京文安智能技术股份有限公司 一种工作人员识别方法及***

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567116B1 (en) * 1998-11-20 2003-05-20 James A. Aman Multiple object tracking system
WO2011148562A1 (ja) * 2010-05-26 2011-12-01 パナソニック株式会社 画像情報処理装置
KR20140090795A (ko) * 2013-01-10 2014-07-18 한국전자통신연구원 다중 카메라 환경에서 객체 추적 방법 및 장치
JP6260215B2 (ja) * 2013-11-13 2018-01-17 富士通株式会社 特徴点追跡装置、及び、特徴点追跡方法
CN103810476B (zh) * 2014-02-20 2017-02-01 中国计量学院 基于小群体信息关联的视频监控网络中行人重识别方法
WO2017000115A1 (zh) * 2015-06-29 2017-01-05 北京旷视科技有限公司 行人再识别方法及设备
CN105095475B (zh) * 2015-08-12 2018-06-19 武汉大学 基于两级融合的不完整属性标记行人重识别方法与***
CN105354548B (zh) * 2015-10-30 2018-10-26 武汉大学 一种基于ImageNet检索的监控视频行人重识别方法
JP2017167970A (ja) * 2016-03-17 2017-09-21 株式会社リコー 画像処理装置、物体認識装置、機器制御システム、画像処理方法およびプログラム
JP6656987B2 (ja) * 2016-03-30 2020-03-04 株式会社エクォス・リサーチ 画像認識装置、移動体装置、及び画像認識プログラム
CN107346409B (zh) * 2016-05-05 2019-12-17 华为技术有限公司 行人再识别方法和装置
CN106022220B (zh) * 2016-05-09 2020-02-28 北京河马能量体育科技有限公司 一种体育视频中对参赛运动员进行多人脸跟踪的方法
US10726312B2 (en) * 2016-12-05 2020-07-28 Avigilon Corporation System and method for appearance search
CN108399381B (zh) * 2018-02-12 2020-10-30 北京市商汤科技开发有限公司 行人再识别方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
H. Choi and M. Jeon, ‘Data association for non-overlapping multi-camera multi-object trackig based on similarity funciton,’ IEEE International Conference on Cunsumer Electronics-Asia(ICCE-Asia), 26-28 Oct. 2016 (2016.10.26.) 1부.*

Also Published As

Publication number Publication date
SG11201913733QA (en) 2020-01-30
PH12020500050A1 (en) 2020-11-09
CN108399381B (zh) 2020-10-30
US20200134321A1 (en) 2020-04-30
CN108399381A (zh) 2018-08-14
KR20200015610A (ko) 2020-02-12
JP6905601B2 (ja) 2021-07-21
US11301687B2 (en) 2022-04-12
JP2020525901A (ja) 2020-08-27
WO2019153830A1 (zh) 2019-08-15

Similar Documents

Publication Publication Date Title
KR102348002B1 (ko) 보행자 재식별 방법, 장치, 전자 기기 및 저장 매체
TWI773189B (zh) 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體
US10467743B1 (en) Image processing method, terminal and storage medium
CN108154222B (zh) 深度神经网络训练方法和***、电子设备
CN109360028B (zh) 用于推送信息的方法和装置
JP4394020B2 (ja) データ分析装置及び方法
CN110555405B (zh) 目标跟踪方法及装置、存储介质和电子设备
CN113971751A (zh) 训练特征提取模型、检测相似图像的方法和装置
WO2019136897A1 (zh) 图像处理方法、装置、电子设备及存储介质
CN110399826B (zh) 一种端到端人脸检测和识别方法
JP2015176175A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2016206837A (ja) オブジェクト検出方法及び画像検索システム
JP2022540101A (ja) ポジショニング方法及び装置、電子機器、コンピュータ読み取り可能な記憶媒体
CN115063875A (zh) 模型训练方法、图像处理方法、装置和电子设备
CN116311214B (zh) 车牌识别方法和装置
CN114429566A (zh) 一种图像语义理解方法、装置、设备及存储介质
CN109918538B (zh) 视频信息处理方法及装置、存储介质及计算设备
CN115035605B (zh) 基于深度学习的动作识别方法、装置、设备及存储介质
CN111523399A (zh) 敏感视频检测及装置
CN111753836A (zh) 文字识别方法、装置、计算机可读介质及电子设备
CN113255824A (zh) 训练分类模型和数据分类的方法和装置
Kumar et al. DPAM: A New Deep Parallel Attention Model for Multiple License Plate Number Recognition
CN111160353A (zh) 车牌识别方法、装置及设备
Guesdon et al. Multitask Metamodel for Keypoint Visibility Prediction in Human Pose Estimation
CN114943641B (zh) 基于模型共享结构的对抗纹理图像生成方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant