KR102348002B1

KR102348002B1 - 보행자 재식별 방법, 장치, 전자 기기 및 저장 매체

Info

Publication number: KR102348002B1
Application number: KR1020197038764A
Authority: KR
Inventors: 다펭 첸; 홍셴 리; 통 시아오; 슈아이 이; 시아오강 왕
Original assignee: 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date: 2018-02-12
Filing date: 2018-11-21
Publication date: 2022-01-06
Also published as: SG11201913733QA; PH12020500050A1; CN108399381B; US20200134321A1; CN108399381A; KR20200015610A; JP6905601B2; US11301687B2; JP2020525901A; WO2019153830A1

Abstract

본 출원의 실시예는 보행자 재식별 방법, 장치, 전자 기기 및 저장 매체를 개시하며, 여기서, 상기 보행자 재식별 방법은, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하는 단계(S100); 상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하는 단계(S102); 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계(S104) - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하는 단계(S106)를 포함한다. 본 발명의 실시예는 인코딩 결과의 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수 계산에 대한 정확도를 향상시킴으로써, 보행자 재식별의 정확도를 향상시킨다.

Description

보행자 재식별 방법, 장치, 전자 기기 및 저장 매체

본 출원은 2018년 2월 12일에 중국 특허청에 제출되고, 출원 번호가 CN201810145717.3인 중국 특허 출원의 우선권을 주장하며, 그 전체 내용은 인용되어 본원에 결합된다.

본 출원의 실시예는 이미지 처리 기술 분야에 관한 것이며, 특히, 보행자 재식별 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.

보행자 재식별은 지능형 비디오 모니터링 시스템의 핵심 기술로서, 주어진 목표 비디오와 후보 비디오 사이의 유사성을 측정하여, 대량의 후보 비디오에서 목표 비디오에서와 동일한 보행자가 포함된 후보 비디오를 찾는 것을 의도로 한다.

현재의 보행자 재식별 방법은 주로 일부 완전한 비디오를 인코딩하며, 인코딩 결과를 사용하여 전체 목표 비디오와 전체 후보 비디오 사이의 유사성을 측정하므로, 보행자 재식별의 효과가 나쁘다.

본 출원의 실시예는 보행자 재식별 기술 방안을 제공한다.

본 출원의 실시예의 제1 측면에 의하면, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하는 단계; 상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하는 단계; 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계 - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하는 단계를 포함하는 보행자 재식별 방법을 제공한다.

일 실시예에 있어서, 상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하는 단계는, 상기 각 목표 비디오 클립의 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 상기 각 후보 비디오 클립의 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득하고; 상기 인덱스 특징 벡터, 상기 제1 목표 특징 벡터 및 상기 제1 후보 특징 벡터에 따라, 주의 가중치 벡터를 생성하는 단계; 상기 주의 가중치 벡터, 상기 제2 목표 특징 벡터 및 상기 제2 후보 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과 및 상기 각 후보 비디오 클립의 인코딩 결과를 획득하는 단계를 포함한다.

일 실시예에 있어서, 상기 각 목표 비디오 클립의 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 상기 각 후보 비디오 클립의 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득하는 단계는, 상기 각 목표 비디오 프레임의 이미지 특징 벡터 및 상기 각 후보 비디오 프레임의 이미지 특징 벡터를 각각 추출하는 단계; 상기 각 목표 비디오 프레임의 이미지 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 생성하며, 상기 각 후보 비디오 프레임의 이미지 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 생성하는 단계를 포함한다.

일 실시예에 있어서, 상기 인덱스 특징 벡터, 상기 제1 목표 특징 벡터 및 상기 제1 후보 특징 벡터에 따라, 주의 가중치 벡터를 생성하는 단계는, 상기 인덱스 특징 벡터 및 상기 제1 목표 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 생성하며, 상기 인덱스 특징 벡터 및 상기 제1 후보 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 생성하는 단계를 포함한다.

일 실시예에 있어서, 본 발명의 방법은, 상기 인덱스 특징 벡터 및 상기 제1 목표 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 생성하는 단계가, 상기 인덱스 특징 벡터, 상기 각 목표 비디오 프레임의 상기 제1 목표 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 목표 히트 맵을 생성하는 단계; 상기 목표 히트 맵에 대해 정규화 처리를 진행하여 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 얻는 단계를 포함하는 것, 및, 상기 인덱스 특징 벡터 및 상기 제1 후보 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 생성하는 단계가, 상기 인덱스 특징 벡터, 상기 각 후보 비디오 프레임의 상기 제1 후보 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 후보 히트 맵을 생성하는 단계; 상기 후보 히트 맵에 대해 정규화 처리를 진행하여 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 얻는 단계를 포함하는 것 중의 적어도 하나를 포함한다.

일 실시예에 있어서, 상기 주의 가중치 벡터, 상기 제2 목표 특징 벡터 및 상기 제2 후보 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과 및 상기 각 후보 비디오 클립의 인코딩 결과를 획득하는 단계는, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과를 획득하며, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 상기 각 후보 비디오 클립의 인코딩 결과를 획득하는 단계를 포함한다.

일 실시예에 있어서, 본 발명의 방법은, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과를 획득하는 단계가, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 각자의 목표 비디오 프레임의 제2 목표 특징 벡터를 곱셈하는 단계; 시간 차원에서 상기 각 목표 비디오 프레임의 곱셈 결과를 합산하여, 상기 각 목표 비디오 클립의 인코딩 결과를 얻는 단계를 포함하는것; 및 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 상기 각 후보 비디오 클립의 인코딩 결과를 획득하는 단계가, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 각자의 후보 비디오 프레임의 제2 후보 특징 벡터를 곱셈하는 단계; 시간 차원에서 상기 각 후보 비디오 프레임의 곱셈 결과를 합산하여, 상기 각 후보 비디오 클립의 인코딩 결과를 얻는 단계를 포함하는 것 중 적어도 하나를 포함한다.

일 실시예에 있어서, 상기 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계는, 상기 각 목표 비디오 클립의 인코딩 결과와 상기 각 후보 비디오 클립의 인코딩 결과에 대해 순차적으로 감산 조작을 진행하는 단계; 감산 조작의 결과에 대해 각 차원에서 제곱 조작을 진행하는 단계; 제곱 조작에 의해 얻은 특징 벡터에 대해 완전 연결 조작을 진행하여 2 차원의 특징 벡터를 얻는 단계; 상기 2 차원의 특징 벡터에 대해 정규화 조작을 진행하여, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 얻는 단계를 포함한다.

일 실시예에 있어서, 상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하는 단계는, 적어도 하나의 상기 후보 비디오의 상기 각 후보 비디오 클립에 대해, 상기 각 후보 비디오의 유사성 점수로서, 점수가 가장 높은 기설정 비율 임계값의 상기 유사성 점수를 합산하는 단계; 상기 각 후보 비디오의 유사성 점수를 내림 순서로 정렬하는 단계; 상위에 정렬된 하나 이상의 상기 후보 비디오를 상기 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정하는 단계를 포함한다.

본 출원의 실시예의 제2 측면에 의하면, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하도록 구성된 획득 모듈; 상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하도록 구성된 인코딩 모듈; 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하도록 구성된 결정 모듈 - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하도록 구성된 식별 모듈을 포함하는 보행자 재식별 장치를 제공한다.

일 실시예에 있어서, 상기 인코딩 모듈은, 상기 각 목표 비디오 클립의 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 상기 각 후보 비디오 클립의 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득하도록 구성된 특징 벡터 획득 모듈; 상기 인덱스 특징 벡터, 상기 제1 목표 특징 벡터 및 상기 제1 후보 특징 벡터에 따라, 주의 가중치 벡터를 생성하도록 구성된 가중치 벡터 생성 모듈; 상기 주의 가중치 벡터, 상기 제2 목표 특징 벡터 및 상기 제2 후보 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과 및 상기 각 후보 비디오 클립의 인코딩 결과를 획득하도록 구성된 인코딩 결과 획득 모듈을 포함한다.

일 실시예에 있어서, 상기 특징 벡터 획득 모듈은, 상기 각 목표 비디오 프레임의 이미지 특징 벡터 및 상기 각 후보 비디오 프레임의 이미지 특징 벡터를 각각 추출하며; 상기 각 목표 비디오 프레임의 이미지 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 생성하고, 상기 각 후보 비디오 프레임의 이미지 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 생성하도록 구성된다.

일 실시예에 있어서, 상기 가중치 벡터 생성 모듈은, 상기 인덱스 특징 벡터 및 상기 제1 목표 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 생성하며, 상기 인덱스 특징 벡터 및 상기 제1 후보 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 생성하도록 구성된다.

일 실시예에 있어서, 상기 가중치 벡터 생성 모듈은, 상기 인덱스 특징 벡터, 상기 각 목표 비디오 프레임의 상기 제1 목표 특징 벡터에 따라, 상기 각 목표 비디오 프레임의 목표 히트 맵을 생성하며; 상기 목표 히트 맵에 대해 정규화 처리를 진행하여 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 얻는 것; 및 상기 인덱스 특징 벡터, 상기 각 후보 비디오 프레임의 상기 제1 후보 특징 벡터에 따라, 상기 각 후보 비디오 프레임의 후보 히트 맵을 생성하고; 상기 후보 히트 맵에 대해 정규화 처리를 진행하여 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 얻는 것 중 적어도 하나를 진행하도록 구성된다.

일 실시예에 있어서, 상기 인코딩 결과 획득 모듈은, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과를 획득하며, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 상기 각 후보 비디오 클립의 인코딩 결과를 획득하도록 구성된다.

일 실시예에 있어서, 상기 인코딩 결과 획득 모듈은, 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 각자의 목표 비디오 프레임의 제2 목표 특징 벡터를 곱셈하며; 시간 차원에서 상기 각 목표 비디오 프레임의 곱셈 결과를 합산하여, 상기 각 목표 비디오 클립의 인코딩 결과를 얻는 것; 및 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 각자의 후보 비디오 프레임의 제2 후보 특징 벡터를 곱셈하고; 시간 차원에서 상기 각 후보 비디오 프레임의 곱셈 결과를 합산하여, 상기 각 후보 비디오 클립의 인코딩 결과를 얻는 것 중 적어도 하나를 진행하도록 구성된다.

일 실시예에 있어서, 상기 결정 모듈은, 상기 각 목표 비디오 클립의 인코딩 결과와 상기 각 후보 비디오 클립의 인코딩 결과에 대해 순차적으로 감산 조작을 진행하며; 감산 조작의 결과에 대해 각 차원에서 제곱 조작을 진행하고; 제곱 조작에 의해 얻은 특징 벡터에 대해 완전 연결 조작을 진행하여 2 차원의 특징 벡터를 얻으며; 상기 2 차원의 특징 벡터에 대해 정규화 조작을 진행하여, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 얻도록 구성된다.

일 실시예에 있어서, 상기 식별 모듈은, 적어도 하나의 상기 후보 비디오의 상기 각 후보 비디오 클립에 대해, 상기 각 후보 비디오의 유사성 점수로서, 점수가 가장 높은 기설정 비율 임계값의 상기 유사성 점수를 합산하며; 상기 각 후보 비디오의 유사성 점수를 내림 순서로 정렬하고; 상위에 정렬된 하나 이상의 상기 후보 비디오를 상기 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정하도록 구성된다.

본 출원의 실시예의 제3 측면에 의하면, 프로세서 및 메모리를 포함하며, 상기 프로세서가 제1 측면에 따른 보행자 재식별 방법을 수행하도록 하는 적어도 하나의 수행 가능한 명령어를 저장하기 위한 것인 전자기기를 제공한다.

본 출원의 실시예의 제4 측면에 의하면, 프로세서에 의해 수행될 경우, 제1 측면에 따른 보행자 재식별 방법을 구현하기 위한 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 제공한다.

본 출원의 실시예의 제5 측면에 의하면, 프로세서에 의해 수행될 경우, 제1 측면에 따른 보행자 재식별 방법을 구현하기 위한 적어도 하나의 수행 가능한 명령어를 포함하는 컴퓨터 프로그램 제품을 제공한다.

본 출원의 실시예는 보행자 재식별을 진행할 경우, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하며, 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하여, 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정하고, 유사성 점수에 따라 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행한다. 비디오 클립에 포함된 프레임 수가 전체 비디오에 포함된 프레임 수보다 훨씬 적기 때문에, 비디오 클립의 보행자 표면 정보의 변화 정도는 전체 비디오의 보행자 표면 정보의 변화 정도보다 훨씬 작다. 전체 목표 비디오 및 전체 후보 비디오를 인코딩하는 것과 비교하여, 각 목표 비디오 클립 및 각 후보 비디오 클립을 인코딩하면, 보행자 표면 정보의 변화를 효과적으로 줄이며, 동시에 상이한 비디오 프레임 중의 보행자 표면 정보의 다양성 및 비디오 프레임과 비디오 프레임 사이의 동적 상관성을 이용하여, 보행자 표면 정보의 이용율을 향상하고, 인코딩 결과의 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수 계산에 대한 정확도를 향상시킴으로써, 보행자 재식별의 정확도를 향상시킨다.

도 1은 본 출원의 실시예에 따른 보행자 재식별 방법의 일 실시예의 프로세스 모식도이다.
도 2는 본 출원의 실시예에 따른 보행자 재식별 방법의 일 실시예의 컴퓨팅 프레임 워크 모식도이다.
도 3은 본 출원의 실시예에 따른 보행자 재식별 방법의 다른 일 실시예의 프로세스 모식도이다.
도 4는 본 출원의 실시예에 따른 보행자 재식별 방법에서의 주의 인코딩 메커니즘 모식도이다.
도 5는 본 출원의 실시예에 따른 보행자 재식별 장치의 일 실시예의 구조 모식도이다.
도 6은 본 출원의 실시예에 따른 보행자 재식별 장치의 다른 일 실시예의 구조 모식도이다.
도 7은 본 출원의 실시예에 따른 전자 기기의 일 실시예의 구조 모식도이다.

이하, 도면(여러 도면에서 동일한 참조 번호는 동일한 요소를 나타냄) 및 실시예를 참조하여, 본 발명의 실시예의 구체적인 실시 형태를 더 상세하게 설명한다. 아래 실시예는 본 발명을 설명하기 위한 것이지, 본 발명의 범위를 한정하려는 것은 아니다.

당업자는 본 발명의 실시예에서의 "제1", “제2” 등 용어는 상이한 단계, 장치 또는 모듈 등을 구별하기 위해서만 사용되며, 어떠한 특정 기술적 의미를 대표하지 않을 뿐만 아니라, 이들 사이의 필연적 논리 순서도 나타내지 않는다는 것을 이해할 수 있다.

도 1을 참조하면, 본 출원의 실시예에 따른 보행자 재식별 방법의 일 실시예의 프로세스 모식도를 나타낸다.

본 출원의 실시예의 보행자 재식별 방법은 전자 기기의 프로세서가 메모리에 저장된 관련 명령어를 호출하여 다음 단계를 진행한다.

단계 S100에 있어서, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득한다.

본 출원의 실시예에서의 목표 비디오는 하나 또는 하나 이상의 목표 보행자를 포함할 수 있으며, 후보 비디오에는 하나 또는 하나 이상의 후보 보행자를 포함하거나 또는 후보 보행자를 포함하지 않을 수 있다. 본 출원의 실시예에서의 목표 비디오 및 적어도 하나의 후보 비디오는 비디오 수집 장치로부터의 비디오 이미지일 수 있고, 다른 장치로부터의 비디오 이미지일 수도 있으며, 본 출원의 실시예는 적어도 하나의 후보 비디오로부터 후보 보행자와 목표 보행자가 동일한 보행자인 후보 비디오를 얻는 것을 목적 중 하나로 한다.

선택적인 예에서, 상기 단계 S100는 프로세서가 메모리에 저장된 대응하는 명령어를 호출하는 것에 의해 수행될 수 있으며, 프로세서에 의해 실행되는 획득 모듈(50)에 의해 수행될 수도 있다.

단계 S102에 있어서, 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립을 각각 인코딩한다.

우선, 목표 비디오 및 후보 비디오에 대해 비디오 클립 컷팅을 진행하여, 목표 비디오의 각 목표 비디오 클립 및 후보 비디오의 각 후보 비디오 클립을 생성하며, 여기서, 각 목표 비디오 클립은 고정된 시간 길이를 가지고, 각 후보 비디오 클립은 고정된 시간 길이를 가지며, 또한, 각 목표 비디오 클립의 시간 길이는 각 후보 비디오 클립의 시간 길이와 동일하거나 상이할 수 있다.

다음, 각 목표 비디오 클립 및 각 후보 비디오 클립에 대해 각각 인코딩 조작을 진행하여, 각 목표 비디오 클립의 인코딩 결과 및 각 후보 비디오 클립의 인코딩 결과를 얻는다.

선택적인 예에서, 상기 단계 S102는 프로세서가 메모리에 저장된 대응하는 명령어를 호출하는 것에 의해 수행될 수 있고, 프로세서에 의해 실행되는 인코딩 모듈(52)에 의해 수행될 수도 있다.

단계 S104에 있어서, 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정한다.

본 출원의 실시예에서, 각 목표 비디오 클립의 인코딩 결과는 각 목표 비디오 클립의 보행자 특징 벡터의 표현 형태로 간주될 수 있고, 각 후보 비디오 클립의 인코딩 결과는 각 후보 비디오 클립의 보행자 특징 벡터의 표현 형태로 간주될 수 있다. 또는, 인코딩 결과가 보행자 특징 벡터이다. 어느 목표 비디오 클립과 어느 후보 비디오 클립 사이의 보행자 특징 벡터가 동일하거나 유사하면, 상기 목표 비디오 클립과 상기 후보 비디오 클립에는 동일한 목표 보행자가 포함될 가능성이 높다는 것을 나타내며, 즉, 상기 목표 비디오 클립과 상기 후보 비디오 클립 사이의 유사성 점수가 높다는 것을 나타내고; 어느 목표 비디오 클립과 어느 후보 비디오 클립 사이의 보행자 특징 벡터가 상이하면, 상기 목표 비디오 클립과 상기 후보 비디오 클립에는 동일한 목표 보행자가 포함될 가능성이 낮다는 것을 나타내며, 즉, 상기 목표 비디오 클립과 상기 후보 비디오 클립 사이의 유사성 점수가 낮다는 것을 나타낸다.

선택적인 예에서, 상기 단계 S104는 프로세서가 메모리에 저장된 대응하는 명령어를 호출하는 것에 의해 수행될 수 있고, 프로세서에 의해 실행되는 결정 모듈(54)에 의해 수행될 수도 있다.

단계 S106에 있어서, 유사성 점수에 따라 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행한다.

각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 얻은 후, 유사성 점수에 따라, 적어도 하나의 후보 비디오의 유사성 점수를 획득할 수 있다. 유사성 점수가 높은 후보 비디오를 목표 비디오에 있는 것과 동일한 목표 보행자를 포함하는 후보 비디오로 결정한다.

선택적인 예에서, 상기 단계 S106은 프로세서가 메모리에 저장된 대응하는 명령어를 호출하는 것에 의해 수행될 수 있고, 프로세서에 의해 실행되는 식별 모듈(56)에 의해 수행될 수도 있다.

본 출원의 실시예에서 제안된 보행자 재식별 방법은 도 2에 도시된 바와 같은 컴퓨팅 프레임 워크에서 수행될 수 있다. 우선, 비디오(목표 비디오 및 적어도 하나의 후보 비디오를 포함)를 컷팅하여, 고정된 길이를 갖는 비디오 클립을 생성한다. 여기서, p는 목표 비디오를 나타내고, g는 적어도 하나의 후보 비디오 중 하나의 후보 비디오를 나타내며, p _n 은 목표 비디오p 중의 하나의 목표 비디오 클립을 나타내고, g_k는 후보 비디오g 중의 하나의 후보 비디오 클립을 나타낸다. 목표 비디오p 및 후보 비디오g 중의 임의의 두 개의 비디오 클립의 유사성을 가늠하기 위해, 협력 주의 메커니즘을 갖는 딥 네트워크를 이용한다. 상기 딥 네트워크는 목표 비디오 클립p _n 및 후보 비디오 클립g _k 를 입력 항목으로 하고, 출력 항목m(p _n , g _k )을 목표 비디오 클립p _n 과 후보 비디오 클립g _k 사이의 유사성 점수로 한다. 목표 비디오p 및 후보 비디오g에서의 두 개의 비디오 클립(목표 비디오 클립 및 후보 비디오 클립)마다, 여러 개의 비디오 클립 사이의 유사성 점수를 획득할 수 있다. 목표 비디오p 및 후보 비디오g 사이의 유사성에 대해 효과적으로 추정하기 위해, 경쟁 메커니즘을 사용하여 유사성이 높은 일부 유사성 점수를 선택하고, 이러한 유사성 점수를 더하여 목표 비디오p 및 후보 비디오g 사이의 유사성에 대한 신뢰성 추정 c(p, g)를 획득할 수 있다.

본 출원의 실시예는, 보행자 재식별을 진행할 때, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하며, 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립에 대해 각각 인코딩하고, 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정하며, 유사성 점수에 따라, 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행한다. 비디오 클립에 포함된 프레임 수가 전체 비디오에 포함된 프레임 수보다 훨씬 적기 때문에, 비디오 클립의 보행자 표면 정보의 변화 정도는 전체 비디오의 보행자 표면 정보의 변화 정도보다 훨씬 작다. 전체 목표 비디오 및 전체 후보 비디오에 대해 인코딩하는 것과 비교하여, 각 목표 비디오 클립 및 각 후보 비디오 클립에 대해 인코딩하면, 보행자 표면 정보의 변화를 효과적으로 줄이고, 동시에 상이한 비디오 프레임 중의 보행자 표면 정보의 다양성 및 비디오 프레임과 비디오 프레임 사이의 동적 상관성을 이용하여, 보행자 표면 정보의 이용율을 향상하며, 인코딩 결과의 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수 계산에 대한 정확도를 향상시킴으로써, 보행자 재식별의 정확도를 향상시킨다.

도 3을 참조하면, 본 출원의 실시예에 따른 보행자 재식별 방법의 다른 일 실시예의 프로세스 모식도를 나타낸다.

유의해야 할 것은, 본 출원의 각 실시예에서 설명된 부분들은 모두 치중점을 갖고 있는 바, 어느 실시예에서 상세하게 설명되지 않은 부분은 본 출원의 다른 실시예에서의 소개 및 설명을 참조할 수 있으며, 반복하여 설명하지 않는다.

단계 S300에 있어서, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득한다.

단계 S302에 있어서, 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립을 각각 인코딩한다.

선택적으로, 본 단계 S302는 아래 단계를 포함할 수 있다.

단계 S3020에 있어서, 각 목표 비디오 클립의 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 각 후보 비디오 클립의 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득한다.

선택적 실시 형태에 있어서, 신경망을 사용하여 각 목표 비디오 프레임의 이미지 특징 벡터 및 각 후보 비디오 프레임의 이미지 특징 벡터를 추출할 수 있으며, 이미지 특징 벡터는 보행자 특징, 배경 특징 등과 같은 비디오 프레임 중의 이미지 특징을 반영하기 위한 것이다. 목표 비디오 프레임에 대해, 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 각 목표 비디오 클립의 인덱스 특징 벡터는 각 목표 비디오 프레임의 이미지 특징 벡터에 따라 생성되고, 인덱스 특징 벡터는 목표 비디오 클립의 정보를 포함하여, 유용한 정보와 노이즈 정보를 효과적으로 구별할 수 있다. 후보 비디오 프레임에 대해, 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터는 각 후보 비디오 프레임의 이미지 특징 벡터에 따라 생성된다. 구체적으로, 각 프레임 특징 선형 변환에 따라, 제1 목표 특징 벡터(“키”특징 벡터) 및 제1 후보 특징 벡터(“키”특징 벡터)를 생성할 수 있으며, 각 프레임 특징의 다른 선형 변환에 따라, 제2 목표 특징 벡터(“값”특징 벡터) 및 제2 후보 특징 벡터(“값”특징 벡터)를 생성할 수 있고, 장단기 메모리(Long Short-Term Memory, LSTM) 네트워크 및 각 목표 비디오 클립의 각 목표 비디오 프레임의 이미지 특징 벡터를 사용하여 각 목표 비디오 클립의 인덱스 특징 벡터를 생성할 수 있으며, 인덱스 특징 벡터는 목표 비디오 클립에 의해 생성되고, 목표 비디오 클립의 자체 및 모든 후보 비디오 클립에 작용한다.

단계 S3022에 있어서, 인덱스 특징 벡터, 제1 목표 특징 벡터 및 제1 후보 특징 벡터에 따라, 주의 가중치 벡터를 생성한다.

본 출원의 실시예에서, 제1 목표 특징 벡터 및 제1 후보 특징 벡터는 주의 가중치 벡터를 생성하기 위한 것이다. 선택적 실시 형태에 있어서, 목표 비디오 프레임에 대해, 각 목표 비디오 프레임의 목표 주의 가중치 벡터는 인덱스 특징 벡터 및 제1 목표 특징 벡터에 따라 생성될 수 있으며, 선택적으로, 인덱스 특징 벡터, 각 목표 비디오 프레임의 제1 목표 특징 벡터에 따라 각 목표 비디오 프레임의 목표 히트 맵이 생성되고, 구체적으로, 인덱스 특징 벡터, 각 목표 비디오 프레임의 제1 목표 특징 벡터에 따라, 내적 조작을 진행하여 각 목표 비디오 프레임의 목표 히트 맵을 얻으며; 시간 차원에서 softmax 함수를 이용해 목표 히트 맵에 대해 정규화 처리하여 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 얻는다. 후보 비디오 프레임에 대해, 인덱스 특징 벡터 및 제1 후보 특징 벡터에 따라 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 생성할 수 있으며, 선택적으로, 인덱스 특징 벡터, 각 후보 비디오 프레임의 제1 후보 특징 벡터에 따라 각 후보 비디오 프레임의 후보 히트 맵을 생성하고, 구체적으로, 인덱스 특징 벡터, 각 후보 비디오 프레임의 제1 후보 특징 벡터에 따라 내적 조작을 진행하여 각 후보 비디오 프레임의 후보 히트 맵을 얻으며; 시간 차원에서 softmax 함수를 이용해 후보 히트 맵에 대해 정규화 처리하여 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 얻는다.

주의 가중치 벡터는 인코딩 과정에서 효과적인 보행자 특징을 향상시키기 위한 것이며, 판별 능력 정보를 가진 가중치 벡터로서, 노이즈 정보의 영향을 줄일 수 있다.

단계 S3024에 있어서, 주의 가중치 벡터, 제2 목표 특징 벡터 및 제2 후보 특징 벡터에 따라, 각 목표 비디오 클립의 인코딩 결과 및 후보 비디오 클립의 인코딩 결과를 획득한다.

본 출원의 실시예에서, 제2 목표 특징 벡터는 목표 비디오 클립의 각 프레임의 이미지 특징을 반영하기 위한 것이며, 제2 후보 특징 벡터는 후보 비디오 클립의 각 프레임의 이미지 특징을 반영하기 위한 것이다. 선택적 실시 형태에 있어서, 목표 비디오 프레임에 대해, 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라 각 목표 비디오 클립의 인코딩 결과를 획득한다. 구체적으로, 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 각자의 목표 비디오 프레임의 제2 목표 특징 벡터를 곱셈하며; 각 목표 비디오 프레임의 곱셈 결과를 시간 차원에서 합산하여, 각 목표 비디오 클립의 인코딩 결과를 획득한다. 후보 비디오 프레임에 대해, 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 각 후보 비디오 클립의 인코딩 결과를 획득한다. 선택적으로, 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 각자의 후보 비디오 프레임의 제2 후보 특징 벡터를 곱셈하며; 각 후보 비디오 프레임의 곱셈 결과를 시간 차원에서 합산하여, 각 후보 비디오 클립의 인코딩 결과를 얻는다.

본 출원의 실시예의 단계 S302는 주의 인코딩 메커니즘에 의해 구현될 수 있으며, 즉, 비디오 클립(목표 비디오 클립 및 후보 비디오 클립)의 상이한 프레임 특징에 대한 정제에 의해 비디오 클립의 인코딩 결과를 획득하며, 그 과정은 도 4에 도시된 바와 같다. 우선, 목표 비디오 클립의 각 목표 비디오 프레임 및 후보 비디오 클립의 각 후보 비디오 프레임에 대해 컨볼루션 신경망 특징을 추출하며, 컨볼루션 신경망 특징에 따라, 각 목표 비디오 프레임 또는 각 후보 비디오 프레임에 대응하는 “키”특징 벡터 및 “값”특징 벡터를 생성하여, 각 목표 비디오 프레임 또는 각 후보 비디오 프레임의 “키”특징 벡터와 각 목표 비디오 클립의 인덱스 특징 벡터가 내적 조작되어 히트 맵을 형성하고, 히트 맵에 의해 목표 비디오 프레임 또는 후보 비디오 프레임 중의 각 특징과 전반적 정보의 상관성을 반영한다. 히트 맵은 시간 차원에서 softmax 함수를 사용하여 정규화 조작을 진행하여 주의 가중치 벡터를 형성하며, 상기 주의 가중치 벡터와 각 비디오 프레임의 “값”특징 벡터를 각 차원에서 대응되게 곱셈하고, 상이한 비디오 프레임이 획득한 결과를 시간 차원에서 합산함으로써, 각 비디오 클립의 인코딩 결과를 얻는다.

단계 S304에 있어서, 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정한다.

선택적 실시 형태에 있어서, 각 목표 비디오 클립의 인코딩 결과와 각 후보 비디오 클립의 인코딩 결과에 대해순차적으로 감산 조작, 제곱 조작, 완전 연결 조작 및 정규화 조작을 진행하여, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 얻는다. 구체적으로, 각 목표 비디오 클립의 인코딩 결과와 각 후보 비디오 클립의 인코딩 결과에 대해 순차적으로 감산 조작을 진행한 후, 보행자 이미지 차원 및 배경 이미지 차원을 포함하지만 이에 한정되지 않는 각 이미지 차원에서 제곱 조작을 진행한다. 여기서, 보행자 이미지 차원은 머리 이미지 차원, 상체 이미지 차원, 하체 이미지 차원 등을 포함하며; 배경 이미지 차원은 건축 이미지 차원, 거리 이미지 차원 등을 포함한다. 제곱 조작 후 얻은 특징 벡터는 완전 연결 계층을 통해 하나의 2 차원의 특징 벡터를 획득하며, 최종적으로 Sigmoid 함수의 비선형 정규화에 의해 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 획득한다.

단계 S306에 있어서, 유사성 점수에 따라, 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행한다.

선택적 실시 형태에 있어서, 적어도 하나의 후보 비디오의 각 후보 비디오에 대해, 각 후보 비디오의 유사성 점수로서, 기설정 임계값보다 크거나 같은 유사성 점수 또는 점수가 높은 유사성 점수(예를 들어, 상위 20 %에 위치한 유사성 점수)를 합산하며; 각 후보 비디오의 유사성 점수를 내림 순서로 정렬하고; 상위에 정렬된 하나 이상의 후보 비디오를 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정한다. 여기서, 기설정 임계값은 실제 상황에 따라 설정할 수 있으며, 높은 점수는 상대적 의미를 갖는다.

본 출원의 실시예에서 보행자 재식별을 진행할 때, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하며, 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립에 대해 각각 인코딩하고, 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정하며, 유사성 점수에 따라, 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행한다. 비디오 클립에 포함된 프레임 수가 전체 비디오에 포함된 프레임 수보다 훨씬 적기 때문에, 비디오 클립의 보행자 표면 정보의 변화 정도는 전체 비디오의 보행자 표면 정보의 변화 정도보다 훨씬 작다. 전체 목표 비디오 및 전체 후보 비디오에 대해 인코딩하는 것과 비교하여, 각 목표 비디오 클립 및 각 후보 비디오 클립에 대해 인코딩하면, 보행자 표면 정보의 변화를 효과적으로 줄이며, 동시에 상이한 비디오 프레임 중의 보행자 표면 정보의 다양성 및 비디오 프레임과 비디오 프레임 사이의 동적 상관성을 이용하여, 보행자 표면 정보의 이용율을 향상하고, 인코딩 결과의 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수 계산에 대한 정확도를 향상시킴으로써, 보행자 재식별의 정확도를 향상시킨다.

본 출원의 실시예에서의 후보 비디오의 인코딩 결과는 목표 비디오 클립의 인덱스 특징 벡터와 후보 비디오 클립의 “키”특징 벡터에 의해 얻은 것이며, 인코딩 과정에서, 목표 비디오 클립의 인덱스 특징 벡터를 지시 정보로 사용하여, 후보 비디오의 인코딩 결과의 유사성 점수를 결정하는데 대한 정확도를 향상한다. 목표 비디오 클립의 인덱스 특징 벡터를 사용하여 각 후보 비디오 프레임의 주의 가중치 벡터를 추정함으로써, 후보 비디오 중의 이상 후보 비디오 프레임이 후보 비디오 클립의 인코딩 결과에 대한 영향을 줄이고, 후보 비디오 중의 보행자 재식별의 타깃성을 향상시킨다.

본 출원의 실시예는 목표 비디오 및 후보 비디오에 대해 클립 컷팅을 진행하여, 목표 비디오 클립 및 후보 비디오 클립에 대해 인코딩을 진행함으로써, 후보 비디오의 보행자가 일부 후보 비디오 프레임에서 차단될 경우, 후보 비디오의 유효 후보 비디오 클립으로서 유사성 점수가 높은 후보 비디오 클립을 선택하고, 유사성 점수가 낮은 후보 비디오 클립을 무시한다.

도 5를 참조하면, 본 출원의 실시예에 따른 보행자 재식별 장치의 일 실시예의 구조 모식도를 나타낸다.

본 출원의 실시예에 의해 제공된 보행자 재식별 장치는 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하도록 구성된 획득 모듈(50); 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하도록 구성된 인코딩 모듈(52); 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정하도록 구성된 결정 모듈(54) - 유사성 점수는 목표 비디오 클립과 후보 비디오 클립의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 유사성 점수에 따라, 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행하도록 구성된 식별 모듈(56)을 포함한다.

본 출원의 실시예의 보행자 재식별 장치는 상기 실시예에 대응하는 보행자 재식별 방법을 구현하기 위한 것이며, 대응하는 방법 실시예의 유익한 효과를 가지고, 여기서 반복하여 설명하지 않는다.

도 6을 참조하면, 본 출원의 실시예에 따른 보행자 재식별 장치의 다른 일 실시예의 구조 모식도이다.

본 출원의 실시예에 의해 제공된 보행자 재식별 장치는, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하도록 구성된 획득 모듈(60); 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하도록 구성된 인코딩 모듈(62); 인코딩 결과에 따라, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 결정하도록 구성된 결정 모듈(64) - 유사성 점수목표 비디오 클립과 후보 비디오 클립의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 유사성 점수에 따라, 적어도 하나의 후보 비디오에 대해 보행자 재식별을 진행하도록 구성된 식별 모듈(66)을 포함한다.

선택적으로, 인코딩 모듈(62)은, 각 목표 비디오 클립의 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 각 후보 비디오 클립의 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득하도록 구성된 특징 벡터 획득 모듈(620); 인덱스 특징 벡터, 제1 목표 특징 벡터 및 제1 후보 특징 벡터에 따라, 주의 가중치 벡터를 생성하도록 구성된 가중치 벡터 생성 모듈(622); 주의 가중치 벡터, 제2 목표 특징 벡터 및 제2 후보 특징 벡터에 따라, 각 목표 비디오 클립의 인코딩 결과 및 각 후보 비디오 클립의 인코딩 결과를 획득하도록 구성된 인코딩 결과 획득 모듈(624)을 포함한다.

선택적으로, 특징 벡터 획득 모듈(620)은, 각 목표 비디오 프레임의 이미지 특징 벡터 및 각 후보 비디오 프레임의 이미지 특징 벡터를 각각 추출하며; 각 목표 비디오 프레임의 이미지 특징 벡터에 따라, 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 각 목표 비디오 클립의 인덱스 특징 벡터를 생성하고, 각 후보 비디오 프레임의 이미지 특징 벡터에 따라, 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 생성하도록 구성된다.

선택적으로, 가중치 벡터 생성 모듈(622)은, 인덱스 특징 벡터 및 제1 목표 특징 벡터에 따라, 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 생성하며, 인덱스 특징 벡터 및 제1 후보 특징 벡터에 따라, 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 생성하도록 구성된다.

선택적으로, 가중치 벡터 생성 모듈(622)은, 인덱스 특징 벡터, 각 목표 비디오 프레임의 제1 목표 특징 벡터에 따라, 각 목표 비디오 프레임의 목표 히트 맵을 생성하며; 목표 히트 맵에 대해 정규화 처리를 진행하여 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 얻는 것; 및 인덱스 특징 벡터, 각 후보 비디오 프레임의 제1 후보 특징 벡터에 따라, 각 후보 비디오 프레임의 후보 히트 맵을 생성하고; 후보 히트 맵에 대해 정규화 처리를 진행하여 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 얻는 것 중 적어도 하나를 진행하도록 구성된다.

선택적으로, 인코딩 결과 획득 모듈(624)은, 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라, 각 목표 비디오 클립의 인코딩 결과를 획득하며, 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 각 후보 비디오 클립의 인코딩 결과를 획득하도록 구성된다.

선택적으로, 인코딩 결과 획득 모듈(624)은, 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 각자의 목표 비디오 프레임의 제2 목표 특징 벡터를 곱셈하며; 시간 차원에서 각 목표 비디오 프레임의 곱셈 결과를 합산하여, 각 목표 비디오 클립의 인코딩 결과를 얻는 것; 및 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 각자의 후보 비디오 프레임의 제2 후보 특징 벡터를 곱셈하고; 시간 차원에서 각 후보 비디오 프레임의 곱셈 결과를 합산하여, 각 후보 비디오 클립의 인코딩 결과를 얻는 것 중 적어도 하나를 진행하도록 구성된다.

선택적으로, 결정 모듈(64)은, 각 목표 비디오 클립의 인코딩 결과와 각 후보 비디오 클립의 인코딩 결과에 대해 순차적으로 감산 조작을 진행하며; 감산 조작의 결과에 대해 각 차원에서 제곱 조작을 진행하고; 제곱 조작에 의해 얻은 특징 벡터에 대해 완전 연결 조작을 진행하여 2 차원의 특징 벡터를 얻으며; 2 차원의 특징 벡터에 대해 정규화 조작을 진행하여, 각 목표 비디오 클립과 각 후보 비디오 클립 사이의 유사성 점수를 얻도록 구성된다.

선택적으로, 식별 모듈(66)은, 적어도 하나의 후보 비디오의 각 후보 비디오 클립에 대해, 각 후보 비디오의 유사성 점수로서, 점수가 가장 높은 기설정 비율 임계값의 유사성 점수를 합산하며; 각 후보 비디오의 유사성 점수를 내림 순서로 정렬하고; 상위에 정렬된 하나 이상의 후보 비디오를 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정하도록 구성된다.

본 출원의 실시예의 보행자 재식별 장치는 상기 실시예에 대응하는 보행자 재식별 방법을 구현하기 위한 것이며, 대응하는 방법 실시예의 유리한 효과를 가지고, 여기서 반복하여 설명하지 않는다.

본 출원의 실시예는 또한 이동 단말기, 개인용 컴퓨터(PC), 태블릿 컴퓨터, 서버 등 일 수 있는 전자 기기를 제공한다. 아래 도 7을 참조하면, 본 출원의 실시예의 보행자 재식별 장치를 구현하기 위한 전자 기기(700)의 구조 모식도를 나타내며, 도 7에 도시된 바와 같이, 전자 기기(700)은 메모리 및 프로세서를 포함할 수 있다. 구체적으로, 전자 기기(700)는 하나 또는 하나 이상의 프로세서, 통신 소자 등을 포함할 수 있으며, 상기 하나 또는 하나 이상의 프로세서는 예를 들어, 하나 또는 하나 이상의 중앙 처리 장치(CPU, 701), 및 하나 또는 하나 이상의 이미지 프로세서(GPU, 713) 중 적어도 하나이고, 프로세서는 판독 전용 메모리(ROM, 702)에 저장된 수행 가능한 명령어 또는 저장 부분(708)으로부터 랜덤 액세스 메모리(RAM, 703)에 로딩된 수행 가능한 명령어에 의해, 다양한 적절한 동작과 처리를 수행할 수 있다. 통신 소자는 통신 컴포넌트(712) 및 통신 인터페이스(709) 중 적어도 하나를 포함한다. 여기서, 통신 컴포넌트(712)는 네트워크 카드를 포함할 수 있지만 이에 한정되지는 않으며, 상기 네트워크 카드는 인피니 밴드(Infiniband, IB) 네트워크 카드를 포함할 수 있지만 이에 한정되지는 않고, 통신 인터페이스(709)는 근거리 통신망(LAN, Local Area Network) 카드, 모뎀 등과 같은 네트워크 인터페이스 카드의 통신 인터페이스를 포함하며, 통신 인터페이스(709)는 인터넷과 같은 네트워크를 통해 통신 처리를 수행한다.

프로세서는 수행 가능한 명령어를 수행하기 위해, 판독 전용 메모리(702) 및 랜덤 액세스 메모리(703) 중 적어도 하나와 통신하며, 통신 버스(704)에 의해 통신 컴포넌트(712)와 연결되고, 통신 컴포넌트(712)를 통해 다른 목표 장치와 통신함으로써, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하는 단계; 상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하는 단계; 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계 - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하는 단계와 같은 본 출원의 실시예에 의해 제공된 임의의 하나의의 보행자 재식별 방법에 대응하는 조작을 완성한다.

또한, RAM(703)에는 장치 조작에 필요한 다양한 프로그램 및 데이터가 저장될 수 있다. CPU(701) 또는 GPU(713), ROM(702) 및 RAM(703)은 통신 버스(704)를 통해 서로 연결된다. RAM(703)을 구비한 경우, ROM(702)는 선택적 모듈이다. RAM(703)은 수행 가능한 명령어를 저장하거나, 또한 실행 시, ROM(702)에 수행 가능한 명령어를 기록하며, 수행 가능한 명령어는 프로세서로 하여금 상기 통신 방법에 대응하는 조작을 수행하도록 한다. 입/출력(I/O) 인터페이스(705)는 또한 통신 버스(704)에 연결된다. 통신 컴포넌트(712)는 통합 설치될 수 있으며, 여러 개의 서브 모듈(예를 들어, 여러 개의 IB 네트워크 카드)를 갖고, 통신 버스에 링크도록 설치될 수 있다.

키보드, 마우스 등을 포함하는 입력 부분(706); 음극선 관(CRT), 액정 디스플레이(LCD) 및 스피커 등을 포함하는 출력 부분(707); 하드 디스크 등을 포함하는 저장 부분(708); 및 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신 인터페이스(709) 등 부품은 I/O 인터페이스(705)에 연결된다. 드라이버(710)도 필요에 따라 I/O 인터페이스(705)에 연결된다. 자기 디스크, 광 디스크, 광 자기 디스크, 반도체 메모리 등과 같은 제거 가능한 매체(711)는, 필요에 따라 드라이버(710)에 설치되어, 그로부터 판독된 컴퓨터 프로그램이 필요에 따라 저장 부분(708)에 저장되도록 된다.

유의해야 할 것은, 도 7에 도시된 바와 같은 아키텍처는 선택적 구현 방식일 뿐이며, 구체적인 실천 과정에서는, 실제 요구에 따라, 상기 도 7의 부품 수 및 유형을 선택, 삭제, 추가 또는 교체할 수 있으며; GPU 및 CPU는 분리하여 설치하거나 또는 GPU를 CPU에 통합시킬수 있으며, 통신 소자는 분리하여 설치할 수 있고, 통합하여 CPU 또는 GPU에 설치할 수도 있는 등과 같이 상이한 기능 부품 설치에 있어서 분리 설치 또는 통합 설치 등 구현 방식을 사용할 수도 있다. 이러한 교체 가능한 실시 형태는 모두 본 발명의 보호 범위에 속한다.

본 출원의 실시예의 전자 기기는 상기 실시예에 대응하는 보행자 재식별 방법을 구현하기 위한 것일 수 있으며, 상기 전자 기기 중의 각 소자는 상기 방법 실시예에서의 각 단계를 수행하기 위한 것일 수 있고, 예를 들어, 전술한 보행자 재식별 방법은 메모리에 저장된 관련 명령어를 호출하는 전자 기기의 프로세서에 의해 구현될 수 있으며 간결성을 위해, 여기서 반복하여 설명하지 않는다.

본 출원의 실시예에 따르면, 흐름도를 참조하여 설명한 전술한 과정은 컴퓨터 프로그램 제품으로서 구현될 수 있다. 예를 들어, 본 출원의 실시예는 유형적으로 머신 판독 가능 매체에 포함된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함하며, 프로그램 코드는, 목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하는 단계; 상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하는 단계; 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계 - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하는 단계 등과 같은 본 출원의 실시예에 의해 제공된 방법 단계에 대응하여 수행하는 것에 대응되는 명령어를 포함할 수 있다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 소자를 통해 네트워크로부터 다운로드 및 설치될 수 있는 것, 및 제거 가능한 매체(711)로부터 설치되는 것 중 적어도 하나를 진행할 수 있다. 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 경우, 본 출원의 실시예의 방법에서 개시된 기능을 수행한다.

본 출원의 실시예의 방법과 장치, 전자 기기 및 저장 매체는 다양한 형태로 구현될 수 있다. 예를 들어, 소프트웨어, 하드웨어, 펌웨어 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합에 의해 본 출원의 실시예의 방법과 장치, 전자 기기 및 저장 매체를 구현할 수 있다. 특별히 달리 언급되지 않는 한, 방법의 단계의 상기 순서는 단지 설명을 위한 것뿐이며, 본 출원의 실시예의 방법의 단계는 상기에서 구체적으로 설명한 순서에 한정되지 않는다. 또한, 일부 실시예에서, 본 출원은 또한 기록 매체에 기록된 프로그램으로 구현될 수 있으며, 이러한 프로그램은 본 출원의 실시예에 따른 방법을 구현하기 위한 머신 판독 가능 명령어를 포함한다. 따라서, 본 출원은 또한 본 출원의 실시예에 따른 방법을 수행하기 위한 프로그램을 저장하는 기록 매체를 포함한다.

본 출원의 실시예의 설명은 예시 및 설명을 목적으로 제시되었으며, 완전하거나 또는 본 발명이 개시된 형태에 한정된 것은 아니고, 많은 수정 및 변화는 당업자에게 있어서 자명한 것이다. 실시예에 대한 선택 및 설명은 본 출원의 원리 및 실제 응용을 더욱 잘 설명하기 위한 것이며, 당업자가 본 출원을 이해하고 특정 용도에 적합한 다양한 수정을 가진 각종 실시예를 디자인하도록 하기 위한 것이다.

Claims

보행자 재식별 방법으로서,
목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하는 단계;
상기 목표 비디오로부터 생성된 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오로부터 생성된 각 후보 비디오 클립을 각각 인코딩하여 인코딩 결과를획득하는 단계 - 상기 인코딩 결과는 보행자 특징을 포함함 - ;
인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계 - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ; 및
상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하여, 상기 유사성 점수가 기설정된 조건을 만족하는 후보 비디오를 상기 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정하는 단계를 포함하고;
상기 인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하는 단계는,
상기 각 목표 비디오 클립의 인코딩 결과와 상기 각 후보 비디오 클립의 인코딩 결과에 대해 순차적으로 감산 조작을 진행하는 단계;
감산 조작의 결과에 대해 각 차원에서 제곱 조작을 진행하는 단계;
제곱 조작에 의해 얻은 특징 벡터에 대해 완전 연결 조작을 진행하여 2 차원의 특징 벡터를 얻는 단계;
상기 2 차원의 특징 벡터에 대해 정규화 조작을 진행하여, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 얻는 단계를 포함하는 것을 특징으로 하는 보행자 재식별 방법.
제1항에 있어서,
상기 목표 비디오의 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오의 각 후보 비디오 클립을 각각 인코딩하는 단계는,
상기 각 목표 비디오 클립의 각 목표 비디오 프레임의 이미지 특징의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 상기 각 후보 비디오 클립의 각 후보 비디오 프레임의 이미지 특징의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득하는 단계;
상기 인덱스 특징 벡터, 상기 각 목표 비디오 프레임의 상기 제1 목표 특징 벡터에 대해 내적 조작을 진행하여, 상기 각 목표 비디오 프레임의 목표 히트 맵을 생성하는 단계;
상기 목표 히트 맵에 대해 정규화 처리를 진행하여 상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터를 얻는 단계;
상기 인덱스 특징 벡터, 상기 각 후보 비디오 프레임의 상기 제1 후보 특징 벡터에 대해 내적 조작을 진행하여, 상기 각 후보 비디오 프레임의 후보 히트 맵을 생성하는 단계;
상기 후보 히트 맵에 대해 정규화 처리를 진행하여 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터를 얻는 단계;
상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과를 획득하며, 상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 상기 각 후보 비디오 클립의 인코딩 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 보행자 재식별 방법.
제2항에 있어서,
상기 각 목표 비디오 클립의 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터 및 상기 각 목표 비디오 클립의 인덱스 특징 벡터를 획득하며, 상기 각 후보 비디오 클립의 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 획득하는 단계는,
상기 각 목표 비디오 프레임의 이미지 특징 벡터 및 상기 각 후보 비디오 프레임의 이미지 특징 벡터를 각각 추출하는 단계; 및
상기 각 목표 비디오 프레임의 이미지 특징 벡터에 대해 선형 변환을 진행하여, 상기 각 목표 비디오 프레임의 제1 목표 특징 벡터와 제2 목표 특징 벡터를 생성하고, 상기 각 목표 비디오 프레임의 이미지 특징 벡터에 따라 상기 각 목표 비디오 클립의 정보를 포함하는 인덱스 특징 벡터를 생성하며, 상기 각 후보 비디오 프레임의 이미지 특징 벡터에 대해 선형 변환을 진행하여, 상기 각 후보 비디오 프레임의 제1 후보 특징 벡터 및 제2 후보 특징 벡터를 생성하는 단계를 포함하는 것을 특징으로 하는 보행자 재식별 방법.
삭제
삭제
삭제
제2항에 있어서,
상기 보행자 재식별 방법은,
상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 제2 목표 특징 벡터에 따라, 상기 각 목표 비디오 클립의 인코딩 결과를 획득하는 단계가,
상기 각 목표 비디오 프레임의 목표 주의 가중치 벡터 및 각자의 목표 비디오 프레임의 제2 목표 특징 벡터를 곱셈하는 단계; 시간 차원에서 상기 각 목표 비디오 프레임의 곱셈 결과를 합산하여, 상기 각 목표 비디오 클립의 인코딩 결과를 얻는 단계를 포함하는 것, 및
상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 제2 후보 특징 벡터에 따라, 상기 각 후보 비디오 클립의 인코딩 결과를 획득하는 단계가,
상기 각 후보 비디오 프레임의 후보 주의 가중치 벡터 및 각자의 후보 비디오 프레임의 제2 후보 특징 벡터를 곱셈하는 단계; 시간 차원에서 상기 각 후보 비디오 프레임의 곱셈 결과를 합산하여, 상기 각 후보 비디오 클립의 인코딩 결과를 얻는 단계를 포함하는 것,
중 적어도 하나를 포함하는 것을 특징으로 하는 보행자 재식별 방법.
삭제
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하는 단계는,
적어도 하나의 상기 후보 비디오의 상기 각 후보 비디오 클립에 대해, 상기 각 후보 비디오의 유사성 점수로서, 점수가 가장 높은 기설정 비율 임계값의 상기 유사성 점수를 합산하는 단계;
상기 각 후보 비디오의 유사성 점수를 내림 순서로 정렬하는 단계;
상위에 정렬된 하나 이상의 상기 후보 비디오를 상기 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정하는 단계를 포함하는 것을 특징으로 하는 보행자 재식별 방법.
보행자 재식별 장치로서,
목표 보행자를 포함하는 목표 비디오 및 적어도 하나의 후보 비디오를 획득하도록 구성된 획득 모듈;
상기 목표 비디오로부터 생성된 각 목표 비디오 클립 및 적어도 하나의 상기 후보 비디오로부터 생성된 각 후보 비디오 클립을 각각 인코딩하여 인코딩 결과를 획득하도록 구성된 인코딩 모듈 - 상기 인코딩 결과는 보행자 특징을 포함함 - ;
인코딩 결과에 따라, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 결정하도록 구성된 결정 모듈 - 상기 유사성 점수는 상기 목표 비디오 클립과 상기 후보 비디오 클립 중의 보행자 특징의 유사 정도를 나타내기 위한 것임 - ;
상기 유사성 점수에 따라, 적어도 하나의 상기 후보 비디오에 대해 보행자 재식별을 진행하여, 상기 유사성 점수가 기설정된 조건을 만족하는 후보 비디오를 상기 목표 비디오와 동일한 목표 보행자를 포함하는 비디오로 결정하도록 구성된 식별 모듈을 포함하고;
상기 결정 모듈은 또한,
상기 각 목표 비디오 클립의 인코딩 결과와 상기 각 후보 비디오 클립의 인코딩 결과에 대해 순차적으로 감산 조작을 진행하고;
감산 조작의 결과에 대해 각 차원에서 제곱 조작을 진행하며;
제곱 조작에 의해 얻은 특징 벡터에 대해 완전 연결 조작을 진행하여 2 차원의 특징 벡터를 얻으며;
상기 2 차원의 특징 벡터에 대해 정규화 조작을 진행하여, 상기 각 목표 비디오 클립과 상기 각 후보 비디오 클립 사이의 유사성 점수를 얻도록 구성된 것을 특징으로 하는 보행자 재식별 장치.
전자 기기로서,
프로세서 및 메모리를 포함하며,
상기 메모리는, 상기 프로세서가 제1항 내지 제3항 중 어느 한 항에 따른 보행자 재식별 방법을 수행하도록 하는 적어도 하나의 수행 가능한 명령어를 저장하기 위한 것임을 특징으로 하는 전자 기기.
컴퓨터 판독 가능 저장 매체로서,
프로세서에 의해 수행될 경우, 제1항 내지 제3항 중 어느 한 항에 따른 보행자 재식별 방법을 구현하기 위한 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램 제품으로서,
프로세서에 의해 수행될 경우, 제1항 내지 제3항 중 어느 한 항에 따른 보행자 재식별 방법을 구현하기 위한 적어도 하나의 수행 가능한 명령어를 포함하는 컴퓨터 프로그램 제품.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제