KR20220116331A - 모델 트레이닝 방법, 보행자 재인식 방법, 장치 및 전자 기기 - Google Patents

모델 트레이닝 방법, 보행자 재인식 방법, 장치 및 전자 기기 Download PDF

Info

Publication number
KR20220116331A
KR20220116331A KR1020227026823A KR20227026823A KR20220116331A KR 20220116331 A KR20220116331 A KR 20220116331A KR 1020227026823 A KR1020227026823 A KR 1020227026823A KR 20227026823 A KR20227026823 A KR 20227026823A KR 20220116331 A KR20220116331 A KR 20220116331A
Authority
KR
South Korea
Prior art keywords
image
pedestrian
pedestrian image
encoder
similarity
Prior art date
Application number
KR1020227026823A
Other languages
English (en)
Inventor
즈강 왕
젠 왕
하오 쑨
얼루이 딩
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202110372249.5A external-priority patent/CN112861825B/zh
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220116331A publication Critical patent/KR20220116331A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 인공지능 기술분야에 관한 것으로, 구체적으로 스마트 시티 장면에 적용될 수 있는 컴퓨터 비전 및 딥 러닝 기술분야에 관한 것인 모델 트레이닝 방법, 보행자 재인식 방법, 장치 및 전자 기기를 제공한다. 구체적인 구현 수단은, 제1 인코더를 이용하여 샘플 데이터 세트 중의 제1 보행자 이미지 및 제2 보행자 이미지에 대해 특징 추출을 수행하여, 제1 보행자 이미지의 이미지 특징 및 제2 보행자 이미지의 이미지 특징을 획득하고; 제1 보행자 이미지의 이미지 특징 및 제2 보행자 이미지의 이미지 특징을 융합하여, 융합 특징을 획득하며; 제1 디코더를 이용하여 융합 특징에 대해 특징 디코딩을 수행하여, 제3 보행자 이미지를 획득하며; 제3 보행자 이미지를 제1 보행자 이미지의 네거티브 샘플 이미지로 결정하고, 제1 보행자 이미지 및 네거티브 샘플 이미지를 이용하여 제1 기설정된 모델을 수렴하도록 트레이닝하여, 보행자 재인식 모델을 획득한다. 본 발명의 실시예를 이용하여 외모가 비슷하나 신분이 상이한 보행자를 구별하기 위한 모델의 효과를 향상시킬 수 있다.

Description

모델 트레이닝 방법, 보행자 재인식 방법, 장치 및 전자 기기
관련 출원의 상호 참조
본 발명은 2021년 4월 7일에 제출된 출원번호가 202110372249.5이고, 발명의 명칭이 "모델 트레이닝 방법, 보행자 재인식 방법, 장치 및 전자 기기"인 중국 특허 출원의 우선권을 주장하는 바, 그 모든 내용은 참조로서 본 발명에 인용된다.
본 발명은 인공지능 기술분야에 관한 것으로, 구체적으로 스마트 시티 장면에 적용될 수 있는 컴퓨터 비전 및 딥 러닝 기술분야에 관한 것이다.
보행자 재인식이라고도 하는 보행자 재식별은 컴퓨터 비전 기술을 이용하여 이미지 또는 비디오 시퀀스에 특정 보행자가 존재하는지의 여부를 판단하는 기술이다. 일반적으로, 다량의 샘플 이미지를 이용하여 보행자 재인식 모델에 대해 지도 트레이닝 또는 비지도 트레이닝을 수행하고, 수렴하도록 트레이닝된 모델을 이용하여 보행자 재인식 태스크를 완료할 수 있다. 수렴된 모델의 성능은 샘플 이미지의 품질과 난이도에 따라 다르다. 일반적으로, 모델은 외모가 현저히 다른 보행자를 구별할 수 있으나, 외모가 유사하고 신분이 상이한 보행자는 구별하기 어려울 수 있다.
본 발명은 모델 트레이닝 방법, 보행자 재인식 방법, 장치 및 전자 기기를 제공한다.
본 발명의 일 양태에 따르면, 제1 인코더를 이용하여 샘플 데이터 세트 중의 제1 보행자 이미지 및 제2 보행자 이미지에 대해 특징 추출을 수행하여, 제1 보행자 이미지의 이미지 특징 및 제2 보행자 이미지의 이미지 특징을 획득하는 단계; 제1 보행자 이미지의 이미지 특징 및 제2 보행자 이미지의 이미지 특징을 융합하여, 융합 특징을 획득하는 단계; 제1 디코더를 이용하여 융합 특징에 대해 특징 디코딩을 수행하여, 제3 보행자 이미지를 획득하는 단계; 및 제3 보행자 이미지를 제1 보행자 이미지의 네거티브 샘플 이미지로 결정하고, 제1 보행자 이미지 및 네거티브 샘플 이미지를 이용하여 제1 기설정된 모델을 수렴하도록 트레이닝하여, 보행자 재인식 모델을 획득하는 단계를 포함하는 모델 트레이닝 방법을 제공한다.
본 발명의 다른 양태에 따르면, 보행자 재인식 모델을 이용하여 타겟 이미지 및 후보 보행자 이미지에 대해 특징 추출을 각각 수행하여, 타겟 이미지의 보행자 특징 및 후보 보행자 이미지의 보행자 특징을 획득하는 단계 - 보행자 재인식 모델은 본 발명의 임의의 실시예에서 제공된 모델 트레이닝 방법에 의해 획득됨 - ; 타겟 이미지의 보행자 특징 및 후보 보행자 이미지의 보행자 특징을 기반으로, 타겟 이미지와 후보 보행자 이미지 간의 유사도를 결정하는 단계; 및 유사도가 기설정된 조건에 부합되는 경우, 후보 보행자 이미지를 타겟 이미지의 관련 이미지로 결정하는 단계를 포함하는 보행자 재인식 방법을 제공한다.
본 발명의 또 다른 양태에 따르면, 제1 인코더를 이용하여 샘플 데이터 세트 중의 제1 보행자 이미지 및 제2 보행자 이미지에 대해 특징 추출을 수행하여, 제1 보행자 이미지의 이미지 특징 및 제2 보행자 이미지의 이미지 특징을 획득하는 제1 인코딩 모듈; 제1 보행자 이미지의 이미지 특징 및 제2 보행자 이미지의 이미지 특징을 융합하여, 융합 특징을 획득하는 융합 모듈; 제1 디코더를 이용하여 융합 특징에 대해 특징 디코딩을 수행하여, 제3 보행자 이미지를 획득하는 제1 디코딩 모듈; 및 제3 보행자 이미지를 제1 보행자 이미지의 네거티브 샘플 이미지로 결정하고, 제1 보행자 이미지 및 상기 네거티브 샘플 이미지를 이용하여 제1 기설정된 모델을 수렴하도록 트레이닝하여, 보행자 재인식 모델을 획득하는 제1 트레이닝 모듈을 포함하는 모델 트레이닝 장치를 제공한다.
본 발명의 또 다른 양태에 따르면, 보행자 재인식 모델을 이용하여 타겟 이미지 및 후보 보행자 이미지에 대해 특징 추출을 각각 수행하여, 타겟 이미지의 보행자 특징 및 후보 보행자 이미지의 보행자 특징을 획득하는 제2 추출 모듈 - 보행자 재인식 모델은 본 발명의 임의의 실시예에서 제공된 모델 트레이닝 방법에 의해 획득됨 - ; 타겟 이미지의 보행자 특징 및 후보 보행자 이미지의 보행자 특징을 기반으로, 타겟 이미지와 후보 보행자 이미지 간의 유사도를 결정하는 제3 유사도 모듈; 및 유사도가 기설정된 조건에 부합되는 경우, 후보 보행자 이미지를 타겟 이미지의 관련 이미지로 결정하는 제2 결정 모듈을 포함하는 보행자 재인식 장치를 제공한다.
본 발명의 또 다른 양태에 따르면, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 본 발명의 어느 하나의 실시예에 따른 방법을 수행할 수 있도록 하는 전자 기기를 제공한다.
본 발명의 또 다른 양태에 따르면, 컴퓨터 명령이 저장된 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 명령은 컴퓨터가 본 발명의 어느 하나의 실시예에 따른 방법을 수행하도록 한다.
본 발명의 또 다른 양태에 따르면, 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 제공하고, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우, 본 발명의 어느 하나의 실시예에 따른 방법을 구현한다.
본 발명의 기술에 따르면, 제3 보행자 이미지는 제1 샘플 이미지의 이미지 특징 및 제2 샘플 이미지의 이미지 특징을 기반으로 융합하여 획득되므로, 제3 보행자 이미지는 제1 보행자 이미지의 정보를 포함할 뿐만 아니라, 제1 보행자 이미지와도 일정한 차이가 있다. 제3 보행자 이미지를 제1 보행자 이미지의 네거티브 샘플로 이용하여, 제1 보행자 이미지와 이의 네거티브 샘플 간의 구별 난이도를 향상시킴으로써, 구별하기 어려운 샘플의 트레이닝을 기반으로 보행자 재인식 모델을 획득하고, 외모가 비슷하나 신분이 상이한 보행자를 구별하기 위한 모델의 효과를 향상시킬 수 있다.
본 부분에 설명된 내용은 본 발명의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 발명의 범위를 제한하려는 것도 아님을 이해해야 한다. 본 발명의 다른 특징은 아래 설명을 통해 쉽게 이해될 것이다.
도면은 본 해결수단을 더 잘 이해하기 위한 것이며 본 발명을 한정하지 않는다. 여기서,
도 1은 본 발명의 일 실시예에서 제공되는 모델 트레이닝 방법의 모식도이다.
도 2는 본 발명의 다른 실시예에서 제공되는 모델 트레이닝 방법의 첫 번째 단계의 모식도이다.
도 3은 본 발명의 다른 실시예에서 제공되는 모델 트레이닝 방법의 두 번째 단계의 모식도이다.
도 4는 본 발명의 다른 실시예에서 제공되는 모델 트레이닝 방법의 세 번째 단계의 모식도이다.
도 5는 본 발명의 일 실시예에서 제공되는 보행자 재인식 방법의 모식도이다.
도 6은 본 발명의 일 실시예에서 제공되는 모델 트레이닝 장치의 모식도이다.
도 7은 본 발명의 다른 실시예에서 제공되는 모델 트레이닝 장치의 모식도이다.
도 8은 본 발명의 또 다른 실시예에서 제공되는 모델 트레이닝 장치의 모식도이다.
도 9는 본 발명의 일 실시예에서 제공되는 보행자 재인식 장치의 모식도이다.
도 10은 본 발명의 실시예에 따른 방법을 구현하기 위한 전자 기기의 블록도이다.
아래 도면을 참조하여 본 발명의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 발명의 실시예의 다양한 세부사항들이 포함되며, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 발명의 범위 및 사상을 벗어나지 않으면서, 여기서 설명된 실시예에 대해 다양한 변형 및 수정을 수행할 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.
도 1은 본 발명의 일 실시예에서 제공되는 모델 트레이닝 방법을 도시한 모식도이다. 도 1에 도시된 바와 같이, 모델 트레이닝 방법은 하기와 같은 단계를 포함한다.
단계 S11에서, 제1 인코더를 이용하여 샘플 데이터 세트 중의 제1 보행자 이미지 및 제2 보행자 이미지에 대해 특징 추출을 수행하여, 제1 보행자 이미지의 이미지 특징 및 제2 보행자 이미지의 이미지 특징을 획득하고;
단계 S12에서, 제1 보행자 이미지의 이미지 특징 및 제2 보행자 이미지의 이미지 특징을 융합하여, 융합 특징을 획득하며;
단계 S13에서, 제1 디코더를 이용하여 융합 특징에 대해 특징 디코딩을 수행하여, 제3 보행자 이미지를 획득하며;
단계 S14에서, 제3 보행자 이미지를 제1 보행자 이미지의 네거티브 샘플 이미지로 결정하고, 제1 보행자 이미지 및 네거티브 샘플 이미지를 이용하여 제1 기설정된 모델을 수렴하도록 트레이닝하여, 보행자 재인식 모델을 획득한다.
상기 단계 S11에서의 제1 인코더는 보행자 이미지를 기반으로 이미지 특징을 추출할 수 있고, 단계 S13에서의 제1 디코더는 이미지 특징 디코딩을 기반으로 새로운 이미지를 획득할 수 있다. 따라서, 제1 인코더 및 제1 디코더는 입력된 보행자 이미지를 기반으로, 새로운 보행자 이미지를 재구성하는 이미지 생성 모델을 구성할 수 있다. 여기서, 제1 인코더에 의해 추출된 이미지 특징은 제1 벡터를 사용하여 특성화할 수 있다. 상기 벡터는 대응하는 보행자 이미지의 다차원 특징 정보를 포함할 수 있다.
본 발명의 실시예에서, 샘플 데이터 세트에서 제1 보행자 이미지 및 제2 보행자 이미지와 같은 상이한 보행자 이미지를 제1 인코더에 각각 입력하고, 제1 인코더는 대응하는 이미지 특징을 출력할 수 있다. 이미지 특징을 융합하여, 융합 특징을 획득한다. 융합 특징을 제1 디코더에 다시 입력하고, 제1 디코더는 융합 특징을 기반으로 제3 보행자 이미지를 재구성하여 출력한다.
제1 보행자 이미지 및 제2 보행자 이미지의 융합 특징을 기반으로 제3 보행자 이미지를 재구성하므로, 제3 보행자 이미지는 제1 보행자 이미지의 정보를 포함할 뿐만 아니라, 제2 보행자 이미지의 정보도 포함한다. 제3 보행자 이미지를 제1 보행자 이미지의 네거티브 샘플 이미지로 하여, 제1 보행자 이미지와 이의 네거티브 샘플 이미지 간의 구별 난이도를 높임으로써, 구별하기 어려운 샘플의 트레이닝을 기반으로 보행자 재인식 모델을 획득하고, 외모가 비슷하나 신분이 상이한 보행자를 구별하기 위한 모델의 효과를 향상시킨다.
예시적으로, 샘플 데이터 세트는 적어도 두 개의 보행자 이미지를 포함할 수 있다. 각 보행자 이미지는 하나의 보행자에 대응된다. 상이한 보행자 이미지는 상이한 보행자에 대응될 수 있으며, 동일한 보행자에 대응될 수도 있다.
실제 적용에서, 샘플 데이터 세트로부터 하나의 이미지를 샘플링하여 제1 샘플 이미지로 할 수 있다. 제1 샘플 이미지를 기준으로, 제1 보행자 이미지와 차이가 큰 하나의 이미지를 샘플링하며, 예를 들어, 제1 보행자 이미지와 상이한 보행자에 대응되는 이미지를 제2 샘플 이미지로 한다. 샘플링된 이미지를 기반으로 제3 보행자 이미지를 재구성하여, 제1 보행자 이미지 및 제3 보행자 이미지를 제1 기설정된 모델에 각각 입력하고, 제1 기설정된 모델은 제1 보행자 이미지 및 제3 보행자 이미지를 각각 처리한 후, 이미지 중의 보행자 특징 또는 보행자 식별자와 같은 대응하는 처리 결과를 출력한다. 제1 기설정된 모델의 처리 결과 및 제1 기설정된 모델에 대응되는 손실 함수에 따라, 손실 함수의 함수값을 산출한다. 또한, 업데이트 횟수가 제1 기설정된 임계값에 도달하거나, 손실 함수의 함수값이 제2 기설정된 임계값보다 작거나 손실 함수의 함수값이 더 이상 변경되지 않는 등과 같이 제1 기설정된 모델이 수렴 조건에 도달할 때까지 손실 함수의 함수값을 기반으로 제1 기설정된 모델을 업데이트하고, 수렴된 제1 기설정된 모델을 보행자 재인식 태스크를 완료할 수 있는 보행자 재인식 모델로 결정한다.
예시적으로, 제1 기설정된 모델에 대응되는 손실 함수는 제1 기설정된 모델을 구속하여 제1 보행자 이미지의 처리 결과 및 네거티브 샘플 이미지의 처리 결과를 푸시하거나, 제1 기설정된 모델이 제1 보행자 이미지 및 네거티브 샘플 이미지에 대하여 특징 공간에서 최대한 멀리 떨어진 처리 결과를 출력하도록 할 수 있다. 이로써 제1 기설정된 모델이 상이한 보행자 이미지를 구별할 수 있도록 한다.
예시적으로, 매번 샘플링하여 하나의 제3 보행자 이미지를 생성하여, 제1 보행자 이미지 및 제3 보행자 이미지를 포함한 한 세트의 포지티브 및 네거티브 샘플 쌍을 형성한 후, 상기 포지티브 및 네거티브 샘플 쌍을 이용하여 제1 기설정된 모델을 업데이트하는 관련 동작을 실행한 후, 다음 샘플링을 수행할 수 있다. 우선 샘플 데이터 세트의 각 보행자 이미지에 대하여 대응되는 네거티브 샘플 이미지를 모두 획득하여, 복수의 포지티브 및 네거티브 샘플 쌍을 형성한 후, 복수의 포지티브 및 네거티브 샘플 쌍을 재이용하여 제1 기설정된 모델을 수차례 업데이트하는 관련 동작을 실행할 수도 있다.
예시적으로, 제1 기설정된 모델을 업데이트하여 제1 기설정된 모델에 대한 트레이닝을 구현하는 과정에서, 제1 인코더 및 제1 디코더를 업데이트할 수도 있다. 구체적으로, 모델 트레이닝 방법은,
제1 보행자 이미지와 네거티브 샘플 이미지를 기반으로, 제1 유사도를 결정하는 단계;
샘플 이미지 세트 중 제1 보행자 이미지 이외의 적어도 하나의 보행자 이미지를 기반으로, 적어도 하나의 보행자 이미지에 각각 대응하는 적어도 하나의 제2 유사도를 결정하는 단계; 및
제1 유사도, 적어도 하나의 제2 유사도 및 적대적 손실 함수를 기반으로, 제1 인코더 및 제1 디코더를 업데이트하는 단계를 더 포함할 수 있다.
여기서, 적대적 손실 함수는 제1 유사도가 적어도 하나의 제2 유사도 중 어느 하나보다 크도록 구속할 수 있다. 이를 기반으로, 제1 유사도, 적어도 하나의 제2 유사도 및 적대적 손실 함수를 기반으로 제1 인코더 및 제1 디코더를 업데이트하여, 제1 인코더 및 제1 디코더에 의해 재구성된 이미지를 제1 보행자 이미지와 더 유사해지도록 할 수 있고, 제1 보행자 이미지와 네거티브 샘플 이미지 간의 구별 난이도를 증가함으로써, 보행자 재인식 모델의 효과를 더욱 향상시킨다.
예시적으로, 제1 유사도 및 제2 유사도를 기반으로, 적대적 손실 함수의 함수값을 산출하고, 적대적 손실 함수의 함수값을 기반으로 제1 인코더 및 제1 디코더를 업데이트할 수 있다.
일부 장면에서, 재구성 손실 함수 및/또는 네거티브 샘플 이미지의 리얼리즘을 결합하여 제1 인코더 및 제1 디코더를 업데이트할 수도 있다. 여기서, 재구성 손실 함수는 제1 인코더 및 제1 디코더에 의해 재구성된 이미지와 제1 보행자 이미지 및/또는 제2 보행자 이미지 간의 유사도가 기설정된 임계값보다 높도록 구속하고, 다시 말하면, 재구성된 이미지는 입력된 이미지와 일정한 유사성을 가질 수 있다. 리얼리즘은 리얼리즘 판별기를 이용하여 결정할 수 있다. 예시적으로, 우선 적대적 손실 함수의 함수값, 재구성 손실 함수의 함수값을 산출하고, 리얼리즘을 결정한 다음, 상기 세 가지를 이용하여 제1 인코더 및 제2 인코더를 업데이트할 수 있다.
제1 보행자 이미지 및 이의 네거티브 샘플 이미지를 이용하여 제1 기설정된 모델을 트레이닝하여 보행자 재인식 모델을 획득하는 과정에서, 또한 제1 보행자 이미지 및 상기 네거티브 샘플 이미지를 이용하여 제1 인코더 및 제2 디코더를 트레이닝하므로, 제1 인코더 및 제1 디코더도 재구성된 네거티브 샘플 이미지의 품질을 점차적으로 향상시킴으로써, 제1 기설정된 모델의 트레이닝 효과를 점차적으로 향상시킨다.
예시적으로, 제1 인코더 및 제1 디코더는 보행자 이미지를 기반으로 사전 트레이닝하여 획득될 수 있다. 구체적으로, 제1 인코더 및 제1 디코더를 획득하는 방식은,
제2 인코더를 이용하여 샘플 데이터 세트 중의 i 번째 보행자 이미지에 대해 특징 추출을 수행하여, i 번째 보행자 이미지의 이미지 특징을 획득하는 단계 - i는 1보다 크거나 같은 양의 정수임 - ;
제2 디코더를 이용하여 i 번째 보행자 이미지의 이미지 특징에 대해 특징 디코딩을 수행하여, 생성 이미지를 획득하는 단계;
i 번째 보행자 이미지와 생성 이미지 간의 유사도 및 재구성 손실 함수를 기반으로, 제2 인코더 및 제2 디코더를 업데이트하는 단계; 및
제2 인코더 및 제2 디코더가 수렴 조건에 부합되는 경우, 제2 인코더를 제1 인코더로 결정하고, 제2 디코더를 제1 디코더로 결정하는 단계를 포함한다.
여기서, 재구성 손실 함수는 i 번째 보행자 이미지와 생성 이미지 간의 유사도가 기설정된 임계값보다 작도록 구속한다. 또는 재구성 손실 함수는 디코딩된 이미지와 입력 인코딩된 이미지가 유사하도록 구속한다.
상기 과정을 기반으로, 제2 인코더 및 제2 디코더는 입력 이미지와 유사한 이미지를 재구성하는 능력을 점차적으로 향상시킬 수 있다. 수렴 조건에 부합되는 경우, 제2 인코더 및 제2 디코더를 제1 인코더 및 제1 디코더로 결정함으로써, 제1 인코더 및 제1 디코더는 유사한 이미지를 재구성하는 능력을 구비한다. 따라서, 제1 인코더 및 제1 디코더를 네거티브 샘플 이미지의 생성에 적용하여, 생성 효과를 향상시킴으로써, 보행자 재인식 모델의 트레이닝 효과를 향상시킬 수 있다.
예시적으로, i 번째 보행자 이미지와 생성 이미지 간의 유사도 및 재구성 손실 함수를 기반으로, 제2 인코더 및 제2 디코더를 업데이트하는 단계는,
i 번째 보행자 이미지와 생성 이미지 간의 유사도 및 재구성 손실 함수를 기반으로, 재구성 손실 함수의 함수값을 산출하는 단계;
리얼리즘 판별기를 이용하여 생성 이미지의 리얼리즘을 결정하는 단계; 및
재구성 손실 함수의 함수값 및 생성 이미지의 리얼리즘에 따라, 제2 인코더 및 제2 디코더를 업데이트하는 단계를 포함한다.
다시 말하면, 트레이닝 과정에서, 재구성 손실 함수를 이용하여 제2 인코더 및 제2 디코더에 의해 생성된 이미지가 입력 이미지와 유사하도록 구속할 뿐만 아니라, 생성 이미지가 가능한 한 사실적이도록 구속한다. 제2 인코더 및 제2 디코더를 트레이닝하여 획득한 제1 인코더 및 제1 디코더를 네거티브 샘플 이미지의 생성에 적용하여, 생성 효과를 향상시킴으로써, 보행자 재인식 모델의 트레이닝 효과를 향상시킬 수 있다.
예시적으로, 상기 제1 기설정된 모델은 사전 트레이닝을 통하여 얻을 수도 있다. 구체적으로, 제1 기설정된 모델을 획득하는 방식은,
제2 기설정된 모델을 이용하여 샘플 데이터 세트 중의 각 보행자 이미지에 대해 특징 추출을 수행하여, 각 보행자 이미지의 보행자 특징을 획득하는 단계;
보행자 특징을 기반으로 샘플 데이터 세트 중의 각 보행자 이미지를 클러스터링하여, 적어도 두 개의 클래스 클러스터 레이블에 각각 대응하는 적어도 두 개의 클래스 클러스터를 획득하는 단계 - 적어도 두 개의 클래스 클러스터 중의 각 클래스 클러스터는 모두 적어도 하나의 보행자 이미지를 포함함 - ; 및
샘플 데이터 세트 중의 각 보행자 이미지 및 각 보행자 이미지에 대응되는 클래스 클러스터 레이블을 기반으로, 제2 기설정된 모델을 수렴하도록 트레이닝하여, 제1 기설정된 모델을 획득하는 단계를 포함한다.
여기서, 보행자 특징은 제2 벡터를 사용하여 특성화할 수 있다. 제2 벡터는 보행자 이미지에 대응되는 보행자의 다차원의 특징을 포함한다.
본 발명의 실시예에서의 각 인코더 및 제1 기설정된 모델, 제2 기설정된 모델, 보행자 재인식 모델은 모두 특징 추출에 사용될 수 있고, 각 인코더 또는 모델은 동일한 방식 또는 상이한 방식을 기반으로 상이한 차원의 특징을 추출할 수 있음에 유의해야 한다. 예를 들어, 인코더는 색상 등과 같은 이미지 화면 효과와 관련된 특징을 중점적으로 추출할 수 있고, 제1 기설정된 모델, 제2 기설정된 모델, 보행자 재인식 모델은 보행자 높이 등과 같은 보행자와 관련된 특징을 중점적으로 추출할 수 있다.
예시적으로, 상기 보행자 이미지를 클러스터링하는 단계는 DBSCAN(Density-Based Spatial Clustering of Applications with Noise, 노이즈가 있는 밀도 기반의 클러스터링 방법), K-means(K-means Clustering Algorithm, K 평균 클러스터링 알고리즘) 등 중 적어도 하나를 기반으로 구현될 수 있다.
클러스터링을 통하여, 각 보행자 이미지는 상이한 클래스 클러스터로 구획되며, 각 클래스 클러스터의 클래스 클러스터 레이블은 클래스 클러스터의 각 보행자 이미지에 대한 의사 레이블로 사용될 수 있다. 각 보행자 이미지 및 이의 클래스 클러스터 레이블 또는 의사 레이블을 이용하여 제2 기설정된 모델을 트레이닝하여, 비지도 트레이닝을 구현하고, 각 보행자 이미지에 대한 레이블링 비용을 감소할 수 있다.
실제 적용에서, 제2 기설정된 모델을 수렴하도록 트레이닝하여, 제1 기설정된 모델을 획득하는 과정에서, 제2 기설정된 모델에 대응되는 손실 함수를 이용하여, 제2 기설정된 모델이 상이한 클래스 클러스터의 보행자 이미지에 대한 처리 결과를 푸시하고, 동일한 클래스 클러스터의 보행자 이미지에 대한 처리 결과를 풀하도록 구속할 수 있다. 이로써 제2 기설정된 모델이 상이한 보행자 이미지를 구별하는 능력을 점차적으로 향상시킨다.
예시적으로, 상기 제1 보행자 이미지와 제2 보행자 이미지는 적어도 두 개의 클래스 클러스터 중의 상이한 클래스 클러스터의 보행자 이미지일 수 있다.
상이한 클래스 클러스터의 이미지를 제1 보행자 이미지 및 제2 보행자 이미지로 사용하여, 융합 특징을 이용하여 재구성된 제3 보행자 이미지와 제1 보행자 이미지의 차이성을 확보함으로써, 보행자 재인식 모델이 정확하게 구별하는 능력을 획득하도록 확보할 수 있다.
본 발명의 실시예에 따른 모델 트레이닝 방법의 바람직한 구현 방식은 아래 구체적인 적용 예시와 함께 설명된다. 적용 예시에서, 모델 트레이닝 방법은 보행자 재인식 모델을 트레이닝하여 획득하기 위한 것이다. 구체적으로는 세 단계로 나눌 수 있다.
도 2는 첫 번째 단계의 모식도이다. 도 2에 도시된 바와 같이, 첫 번째 단계는 하기와 같은 단계를 포함한다.
특징 추출 단계 201에서, 초기화된 모델을 이용하여 레이블이 없는 샘플 데이터 세트(200) 중의 각각의 보행자 이미지에 대해 특징 추출을 수행한다. 여기서, 초기화된 모델은 제2 기설정된 모델로 기록하고, 레이블이 있는 복수의 보행자 이미지를 이용하여 초기화된 모델을 트레이닝하여 획득할 수 있다.
클러스터링 단계 202에서, DBSCAN, k-means 등 클러스터링 알고리즘 중 하나 이상을 이용하여 단계 201에서 추출된 특징을 클러스터링하여, 레이블이 없는 샘플 데이터 세트(200) 중의 이미지의 클러스터링을 구현한다. 이로써, 특징 공간에서 레이블이 없는 샘플 데이터 세트(200)의 각 이미지는 각각의 상이한 클래스 클러스터에 구획된다.
의사 레이블 할당 단계 203에서, 특징 공간에서 각 이미지에 대응되는 클래스 클러스터에 따라, 각 이미지에 의사 레이블을 할당한다. 의사 레이블은 해당 클래스 클러스터의 인덱스이다.
비지도 비교 트레이닝 단계 204에서, 각 이미지, 단계 203에서 할당된 의사 레이블 및 손실 함수에 따라, 제2 기설정된 모델을 트레이닝한다. 여기서, 손실 함수는 동일한 클래스 클러스터 내의 이미지가 특징 공간에서 서로 근접하고, 상이한 클래스 클러스터의 이미지가 특징 공간에서 서로 떨어져 있도록 구속한다.
단계 204에서 반복적인 트레이닝 과정을 거쳐, 제2 기설정된 모델이 수렴되고, 제1 기설정된 모델(205)이 획득된다.
도 3은 두 번째 단계의 모식도이다. 두 번째 단계는 이미지 생성 모델을 트레이닝하기 위한 것이고, 이미지 생성 모델은 인코더 및 디코더를 포함한다. 두 번째 단계의 목적은 이미지 생성 모델이 추상적인 특징으로부터 자연적인 이미지를 재구성하는 능력을 구비하도록 한다. 두 번째 단계는 하기와 같은 단계를 포함한다.
특징 인코딩 단계 300에서, 이미지 생성 모델 중의 제2 인코더를 이용하여 레이블이 없는 샘플 데이터 세트(200) 중의 각 이미지에 대해 특징 추출을 수행하여, 대응하는 이미지 특징(301)을 획득한다.
특징 디코딩 단계 302에서, 이미지 생성 모델 중의 제2 디코더를 이용하여 이미지 특징(301)을 디코딩하여, 생성 이미지를 획득한다.
리얼리즘 판별 단계 303에서, 리얼리즘 판별기를 이용하여 생성 이미지의 리얼리즘을 결정한다. 상기 단계는 이미지 생성 모델에 의해 출력된 생성 이미지가 가능한 한 사실적이도록 구속한다.
재구성 손실 함수 산출 단계 304에서, 생성 이미지 및 레이블이 없는 샘플 데이터 세트(200)에서 이미지 생성 모델에 입력된 이미지에 따라 재구성 손실 함수를 산출하고, 재구성 손실 함수는 제2 디코더에 의해 디코딩된 생성 이미지가 제2 인코더에 입력된 이미지와 유사하도록 구속한다.
단계 303 및 단계 304의 출력을 기반으로, 이미지 생성 모델을 업데이트할 수 있다. 기설정된 수렴 조건에 부합될 경우, 이미지 생성 모델 중의 제2 인코더를 제1 인코더로 결정하고, 이미지 생성 모델 중의 제2 디코더를 제1 디코더로 결정하여, 제1 인코더 및 제1 디코더를 세 번째 단계에 적용할 수 있다.
도 4는 세 번째 단계의 모식도이다. 도 4에 도시된 바와 같이, 세 번째 단계는 하기와 같은 단계를 포함한다.
샘플링 단계 400에서, 레이블이 없는 샘플 데이터 세트(200) 중의 각 이미지를 순차적으로 샘플링하여, 기준 이미지, 즉 제1 보행자 이미지로 한다. 다음 제1 보행자 이미지와 동일한 클래스 클러스터에 속하지 않는 이미지를 샘플링하여 제2 보행자 이미지로 한다.
특징 인코딩 단계 401에서, 이미지 생성 모델 중의 제1 인코더를 이용하여 제1 보행자 이미지 및 제2 보행자 이미지에 대해 특징 추출을 각각 수행하여, 대응하는 이미지 특징을 획득한다.
융합 특징 단계 402에서, 단계 401에서 획득된 이미지에 대해 가중치 융합을 수행하여, 융합 특징을 획득한다.
특징 디코딩 단계 403에서, 이미지 생성 모델 중의 제1 디코더를 이용하여 융합 특징을 디코딩하여, 제3 보행자 이미지(406)를 획득한다.
리얼리즘 판별 단계 404에서, 리얼리즘 판별기를 이용하여 제3 보행자 이미지(406)의 리얼리즘을 결정한다.
재구성 및 적대적 손실 함수 단계 405에서, 재구성 손실 함수를 산출하는 이외에, 상기 단계는 적대적 손실 함수도 산출한다. 적대적 손실 함수는 제3 보행자 이미지(406)와 제1 보행자 이미지의 유사도가 제3 보행자 이미지(406)와 레이블이 없는 샘플 데이터 세트(200) 중 다른 이미지의 유사도보다 크도록 구속한다. 즉 생성된 제3 보행자 이미지는 외형적으로 제1 보행자 이미지와 일정한 유사성을 가진다.
비지도 트레이닝 단계 407에서, 상기 단계는 제3 보행자 이미지를 제1 보행자 이미지의 네거티브 샘플로 하고, 제1 기설정된 모델에 대해 비지도 트레이닝을 수행한다. 첫 번째 단계 중 비지도 트레이닝 단계의 손실 함수의 구속 이외에, 본 단계에서 손실 함수는 또한 제1 보행자 이미지 및 상기 네거티브 샘플 이미지를 특징 공간에서 가능한 한 푸시하도록 구속하여, 모델이 어려운 샘플을 구별하는 효과를 구비할 수 있도록 한다. 그 결과 보행자 재인식 모델(408)을 출력한다.
본 발명의 실시예에 따른 방법은, 제3 보행자 이미지는 제1 샘플 이미지의 이미지 특징 및 제2 샘플 이미지의 이미지 특징을 기반으로 융합하여 획득되므로, 제3 보행자 이미지는 제1 보행자 이미지의 정보를 포함할 뿐만 아니라, 제1 보행자 이미지와도 일정한 차이가 있다. 제3 보행자 이미지를 제1 보행자 이미지의 네거티브 샘플로 이용하여, 제1 보행자 이미지와 이의 네거티브 샘플 간의 구별 난이도를 향상시킴으로써, 구별하기 어려운 샘플의 트레이닝을 기반으로 보행자 재인식 모델을 획득하고, 외모가 비슷하나 신분이 상이한 보행자를 구별하기 위한 모델의 효과를 향상시킬 수 있다.
본 발명의 실시예는 상기 보행자 재인식 모델의 적용 방법을 더 제공한다. 도 5는 본 발명의 일 실시예에서 제공되는 보행자 재인식 방법을 도시하고, 하기와 같은 단계를 포함한다.
단계 S51에서, 보행자 재인식 모델을 이용하여 타겟 이미지 및 후보 보행자 이미지에 대해 특징 추출을 각각 수행하여, 타겟 이미지의 보행자 특징 및 후보 보행자 이미지의 보행자 특징을 획득하되, 보행자 재인식 모델은 본 발명의 임의의 실시예에서 제공된 모델 트레이닝 방법에 의해 획득되고;
단계 S52에서, 타겟 이미지의 보행자 특징 및 후보 보행자 이미지의 보행자 특징을 기반으로, 타겟 이미지와 후보 보행자 이미지 간의 유사도를 결정하며;
단계 S53에서, 유사도가 기설정된 조건에 부합되는 경우, 후보 보행자 이미지를 타겟 이미지의 관련 이미지로 결정한다.
여기서, 기설정된 조건은, 예를 들어, 유사도가 기설정된 임계값보다 작거나 유사도가 제일 작은 등 조건이다.
본 발명의 실시예에서 제공된 모델 트레이닝 방법은 구별하기 어려운 샘플의 트레이닝을 기반으로 보행자 재인식 모델을 획득하므로, 보행자 재인식 모델을 이용하여 각 이미지의 보행자 특징을 정확하게 추출하고, 각 이미지의 보행자 특징을 기반으로 유사도를 산출하며, 산출된 유사도를 이용하여 후보 보행자 이미지로부터 타겟 이미지의 관련 이미지를 정확하게 결정할 수 있다.
상기 각 방법의 구현으로서, 본 발명은 모델 트레이닝 장치를 더 제공한다. 도 6에 도시된 바와 같이, 상기 장치는,
제1 인코더를 이용하여 샘플 데이터 세트 중의 제1 보행자 이미지 및 제2 보행자 이미지에 대해 특징 추출을 수행하여, 제1 보행자 이미지의 이미지 특징 및 제2 보행자 이미지의 이미지 특징을 획득하는 제1 인코딩 모듈(610);
제1 보행자 이미지의 이미지 특징 및 제2 보행자 이미지의 이미지 특징을 융합하여, 융합 특징을 획득하는 융합 모듈(620);
제1 디코더를 이용하여 융합 특징에 대해 특징 디코딩을 수행하여, 제3 보행자 이미지를 획득하는 제1 디코딩 모듈(630); 및
제3 보행자 이미지를 제1 보행자 이미지의 네거티브 샘플 이미지로 결정하고, 제1 보행자 이미지 및 네거티브 샘플 이미지를 이용하여 제1 기설정된 모델을 수렴하도록 트레이닝하여, 보행자 재인식 모델을 획득하는 제1 트레이닝 모듈(640)을 포함한다.
예시적으로, 도 7에 도시된 바와 같이, 상기 장치는,
제1 보행자 이미지와 네거티브 샘플 이미지를 기반으로, 제1 유사도를 결정하는 제1 유사도 모듈(710);
샘플 이미지 세트 중 제1 보행자 이미지 이외의 적어도 하나의 보행자 이미지를 기반으로, 적어도 하나의 보행자 이미지에 각각 대응하는 적어도 하나의 제2 유사도를 결정하는 제2 유사도 모듈(720); 및
제1 유사도, 적어도 하나의 제2 유사도 및 적대적 손실 함수를 기반으로, 제1 인코더 및 제1 디코더를 업데이트하는 제1 업데이트 모듈(730)을 더 포함한다.
예시적으로, 도 7에 도시된 바와 같이, 상기 장치는,
제2 인코더를 이용하여 샘플 데이터 세트 중의 i 번째 보행자 이미지에 대해 특징 추출을 수행하여, i 번째 보행자 이미지의 이미지 특징을 획득하는 제2 인코딩 모듈(750) - i는 1보다 크거나 같은 양의 정수임 - ;
제2 디코더를 이용하여 i 번째 보행자 이미지의 이미지 특징에 대해 특징 디코딩을 수행하여, 생성 이미지를 획득하는 제2 디코딩 모듈(760);
i 번째 보행자 이미지와 생성 이미지 간의 유사도 및 재구성 손실 함수를 기반으로, 제2 인코더 및 제2 디코더를 업데이트하는 제2 업데이트 모듈(770); 및
제2 인코더 및 제2 디코더가 수렴 조건에 부합되는 경우, 제2 인코더를 제1 인코더로 결정하고, 제2 디코더를 제1 디코더로 결정하는 제1 결정 모듈(780)을 더 포함한다.
예시적으로, 제2 업데이트 모듈(770)은,
i 번째 보행자 이미지와 생성 이미지 간의 유사도 및 재구성 손실 함수를 기반으로, 재구성 손실 함수의 함수값을 산출하는 산출 유닛(771);
리얼리즘 판별기를 이용하여 생성 이미지의 리얼리즘을 결정하는 결정 유닛(772); 및
재구성 손실 함수의 함수값 및 생성 이미지의 리얼리즘에 따라, 제2 인코더 및 제2 디코더를 업데이트하는 업데이트 유닛(773)을 포함한다.
예시적으로, 도 8에 도시된 바와 같이, 상기 장치는,
제2 기설정된 모델을 이용하여 샘플 데이터 세트 중의 각 보행자 이미지에 대해 특징 추출을 수행하여, 각 보행자 이미지의 보행자 특징을 획득하는 제1 추출 모듈(810);
보행자 특징을 기반으로 샘플 데이터 세트 중의 각 보행자 이미지를 클러스터링하여, 적어도 두 개의 클래스 클러스터 레이블에 각각 대응하는 적어도 두 개의 클래스 클러스터를 획득하는 클러스터링 모듈(820) - 적어도 두 개의 클래스 클러스터 중의 각 클래스 클러스터는 모두 적어도 하나의 보행자 이미지를 포함함 - ; 및
샘플 데이터 세트 중의 각 보행자 이미지 및 각 보행자 이미지에 대응되는 클래스 클러스터 레이블을 기반으로, 제2 기설정된 모델을 수렴하도록 트레이닝하여, 제1 기설정된 모델을 획득하는 제2 트레이닝 모듈(830)을 포함한다.
예시적으로, 제1 보행자 이미지와 제2 보행자 이미지는 적어도 두 개의 클래스 클러스터 중의 상이한 클래스 클러스터의 보행자 이미지이다.
본 발명의 실시예는 보행자 재인식 장치를 더 제공하고, 도 9에 도시된 바와 같이, 상기 장치는,
보행자 재인식 모델을 이용하여 타겟 이미지 및 후보 보행자 이미지에 대해 특징 추출을 각각 수행하여, 타겟 이미지의 보행자 특징 및 후보 보행자 이미지의 보행자 특징을 획득하는 - 제2 추출 모듈(910) - 보행자 재인식 모델은 상기 모델 트레이닝 방법에 의해 획득됨 - ;
타겟 이미지의 보행자 특징 및 후보 보행자 이미지의 보행자 특징을 기반으로, 타겟 이미지와 후보 보행자 이미지 간의 유사도를 결정하는 제3 유사도 모듈(920); 및
유사도가 기설정된 조건에 부합되는 경우, 후보 보행자 이미지를 타겟 이미지의 관련 이미지로 결정하는 제2 결정 모듈(930)을 포함한다.
본 발명의 실시예의 각 장치 중의 유닛, 모듈 또는 서브 모듈의 기능은 상기 방법 실시예의 대응하는 설명을 참조할 수 있으며, 여기서 반복하여 설명하지 않기로 한다.
본 발명의 실시예에 따르면,본 발명은 또한 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램 제품을 제공한다.
도 10은 본 발명의 실시예를 구현하는 데 사용될 수 있는 예시적인 전자 기기(1000)의 예시적 블록도를 도시한다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터, 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 개인용 디지털 프로세서, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본 명세서에 언급된 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본 명세서에서 기술 및/또는 청구된 본 발명의 구현을 제한하도록 의도되지 않는다.
도 10에 도시된 바와 같이, 전자 기기(1000)는 판독 전용 메모리(ROM)(1002)에 저장된 컴퓨터 프로그램 또는 저장 유닛(1008)으로부터 랜덤 액세스 메모리(RAM)(1003)로 로딩된 컴퓨터 프로그램에 따라 다양하고 적절한 동작 및 처리를 수행할 수 있는 컴퓨팅 유닛(1001)을 포함한다. RAM(1003)에는 또한 전자 기기(1000)의 동작에 필요한 다양한 프로그램 및 데이터가 저장될 수 있다. 컴퓨팅 유닛(1001), ROM(1002) 및 RAM(1003)은 버스(1004)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(1005) 역시 버스(1004)에 연결된다.
키보드, 마우스 등과 같은 입력 유닛(1006), 다양한 유형의 디스플레이, 스피커 등과 같은 출력 유닛(1007), 자기 디스크, 광 디스크 등과 같은 저장 유닛(1008), 네트워크 카드, 모뎀, 무선 통신 트랜시버 등과 같은 통신 유닛(1009)을 포함하는 전자 기기(1000)의 복수 개의 부재는 I/O 인터페이스(1005)에 연결된다. 통신 유닛(1009)은 전자 기기(1000)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 통신망을 통해 다른 기기와 정보/데이터를 교환할 수 있도록 허용한다.
컴퓨팅 유닛(1001)은 처리 및 컴퓨팅 능력을 갖는 다양한 범용 및/또는 전용 처리 컴포넌트일 수 있다. 컴퓨팅 유닛(1001)의 일부 예에는 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 다양한 전용 인공 지능(AI) 컴퓨팅 칩, 기계 학습 모델 알고리즘을 실행하는 다양한 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등이 포함되나 이에 한정되지 않는다. 컴퓨팅 유닛(1001)은 전술한 다양한 방법 및 처리, 예를 들어 모델 트레이닝 방법 또는 보행자 재인식 방법을 수행한다. 예를 들어, 일부 실시예에서, 모델 트레이닝 방법 또는 보행자 재인식 방법은 저장 유닛(1008)과 같은 기계 판독 가능 저장 매체에 유형적으로 포함된 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(1002) 및/또는 통신 유닛(1009)을 통해 기기(1000)에 로딩 및/또는 장착될 수 있다. 컴퓨터 프로그램이 RAM(1003)에 로딩되고 컴퓨팅 유닛(1001)에 의해 실행될 경우, 위에서 설명된 모델 트레이닝 방법 또는 보행자 재인식 방법의 하나 이상의 단계가 수행될 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(1001)은 임의의 다른 적절한 방식을 통해(예를 들어, 펌웨어를 통해) 모델 트레이닝 방법 또는 보행자 재인식 방법을 수행하도록 구성될 수 있다.
본 명세서의 상기에서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래머블 게이트 어레이(FPGA), 응용 주문형 집적 회로(ASIC), 응용 주문형 표준 제품(ASSP), 시스템 온 칩의 시스템(SOC), 복합 프로그램 가능 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
본 발명의 방법을 구현하는 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그램 가능 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공되어, 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 경우, 흐름도 및/또는 블록도에 지정된 기능/동작이 구현될 수 있도록 한다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립형 소프트웨어 패키지로서 부분적으로 기계에서 실행되고 부분적으로 원격 기계에서 실행되거나 완전히 원격 기계 또는 서버에서 실행될 수 있다.
본 발명의 문맥에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기에 의해 사용되거나 명령 실행 시스템, 장치 또는 기기와 결합하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 유형 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적절한 조합을 포함할 수 있지만 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 보다 구체적인 예는 하나 이상의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기 또는 상술한 내용의 임의의 적절한 조합을 포함한다.
사용자와의 인터랙션을 제공하기 위하여 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 구비하며, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 다른 타입의 장치 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백)일 수 있고; 임의의 형태(사운드 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터이고, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 웹 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들엔드 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시될 수 있다. 시스템의 부재는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 서로 연결될 수 있다. 통신 네트워크의 예로는 근거리 통신망(LAN), 광역 통신망(WAN), 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 클라이언트와 서버의 관계는, 대응되는 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생된다.
위에서 설명한 다양한 형태의 프로세스를 통해 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 본 발명에 개시된 기술적 해결수단의 원하는 결과가 달성될 수 있는 한, 병렬, 순차적 또는 상이한 순서로 수행될 수 있으며, 본 명세서는 여기서 한정하지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체가 이루어질 수 있음을 이해할 것이다. 본 발명의 사상 및 원칙 내에서 이루어진 모든 수정, 등가적 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims (17)

  1. 모델 트레이닝 방법으로서,
    제1 인코더를 이용하여 샘플 데이터 세트 중의 제1 보행자 이미지 및 제2 보행자 이미지에 대해 특징 추출을 수행하여, 상기 제1 보행자 이미지의 이미지 특징 및 상기 제2 보행자 이미지의 이미지 특징을 획득하는 단계;
    상기 제1 보행자 이미지의 이미지 특징 및 상기 제2 보행자 이미지의 이미지 특징을 융합하여, 융합 특징을 획득하는 단계;
    제1 디코더를 이용하여 상기 융합 특징에 대해 특징 디코딩을 수행하여, 제3 보행자 이미지를 획득하는 단계; 및
    상기 제3 보행자 이미지를 상기 제1 보행자 이미지의 네거티브 샘플 이미지로 결정하고, 상기 제1 보행자 이미지 및 상기 네거티브 샘플 이미지를 이용하여 제1 기설정된 모델을 수렴하도록 트레이닝하여, 보행자 재인식 모델을 획득하는 단계를 포함하는 모델 트레이닝 방법.
  2. 제1항에 있어서,
    상기 제1 보행자 이미지와 상기 네거티브 샘플 이미지를 기반으로, 제1 유사도를 결정하는 단계;
    상기 샘플 이미지 세트 중 상기 제1 보행자 이미지 이외의 적어도 하나의 보행자 이미지를 기반으로, 상기 적어도 하나의 보행자 이미지에 각각 대응하는 적어도 하나의 제2 유사도를 결정하는 단계; 및
    상기 제1 유사도, 상기 적어도 하나의 제2 유사도 및 적대적 손실 함수를 기반으로, 상기 제1 인코더 및 상기 제1 디코더를 업데이트하는 단계를 더 포함하는 모델 트레이닝 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 제1 인코더 및 상기 제1 디코더를 획득하는 방식은,
    제2 인코더를 이용하여 상기 샘플 데이터 세트 중의 i 번째 보행자 이미지에 대해 특징 추출을 수행하여, 상기 i 번째 보행자 이미지의 이미지 특징을 획득하는 단계 - i는 1보다 크거나 같은 양의 정수임 - ;
    제2 디코더를 이용하여 상기 i 번째 보행자 이미지의 이미지 특징에 대해 특징 디코딩을 수행하여, 생성 이미지를 획득하는 단계;
    상기 i 번째 보행자 이미지와 상기 생성 이미지 간의 유사도 및 재구성 손실 함수를 기반으로, 상기 제2 인코더 및 상기 제2 디코더를 업데이트하는 단계; 및
    상기 제2 인코더 및 상기 제2 디코더가 수렴 조건에 부합되는 경우, 상기 제2 인코더를 상기 제1 인코더로 결정하고, 상기 제2 디코더를 상기 제1 디코더로 결정하는 단계를 포함하는 모델 트레이닝 방법.
  4. 제3항에 있어서,
    상기 i 번째 보행자 이미지와 상기 생성 이미지 간의 유사도 및 재구성 손실 함수를 기반으로, 상기 제2 인코더 및 상기 제2 디코더를 업데이트하는 단계는,
    상기 i 번째 보행자 이미지와 상기 생성 이미지 간의 유사도 및 상기 재구성 손실 함수를 기반으로, 상기 재구성 손실 함수의 함수값을 산출하는 단계;
    리얼리즘 판별기를 이용하여 상기 생성 이미지의 리얼리즘을 결정하는 단계; 및
    상기 재구성 손실 함수의 함수값 및 상기 생성 이미지의 리얼리즘에 따라, 상기 제2 인코더 및 상기 제2 디코더를 업데이트하는 단계를 포함하는 모델 트레이닝 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 제1 기설정된 모델을 획득하는 방식은,
    제2 기설정된 모델을 이용하여 샘플 데이터 세트 중의 각 보행자 이미지에 대해 특징 추출을 수행하여, 상기 각 보행자 이미지의 보행자 특징을 획득하는 단계;
    상기 보행자 특징을 기반으로 상기 샘플 데이터 세트 중의 각 보행자 이미지를 클러스터링하여, 적어도 두 개의 클래스 클러스터 레이블에 각각 대응하는 적어도 두 개의 클래스 클러스터를 획득하는 단계 - 상기 적어도 두 개의 클래스 클러스터 중의 각 클래스 클러스터는 모두 적어도 하나의 보행자 이미지를 포함함 - ; 및
    상기 샘플 데이터 세트 중의 각 보행자 이미지 및 상기 각 보행자 이미지에 대응되는 클래스 클러스터 레이블을 기반으로, 상기 제2 기설정된 모델을 수렴하도록 트레이닝하여, 상기 제1 기설정된 모델을 획득하는 단계를 포함하는 모델 트레이닝 방법.
  6. 제5항에 있어서,
    상기 제1 보행자 이미지와 상기 제2 보행자 이미지는 상기 적어도 두 개의 클래스 클러스터 중의 상이한 클래스 클러스터의 보행자 이미지인 모델 트레이닝 방법.
  7. 보행자 재인식 방법으로서,
    보행자 재인식 모델을 이용하여 타겟 이미지 및 후보 보행자 이미지에 대해 특징 추출을 각각 수행하여, 상기 타겟 이미지의 보행자 특징 및 상기 후보 보행자 이미지의 보행자 특징을 획득하는 단계 - 상기 보행자 재인식 모델은 제1항 내지 제6항 중 어느 한 항에 따른 모델 트레이닝 방법에 의해 획득됨 - ;
    상기 타겟 이미지의 보행자 특징 및 상기 후보 보행자 이미지의 보행자 특징을 기반으로, 상기 타겟 이미지와 상기 후보 보행자 이미지 간의 유사도를 결정하는 단계; 및
    상기 유사도가 기설정된 조건에 부합되는 경우, 상기 후보 보행자 이미지를 상기 타겟 이미지의 관련 이미지로 결정하는 단계를 포함하는 보행자 재인식 방법.
  8. 모델 트레이닝 장치로서,
    제1 인코더를 이용하여 샘플 데이터 세트 중의 제1 보행자 이미지 및 제2 보행자 이미지에 대해 특징 추출을 수행하여, 상기 제1 보행자 이미지의 이미지 특징 및 상기 제2 보행자 이미지의 이미지 특징을 획득하는 제1 인코딩 모듈;
    상기 제1 보행자 이미지의 이미지 특징 및 상기 제2 보행자 이미지의 이미지 특징을 융합하여, 융합 특징을 획득하는 융합 모듈;
    제1 디코더를 이용하여 상기 융합 특징에 대해 특징 디코딩을 수행하여, 제3 보행자 이미지를 획득하는 제1 디코딩 모듈; 및
    상기 제3 보행자 이미지를 상기 제1 보행자 이미지의 네거티브 샘플 이미지로 결정하고, 상기 제1 보행자 이미지 및 상기 네거티브 샘플 이미지를 이용하여 제1 기설정된 모델을 수렴하도록 트레이닝하여, 보행자 재인식 모델을 획득하는 제1 트레이닝 모듈을 포함하는 모델 트레이닝 장치.
  9. 제8항에 있어서,
    상기 제1 보행자 이미지와 상기 네거티브 샘플 이미지를 기반으로, 제1 유사도를 결정하는 제1 유사도 모듈;
    상기 샘플 이미지 세트 중 상기 제1 보행자 이미지 이외의 적어도 하나의 보행자 이미지를 기반으로, 상기 적어도 하나의 보행자 이미지에 각각 대응하는 적어도 하나의 제2 유사도를 결정하는 제2 유사도 모듈; 및
    상기 제1 유사도, 상기 적어도 하나의 제2 유사도 및 적대적 손실 함수를 기반으로, 상기 제1 인코더 및 상기 제1 디코더를 업데이트하는 제1 업데이트 모듈을 더 포함하는 모델 트레이닝 장치.
  10. 제8항 또는 제9항에 있어서,
    제2 인코더를 이용하여 상기 샘플 데이터 세트 중의 i 번째 보행자 이미지에 대해 특징 추출을 수행하여, 상기 i 번째 보행자 이미지의 이미지 특징을 획득하는 제2 인코딩 모듈 - i는 1보다 크거나 같은 양의 정수임 - ;
    제2 디코더를 이용하여 상기 i 번째 보행자 이미지의 이미지 특징에 대해 특징 디코딩을 수행하여, 생성 이미지를 획득하는 제2 디코딩 모듈;
    상기 i 번째 보행자 이미지와 상기 생성 이미지 간의 유사도 및 재구성 손실 함수를 기반으로, 상기 제2 인코더 및 상기 제2 디코더를 업데이트하는 제2 업데이트 모듈; 및
    상기 제2 인코더 및 상기 제2 디코더가 수렴 조건에 부합되는 경우, 상기 제2 인코더를 상기 제1 인코더로 결정하고, 상기 제2 디코더를 상기 제1 디코더로 결정하는 제1 결정 모듈을 더 포함하는 모델 트레이닝 장치.
  11. 제10항에 있어서,
    상기 제2 업데이트 모듈은,
    상기 i 번째 보행자 이미지와 상기 생성 이미지 간의 유사도 및 상기 재구성 손실 함수를 기반으로, 상기 재구성 손실 함수의 함수값을 산출하는 산출 유닛;
    리얼리즘 판별기를 이용하여 상기 생성 이미지의 리얼리즘을 결정하는 결정 유닛; 및
    상기 재구성 손실 함수의 함수값 및 상기 생성 이미지의 리얼리즘에 따라, 상기 제2 인코더 및 상기 제2 디코더를 업데이트하는 업데이트 유닛을 포함하는 모델 트레이닝 장치.
  12. 제8항 내지 제11항 중 어느 한 항에 있어서,
    제2 기설정된 모델을 이용하여 샘플 데이터 세트 중의 각 보행자 이미지에 대해 특징 추출을 수행하여, 상기 각 보행자 이미지의 보행자 특징을 획득하는 제1 추출 모듈;
    상기 보행자 특징을 기반으로 상기 샘플 데이터 세트 중의 각 보행자 이미지를 클러스터링하여, 적어도 두 개의 클래스 클러스터 레이블에 각각 대응하는 적어도 두 개의 클래스 클러스터를 획득하는 클러스터링 모듈 - 상기 적어도 두 개의 클래스 클러스터 중의 각 클래스 클러스터는 모두 적어도 하나의 보행자 이미지를 포함함 - ; 및
    상기 샘플 데이터 세트 중의 각 보행자 이미지 및 상기 각 보행자 이미지에 대응되는 클래스 클러스터 레이블을 기반으로, 상기 제2 기설정된 모델을 수렴하도록 트레이닝하여, 상기 제1 기설정된 모델을 획득하는 제2 트레이닝 모듈을 더 포함하는 모델 트레이닝 장치.
  13. 제12항에 있어서,
    상기 제1 보행자 이미지와 상기 제2 보행자 이미지는 상기 적어도 두 개의 클래스 클러스터 중의 상이한 클래스 클러스터의 보행자 이미지인 모델 트레이닝 장치.
  14. 보행자 재인식 장치로서,
    보행자 재인식 모델을 이용하여 타겟 이미지 및 후보 보행자 이미지에 대해 특징 추출을 각각 수행하여, 상기 타겟 이미지의 보행자 특징 및 상기 후보 보행자 이미지의 보행자 특징을 획득하는 제2 추출 모듈 - 상기 보행자 재인식 모델은 제1항 내지 제6항 중 어느 한 항에 따른 모델 트레이닝 방법에 의해 획득됨 - ;
    상기 타겟 이미지의 보행자 특징 및 상기 후보 보행자 이미지의 보행자 특징을 기반으로, 상기 타겟 이미지와 상기 후보 보행자 이미지 간의 유사도를 결정하는 제3 유사도 모듈; 및
    상기 유사도가 기설정된 조건에 부합되는 경우, 상기 후보 보행자 이미지를 상기 타겟 이미지의 관련 이미지로 결정하는 제2 결정 모듈을 포함하는 보행자 재인식 장치.
  15. 전자 기기로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제7항 중 어느 한 항에 따른 방법을 수행할 수 있도록 하는 전자 기기.
  16. 컴퓨터 명령이 저장된 비 일시적 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제7항 중 어느 한 항에 따른 방법을 수행하도록 하는 컴퓨터 명령이 저장된 비 일시적 컴퓨터 판독 가능 저장 매체.
  17. 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우, 제1항 내지 제7항 중 어느 한 항에 따른 방법을 구현하는 컴퓨터 프로그램 제품.
KR1020227026823A 2021-04-07 2022-01-29 모델 트레이닝 방법, 보행자 재인식 방법, 장치 및 전자 기기 KR20220116331A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110372249.5 2021-04-07
CN202110372249.5A CN112861825B (zh) 2021-04-07 2021-04-07 模型训练方法、行人再识别方法、装置和电子设备
PCT/CN2022/075112 WO2022213717A1 (zh) 2021-04-07 2022-01-29 模型训练方法、行人再识别方法、装置和电子设备

Publications (1)

Publication Number Publication Date
KR20220116331A true KR20220116331A (ko) 2022-08-22

Family

ID=83103561

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227026823A KR20220116331A (ko) 2021-04-07 2022-01-29 모델 트레이닝 방법, 보행자 재인식 방법, 장치 및 전자 기기

Country Status (3)

Country Link
US (1) US20240221346A1 (ko)
JP (1) JP7403673B2 (ko)
KR (1) KR20220116331A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117635973B (zh) * 2023-12-06 2024-05-10 南京信息工程大学 一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840917B (zh) 2019-01-29 2021-01-26 北京市商汤科技开发有限公司 图像处理方法及装置、网络训练方法及装置
CN109934177A (zh) 2019-03-15 2019-06-25 艾特城信息科技有限公司 行人再识别方法、***及计算机可读存储介质
CN110062164B (zh) 2019-04-22 2021-10-26 深圳市商汤科技有限公司 视频图像处理方法及装置
CN110189249B (zh) 2019-05-24 2022-02-18 深圳市商汤科技有限公司 一种图像处理方法及装置、电子设备和存储介质
CN110675355B (zh) 2019-09-27 2022-06-17 深圳市商汤科技有限公司 图像重建方法及装置、电子设备和存储介质
CN111259720B (zh) 2019-10-30 2023-05-26 北京中科研究院 基于自监督代理特征学习的无监督行人重识别方法
CN111553267B (zh) 2020-04-27 2023-12-01 腾讯科技(深圳)有限公司 图像处理方法、图像处理模型训练方法及设备
CN112131970A (zh) 2020-09-07 2020-12-25 浙江师范大学 一种基于多通道时空网络和联合优化损失的身份识别方法
CN112560604A (zh) 2020-12-04 2021-03-26 中南大学 一种基于局部特征关系融合的行人重识别方法

Also Published As

Publication number Publication date
JP2023523502A (ja) 2023-06-06
US20240221346A1 (en) 2024-07-04
JP7403673B2 (ja) 2023-12-22

Similar Documents

Publication Publication Date Title
WO2022213717A1 (zh) 模型训练方法、行人再识别方法、装置和电子设备
CN113378784B (zh) 视频标签推荐模型的训练方法和确定视频标签的方法
CN113222916B (zh) 采用目标检测模型检测图像的方法、装置、设备和介质
JP7417759B2 (ja) ビデオ認識モデルをトレーニングする方法、装置、電子機器、記憶媒体およびコンピュータプログラム
WO2022121150A1 (zh) 基于自注意力机制和记忆网络的语音识别方法及装置
CN111382555B (zh) 数据处理方法、介质、装置和计算设备
KR20220125672A (ko) 비디오 분류 방법, 장치, 기기 및 기록 매체
CN111488489A (zh) 视频文件的分类方法、装置、介质及电子设备
CN114820871B (zh) 字体生成方法、模型的训练方法、装置、设备和介质
US20240221401A1 (en) Method of training video tag recommendation model, and method of determining video tag
CN112528658B (zh) 层次化分类方法、装置、电子设备和存储介质
CN112348111A (zh) 视频中的多模态特征融合方法、装置、电子设备及介质
US20230215203A1 (en) Character recognition model training method and apparatus, character recognition method and apparatus, device and storage medium
Huu et al. Proposing a Recognition System of Gestures Using MobilenetV2 Combining Single Shot Detector Network for Smart‐Home Applications
CN116363459A (zh) 目标检测方法、模型训练方法、装置、电子设备及介质
KR20220116331A (ko) 모델 트레이닝 방법, 보행자 재인식 방법, 장치 및 전자 기기
CN114898266A (zh) 训练方法、图像处理方法、装置、电子设备以及存储介质
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN113177483B (zh) 视频目标分割方法、装置、设备以及存储介质
CN113239215B (zh) 多媒体资源的分类方法、装置、电子设备及存储介质
CN114973333A (zh) 人物交互检测方法、装置、设备以及存储介质
CN113821687A (zh) 一种内容检索方法、装置和计算机可读存储介质
CN115131709B (zh) 视频类别预测方法、视频类别预测模型的训练方法及装置
CN113553863B (zh) 文本生成方法、装置、电子设备和存储介质
US20220343154A1 (en) Method, electronic device, and computer program product for data distillation

Legal Events

Date Code Title Description
WITB Written withdrawal of application