KR20220098312A - 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체 - Google Patents

이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체 Download PDF

Info

Publication number
KR20220098312A
KR20220098312A KR1020217019260A KR20217019260A KR20220098312A KR 20220098312 A KR20220098312 A KR 20220098312A KR 1020217019260 A KR1020217019260 A KR 1020217019260A KR 20217019260 A KR20217019260 A KR 20217019260A KR 20220098312 A KR20220098312 A KR 20220098312A
Authority
KR
South Korea
Prior art keywords
human
human body
predetermined
image
body part
Prior art date
Application number
KR1020217019260A
Other languages
English (en)
Inventor
바이룬 왕
쉐썬 장
춘야 류
징환 천
솨이 이
Original Assignee
센스타임 인터내셔널 피티이. 리미티드.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 센스타임 인터내셔널 피티이. 리미티드. filed Critical 센스타임 인터내셔널 피티이. 리미티드.
Priority claimed from PCT/IB2021/053563 external-priority patent/WO2022144605A1/en
Publication of KR20220098312A publication Critical patent/KR20220098312A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F3/00Board games; Raffle games
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체를 제공한다. 당해 방법은 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출한다. 상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행한다. 상기 이미지에 포함된 인체 대상에 대해 분할을 실행하고, 분할하여 얻어진 각 상기 인체 대상에 대응하는 영역에 기반하여, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 인체 대상을 확정한다. 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 인체 대상에 기반하여, 상기 사람 얼굴 대상과 상기 소정의 인체 부위 대상 사이의 제1 관련성 예측 결과를 조정하고, 조정 후의 상기 제1 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정한다.

Description

이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체
[관련 출원들의 상호 참조 인용]
본 발명은 출원일이 2020년 12월 31일이고, 출원 번호가 10202013267T인 싱가포르 특허 출원의 우선권을 주장하는바, 당해 싱가포르 특허 출원의 모든 내용을 참조로 본원에 통합시킨다.
[기술분야]
본 발명은 컴퓨터 기술에 관한 것인바, 구체적으로는 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체에 관한 것이다.
지능형 비디오 분석 기술은 인간이 물리적 공간 내의 대상의 상태 및 대상 사이의 관계를 이해하는 데에 도움이 된다. 지능형 비디오 분석의 하나의 응용 장면에 있어서, 비디오에 등장하는 인체 부위에 기반하여 당해 부위에 대응하는 사람의 신분을 인식할 필요가 있다.
구체적으로, 먼저 식별이 용이한 제1 인체 부위와 사람의 신분을 대응시킨다. 상기의 대응 관계가 유지된 후, 비디오에 등장하는 제2 인체 부위와 서로 관련 대상인 제1 인체 부위를 확정하고, 확정된 제1 인체 부위에 기반하여 당해 제2 인체 부위에 대응하는 사람의 신분을 인식할 수 있다. 여기서, 관련 대상이란, 같은 사람에 속하는 제1 인체 부위와 제2 인체 부위를 의미한다. 두 개의 인체 부위가 서로 관련 대상인 것은 상기의 각 인체 부위가 한 사람에 속하는 것으로 간주할 수 있다.
이미지 내의 인체 부위를 관련시킴으로써, 또한 복수의 사람의 장면에서의 개인의 행동과 상태 및 복수의 인간 관계를 분석하는데도 도움이 된다. 예를 들면, 이미지 내에서 검출된 복수의 사람 얼굴 대상 및 복수의 사람 손 대상 중에서 한 사람에 속하는 사람 얼굴 대상과 사람 손 대상을 확정할 수 있다. 한 사람에 속하는 사람 얼굴 대상과 사람 손 대상을 확정한 후, 사람 손 대상과 관련되어 있는 사람 얼굴 대상에 기반하여, 당해 사람 손 대상을 이용하여 소정의 동작을 실행하는 사람 또는 소정의 영역에 접촉한 사람의 신분 정보를 확정할 수 있다.
이를 감안하여, 본 발명은 이미지 내 관련 대상 검출 방법을 개시하는바, 상기 방법은 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하는 것 - 상기 소정의 인체 부위 대상은 사람 얼굴과 사람 손 사이의 신체 연결부 중의 소정의 인체 부위를 나타냄 -; 상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하여, 상기 사람 얼굴 대상과 상기 소정의 인체 부위 대상의 제1 관련성 예측 결과, 상기 소정의 인체 부위 대상과 상기 사람 손 대상의 제2 관련성 예측 결과 및 상기 사람 얼굴 대상과 상기 사람 손 대상의 제3 관련성 예측 결과를 얻는 것; 상기 이미지에 포함된 인체 대상에 대해 분할을 실행하고, 분할하여 얻어진 각 상기 인체 대상에 대응하는 영역에 기반하여, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 속하는 제1 인체 대상 및 제2 인체 대상을 확정하는 것; 및 상기 제1 인체 대상 및 상기 제2 인체 대상에 기반하여 상기 제1 관련성 예측 결과를 조정하고, 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여, 상기 이미지 내의 관련 대상을 확정하는 것을 포함한다.
나타낸 몇몇의 실시예에 있어서, 상기 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하는 것은, 이미지 내의 사람 얼굴 대상의 제1 바운딩 박스 및 소정의 인체 부위 대상의 제2 바운딩 박스를 검출하는 것을 포함하고, 상기 분할하여 얻어진 각 상기 인체 대상에 대응하는 영역에 기반하여 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정하는 것은, 상기 제1 바운딩 박스에 기반하여 상기 사람 얼굴 대상에 대응하는 영역과 각 상기 인체 대상에 대응하는 영역 사이의 제1 중복 영역을 확정하는 것; 상기 제2 바운딩 박스에 기반하여 상기 소정의 인체 부위 대상에 대응하는 영역과 각 상기 인체 대상에 대응하는 영역 사이의 제2 중첩 범위를 확정하는 것; 및 상기 제1 중첩 범위 및 상기 제2 중첩 범위에 기반하여, 상기 사람 얼굴 대상이 속하는 제1 인체 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정하는 것을 포함한다.
나타낸 몇몇의 실시예에 있어서, 상기 제1 중첩 범위 및 상기 제2 중첩 범위에 기반하여 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정하는 것은, 각 상기 인체 대상에 각각 대응하는 영역 중에서 상기 사람 얼굴 대상에 대응하는 영역과의 제1 중첩 범위가 최대인 제1 목표 영역을 확정하는 것; 각 상기 인체 대상에 각각 대응하는 영역 중에서 상기 소정의 인체 부위 대상에 대응하는 영역과의 제2 중첩 범위가 최대인 제2 목표 영역을 확정하는 것; 상기 제1 목표 영역에 대응하는 인체 대상을 상기 사람 얼굴 대상이 속하는 제1 인체 대상으로 확정하는 것; 및 상기 제2 목표 영역에 대응하는 인체 대상을 상기 소정의 인체 부위 대상이 속하는 제2 인체 대상으로 확정하는 것을 포함한다.
나타낸 몇몇의 실시예에 있어서, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상에 기반하여, 상기 제1 관련성 예측 결과를 조정하는 것은, 제1 인체 대상과 제2 인체 대상을 매칭하여 매칭 결과를 얻는 것; 및 상기 매칭 결과에 기반하여 상기 제1 관련성 예측 결과를 조정하는 것을 포함한다.
나타낸 몇몇의 실시예에 있어서, 상기 매칭 결과에 기반하여 상기 제1 관련성 예측 결과를 조정하는 것은, 상기 제1 인체 대상과 상기 제2 인체 대상이 매칭될 경우, 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어를 증가시키는 것; 및/또는 상기 제1 인체 대상과 상기 제2 인체 대상이 매칭되지 않을 경우, 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어를 감소시키는 것을 포함한다.
나타낸 몇몇의 실시예에 있어서, 상기 방법은 검출된 상기 사람 얼굴 대상, 상기 소정의 인체 부위 대상 및 상기 사람 손 대상을 결합시켜 하나의 사람 얼굴 대상, 하나의 인체 부위 대상 및 하나의 사람 손 대상을 포함하는 삼요소 세트를 적어도 하나 생성하는 것을 더 포함하며, 상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하는 것은, 각 삼요소 세트 중의 각 두 개의 대상에 대해 관련성 예측을 실행하는 것을 포함하고, 상기 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여, 상기 이미지 내의 관련 대상을 확정하는 것은, 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여 각 삼요소 세트에 대응하는 제4 관련성 예측 결과를 확정하는 것; 및 각 삼요소 세트에 대응하는 제4 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정하는 것을 포함한다.
나타낸 몇몇의 실시예에 있어서, 상기 각 삼요소 세트에 대응하는 제4 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정하는 것은, 각 삼요소 세트에 대응하는 상기 제4 관련성 예측 결과 중의 관련성 예측 스코어의 내림차순에 따라, 각 삼요소 세트를 순서대로 현재의 삼요소 세트로 확정하고, 이하의 조작을 실행하는 것을 포함하되, 당해 조작은, 이미 확정된 관련 대상에 기반하여, 현재의 삼요소 세트에 포함된 사람 얼굴 대상과 서로 관련 대상인 관련 사람 손 대상의 수량이 제1 소정의 한계값에 달하였는지 여부를 확정하고, 또한 현재의 삼요소 세트에 포함된 사람 손 대상과 서로 관련 대상인 관련 사람 얼굴 대상의 수량이 제2 소정의 한계값에 달하였는지 여부를 확정하는 것; 상기 관련 사람 손 대상의 수량이 상기 제1 소정의 한계값에 달하지 않은 동시에, 상기 관련 사람 얼굴 대상의 수량이 상기 제2 소정의 한계값에 달하지 않으면, 현재의 삼요소 세트에 포함된 사람 얼굴 대상과 사람 손 대상을 상기 이미지 내의 관련 대상으로 확정하는 것을 포함한다.
나타낸 몇몇의 실시예에 있어서, 상기 소정의 인체 부위 대상은 어깨 대상 및 팔꿈치 대상 중의 적어도 하나를 포함한다.
나타낸 몇몇의 실시예에 있어서, 상기 방법은, 상기 이미지 내의 관련 대상의 검출 결과를 출력하는 것을 더 포함한다.
나타낸 몇몇의 실시예에 있어서, 상기 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하는 것은, 신경망에 기반하여 구축한 대상 검출 모델을 이용하여, 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하는 것을 포함한다. 상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하는 것은, 신경망에 기반하여 구축한 관련성 예측 모델을 이용하여, 상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하는 것을 포함하고, 상기 이미지에 포함된 인체 대상에 대해 분할을 실행하는 것은, 신경망에 기반하여 구축한 인스턴스 분할 모델을 이용하여 상기 이미지에 포함된 인체 대상에 대해 분할을 실행하는 것을 포함한다.
나타낸 몇몇의 실시예에 있어서, 상기 방법은, 제1 훈련 샘플 세트에 기반하여 상기 대상 검출 모델을 훈련하는 것; 제2 훈련 샘플 세트에 기반하여 상기 인스턴스 분할 모델을 훈련하는 것; 및 제3 훈련 샘플 세트에 기반하여, 상기 대상 검출 모델, 상기 인스턴스 분할 모델 및 상기 관련성 예측 모델에 대해 공동 훈련을 실행하는 것을 포함하되, 여기서, 상기 제1 훈련 샘플 세트는 제1 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하고, 상기 제1 라벨링 정보는 사람 얼굴 대상, 상기 소정의 신체 부위 대상 및 사람 손 대상의 바운딩 박스를 포함하며, 상기 제2 훈련 샘플 세트는 제2 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하고, 상기 제2 라벨링 정보는 인체 대상의 바운딩 박스를 포함하며, 상기 제3 훈련 샘플 세트는 제3 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하고, 상기 제3 라벨링 정보는 사람 얼굴 대상, 소정의 신체 부위 대상과 사람 손 대상 및 인체 대상에 각각 대응하는 바운딩 박스, 사람 얼굴 대상과 소정의 신체 부위 대상 사이의 관련성 라벨링 정보, 소정의 신체 부위 대상과 사람 손 대상 사이의 관련성 라벨링 정보 및 사람 얼굴 대상과 사람 손 대상 사이의 관련성 라벨링 정보를 포함한다.
본 발명은 이미지 내 관련 대상 검출 장치를 더 제공하는바, 상기 장치는, 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하기 위한 대상 검출 모듈 - 상기 소정의 인체 부위 대상은 사람 얼굴과 사람 손 사이의 신체 연결부 중의 소정의 인체 부위를 나타냄 -; 상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하여, 상기 사람 얼굴 대상과 상기 소정의 인체 부위 대상의 제1 관련성 예측 결과, 상기 소정의 인체 부위 대상과 상기 사람 손 대상의 제2 관련성 예측 결과 및 상기 사람 얼굴 대상과 상기 사람 손 대상의 제3 관련성 예측 결과를 얻기 위한 관련성 예측 모듈; 상기 이미지에 포함된 인체 대상에 대해 분할을 실행하고, 분할하여 얻어진 각 상기 인체 대상에 대응하는 영역에 기반하여, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정하기 위한 귀속 관계 확정 모듈; 및 제1 인체 대상 및 제2 인체 대상에 기반하여 상기 제1 관련성 예측 결과를 조정하고, 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여, 상기 이미지 내의 관련 대상을 확정하기 위한 관련 대상 확정 모듈을 구비한다.
나타낸 몇몇의 실시예에 있어서, 상기 대상 검출 모듈은 구체적으로, 이미지 내의 사람 얼굴 대상 및 소정의 인체 부위 대상에 각각 대응하는 제1 바운딩 박스 및 제2 바운딩 박스를 검출하고, 상기 귀속 관계 확정 모듈은, 제1 바운딩 박스에 기반하여 상기 사람 얼굴 대상에 대응하는 영역과 각 상기 인체 대상에 대응하는 영역 사이의 제1 중첩 범위를 확정하며, 제2 바운딩 박스에 기반하여 상기 소정의 인체 대상에 대응하는 영역과 각 상기 인체 대상에 대응하는 영역 사이의 제2 중첩 범위를 확정하기 위한 중첩 범위 확정 모듈; 및 상기 제1 중첩 범위 및 제2 중첩 범위에 기반하여 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정하기 위한 귀속 관계 확정 서브 모듈을 구비한다.
나타낸 몇몇의 실시예에 있어서, 상기 귀속 관계 확정 서브 모듈은 구체적으로, 각 상기 인체 대상에 각각 대응하는 영역 중에서 상기 사람 얼굴 대상에 대응하는 영역과의 제1 중첩 범위가 최대인 제1 목표 영역을 확정하고, 각 상기 인체 대상에 각각 대응하는 영역 중에서 상기 소정의 인체 부위 대상에 대응하는 영역과의 제2 중첩 범위가 최대인 제2 목표 영역을 확정하며, 상기 제1 목표 영역에 대응하는 인체 대상을 상기 사람 얼굴 대상이 속하는 제1 인체 대상으로 확정하고, 상기 제2 목표 영역에 대응하는 인체 대상을 상기 소정의 인체 부위 대상이 속하는 제2 인체 대상으로 확정한다.
나타낸 몇몇의 실시예에 있어서, 상기 관련 대상 확정 모듈은 구체적으로, 상기 제1 인체 대상과 위 제2 인체 대상을 매칭하고, 매칭 결과를 얻고, 상기 매칭 결과에 기반하여 상기 제1 관련성 예측 결과를 조정한다.
나타낸 몇몇의 실시예에 있어서, 상기 관련 대상 확정 모듈은, 상기 제1 인체 대상과 상기 제2 인체 대상이 매칭될 경우, 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어를 증가시키고, 및/또는 상기 제1 인체 대상과 상기 제2 인체 대상이 매칭되지 않을 경우, 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어를 감소시킨다.
나타낸 몇몇의 실시예에 있어서, 상기 장치는 검출된 상기 사람 얼굴 대상, 상기 소정의 인체 부위 대상 및 상기 사람 손 대상을 결합시켜 하나의 사람 얼굴 대상, 하나의 인체 부위 대상 및 하나의 사람 손 대상을 포함하는 삼요소 세트를 적어도 하나 생성하기 위한 조합 모듈을 더 구비한다. 상기 관련성 예측 모듈은 구체적으로, 각 삼요소 세트 중의 각 두 개의 대상에 대해 관련성 예측을 실행하여, 상기 관련 대상 확정 모듈은 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여 각 삼요소 세트에 대응하는 제4 관련성 예측 결과를 확정하기 위한 삼요소 세트 관련 관계 예측 모듈; 및 각 삼요소 세트에 대응하는 제4 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정하는 관련 대상 확정 서브 모듈을 구비한다.
나타낸 몇몇의 실시예에 있어서, 상기 관련 대상 확정 서브 모듈은 구체적으로, 각 삼요소 세트에 대응하는 상기 제4 관련성 예측 결과 중의 관련성 예측 스코어의 내림차순에 따라, 각 삼요소 세트를 순서대로 현재의 삼요소 세트로 확정하여, 이하의 조작을 실행하되, 당해 조작은, 이미 확정된 관련 대상에 기반하여, 현재의 삼요소 세트에 포함된 사람 얼굴 대상과 서로 관련 대상인 관련 사람 손 대상의 수량이 제1 소정의 한계값에 달하였는지 여부를 확정하고, 또한 현재의 삼요소 세트에 포함된 사람 손 대상과 서로 관련 대상인 관련 사람 얼굴 대상의 수량이 제2 소정의 한계값에 달하였는지 여부를 확정하며, 상기 관련 사람 손 대상의 수량이 상기 제1 소정의 한계값에 달하지 않은 동시에, 현재의 삼요소 세트에 포함된 사람 손 대상과 관련되어 있는 관련 사람 얼굴 대상의 수량이 상기 제2 소정의 한계값에 달하지 않으면, 현재의 삼요소 세트에 포함된 사람 얼굴 대상과 사람 손 대상을 상기 이미지 내의 관련 대상으로 확정한다.
나타낸 몇몇의 실시예에 있어서, 상기 소정의 인체 부위 대상은 어깨 대상 및 팔꿈치 대상 중의 적어도 하나를 포함한다.
나타낸 몇몇의 실시예에 있어서, 상기 장치는 상기 이미지 내의 관련 대상의 검출 결과를 출력하기 위한 출력 모듈을 더 구비한다.
나타낸 몇몇의 실시예에 있어서, 상기 대상 검출 모듈은 구체적으로, 신경망에 기반하여 구축한 대상 검출 모델을 이용하여, 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하고, 상기 관련성 예측 모듈은 구체적으로, 신경망에 기반하여 구축한 관련성 예측 모델을 이용하여, 상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하며, 상기 귀속 관계 확정 모듈은 구체적으로, 신경망에 기반하여 구축한 인스턴스 분할 모델을 이용하여 상기 이미지에 포함된 인체 대상에 대해 분할을 실행한다.
나타낸 몇몇의 실시예에 있어서, 상기 장치는, 제1 훈련 샘플 세트에 기반하여 상기 대상 검출 모델을 훈련하기 위한 제1 훈련 모듈; 제2 훈련 샘플 세트에 기반하여 상기 인스턴스 분할 모델을 훈련하기 위한 제2 훈련 모듈; 및 제3 훈련 샘플 세트에 기반하여 상기 대상 검출 모델, 상기 인스턴스 분할 모델 및 상기 관련성 예측 모델에 대해, 공동 훈련을 실행하기 위한 공동 훈련 모듈을 구비하되, 여기서, 상기 제1 훈련 샘플 세트는 제1 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하고, 상기 제1 라벨링 정보는 사람 얼굴 대상, 상기 소정의 신체 부위 대상 및 사람 손 대상의 바운딩 박스를 포함하며, 상기 제2 훈련 샘플 세트는 제2 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하고, 상기 제2 라벨링 정보는 인체 대상의 바운딩 박스를 포함하며, 상기 제3 훈련 샘플 세트는 제3 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하고, 상기 제3 라벨링 정보는 사람 얼굴 대상, 소정의 신체 부위 대상과 사람 손 대상 및 인체 대상에 각각 대응하는 바운딩 박스, 사람 얼굴 대상과 소정의 신체 부위 대상 사이의 관련성 라벨링 정보, 소정의 신체 부위 대상과 사람 손 대상 사이의 관련성 라벨링 정보 및 사람 얼굴 대상과 사람 손 대상 사이의 관련성 라벨링 정보를 포함한다.
본 발명은 전자 디바이스를 더 제공하는바, 상기 디바이스는 프로세서; 및 상기 프로세서에 의해 실행 가능한 명령을 저장하기 위한 메모리를 구비하며, 여기서, 상기 프로세서는 상기 메모리에 저장된 실행 가능 명령을 호출하여, 상기의 임의의 실시예에 나타낸 이미지 내 관련 대상 검출 방법을 구현하도록 구성된다.
본 발명은 컴퓨터 판독 가능 기록 매체를 더 제공하는바, 상기 기록 매체에는 컴퓨터 프로그램이 기억되어 있으며, 상기 컴퓨터 프로그램은 상기의 임의의 실시예에 나타낸 이미지 내 관련 대상 검출 방법을 실행한다.
상기 방법의 기술적 해결책에 있어서, 한편으로는, 사람 손 대상에 밀접하게 관련되는 소정의 인체 부위를 매개로서 사용함으로써, 사람 얼굴 대상과 당해 소정의 인체 부위 사이의 제1 관련성 예측 결과, 당해 소정의 인체 부위와 사람 손 대상 사이의 제2 관련성 예측 결과 및 사람 얼굴 대상과 사람 손 대상 사이의 제3 관련성 예측 결과를 각각 확정한다. 그 다음, 또한 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여, 상기 이미지 내의 관련 대상을 확정함으로써, 관련 대상을 확정하는 과정에서 간섭 정보가 상대적으로 적게 인입되고, 관련성을 가지는 사람 얼굴 대상과 사람 손 대상의 확정 결과의 정밀도를 보증한다.
다른 한편으로는, 상기 이미지에 포함된 인체 대상에 대해 분할을 실행한 결과에 기반하여 사람 얼굴 대상과 당해 소정의 인체 부위 사이의 제1 관련성 예측 결과에 대해 최적화를 실행함으로써, 사람 얼굴 대상과 당해 소정의 인체 부위 사이의 관련성 예측 결과가 더 정확해지도록 하고, 또한 관련 대상 확정 결과의 정밀도를 향상시킨다.
상기의 일반적인 서술과 이하의 세부 서술은 예시적 및 설명적인 것에 지나지 않으며, 본 발명에 대한 한정이 아님을 이해해야 한다.
이하, 본 발명의 하나 또는 복수의 실시예의 기술적 해결책을 더 명확히 설명하기 위하여, 실시예의 설명에 필요한 도면을 간단히 소개한다. 분명히, 이하의 설명에 있어서의 도면은 본 발명의 하나 또는 복수의 실시예에 기재된 몇몇의 실시예에 지나지 않으며, 당업자는 발명적인 노력을 가하지 않고 이러한 도면에 기반하여 기타 도면을 얻을 수 있다.
도 1은 본 발명에 관한 이미지 내 관련 대상 검출 방법을 나타내는 플로우 챠트이다.
도 2는 본 발명에 관한 관련 대상 검출 방법을 나타내는 모식도이다.
도 3은 본 발명에 관한 대상 검출 플로우를 나타내는 모식도이다.
도 4는 본 발명에 관한 관련성 예측 플로우를 나타내는 모식도이다.
도 5는 본 발명에 관한 관련성 예측 플로우를 나타내는 모식도이다.
도 6은 본 발명에 관한 이미지 분할 플로우를 나타내는 모식도이다.
도 7은 본 발명의 실시예에 따른 모델 훈련 방법의 플로우를 나타내는 모식도이다.
도 8은 본 발명에 관한 이미지 내 관련 대상 검출 장치를 나타내는 구성도이다.
도 9는 본 발명에 관한 전자 디바이스의 하드웨어를 나타내는 구성도이다.
이하, 예시적인 실시예를 상세하게 설명하며, 그 예를 도면에 나타낸다. 이하의 설명이 도면을 언급할 경우, 특별히 명기하지 않는 한, 서로 다른 도면 내의 동일한 숫자는 동일 또는 유사한 요소를 나타낸다. 이하의 예시적인 실시예에서 서술되는 실시 형태는 본 발명과 일치한 모든 실시 형태를 대표하지 않는다. 반대로, 이들은 첨부된 특허 청구 범위에 기재된 본 발명의 몇몇의 양태와 일치하는 장치 및 방법의 예에 지나지 않는다.
본 발명으로 사용되는 용어는 특정 실시예를 설명하는 것만을 목적으로 하고 있는바, 본 발명을 한정하는 것을 의도하는 것이 아니다. 본 발명 및 첨부의 특허 청구 범위에서 사용되는 "일종", "상기", "당해" 등의 단수형은 문맥이 다른 의미를 명확히 나타내지 않는 한, 복수형도 포함하는 것을 의도하고 있다. 본 명세서에서 사용되는 "및/또는"이라는 용어는 하나 또는 복수의 관련되게 열거된 아이템의 임의의 하나 또는 모든 가능한 조합을 포함하는 것을 나타냄을 이해해야 한다. 문맥에 따라 본 명세서에서 사용되는 "만약"이라는 단어는 "… 경우", "… 면" 또는 "… 것에 응답하여"라고 해석될 수 있음을 더 이해해야 한다.
본 발명은 이미지 내 관련 대상 검출 방법(이하, 관련 대상 검출 방법과 약칭함)을 제안하는 것을 의도하고 있다. 한편으로는, 당해 방법은, 사람 손 대상에 밀접하게 관련되는 소정의 인체 부위를 매개로서 사용함으로써, 사람 얼굴 대상과 당해 소정의 인체 부위 사이의 제1 관련성 예측 결과, 당해 소정의 인체 부위와 사람 손 대상 사이의 제2 관련성 예측 결과 및 사람 얼굴 대상과 사람 손 대상 사이의 제3 관련성 예측 결과를 각각 확정한다. 그 다음, 또한 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여, 상기 이미지 내의 관련 대상을 확정함으로써, 관련 대상을 확정하는 과정에서 간섭 정보가 상대적으로 적게 인입되고, 관련성을 가지는 사람 얼굴 대상과 사람 손 대상의 확정 결과의 정밀도를 보증한다.
다른 한편으로는, 당해 방법은, 상기 이미지에 포함된 인체 대상에 대해 분할을 실행한 결과에 기반하여 사람 얼굴 대상과 당해 소정의 인체 부위 사이의 제1 관련성 예측 결과에 대해 최적화를 실행함으로써, 사람 얼굴 대상과 당해 소정의 인체 부위 사이의 관련성 예측 결과가 더 정확해지도록 하고, 또한 관련 대상 확정 결과의 정밀도를 향상시킨다.
도 1을 참조하면, 도 1은 본 발명에 관한 이미지 내 관련 대상 검출 방법의 플로우 챠트이다. 도 1에 나타낸 바와 같이, 상기 방법은 이하의 단계를 포함할 수 있다.
S102에 있어서, 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하되, 상기 소정의 인체 부위 대상은 사람 얼굴과 사람 손 사이의 신체 연결부 중의 소정의 인체 부위를 나타낸다.
S104에 있어서, 상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하여, 상기 사람 얼굴 대상과 상기 소정의 인체 부위 대상의 제1 관련성 예측 결과, 상기 소정의 인체 부위 대상과 상기 사람 손 대상의 제2 관련성 예측 결과 및 상기 사람 얼굴 대상과 상기 사람 손 대상의 제3 관련성 예측 결과를 얻는다.
S106에 있어서, 상기 이미지에 대해 분할을 실행하여 적어도 하나의 인체 대상을 확정하고, 분할하여 얻어진 각 상기 적어도 하나의 인체 대상에 대응하는 영역에 기반하여, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정한다.
S108에 있어서, 상기 제1 인체 대상 및 상기 제2 인체 대상에 기반하여 상기 제1 관련성 예측 결과를 조정하고, 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정한다.
상기 관련 대상 검출 방법은 전자 디바이스에 적용될 수 있다. 여기서, 상기 전자 디바이스는 관련 대상 검출 방법에 대응하는 소프트웨어 시스템을 탑재하여, 상기 관련 대상 검출 방법을 실행할 수 있다. 본 발명의 실시예에 있어서, 상기 전자 디바이스의 유형은 노트 PC, 컴퓨터, 서버, 휴대 전화, PAD 단말 등일 수 있는바, 본 발명에서는 특별히 한정하지 않는다.
상기 관련 대상 검출 방법은 단말 디바이스 또는 서비스 측 디바이스만에 의해 실행 가능하거나, 또는 단말 디바이스와 서비스 측 디바이스가 협동으로 실행 가능함을 이해해야 한다.
예를 들면, 상기 관련 대상 검출 방법은 클라이언트에게 통합될 수 있다. 당해 클라이언트를 탑재하는 단말 디바이스는 관련 대상 검출 요구를 수신한 후, 자체의 하드웨어 환경을 통해 계산 능력을 제공하여 상기 관련 대상 검출 방법을 실행할 수 있다.
또한, 예를 들면, 상기 관련 대상 검출 방법은 시스템 플랫폼에 통합될 수 있다. 당해 시스템 플랫폼을 탑재하는 서비스 측 디바이스는 관련 대상 검출 요구를 수신한 후, 자체의 하드웨어를 통해 계산 능력을 제공하여 상기 관련 대상 검출 방법을 실행할 수 있다.
또한, 예를 들면, 상기 관련 대상 검출 방법은, 이미지를 취득하는 것; 이미지에 대해 관련 대상 검출을 실행하는 것과 같은 두 개의 태스크로 나뉠 수 있다. 여기서, 취득 태스크는 클라이언트에 통합되어 단말 디바이스에 탑재될 수 있다. 관련 대상 검출 태스크는 서비스 측에 통합되어 서비스 측 디바이스에 탑재될 수 있다. 상기 클라이언트는 이미지를 취득한 후, 상기 서비스 측 디바이스에 관련 대상 검출 요구를 송신할 수 있다. 상기 서비스 측 디바이스는 상기 요구를 수신한 후, 상기 요구에 응답하여, 상기 이미지에 대해 상기 관련 대상 검출 방법을 실행할 수 있다.
이하, 실행 주체가 전자 디바이스(이하 디바이스로 약칭함)인 예를 들어 설명한다.
도 2를 참조하면, 도 2는 본 발명에 관한 관련 대상 검출 방법의 모식도이다.
도 2에 나타낸 바와 같이, 도 2에 나타낸 방법에 있어서, 이미지 내에 포함되어 있는 관련성을 가지는 사람 얼굴 대상과 사람 손 대상을 확정할 수 있다.
여기서, 상기 이미지란, 화상 처리를 실행할 필요가 있는 이미지를 가리킨다. 당해 이미지 내에는 몇몇의 피검출 대상이 포함될 수 있다. 예를 들면, 보드 게임의 장면에 있어서, 상기 이미지는 보드를 둘러싸고 있는 몇몇의 인체 대상과, 인체 상의 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 포함할 수 있다.
몇몇의 예에 있어서, 상기 이미지를 취득할 때에, 상기 디바이스는 사용자와 대화하여 이미지의 입력을 완료할 수 있다. 예를 들면, 상기 디바이스는 그 자체에 탑재되어 있는 인터페이스를 통하여 사용자에게 처리 대기 이미지를 입력하는 윈도우를 제공함으로써, 사용자가 이미지를 입력하도록 할 수 있다. 사용자는 당해 윈도우를 이용하여 이미지의 입력을 완성할 수 있다.
몇몇의 예에 있어서, 상기 디바이스는 현장에 배치된 이미지 수집 디바이스와 접속되어 상기 이미지 수집 디바이스로부터 당해 디바이스에 의해 수집된 이미지를 취득할 수 있다.
계속하여 도 2를 참조하면, 상기 디바이스는 이미지를 취득한 후, 상기S102를 실행할 수 있고, 이미지 내에 포함된 사람 얼굴 대상, 사람 얼굴과 사람 손 사이의 신체 연결부 중의 소정의 인체 부위를 나타내는 소정의 인체 부위 대상 및 사람 손 대상을 검출한다.
여기서, 사람 얼굴과 사람 손 사이의 신체 연결부는 목부, 어깨부, 팔 및 손목을 포함한다. 상기 소정의 인체 부위 대상은 구체적으로 상기 신체 연결부 중의 임의의 신체 부위를 나타낸다. 몇몇의 예에 있어서, 관련성 예측 정밀도를 향상시키기 위하여, 상기 소정의 인체 부위 대상은 인체 관절 검출의 방법을 통해 상대적으로 용이하게 검출할 수 있는 관절 부위일 수 있는바, 예를 들면 어깨 대상 및 팔꿈치 대상 중의 적어도 하나일 수 있다. 다른 몇몇의 예에 있어서, 상기 소정의 인체 부위 대상은 또한 윗 팔, 아래 팔, 손목 등의 부위를 가리킬 수 있다. 이렇게 하여, 소정의 인체 부위 대상을 매개로서, 거리가 상대적으로 먼 사람 얼굴 대상과 사람 손 대상을 더 정확하게 관련시킬 수 있다.
본 단계에 있어서, 상기 이미지를 대상 검출 모델에 입력하여 계산을 실행함으로써, 상기 이미지에 포함된 사람 얼굴 대상, 사람 손 대상 및 상기 소정의 인체 부위 대상에 각각 대응하는 바운딩 박스를 검출할 수 있다. 이미지 내에 포함된 각 대상에 대응하는 바운딩 박스를 검출하는 것은, 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하는 것으로 간주할 수 있음을 이해해야 한다.
상기 대상 검출 모델은 대상을 검출하기 위한 심층 컨볼루션 네트워크 모델일 수 있다. 예를 들면, 상기 대상 검출 모델은 RCNN(Region Convolutional Neural Networks, 영역 컨볼루션 신경망) 네트워크, FAST-RCNN(Fast Region Convolutional Neural Networks, 고속 영역 컨볼루션 신경망) 네트워크 또는 FASTER-RCNN 네트워크에 기반하여 구축한 모델일 수 있다.
실제 적용에 있어서, 당해 대상 검출 모델을 사용하여 대상 검출을 실행하기 전에, 사람 얼굴 대상 바운딩 박스, 사람 손 대상 바운딩 박스 및 소정의 인체 부위 대상 바운딩 박스를 라벨링한 몇몇의 실제 값의 이미지 훈련 샘플을 이용하여 당해 모델이 수렴될 때까지 당해 모델을 훈련할 수 있다.
도 3을 참조하면, 도 3은 본 발명에 나타낸 대상 검출 플로우를 나타내는 모식도이다. 도 3은 대상 검출 플로우를 모식적으로 설명하는 것에 지나지 않으며, 본 발명에 대해 특별히 한정하지 않음을 설명할 필요가 있다.
도 3에 나타낸 바와 같이, 상기 대상 검출 모델은 FASTER-RCNN 네트워크에 기반하여 구축한 모델일 수 있다. 당해 모델은 백본 네트워크(backbone), RPN(Region Proposal Network, 후보 박스 생성 네트워크) 및 RCNN(Region-based Convolutional Neural Network, 영역에 기반한 컨볼루션 신경망)을 적어도 포함할 수 있다.
여기서, 상기 백본 네트워크는 이미지에 대해 몇몇의 컨볼루션 연산을 실행하여 당해 이미지에 대응하는 특징 맵을 얻을 수 있다. 특징 맵을 얻은 후, 특징 맵을 상기RPN네트워크에 입력하여 몇몇의 anchors(앵커 박스)를 얻을 수 있다. 앵커 박스를 얻은 후, 당해 앵커 박스 및 상기 특징 맵을 대응하는 RCNN 네트워크에 입력하여 bbox(bounding boxes, 바운딩 박스) 회귀 및 분류를 실행하고, 사람 얼굴 대상, 사람 손 대상 및 소정의 인체 부위 대상에 각각 대응하는 제1 바운딩 박스 및 제2 바운딩 박스를 얻을 수 있다.
본 단계의 각 바운딩 박스를 얻는 것은, 각 바운딩 박스에 대응하는 위치 정보, 사이즈 정보 등을 얻는 것을 포함할 수 있다. 여기서, 상기 위치 정보는 바운딩 박스의 정점 좌표를 포함할 수 있고, 또한 바운딩 박스의 길이 및 폭 정보를 포함할 수 있음을 이해해야 한다.
사람 얼굴 대상, 사람 손 대상 및 소정의 인체 부위 대상에 각각 대응하는 바운딩 박스를 확정한 후, S104를 실행할 수 있으며, 상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하여, 상기 사람 얼굴 대상과 상기 소정의 인체 부위 대상의 제1 관련성 예측 결과, 상기 소정의 인체 부위 대상과 상기 사람 손 대상의 제2 관련성 예측 결과 및 상기 사람 얼굴 대상과 상기 사람 손 대상의 제3 관련성 예측 결과를 얻는다.
상기 관련성 예측은 구체적으로, 두 개의 인체 부위가 서로 관련 대상인 확률을 예측하는 것을 가리킨다. 여기서, 관련 대상은 한 사람에 속하는 두 개의 인체 부위 대상을 가리킨다.
몇몇의 예에 있어서, 신경망에 기반하여 구축한 관련성 예측 모델을 이용하여 관련성 예측을 실행하여 대응하는 관련성 예측 결과를 얻을 수 있다.
상기 관련성 예측 결과(제1 관련성 예측 결과, 제2 관련성 예측 결과 및 제3 관련성 예측 결과를 포함함)는 구체적으로, 두 개의 인체 부위 사이가 서로 관련 대상인 확률을 가리킨다. 몇몇의 예에 있어서, 관련성 예측 스코어를 이용하여 관련성 예측 결과를 수치화할 수 있다. 관련성 예측 스코어가 높을수록, 관련성 예측 스코어에 대응하는 두 개의 인체 부위가 한 사람에 속할 가능성이 높은 것을 의미한다.
예를 들면, 보드 게임의 장면에 있어서, 이미지 내의 사람 얼굴 대상과 사람 손 대상에 대해 관련성 예측을 실행하는 것은, 관련성 예측 모델에 기반하여 이미지 내에서 검출된 임의의 사람 얼굴 대상과 임의의 사람 손 대상이 서로 관련 대상인 확률을 예측하는 것일 수 있다.
통상의 경우에, 상기 이미지는 복수의 상기 사람 얼굴 대상, 복수의 상기 소정의 인체 부위 대상 및 복수의 상기 사람 손 대상을 포함할 수 있음을 이해해야 한다. 이 경우, 상기 제1 관련성 예측 결과를 확정할 때에, 상기 이미지로부터 검출된 사람 얼굴 대상과 소정의 인체 부위 대상을 임의로 두 개씩 조합하며, 얻어진 각 조합에 대응하는 제1 관련성 예측 결과를 확정할 수 있다. 마찬가지로, 상기 제2 관련성 예측 결과를 확정할 때에, 이미지 내의 소정의 인체 부위 대상과 이미지 내의 사람 손 대상을 임의로 두 개씩 조합하며, 각 조합에 대응하는 제2 관련성 예측 결과를 확정할 수 있다. 상기 제3 관련성 예측 결과를 확정할 때에, 이미지 내의 사람 얼굴 대상과 이미지 내의 사람 손 대상을 임의로 두 개씩 조합하며, 각 조합에 대응하는 제3 관련성 예측 결과를 확정할 수 있다.
몇몇의 예에 있어서, S104를 실행할 때에, 사람 얼굴 대상과 소정의 인체 부위 대상의 관련성, 소정의 인체 부위 대상과 사람 손 대상의 관련성, 및 사람 얼굴 대상과 사람 손 대상의 관련성에 각각 대해 예측을 실행하여, 대응하는 관련성 예측 결과를 얻을 수 있다.
상기의 세 개의 관련성 예측 결과를 확정하는 방법은 서로 참고할 수 있는바, 이하에서는 제1 관련성 예측 결과를 확정하는 예를 들어 설명함을 이해해야 한다.
예를 들면, 먼저 S1042를 실행하고, 검출된 각 사람 얼굴 대상을 각 소정의 인체 부위 대상과 각각 두 개씩 조합하여 복수의 조합 결과를 얻을 수 있다.
본 단계에 있어서, 검출된 각 사람 얼굴 대상, 각 사람 손 대상 및 각 소정의 인체 부위 대상에 대해 각각 식별자를 생성할 수 있다. 여기서, 각 부위 대상에 대응하는 식별자는 당해 부위 대상과 일대일 대응한다. 예를 들면, 사람 얼굴 대상 식별자는 사람 얼굴 대상과 일대일 대응하고, 사람 손 대상 식별자는 사람 손 대상과 일대일 대응한다. 실제 적용에 있어서, 상기 식별자는 부위 번호일 수 있음을 이해해야 한다. 예를 들면, 사람 얼굴 대상 1, 사람 얼굴 대상 2, 사람 손 대상 1, 소정의 인체 부위 대상 1 등일 수 있다.
식별자의 생성이 완료된 후, 식별자(예를 들면, 번호 순서)를 따라 순서대로 각 사람 얼굴 대상을 각 소정의 인체 부위 대상과 조합하여 복수의 조합 결과를 얻을 수 있다.
상기 복수의 조합 결과를 얻은 후, S1044를 실행할 수 있고, 각 조합 결과에 대해, 사람 얼굴 대상과 소정의 인체 부위 대상의 관련성 예측 분기(이하, 제1 분기로 약칭함)를 이용하여 현재 조합 결과 내의 사람 얼굴 대상 및 소정의 인체 부위 대상에 각각 대응하는 영역 특징 및 위치 정보에 기반하여, 당해 사람 얼굴 대상과 당해 소정의 인체 부위 대상에 대해 관련성 예측을 실행하여, 당해 사람 얼굴 대상과 당해 소정의 인체 부위 대상에 대응하는 제1 관련성 예측 결과를 얻을 수 있다.
상기 제1 분기는 구체적으로, 컨볼루션 신경망에 기반하여 구축한 관련성 예측 모델일 수 있다. 당해 관련성 예측 분기는 사람 얼굴 대상 및 소정의 인체 부위 대상에 대해 관련성 예측을 실행하여, 제1 관련성 예측 결과를 얻을 수 있다. 당해 관련성 예측 분기는 완전 결합 계층을 포함할 수 있고, 최종적으로 제1 관련성 예측 스코어를 출력할 수 있음을 이해해야 한다.
본 발명의 몇몇의 실시예에 있어서, 상기 완전 결합 계층은 선성 회귀, 최소 제곱 회귀 등의 회귀 알고리즘에 기반하여 구축한 계산 유닛일 수 있다. 당해 계산 유닛은 영역 특징에 대해 특징 매핑을 실행하여, 대응하는 관련성 예측 스코어 값을 얻을 수 있다. 여기서 영역 특징은 이미지 내의 해당하는 대상이 위치하고 있는 영역(예를 들면, 이미지 내의 대상의 바운딩 박스에 대응하는 영역)의 특징을 나타내는바, 예를 들면 대상이 위치하고 있는 영역의 특징 맵, 픽셀 매트릭스 등을 나타낸다.
실제 적용에 있어서, 상기 제1 분기는 관련성 예측을 실행하기 전에, 사람 얼굴 대상과 소정의 인체 부위 대상의 관련성 라벨링 정보를 가지는 몇몇의 이미지 훈련 샘플에 기반하여 훈련될 수 있다.
상기 사람 얼굴 대상 및 소정의 인체 부위 대상에 대해 훈련을 실행할 때에, 먼저 몇몇의 이미지 훈련 샘플을 구축할 수 있음을 이해해야 한다. 여기서, 상기 몇몇의 이미지 훈련 샘플을 구축할 때에, 먼저 몇몇의 원래의 이미지를 취득할 수 있다. 원래의 이미지를 취득한 후, 라벨링 툴을 이용하여 원래의 이미지 내에 포함되어 있는 사람 얼굴 대상과 소정의 인체 부위 대상을 랜덤으로 조합하여 복수의 조합 결과를 얻을 수 있다. 그 다음, 또한 각 조합 내의 사람 얼굴 대상 및 소정의 인체 부위 대상에 대해 관련성 라벨링을 실행할 수 있다. 몇몇의 예에 있어서, 조합 내의 사람 얼굴 대상과 소정의 인체 부위 대상이 관련성을 가지면(한 사람에게 속함), 1을 라벨링하고, 그렇지 않으면 0을 라벨링할 수 있다. 또는, 원래의 이미지를 라벨링할 때에, 그 중의 각 사람 얼굴 대상 및 각 소정의 인체 부위 대상에 대해 속하는 사람 대상의 정보(예를 들면, 사람 식별자)를 라벨링함으로써, 속하는 사람 대상의 정보가 일치하는지 여부에 의해 조합 내의 사람 얼굴 대상과 소정의 인체 부위 대상이 관련성을 가지는지를 확정할 수 있다.
이미지 훈련 샘플의 구축이 완료된 후, 종래의 모델 훈련 방법을 통해 당해 분기가 수렴될 때까지 상기 제1 분기를 훈련할 수 있다.
도 4를 참조하면, 도 4는 본 발명에 관한 관련성 예측 플로우를 나타내는 모식도이다. 모식적으로, 도 4에 나타낸 제1 분기는 영역 특징 추출 유닛 및 완전 결합 계층을 포함할 수 있다. 여기서, 영역 특징 추출 유닛은 사람 얼굴 대상 바운딩 박스, 소정의 인체 부위 대상 바운딩 박스 및 이미지에 대응하는 특징 맵에 기반하여, 사람 얼굴 대상 및 소정의 인체 부위 대상에 각각 대응하는 영역 특징을 얻을 수 있다.
몇몇의 예에 있어서, 상기 사람 얼굴 대상 및 소정의 인체 부위 대상에 각각 대응하는 영역 특징은 하나의 특징 맵에 집중될 수 있는바, 즉, 하나의 특징 맵에 상기 사람 얼굴 대상과 상기 소정의 인체 부위 대상에 각각 대응하는 특징 부위가 포함될 수 있음을 이해해야 한다. 상기 특징 맵을 얻은 후, 당해 특징 맵에 기반하여 특징 매핑(매트릭스 연산)을 실행하여, 대응하는 관련성 예측 결과를 얻을 수 있다.
다른 몇몇의 예에 있어서, 상기 사람 얼굴 대상 및 소정의 인체 부위 대상에 각각 대응하는 영역 특징은 적어도 두 개의 특징 맵에 분포될 수 있으며, 사람 얼굴 대상 및 소정의 인체 부위 대상에 각각 대응하는 특징 맵을 얻은 후, 사람 얼굴 대상 및 소정의 인체 부위 대상에 대응하는 특징 맵을 완전 결합 계층에 입력하여 특징 접합을 실행하여, 접합된 특징 맵을 얻을 수 있다. 접합된 특징 맵을 얻은 후, 당해 접합된 특징 맵에 기반하여 특징 매핑(매트릭스 연산)을 실행하여, 대응하는 관련성 예측 결과를 얻을 수 있다.
상기 영역 특징 추출 유닛은 ROI Align(Region of interest Align, 관심 영역 특징 얼라인먼트) 유닛, 또는 ROI pooling(Region of interest pooling, 관심 영역 특징 풀링) 유닛일 수 있다.
상기 완전 결합 계층은 구체적으로는 선성 회귀, 최소 제곱 회귀 등의 회귀 알고리즘에 기반하여 구축한 계산 유닛일 수 있다. 당해 계산 유닛은 영역 특징(특징 맵 또는 픽셀 매트릭스)에 대해 매트릭스 연산을 실행하여, 대응하는 관련성 예측 스코어 값을 얻을 수 있다.
상기 제1 분기를 사용하여 예측할 때에, 각 사람 얼굴 대상과 소정의 인체 부위 대상의 조합 결과를 순서대로 현재 조합 결과로 확정한 후, 현재 조합 결과 내의 사람 얼굴 대상 및 소정의 인체 부위 대상에 대응하는 영역 특징을 상기 제1 분기에 입력하여 계산을 실행하고, 현재 조합 결과 내의 사람 얼굴 대상과 소정의 인체 부위 대상 사이의 관련성 예측 스코어(제1 관련성 예측 스코어)를 얻을 수 있다.
몇몇의 예에 있어서, 모델 관련성 예측 정밀도를 향상시키기 위하여, 제1 관련성 예측 스코어 예측을 실행할 때에, 각 조합 결과에 대해 제1 분기를 이용하여, 현재 조합 결과 내의 사람 얼굴 대상 및 소정의 인체 부위 대상에 각각 대응하는 영역 특징 및 위치 정보에 기반하여, 당해 사람 얼굴 대상과 당해 소정의 인체 부위 대상에 대해 관련성 예측을 실행하여, 당해 사람 얼굴 대상과 당해 소정의 인체 부위 대상에 대응하는 제1 관련성 예측 결과를 얻을 수 있다.
도 5를 참조하면, 도 5는 본 발명에 관한 관련성 예측 플로우를 나타내는 모식도이다. 도 5에 나타낸 바와 같이, 영역 특징 추출 유닛을 이용하여 사람 얼굴 대상에 대응하는 특징 및 소정의 인체 부위 대상에 대응하는 특징을 추출한 후, 또한 사람 얼굴 대상의 위치 정보(예를 들면, 좌표) 및 소정의 인체 부위 대상의 위치 정보(예를 들면, 좌표 정보)에 대해 특징 접합(예를 들면, 싱글 코어 컨볼루션 조작)을 실행하여, 접합된 특징을 얻을 수 있다. 접합된 특징을 얻은 후, 당해 접합된 특징을 상기 완전 결합 계층에 입력하여 특징 매핑(매트릭스 연산)을 실행하여, 제1 관련성 예측 스코어 값을 얻을 수 있다. 관련성 예측을 실행할 때에, 사람 얼굴 대상에 대응하는 특징 및 소정의 인체 부위 대상에 대응하는 특징 이외에, 또한 사람 얼굴 대상 바운딩 박스 및 소정의 인체 부위 대상 바운딩 박스에 각각 대응하는 위치 정보를 사용함으로써, 양자의 위치의 관련 관계를 나타낸 정보를 도입함으로써, 얻어진 관련성 예측 결과의 정밀도를 향상시킬 수 있다. 상기 각 조합에 대해 상기의 단계를 실행한 후, 복수의 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어를 얻을 수 있다.
소정의 인체 부위 대상과 사람 손 대상의 관련성 예측을 실행할 때에, S1046을 실행할 수 있고, 검출된 각 소정의 인체 부위 대상을 각각 각 사람 손 대상과 두 개씩 조합하여 복수의 조합 결과를 얻는다. S1048에 있어서, 각 조합 결과에 대해, 소정의 인체 부위 대상과 사람 손 대상의 관련성 예측 분기를 이용하여, 현재 조합 결과 내의 소정의 인체 부위 대상과 사람 손 대상에 각각 대응하는 영역 특징 및 위치 정보에 기반하여, 당해 소정의 인체 부위 대상과 당해 사람 손 대상에 대해 관련성 예측을 실행하여, 당해 소정의 인체 부위 대상과 당해 사람 손 대상에 대응하는 제2 관련성 예측 결과를 얻는다.
상기 각 조합에 대해 상기 단계를 실행한 후, 복수의 상기 제2 관련성 예측의 예측 결과 중의 관련성 예측 스코어를 얻을 수 있다.
S1046∼S1048의 단계의 설명은 S1042∼S1044의 단계의 설명을 참조할 수 있는바, 여기에서는 반복적으로 설명하지 않음을 이해해야 한다.
사람 얼굴 대상과 사람 손 대상에 대해 관련성 예측을 실행할 때에, 마찬가지로 상기S1042∼S1044를 참조할 수 있는바, 여기에서는 상세하게 설명하지 않는다.
본 발명은 제1 관련성 예측 결과, 제2 관련성 예측 결과 및 제3 관련성 예측 결과를 확정하는 순서를 특별히 한정하지 않음을 설명할 필요가 있다. 예를 들면, 소정의 순서에 따라 순서대로 상기 3개의 관련성 예측 결과를 확정할 수도 있고, 제1 관련성 예측 결과, 제2 관련성 예측 결과 및 제3 관련성 예측 결과의 예측을 동기에 실행할 수도 있다.
몇몇의 예에 있어서, S104를 실행할 때에, 검출된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 관련성 예측 모델에 입력하여 계산을 실행하여, 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과를 얻을 수 있다.
여기서, 상기 관련성 예측 모델은 여러 종류의 분류기를 포함하는 분류 모델일 수 있다. 여기서, 당해 여러 종류의 분류기의 출력은 적어도 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과를 포함할 수 있다.
상기 관련성 예측 모델을 훈련할 때에, 먼저 이미지 훈련 샘플을 구축할 수 있다. 이미지 훈련 샘플을 구축할 때에, 먼저 원래의 이미지를 취득할 수 있다. 원래의 이미지를 취득한 후, 이미지 라벨링 툴을 이용하여 상기 원래의 이미지에 포함된 각 삼요소 세트에 포함된 사람 얼굴 대상 및 소정의 인체 부위 대상에 대응하는 제1 관련성 예측 결과, 소정의 인체 부위 대상과 사람 손 대상에 대응하는 제2 관련성 예측 결과 및 사람 얼굴 대상과 사람 손 대상에 대응하는 제3 관련성 예측 결과에 대해, 각각 라벨링을 실행하여, 실제 값을 라벨링 및 이미지 훈련 샘플을 얻을 수 있다. 이미지 훈련 샘플을 구축한 후, 당해 대상 관련성 예측 모델이 수렴될 때까지, 구축한 이미지 훈련 샘플에 기반하여 모델 훈련을 실행할 수 있다.
본 단계에 있어서, 먼저 검출된 임의의 사람 얼굴 대상, 임의의 소정의 인체 부위 대상 및 임의의 사람 손 대상을 결합시켜 복수의 삼요소 세트를 얻을 수 있다. 상기 복수의 삼요소 세트를 얻은 후, 상기 복수의 삼요소 세트를 순서대로 현재의 삼요소 세트로 확정하여, 현재의 삼요소 세트에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을, 훈련을 거친 대상 관련성 예측 모델에 입력하여 계산을 실행하여, 당해 삼요소 세트에 포함된 사람 얼굴 대상 및 소정의 인체 부위 대상에 대응하는 제1 관련성 예측 결과, 소정의 인체 부위 대상과 사람 손 대상에 대응하는 제2 관련성 예측 결과 및 사람 얼굴 대상과 사람 손 대상에 대응하는 제3 관련성 예측 결과를 얻을 수 있다. 상기 대상 관련성 예측 모델의 구성은 전술한 제1 분기의 구성을 참조할 수 있는바, 여기에서는 상세하게 설명하지 않음을 설명할 필요가 있다.
계속하여 도 2를 참조하면, 제1 관련성 예측 결과, 제2 관련성 예측 결과 및 제3 관련성 예측 결과를 얻은 후, 계속하여 S106을 실행할 수 있으며, 상기 이미지에 포함된 인체 대상에 대해 분할을 실행하며, 분할하여 얻어진 각 상기 인체 대상에 대응하는 영역에 기반하여, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정한다.
S106은 실제로 S1062와 S1064의 두 단계로 나눌 수 있으며, 여기서 S1062에 있어서, 상기 이미지에 대해 분할을 실행하고, 이미지 내에 포함된 적어도 하나의 인체 대상을 확정하여, 상기 적어도 하나의 인체 대상에 대응하는 영역을 얻고, S1064에 있어서, 분할하여 얻어진 각 상기 인체 대상에 대응하는 영역에 기반하여, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정할 수 있음을 이해해야 한다.
몇몇의 예에 있어서, S1062을 실행할 때에, 상기 이미지를 심층 컨볼루션 신경망에 기반하여 구축한 인스턴스 분할 모델에 입력하여 계산을 실행함으로써, 상기 이미지에 포함된 각 인체 대상 및 상기 각 인체 대상에 각각 대응하는 영역을 확정할 수 있다.
상기 인스턴스 분할 모델은 구체적으로, 인스턴스 분할을 실행하는 모델일 수 있다. 예를 들면, 상기 인스턴스 분할 모델은 FASTER-RCNN 네트워크 또는 MASK-RCNN(MASK Region Convolutional Neural Networks, 마스크에 기반한 영역 컨볼루션 신경망) 네트워크에 기반하여 구축한 모델일 수 있다.
실제 적용에 있어서, 당해 인스턴스 분할 모델을 사용하여 인스턴스 분할을 실행하기 전에, 당해 모델이 수렴될 때까지, 인체 대상의 바운딩 박스를 라벨링한 몇몇의 이미지 훈련 샘플에 기반하여 당해 모델을 훈련할 수 있다.
상기 이미지 훈련 샘플을 구축할 때에, 먼저 원래의 이미지를 취득할 수 있다. 원래의 이미지를 취득한 후, 라벨링 툴을 이용하여 상기 원래의 이미지 내에 포함되어 있는 각 인체 대상을 확정할 수 있다. 각 인체 대상을 확정한 후, 당해 라벨링 툴을 이용하여 각 인체 대상의 바운딩 또는 윤곽을 각각 라벨링할 수 있다. 라벨링을 실행할 때에, 각 인체 바운딩 박스 내의 픽셀 점에 대해 각각 다른 픽셀 값을 라벨링할 수 있다. 예를 들면, 상기 원래의 이미지는 인체 대상 A, 인체 대상 B 및 인체 대상 C를 포함한다. 라벨링을 실행할 때에, 인체 대상 A의 바운딩 박스 내의 픽셀 점에 대해 픽셀 값 1을 라벨링하고, 인체 대상 B의 바운딩 박스 내의 픽셀 점에 대해 픽셀 값 2을 라벨링하며, 인체 대상 C의 바운딩 박스 내의 픽셀 점에 대해 픽셀 값 3을 라벨링할 수 있다. 이미지 훈련 샘플의 구축이 완료된 후, 당해 모델이 수렴될 때까지, 종래의 모델 훈련 방법을 통해 상기 인스턴스 분할 모델을 훈련할 수 있다.
도 6을 참조하면, 도 6은 본 발명에 관한 이미지 분할 플로우를 나타내는 모식도이다. 도 6은 이미지 분할 플로우를 모식적으로 설명하는 데에 지나지 않으며, 본 발명에 대해 특별히 한정하지 않음을 설명할 필요가 있다. 도 6에 나타낸 바와 같이, 상기 인스턴스 분할 모델은 MASK-RCNN 네트워크에 기반하여 구축한 모델일 수 있다. 당해 모델은 적어도 백본 네트워크, RPN(Region Proposal Network, 후보 박스 생성 네트워크), RCNN(Region-based Convolutional Neural Network, 영역에 기반한 컨볼루션 신경망) 및 FCNs(Fully Convolution Networks, 완전 컨볼루션 네트워크)를 포함할 수 있다. 여기서, 상기 백본 네트워크는 이미지에 대해 여러 회의 컨볼루션 연산을 실행하여 당해 이미지에 대응하는 특징 맵을 얻을 수 있다. 특징 맵을 얻은 후, 특징 맵을 상기RPN네트워크에 입력하여 몇몇의 anchors(앵커 박스)를 얻을 수 있다. 앵커 박스를 얻은 후, 당해 앵커 박스 및 상기 특징 맵을 대응하는 RCNN 네트워크에 입력하여 bbox(bounding boxes, 바운딩 박스) 회귀 및 분류를 실행하여, 각 인체 대상에 각각 대응하는 바운딩 박스를 얻을 수 있다. 각 인체 대상에 대응하는 바운딩 박스를 얻은 후, 당해 바운딩 박스 및 상기 특징 맵을 FCNs네트워크에 입력하여 시맨틱 분할을 실행하고, 각 인체 대상에 대응하는 영역을 얻을 수 있다.
몇몇의 예에 있어서, 상기 FCNs 앞에, 접속 ROI Align 유닛을 더 연결할 수 있다. 이 때, 당해 바운딩 박스 및 상기 특징 맵을 FCNs네트워크에 입력하여 시맨틱 분할을 실행할 때에, 먼저 당해 바운딩 박스 및 상기 특징 맵을 ROI Align(Region of interest Align, 관심 영역 특징 얼라인먼트) 유닛에 입력하여 영역 특징 추출을 실행한 후, 추출된 상기 영역 특징을 상기 FCNs네트워크에 입력하여 시맨틱 분할을 실행할 수 있다.
본 단계에서 각 바운딩 박스를 얻는 것은, 각 바운딩 박스에 대응하는 위치 정보 및 사이즈 정보를 얻는 것을 포함할 수 있음을 이해해야 한다. 여기서, 상기 위치 정보는 상기 이미지의 왼쪽 아래 모서리를 좌표의 원점으로 구축한 직교 좌표계에 기반하여 확정한 위치 좌표를 포함할 수 있다.
상기 이미지에 대해 인스턴스 분할을 실행하여, 적어도 하나의 인체 대상에 대응하는 영역을 얻은 후, S1064를 실행할 수 있고, 분할하여 얻어진 각 상기 인체 대상에 대응하는 영역에 기반하여, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정한다.
몇몇의 예에 있어서, 분할하여 얻어진 각 상기 인체 대상에 대응하는 영역에 기반하여, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정할 때에, 상기 사람 얼굴 대상의 제1 바운딩 박스에 기반하여 상기 사람 얼굴 대상에 대응하는 영역과 각 상기 인체 대상에 대응하는 영역 사이의 제1 중첩 범위를 확정하고, 또한 상기 소정의 인체 부위 대상의 제2 바운딩 박스에 기반하여 상기 소정의 인체 부위 대상에 대응하는 영역과 각 상기 인체 대상에 대응하는 영역 사이의 제2 중첩 범위를 확정할 수 있다. 상기 제1 중첩 범위 및 제2 중첩 범위를 확정한 후, 상기 제1 중첩 범위 및 제2 중첩 범위에 기반하여 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정할 수 있다.
일반적으로, 하나의 인체 대상의 경우, 사람 얼굴 대상의 제1 바운딩 박스 및 소정의 인체 부위 대상의 제2 바운딩 박스는 인체 바운딩 박스 내에 위치한다. 따라서, 상기 제1 중첩 범위의 크기는 사람 얼굴 대상이 어느 인체 대상에 속할 가능성을 나타낸 수 있고, 상기 제2 중첩 범위의 크기는 소정의 인체 부위 대상이 어느 인체 대상에 속할 가능성을 나타낼 수 있다. 사람 얼굴 대상의 예를 들면 어느 사람 얼굴 대상 A1과 어떤 인체 대상 B 사이의 제1 중첩 범위가 어느 사람 얼굴 대상 A2와 인체 대상 B 사이의 제1 중첩 범위보다 크면, 당해 사람 얼굴 대상 A1이 당해 인체 대상 B에 속할 가능성이, 사람 얼굴 대상 A2가 당해 인체 대상 B에 속할 가능성보다 큰 것을 의미한다. 또는, 어느 사람 얼굴 대상 A1과 어느 인체 대상 B 사이의 제1 중첩 범위가 소정의 구간을 초과하면(예를 들면, 중첩 범위의 면적이 사람 얼굴 대상 대응 영역에 80%을 넘음), 당해 사람 얼굴 대상 A1이 당해 인체 대상 B에 속할 가능성 또는 확률의 값이 상대적으로 높음을 의미한다. 이 경우, 직접 당해 사람 얼굴 대상 A1이 당해 인체 대상 B에 귀속한다고 확정하거나, 또는 인체 대상 B를 사람 얼굴 대상 A1이 속하는 후보 인체 대상 세트에 추가하며, 또한 당해 사람 얼굴 대상 A1이 대응하는 후보 인체 대상 세트 중의 각 인체 대상에 속하는 확률의 값에 기반하여, 사람 얼굴 대상이 속하는 제1 인체 대상을 확정할 수 있다.
상기 제1 중첩 범위 및 상기 제2 중첩 범위에 기반하여 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정하는 과정에서, 적어도 두 개의 사람 얼굴 대상이 하나의 인체 대상에 속하는 상황이 나타나거나, 또는 소정의 인체 부위 대상이 팔꿈치부 대상 또는 어깨부 대상일 때에, 적어도 3개의 소정의 인체 부위 대상이 하나의 인체 대상에 속하는 상황이 나타나면, 하나의 인체 대상의 최대한 하나의 사람 얼굴 대상, 두 개의 팔꿈치부 대상, 또는 두 개의 어깨부 대상이 관련될 수 있는 구속 조건을 따라, 하나의 인체 대상에 속하는 사람 얼굴 대상 또는 소정의 인체 부위 대상에 대해 중첩 범위의 내림차순에 따라 정렬하여 선별함으로써, 사람 얼굴 대상 또는 소정의 인체 대상이 인체 대상에 속하는 판정 결과가 실제 상황에 부합되지 않는 가능성을 줄일 수 있음을 이해해야 한다. 따라서, 본 예에 있어서, 상기 사람 얼굴 대상에 대응하는 영역과 각 상기 인체 대상에 대응하는 영역 사이의 제1 중첩 범위 및 상기 소정의 인체 부위 대상에 대응하는 영역과 각 상기 인체 대상에 대응하는 영역 사이의 제2 중첩 범위를 확정함으로써, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정할 수 있다.
몇몇의 예에 있어서, 상기 제1 중첩 범위 및 상기 제2 중첩 범위에 기반하여 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정할 때에, 각 상기 인체 대상에 각각 대응하는 영역 중에서 상기 사람 얼굴 대상에 대응하는 영역과의 제1 중첩 범위가 최대인 제1 목표 영역을 확정할 수 있고, 또한 각 상기 인체 대상에 각각 대응하는 영역 중에서 상기 소정의 인체 부위 대상에 대응하는 영역과의 제2 중첩 범위가 최대인 제2 목표 영역을 확정할 수 있다. 상기 제1 목표 영역과 상기 제2 목표 영역을 확정한 후, 상기 제1 목표 영역에 대응하는 인체 대상을 상기 사람 얼굴 대상이 속하는 제1 인체 대상으로 확정하고, 또한 상기 제2 목표 영역에 대응하는 인체 대상을 상기 소정의 인체 부위 대상이 속하는 제2 인체 대상으로 확정한다.
상기 제1 목표 영역이 상기 사람 얼굴 대상에 대응하는 영역과의 제1 중첩 범위가 최대인 영역이며, 상기 제2 목표 영역이 상기 소정의 인체 부위 대상에 대응하는 영역과의 제2 중첩 범위가 최대인 영역이기 때문에, 본 예에서는 상기 사람 얼굴 대상이 속할 가능성이 가장 높은 제1 인체 대상과 상기 소정의 인체 부위 대상이 속할 가능성이 가장 높은 제2 인체 대상을 확정함으로써, 관련 대상 검출의 정확성을 보증했다. 몇몇의 예에 있어서, 상기 제1 목표 영역을 확정할 때에, 상기 사람 얼굴 대상에 대응하는 영역 내에 포함된 각 픽셀 점을 픽셀 값 크기에 따라 같은 크기의 픽셀 값을 1 그룹으로 그룹화하여, 몇몇의 분류 조합을 얻을 수 있다. 서로 다른 픽셀 값이 서로 다른 인체 대상에 대응하는 영역을 나타내기 때문에, 픽셀 점을 분류한 후, 각 분류 조합은 하나의 상기 인체 대상에 대응하는 영역을 나타낼 수 있음을 이해해야 한다.
픽셀 점을 분류한 후, 각 분류 조합에 포함된 픽셀 점의 수량을 통계하고, 포함된 픽셀 점의 수량이 가장 많은 분류 조합에 대응하는 인체 대상 영역을 상기 제1 목표 영역으로 확정할 수 있다. 예를 들면, 사람 얼굴 대상에 대응하는 영역이 합계 100개의 픽셀 점을 포함하며 여기서 80개가 인체 대상 A에 대응하는 영역에 대응하고, 15개가 인체 대상 B에 대응하는 영역에 대응하며, 5개가 인체 대상 C에 대응하는 영역에 대응한다고 가정한다. 이 때, 인체 대상 A에 대응하는 영역이 상기 제1 목표 영역인 것으로 간주할 수 있다. 상기 제2 목표 영역을 확정하는 방법은 상기의 제1 목표 영역을 확정하는 방법을 참조할 수 있는바, 여기에서는 상세하게 설명하지 않음을 설명할 필요가 있다.
몇몇의 예에 있어서, 상기 제1 목표 영역과 상기 제2 목표 영역을 확정할 때에, 또한 IoU(Intersection over Union, 교차 비율) 알고리즘 등의 방법을 이용하여 확정할 수 있다.
몇몇의 예에 있어서, 분할하여 얻어진 각 상기 인체 대상에 대응하는 영역에 기반하여, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정할 때에, 상기 제1 중첩 범위 및 제2 중첩 범위를 확정한 후, 또한 상기 사람 얼굴 대상의 영역 및 상기 소정의 인체 부위 대상의 영역에 기반하여, 상기 사람 얼굴 대상과 상기 인체 대상의 결합 범위 및 상기 소정의 인체 부위 대상과 상기 인체 대상의 결합 범위를 각각 확정할 수 있다.
상기 결합 범위를 확정한 후, IoU 알고리즘 계산식에 기반하여, 상기 사람 얼굴 대상과 상기 인체 대상 사이의 제1 중첩 범위에서 상기 양자에 대응하는 결합 범위를 나눗셈하여, 상기 사람 얼굴 대상에 대응하는 제1 IoU 값 세트를 얻을 수 있다. 마찬가지로, 상기 소정의 인체 부위 대상에 대응하는 제2 IoU 값 세트를 얻을 수 있다.
상기 제1 IoU 값 세트와 상기 제2 IoU 값 세트를 확정한 후, 상기 제1 IoU 값 세트 중에서 값이 최대인 제3 IoU 값 및 상기 제2 IoU 값 세트 중에서 값이 최대인 제4 IoU 값을 확정할 수 있다. 그 다음, 상기 제3 IoU 값에 대응하는 인체 대상 및 상기 제4 IoU 값에 대응하는 인체 대상을 상기 사람 얼굴 대상이 속하는 제1 인체 대상 및 상기 소정의 인체 부위 대상이 속하는 제2 인체 대상으로 각각 확정할 수 있다.
상기 IoU 값의 크기는 사람 얼굴 대상 또는 소정의 인체 부위 대상이 어느 인체 대상에 속할 가능성을 나타낼 수 있다. 예를 들면, 어느 사람 얼굴 대상과 어느 인체 대상 사이의 IoU 값이 상대적으로 크면, 당해 사람 얼굴 대상이 당해 인체 대상에 속할 가능성이 큰 것을 의미한다.
상기 제3 IoU 값이 상기 제1 IoU 값 세트 중의 최대치이고, 상기 제4 IoU 값이 상기 제2 IoU 값 세트 중의 최대치이기 때문에, 본 예에서는 상기 사람 얼굴 대상이 속할 가능성이 가장 높은 제1 인체 대상 및 상기 소정의 인체 부위 대상이 속할 가능성이 가장 높은 제2 인체 대상을 확정할 수 있으므로, 관련 대상 검출의 정확성을 보증했다.
몇몇의 예에 있어서, S1064를 실행할 때에, 사람 얼굴 대상이 속하는 제1 인체 대상 또는 소정의 인체 부위 대상이 속하는 제2 인체 대상을 확정할 수 없는 상황이 나타날 가능성이 있다. 이러한 상황이 나타나면, 당해 사람 얼굴 대상 또는 당해 소정의 인체 대상에 대응하는 관련성 예측 결과를 조정하지 않을 수 있다.
예를 들면, 사람 얼굴 대상이 속하는 제1 인체 대상을 확정할 때에, 당해 사람 얼굴 대상에 대응하는 영역과 중첩되는 몇몇의 인체 대상 영역과 당해 사람 얼굴 대상의 영역 사이의 제1 중첩 범위의 크기가 거의 같은 상황이 나타날 가능성이 있기에, 이 경우, 당해 사람 얼굴 대상이 속하는 제1 인체 대상을 확정할 수 없다고 간주할 수 있으며, 당해 사람 얼굴 대상에 대응하는 관련성 예측 결과를 조정하지 않을 수 있다.
계속하여 도 2를 참조하면, 상기 이미지에 포함된 사람 얼굴 대상 및 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정한 후, 계속하여 S108을 실행할 수 있으며, 상기 제1 인체 대상 및 상기 제2 인체 대상에 기반하여 상기 제1 관련성 예측 결과를 조정하고, 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정한다.
S108은 실제로 S1082와 S1084의 두 단계로 나눌 수 있으며, 여기서 S1082에 있어서, 제1 인체 대상 및 제2 인체 대상에 기반하여 상기 제1 관련성 예측 결과를 조정하고, S1084에 있어서, 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정할 수 있음을 이해해야 한다.
몇몇의 예에 있어서, S1082을 실행할 때에, 상기 사람 얼굴 대상이 속하는 제1 인체 대상과 상기 소정의 인체 부위 대상이 속하는 제2 인체 대상을 매칭하여, 매칭 결과를 얻을 수 있다. 매칭 결과를 얻은 후, 상기 매칭 결과에 기반하여 상기 제1 관련성 예측 결과를 조정할 수 있다.
상기 사람 얼굴 대상이 속하는 제1 인체 대상과 상기 소정의 인체 부위 대상이 속하는 제2 인체 대상이 일치하면, 상기 사람 얼굴 대상과 상기 소정의 인체 부위 대상이 같은 사람에 속하는 확률이 상대적으로 큰 것을 의미하기 때문에, 본 예에서는 상기 매칭 결과에 기반하여 상기 제1 관련성 예측 결과를 조정하고, 상기 제1 관련성 예측 결과를 조정함으로써, 당해 제1 관련성 예측 결과에 대응하는 사람 얼굴 대상과 소정의 인체 부위 대상을 한 사람에게 속한다고 확정하는 가능성을 향상시켜, 관련 대상 검출의 정확성을 향상시킨다.
이미지에 복수의 쌍의 사람 얼굴 대상과 소정의 인체 부위 대상의 조합이 포함되어 있기 때문에, S104를 실행할 때에, 일반적으로 복수의 제1 관련성 예측 결과를 확정할 수 있음을 이해해야 한다. 이 때, S1082을 실행할 때에, 상기 복수의 제1 관련성 예측 결과를 순서대로 현재 제1 관련성 예측 결과로 확정하며, 제1 인체 대상과 제2 인체 대상을 매칭하여 매칭 결과를 얻을 수 있다. 그 다음, 상기 매칭 결과에 기반하여 당해 현재 제1 관련성 예측 결과를 조정할 수 있다.
몇몇의 예에 있어서, 이하의 아이디어에 따라 제1 관련성 예측 결과를 조정할 수 있다. 여기서 관련성 예측 결과는 관련성 예측 스코어를 포함할 수 있고, 관련성 예측 스코어가 높을수록 양자의 관련성이 강하다. 제1 인체 대상과 제2 인체 대상이 일치할 경우, 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어를 증가시키고, 및/또는 제1 인체 대상과 제2 인체 대상이 일치하지 않을 경우, 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어를 감소시킨다.
본 예에 있어서, 제1 인체 대상과 제2 인체 대상이 일치할 경우, 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어를 증가시키고, 및/또는 제1 인체 대상과 제2 인체 대상이 일치하지 않을 경우, 상기 제1 관련성 예측의 예측 결과 중의 관련성 스코어를 감소시킬 수 있다. 따라서, 한 사람에 속하는 사람 얼굴 대상과 소정의 인체 부위 대상 사이의 관련성 예측 스코어를 증가시키고, 및/또는 한 사람에게 속하지 않는 사람 얼굴 대상과 소정의 인체 부위 대상의 사이 관련성 예측 스코어를 감소시킴으로써, 관련 대상 검출의 정확성을 향상시킨다.
본 발명은 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어를 감소시키거나 증가시키는 방법에 대해 특별히 한정하지 않음을 설명할 필요가 있다. 예를 들면, 제1 관련성 예측 결과 중의 관련성 예측 스코어를 증가 또는 감소시킬 때에, 원래의 제1 관련성 예측 결과 중의 관련성 예측 스코어에 기반하여, 소정의 값을 증가 또는 감소시킬 수 있다.
몇몇의 예에 있어서, 이미지를 인스턴스 분할하여 얻은 분할 결과는 상기 이미지에 포함된 각 인체 대상에 각각 대응하는 영역 이외에, 또한 인스턴스 분할 결과의 정확성의 신뢰도를 나타내는 스코어를 포함할 수 있다. 이 때, 사람 얼굴 대상과 소정의 인체 부위 대상 사이의 제1 관련성 예측 결과 중의 관련성 예측 스코어를 증가시킬 때에, 당해 제1 관련성 예측 결과 중의 관련성 예측 스코어를 상기 사람 얼굴 대상이 속하는 인체 대상에 대응하는 신뢰도 스코어까지 증가시킬 수 있다. 제1 관련성 예측 결과 중의 관련성 예측 스코어를 감소시킬 때에, 원래의 제1 관련성 예측 결과 중의 관련성 예측 스코어를 반으로 감소시킬 수 있다.
몇몇의 예에 있어서, S1064를 실행할 때에, 사람 얼굴 대상이 속하는 제1 인체 대상 또는 소정의 인체 부위 대상이 속하는 제2 인체 대상을 확정할 수 없는 상황이 나타날 가능성이 있다. 이러한 상황이 나타나면, 당해 사람 얼굴 대상 또는 당해 소정의 인체 대상에 대응하는 관련성 예측 결과를 조정하지 않을 수 있다.
계속하여 도 2를 참조하면, 상기 제1 관련성 예측 결과를 조정한 후, 계속하여 S1084를 실행할 수 있으며, 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여, 상기 이미지 내의 관련 대상을 확정한다.
몇몇의 예에 있어서, 상기 이미지가 하나의 사람 얼굴 대상, 하나의 소정의 인체 부위 대상 및 하나의 사람 손 대상만을 포함할 경우, 상기 이미지 내의 관련 대상을 확정할 때에, 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어, 상기 제2 관련성 예측 결과 중의 관련성 예측 스코어 및 상기 제3 관련성 예측 결과 중의 관련성 예측 스코어를 가산하여, 가산 결과를 얻을 수 있다. 상기 가산 결과를 얻은 후, 상기 가산 결과가 소정의 기준 값에 달하였는지 여부를 확정할 수 있다. 상기 가산 결과가 상기 소정의 기준 값에 달했을 경우, 이미지에 포함된 사람 얼굴 대상과 사람 손 대상이 서로 관련 대상인 것으로 간주할 수 있다. 본 발명의 몇몇의 실시예에 있어서, 상기 소정의 기준 값은 구체적으로, 실제 상황에 따라 설정한 경험 한계값일 수 있다. 예를 들면, 당해 소정의 기준 값은 0.95일 수 있다.
상기 이미지가 복수의 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 포함할 경우, 상기 이미지 내의 관련 대상을 확정할 때에, 검출된 상기 사람 얼굴 대상, 상기 소정의 인체 부위 대상 및 상기 사람 손 대상을 결합시켜 적어도 하나의 삼요소 세트를 생성하며, 여기서, 각 삼요소 세트는 하나의 사람 얼굴 대상, 하나의 소정의 인체 부위 대상 및 하나의 사람 손 대상을 포함한다. 복수의 삼요소 세트를 취득한 후, 상기 이미지 내의 관련 대상을 확정할 수 있다.
본 발명의 몇몇의 실시예에 있어서, 먼저 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여 각 삼요소 세트에 대응하는 제4 관련성 예측 결과를 확정할 수 있다.
몇몇의 예에 있어서, 상기 제4 관련성 예측 결과는 관련성 예측 스코어를 포함할 수 있다. 상기 복수의 삼요소 세트에 각각 대응하는 관련성 예측 결과 중의 관련성 예측 스코어를 확정할 때에, 상기 복수의 삼요소 세트 중의 각 삼요소 세트를 순서대로 현재의 삼요소 세트로 확정할 수 있다. 그 다음, 현재의 삼요소 세트에 포함된 사람 얼굴 대상 및 소정의 인체 부위 대상에 대응하는 조정 후의 제1 관련성 예측 결과 중의 관련성 예측 스코어, 소정의 인체 부위 대상과 사람 손 대상에 대응하는 제2 관련성 예측 결과 중의 관련성 예측 스코어 및 사람 얼굴 대상과 사람 손 대상에 대응하는 제3 관련성 예측 결과 중의 관련성 예측 스코어의 합계를, 현재의 삼요소 세트에 대응하는 관련성 예측 결과 중의 관련성 예측 스코어로서 확정할 수 있다.
본 발명은 조정 후의 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어, 상기 제2 관련성 예측 결과 중의 관련성 예측 스코어 및 상기 제3 관련성 예측 결과 중의 관련성 예측 스코어에 기반하여, 상기 복수의 삼요소 세트에 각각 대응하는 관련성 예측 결과 중의 관련성 예측 스코어를 확정하는 구체적인 방법을 특별히 한정하지 않음을 설명할 필요가 있다. 예를 들면, 또한 상기 3개의 스코어에 대해, 승산, 가중 화, 평균화 등을 실행하는 방법을 통해, 삼요소 세트에 대응하는 관련성 예측 결과 중의 관련성 예측 스코어를 확정할 수 있다.
상기 복수의 삼요소 세트의 각각 대응하는 관련성 예측 결과를 얻은 후, 각 삼요소 세트에 대응하는 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정할 수 있다.
상기 각 삼요소 세트에 대응하는 제4 관련성 예측 결과는 당해 삼요소 세트에 포함된 사람 얼굴 대상과 사람 손 대상이 한 사람에게 속할 가능성을 나타낼 수 있다. 예를 들면, 상기 제4 관련성 예측 결과를 관련성 예측 결과 중의 관련성 예측 스코어로 나타낼 경우, 관련성 예측 결과 중의 관련성 예측 스코어가 상대적으로 높으면, 당해 관련성 예측 결과에 대응하는 삼요소 세트 중의 사람 얼굴 대상과 사람 손 대상이 한 사람에게 속할 가능성이 상대적으로 큰 것을 의미한다.
따라서, 본 예에 있어서, 각 삼요소 세트에 대응하는 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정함으로써, 밀접하게 관련된 삼요소 세트 중의 사람 얼굴 대상과 사람 손 대상을 관련 대상으로 확정할 수 있기에, 관련 대상 검출의 정확성을 향상시켰다.
몇몇의 예에 있어서, 각 삼요소 세트에 대응하는 제4 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정할 때에, 우선적으로 제4 관련성 예측 결과 중의 관련성 예측 스코어가 높은 삼요소 세트에 포함된 사람 얼굴 대상과 사람 손 대상을 관련성을 가지는 사람 얼굴 대상과 사람 손 대상으로 확정할 수 있다.
관련성 예측 결과 중의 관련성 예측 스코어가 높은 것은 삼요소 세트 중의 사람 얼굴 대상과 사람 손 대상의 관련성이 강한 것을 의미하기 때문에, 몇몇의 예에 있어서, 관련성 예측 결과 중의 관련성 예측 스코어의 내림차순에 따라, 순서대로 삼요소 세트 중의 사람 얼굴 대상과 사람 손 대상이 관련 대상인지 여부를 판단할 수 있다.
실제 상황에 있어서, 일반적으로 하나의 사람 얼굴 대상에 최대한 두 개의 사람 손 대상이 대응되고, 또는 하나의 사람 손 대상에 최대한 하나의 사람 얼굴 대상이 대응된다. 상기 실제 상황을 충족시키기 위하여, 몇몇의 예에 있어서, 우선적으로, 관련성 예측 결과 중의 관련성 예측 스코어가 상대적으로 높은 삼요소 세트에 포함된 사람 얼굴 대상과 사람 손 대상을 관련성을 가지는 사람 얼굴 대상과 사람 손 대상으로 확정할 때에, 각 삼요소 세트에 대응하는 상기 관련성 예측 결과 중의 관련성 예측 스코어의 내림차순에 따라, 각 삼요소 세트를 순서대로 현재의 삼요소 세트로 확정하고, 각 현재의 삼요소 세트에 대해, 이미 확정된 관련 대상에 기반하여, 현재의 삼요소 세트에 포함된 사람 얼굴 대상과 서로 관련 대상인 관련 사람 손 대상의 수량이 제1 소정의 한계값에 달하였는지 여부를 확정하고, 또한 현재의 삼요소 세트에 포함된 사람 손 대상과 서로 관련 대상인 관련 사람 얼굴 대상의 수량이 제2 소정의 한계값에 달하였는지 여부를 확정하는 것을 실행할 수 있다.
상기 제1 소정의 한계값은 구체적으로, 실제 상황에 따라 설정한 경험 한계값일 수 있다. 예를 들면, 상기 제1 소정의 한계값은 2일 수 있다.
상기 제2 소정의 한계값은 구체적으로 실제 상황에 따라 설정한 경험 한계값일 수 있다. 예를 들면, 상기 제2 소정의 한계값은 1일 수 있다.
몇몇의 예에 있어서, 각 사람 얼굴 대상과 각 사람 손 대상에 대해 각각 카운터를 유지하는바, 임의의 사람 얼굴 대상과 서로 관련 대상인 관련 사람 손 대상을 확정할 때마다, 상기 관련 사람 얼굴 대상에 대응하는 카운터 값에 1을 가산한다. 이 경우, 이미 확정된 관련 대상에 기반하여, 현재의 삼요소 세트에 포함된 사람 얼굴 대상과 서로 관련 대상인 관련 사람 손 대상의 수량이 제1 소정의 한계값에 달하였는지 여부를 확정할 때에, 상기 사람 얼굴 대상에 대응하는 카운터의 카운트 값이 제1 소정의 한계값에 달하였는지 여부를 확정함으로써, 상기 사람 얼굴 대상과 서로 관련 대상인 관련 사람 손 대상의 수량이 제1 소정의 한계값에 달하였는지 여부를 확정할 수 있다. 현재의 삼요소 세트에 포함된 사람 손 대상과 서로 관련 대상인 관련 사람 얼굴 대상의 수량이 제2 소정의 한계값에 달하였는지 여부를 확정할 때에, 상기 사람 손 대상에 대응하는 카운터의 카운트 값이 제2 소정의 한계값에 달하였는지 여부를 확정함으로써, 상기 사람 손 대상과 서로 관련 대상인 관련 사람 얼굴 대상의 수량이 제2 소정의 한계값에 달하였는지 여부를 확정할 수 있다.
현재의 삼요소 세트에 포함된 사람 얼굴 대상과 관련되어 있는 관련 사람 손 대상의 수량이 상기 제1 소정의 한계값에 달하지 않은 동시에 현재의 삼요소 세트에 포함된 사람 손 대상과 관련되어 있는 관련 사람 얼굴 대상의 수량이 상기 제2 소정의 한계값에 달하지 않으면, 현재의 삼요소 세트에 포함된 사람 얼굴 대상과 사람 손 대상을 상기 이미지 내의 관련 대상으로 확정할 수 있다.
관련 대상을 확정할 때에, 현재의 삼요소 세트에 포함된 사람 얼굴 대상과 관련되어 있는 관련 사람 손 대상의 수량이 상기 제1 소정의 한계값에 달하지 않은 동시에 현재의 삼요소 세트에 포함된 사람 손 대상과 관련되어 있는 관련 사람 얼굴 대상의 수량이 상기 제2 소정의 한계값에 달하지 않은 경우, 현재의 삼요소 세트 중의 사람 얼굴 대상과 사람 손 대상을 관련 대상으로 확정할 수 있다. 따라서, 하나의 사람 얼굴 대상과 두 개를 초과하는 사람 손 대상이 관련되는 상황 및 하나의 사람 손 대상과 하나를 넘는 사람 얼굴 대상이 관련되는 상황이 나타나는 것을 회피할 수 있다.
몇몇의 예에 있어서, 이미지 내의 관련 대상을 확정한 후, 당해 이미지 내의 관련 대상의 검출 결과를 출력할 수 있다. 몇몇의 예에 있어서, 이미지 출력 디바이스(예를 들면, 디스플레이)에 상기 관련 대상에 의해 나타내는 사람 얼굴 대상과 사람 손 대상을 포함하는 바운딩 박스를 출력할 수 있다. 상기 관련 대상을 포함하는 바운딩 박스를 표시함으로써, 관찰자가 이미지 출력 디바이스에 표시된 이미지 내의 관련 대상을 편리 동시에 직관적으로 확정할 수 있도록 하고, 관련 대상의 검출 결과에 대한 수동 검증이 편리해진다.
상기는 본 발명에 관한 이미지 내의 관련 대상을 확정하는 기술적 해결책의 소개이며, 이하, 당해 기술적 해결책에서 사용한 각 모델의 훈련 방법을 소개한다.
계속하여 도 2를 참조한다. 도 2에 나타낸 기술적 해결책에 있어서, 신경망에 기반하여 구축한 대상 검출 모델을 이용하여, 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출할 수 있다. 신경망에 기반하여 구축한 관련성 예측 모델을 이용하여, 상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행할 수 있다. 신경망에 기반하여 구축한 인스턴스 분할 모델을 이용하여, 상기 이미지에 포함된 인체 대상에 대해 분할을 실행할 수 있다. 상기 대상 검출 모델, 상기 인스턴스 분할 모델 및 상기 관련성 예측 모델은 같은 백본 네트워크를 공유할 수 있음을 이해해야 한다.
몇몇의 예에 있어서, 상기 대상 검출 모델, 상기 인스턴스 분할 모델 및 상기 관련성 예측 모델에 대해, 훈련 샘플 세트를 각각 구축하고, 구축한 훈련 샘플 세트에 기반하여, 상기 대상 검출 모델, 상기 인스턴스 분할 모델 및 상기 관련성 예측 모델을 각각 훈련할 수 있다.
몇몇의 예에 있어서, 관련 대상 검출의 정밀도를 향상시키기 위하여, 세그먼트화 훈련의 방법을 이용하여 각 모델을 훈련할 수 있다. 여기서, 제1 세그먼트는 대상 검출 모델 및 인스턴스 분할 모델에 대한 훈련에 있어서, 제2 세그먼트는 대상 검출 모델, 인스턴스 분할 모델 및 관련성 예측 모델에 대한 공동 훈련이다.
도 7을 참조하면, 도 7은 본 발명의 실시예의 모델 훈련 방법의 하나의 플로우를 나타내는 모식도이다.
도 7에 나타낸 바와 같이, 당해 방법은 S702를 포함하며, 당해 S702에 있어서, 제1 훈련 샘플 세트에 기반하여 상기 대상 검출 모델을 훈련하되, 여기서, 상기 제1 훈련 샘플 세트는 제1 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하고, 상기 제1 라벨링 정보는 사람 얼굴 대상, 상기 소정의 신체 부위 대상 및 사람 손 대상의 바운딩 박스를 포함한다.
본 단계를 실행할 때에, 수동 라벨링 또는 기계 보조 라벨링의 방법을 이용하여, 원래의 이미지에 대해 실제 값을 라벨링할 수 있다. 예를 들면, 원래의 이미지를 취득한 후, 이미지 라벨링 툴을 사용하여 원래의 이미지 내에 포함되어 있는 사람 얼굴 대상 바운딩 박스, 사람 손 대상 바운딩 박스 및 소정의 인체 부위 대상(예를 들면, 팔꿈치) 바운딩 박스에 대해 라벨링을 실행함으로써, 몇몇의 이미지 훈련 샘플을 얻을 수 있다. 이미지 훈련 샘플을 부호화할 때에, one-hot 코드(원 핫 코드) 등의 방법을 이용하여 부호화할 수 있는바, 본 발명은 코드를 부호화하는 구체적인 방법을 한정하지 않음을 설명할 필요가 있다.
제1 훈련 샘플 세트를 확정한 후, 당해 모델이 수렴될 때까지, 소정의 손실 함수에 기반하여 대상 검출 모델을 훈련할 수 있다.
S704에 있어서, 제2 훈련 샘플 세트에 기반하여 상기 인스턴스 분할 모델을 훈련하되, 여기서, 상기 제2 훈련 샘플 세트는 제2 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하고, 상기 제2 라벨링 정보는 인체 대상의 바운딩 박스를 포함한다.
상기 이미지 훈련 샘플을 구축할 때에, 먼저 원래의 이미지를 취득할 수 있다. 원래의 이미지를 취득한 후, 라벨링 툴을 이용하여 상기 원래의 이미지 내에 포함되어 있는 각 인체 대상을 확정할 수 있다. 각 인체 대상을 확정한 후, 당해 라벨링 툴을 이용하여 각 인체 대상에 대응하는 바운딩 박스에 대해 각각 라벨링을 실행할 수 있다. 라벨링을 실행할 때에, 각 바운딩 박스 내의 픽셀 점에 대해 서로 다른 픽셀 값을 라벨링할 수 있다. 예를 들면, 상기 원래의 이미지는 인체 대상 A, 인체 대상 B 및 인체 대상 C를 포함한다. 라벨링을 실행할 때에, 인체 대상 A의 바운딩 박스 내의 픽셀 점에 대해 픽셀 값 1을 라벨링하고, 인체 대상 B의 바운딩 박스 내의 픽셀 점에 대해 픽셀 값 2을 라벨링하며, 인체 대상 C의 바운딩 박스 내의 픽셀 점에 대해 픽셀 값 3을 라벨링할 수 있다. 제2 훈련 샘플 세트를 확정한 후, 당해 모델이 수렴될 때까지, 종래의 모델 훈련 방법을 통해 상기 인스턴스 분할 모델을 훈련할 수 있다.
S706에 있어서, 제3 훈련 샘플 세트에 기반하여, 상기 대상 검출 모델, 상기 인스턴스 분할 모델 및 상기 관련성 예측 모델에 대해 공동 훈련을 실행하되, 여기서, 상기 제3 훈련 샘플 세트는 제3 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하고, 상기 제3 라벨링 정보는 사람 얼굴 대상, 소정의 신체 부위 대상과 사람 손 대상 및 인체 대상에 각각 대응하는 바운딩 박스, 사람 얼굴 대상과 소정의 신체 부위 대상 사이의 관련성 라벨링 정보, 소정의 신체 부위 대상과 사람 손 대상 사이의 관련성 라벨링 정보 및 사람 얼굴 대상과 사람 손 대상 사이의 관련성 라벨링 정보를 포함한다.
본 단계를 실행할 때에, 수동 라벨링 또는 기계 보조 라벨링의 방법을 이용하여, 원래의 이미지에 대해 실제 값을 라벨링할 수 있다. 예를 들면, 원래의 이미지를 취득한 후, 한편으로는, 이미지 라벨링 툴을 사용하여, 원래의 이미지 내에 포함되어 있는 사람 얼굴 대상 바운딩 박스, 사람 손 대상 바운딩 박스 및 소정의 인체 부위 대상(예를 들면, 팔꿈치) 바운딩 박스에 대해 라벨링을 실행할 수 있다. 다른 한편으로는, 이미지 라벨링 툴을 이용하여 상기 원래의 이미지 내에 포함되어 있는 각 인체 대상을 확정할 수 있다. 각 인체 대상을 확정한 후, 당해 라벨링 툴을 이용하여 각 인체 대상에 대응하는 바운딩 박스에 대해 각각 라벨링을 실행할 수 있다. 다른 한편으로는, 라벨링 툴을 이용하여 원래의 이미지 내에 포함되어 있는 사람 얼굴 대상과 소정의 인체 부위 대상을 랜덤으로 조합하여, 원래의 이미지 내에 포함되어 있는 사람 얼굴 대상과 사람 손 대상을 랜덤으로 조합하며, 원래의 이미지 내에 포함되어 있는 소정의 인체 부위 대상과 사람 손 대상을 랜덤으로 조합하여, 복수의 조합 결과를 얻을 수 있다. 그 다음, 또한 각 조합 중의 두 개의 대상에 대해 관련성 결과 라벨링을 실행한다. 몇몇의 예에 있어서, 조합 중의 두 개의 대상이 한 사람에게 속하면, 1을 라벨링하고, 그렇지 않으면, 0을 라벨링한다.
제3 훈련 샘플 세트를 확정한 후, 상기 대상 검출 모델, 상기 인스턴스 분할 모델 및 상기 관련성 예측 모델의 각각 대응하는 손실 함수에 기반하여, 공동 학습 손실 함수량을 확정할 수 있다. 몇몇의 예에 있어서, 상기 대상 검출 모델, 상기 인스턴스 분할 모델 및 상기 관련성 예측 모델의 각각의 대응하는 손실 함수량을 가산하여, 상기 공동 학습 손실 함수량을 얻을 수 있다. 본 발명에서는 또한 상기 공동 학습 손실 함수에 대해 정규화 항목 등의 하이퍼 파라미터를 증가시킬 수 있음을 설명할 필요가 있다. 여기서 추가하는 하이퍼 파라미터의 종류를 특별히 한정하지 않는다.
공동 훈련 손실 함수량을 얻은 후, 상기 대상 검출 모델, 상기 인스턴스 분할 모델 및 상기 관련성 예측 모델이 모두 수렴될 때까지, 상기 공동 학습 손실 함수 및 상기 제3 훈련 샘플 세트에 기반하여, 상기 대상 검출 모델, 상기 인스턴스 분할 모델 및 상기 관련성 예측 모델에 대해 공동 훈련을 실행할 수 있다.
모델을 훈련할 때에, 먼저 학습율, 훈련 사이클 횟수 등의 하이퍼 파라미터를 지정할 수 있다. 상기 하이퍼 파라미터를 확정한 후, 실제 값을 라벨링 및 상기 이미지 훈련 샘플에 기반하여 각 모델에 대해 지도 훈련을 실행할 수 있다.
1회의 지도 훈련 과정에서, 순 전파를 실행하여 각 모델에 의해 출력되는 계산 결과를 얻을 수 있다. 각 모델에 의해 출력되는 계산 결과를 얻은 후, 구축한 공동 학습 손실 함수에 기반하여 상기 계산 결과의 오차를 평가할 수 있는바, 즉, 상기 계산 결과와 실제 값 사이의 차이를 평가할 수 있다. 오차를 얻은 후, 확률적 경사 하강법을 이용하여 하강 경사를 확정할 수 있다. 하강 경사를 확정한 후, 역 전파를 실행하여 상기 각 모델에 대응하는 모델 파라미터를 갱신할 수 있다. 그 다음, 상기 각 모델이 수렴될 때까지, 파라미터를 갱신한 후의 각 모델을 이용하여 상기 과정을 반복한다. 상기 모델의 수렴의 조건은 소정의 훈련 횟수에 달한 것, 또는 연속적으로 M(M은 1보다 큰 양의 정수다) 회의 순 전파 후에 얻어진 공동 학습 손실 함수의 변화량이 일정한 한계값 미만인 것일 수 있음을 설명할 필요가 있다. 본 발명은 모델의 수렴 조건에 대해 특별히 한정하지 않는다.
상기 모델 훈련에서 지도 공동 훈련 방법을 이용했기 때문에, 각 모델에 대해 동시에 훈련을 실행함으로써, 각 모델 사이의 훈련 과정에서 서로 구속하고, 또한 서로 촉진할 수 있으며, 한편으로는 각 모델의 결속 효율을 향상시킬 수 있고, 다른 한편으로는 각 모델의 공유 백본 네트워크가 관련 대상 검출에 의해 유익한 특징을 추출하도록 촉진하며, 관련 대상 검출의 정밀도를 향상시킨다.
본 발명은 이미지 내 관련 대상 검출 장치를 더 제공한다. 도 8을 참조하면, 도 8은 본 발명에 관한 이미지 내 관련 대상 검출 장치를 나타내는 구성도이다.
도 8에 나타낸 바와 같이, 상기 장치(80)는 이미지 내에 포함된, 사람 얼굴 대상, 사람 얼굴과 사람 손 사이의 신체 연결부 중의 소정의 인체 부위를 나타내는 소정의 인체 부위 대상 및 사람 손 대상을 검출하기 위한 대상 검출 모듈(81);
상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하여, 상기 사람 얼굴 대상과 상기 소정의 인체 부위 대상의 제1 관련성 예측 결과, 상기 소정의 인체 부위 대상과 상기 사람 손 대상의 제2 관련성 예측 결과 및 상기 사람 얼굴 대상과 상기 사람 손 대상의 제3 관련성 예측 결과를 얻기 위한 관련성 예측 모듈(82);
상기 이미지에 포함된 인체 대상에 대해 분할을 실행하고, 분할하여 얻어진 각 상기 인체 대상에 대응하는 영역에 기반하여, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정하기 위한 귀속 관계 확정 모듈(83); 및
제1 인체 대상 및 제2 인체 대상에 기반하여 상기 제1 관련성 예측 결과를 조정하고, 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여, 상기 이미지 내의 관련 대상을 확정하기 위한 관련 대상 확정 모듈(84)를 구비한다.
나타낸 몇몇의 실시예에 있어서, 상기 대상 검출 모듈(81)은 구체적으로, 이미지 내의 사람 얼굴 대상 및 소정의 인체 부위 대상에 각각 대응하는 제1 바운딩 박스 및 제2 바운딩 박스를 검출하고, 상기 귀속 관계 확정 모듈(83)은 상기 제1 바운딩 박스에 기반하여 상기 사람 얼굴 대상에 대응하는 영역과 각 상기 인체 대상에 대응하는 영역 사이의 제1 중첩 범위를 확정하며, 제2 바운딩 박스에 기반하여 상기 소정의 인체 부위 대상에 대응하는 영역과 각 상기 인체 대상에 대응하는 영역 사이의 제2 중첩 범위를 확정하기 위한 중첩 범위 확정 모듈; 및 상기 제1 중첩 범위 및 제2 중첩 범위에 기반하여 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정하기 위한 귀속 관계 확정 서브 모듈을 구비한다.
나타낸 몇몇의 실시예에 있어서, 상기 귀속 관계 확정 서브 모듈은 구체적으로, 각 상기 인체 대상에 각각 대응하는 영역 중에서 상기 사람 얼굴 대상에 대응하는 영역과의 제1 중첩 범위가 최대인 제1 목표 영역을 확정하고, 각 상기 인체 대상에 각각 대응하는 영역 중에서 상기 소정의 인체 부위 대상에 대응하는 영역과의 제2 중첩 범위가 최대인 제2 목표 영역을 확정하고, 상기 제1 목표 영역에 대응하는 인체 대상을 상기 사람 얼굴 대상이 속하는 제1 인체 대상으로 확정하고, 상기 제2 목표 영역에 대응하는 인체 대상을 상기 소정의 인체 부위 대상이 속하는 제2 인체 대상으로 확정한다.
나타낸 몇몇의 실시예에 있어서, 상기 관련 대상 확정 모듈(84)은 구체적으로, 제1 인체 대상과 제2 인체 대상을 매칭하여 매칭 결과를 얻고, 상기 매칭 결과에 기반하여 상기 제1 관련성 예측 결과를 조정한다.
나타낸 몇몇의 실시예에 있어서, 상기 관련 대상 확정 모듈(84)은 구체적으로, 상기 제1 인체 대상과 상기 제2 인체 대상이 매칭될 경우, 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어를 증가시키고, 및/또는 상기 제1 인체 대상과 상기 제2 인체 대상이 매칭되지 않을 경우, 상기 제1 관련성 예측 결과 중의 관련성 스코어를 감소시킨다.
나타낸 몇몇의 실시예에 있어서, 상기 장치(80)는 검출된 상기 사람 얼굴 대상, 상기 소정의 인체 부위 대상 및 상기 사람 손 대상을 결합시켜 적어도 하나의 삼요소 세트를 생성하기 위한 조합 모듈을 더 구비하는바, 여기서, 각 삼요소 세트는 하나의 사람 얼굴 대상, 하나의 소정의 인체 부위 대상 및 하나의 사람 손 대상을 포함하고, 상기 관련성 예측 모듈(82)은 구체적으로, 각 삼요소 세트 중의 각 두 개의 대상에 대해 관련성 예측을 실행하여, 상기 관련 대상 확정 모듈(84)은 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여 각 삼요소 세트에 대응하는 제4 관련성 예측 결과를 확정하기 위한 삼요소 세트 관련 관계 예측 모듈; 및 각 삼요소 세트에 대응하는 제4 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정하기 위한 관련 대상 확정 서브 모듈을 구비한다.
나타낸 몇몇의 실시예에 있어서, 상기 관련 대상 확정 서브 모듈은 구체적으로, 각 삼요소 세트에 대응하는 상기 제4 관련성 예측 결과 중의 관련성 예측 스코어의 내림차순에 따라, 각 삼요소 세트를 순서대로 현재의 삼요소 세트로 확정하고, 이하의 조작을 실행하는바, 당해 조작은 이미 확정된 관련 대상에 기반하여, 현재의 삼요소 세트에 포함된 사람 얼굴 대상과 서로 관련 대상인 관련 사람 손 대상의 수량이 제1 소정의 한계값에 달하였는지 여부를 확정하고, 또한 현재의 삼요소 세트에 포함된 사람 손 대상과 서로 관련 대상인 관련 사람 얼굴 대상의 수량이 제2 소정의 한계값에 달하였는지 여부를 확정하는 것; 및 상기 관련 사람 손 대상의 수량이 상기 제1 소정의 한계값에 달하지 않은 동시에, 상기 관련 사람 얼굴 대상의 수량이 상기 제2 소정의 한계값에 달하지 않으면, 현재의 삼요소 세트에 포함된 사람 얼굴 대상과 사람 손 대상을 상기 이미지 내의 관련 대상으로 확정하는 것을 포함한다.
나타낸 몇몇의 실시예에 있어서, 상기 소정의 인체 부위 대상은 어깨 대상 및 팔꿈치 대상 중의 적어도 하나를 포함한다.
나타낸 몇몇의 실시예에 있어서, 상기 장치(80)는 상기 이미지 내의 관련 대상의 검출 결과를 출력하기 위한 출력 모듈을 더 구비한다.
나타낸 몇몇의 실시예에 있어서, 상기 대상 검출 모듈(81)은 구체적으로, 신경망에 기반하여 구축한 대상 검출 모델을 이용하여, 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하고, 상기 관련성 예측 모듈(82)은 구체적으로, 신경망에 기반하여 구축한 관련성 예측 모델을 이용하여, 상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하며, 상기 귀속 관계 확정 모듈(83)은 구체적으로, 신경망에 기반하여 구축한 인스턴스 분할 모델을 이용하여 상기 이미지에 포함된 인체 대상에 대해 분할을 실행한다.
나타낸 몇몇의 실시예에 있어서, 상기 장치(80)는 제1 훈련 샘플 세트에 기반하여 상기 대상 검출 모델을 훈련하기 위한 제1 훈련 모듈; 제2 훈련 샘플 세트에 기반하여 상기 인스턴스 분할 모델을 훈련하기 위한 제2 훈련 모듈; 및 제3 훈련 샘플 세트에 기반하여 상기 대상 검출 모델, 상기 인스턴스 분할 모델 및 상기 관련성 예측 모델에 대해, 공동 훈련을 실행하기 위한 공동 훈련 모듈을 구비하되, 여기서, 상기 제1 훈련 샘플 세트는 제1 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하고, 상기 제1 라벨링 정보는 사람 얼굴 대상, 상기 소정의 신체 부위 대상 및 사람 손 대상의 바운딩 박스를 포함하고, 상기 제2 훈련 샘플 세트는 제2 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하며, 상기 제2 라벨링 정보는 인체 대상의 바운딩 박스를 포함하고, 상기 제3 훈련 샘플 세트는 제3 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하며, 상기 제3 라벨링 정보는 사람 얼굴 대상, 소정의 신체 부위 대상과 사람 손 대상 및 인체 대상에 각각 대응하는 바운딩 박스, 사람 얼굴 대상과 소정의 신체 부위 대상 사이의 관련성 라벨링 정보, 소정의 신체 부위 대상과 사람 손 대상 사이의 관련성 라벨링 정보 및 사람 얼굴 대상과 사람 손 대상 사이의 관련성 라벨링 정보를 포함한다.
본 발명에 나타낸 이미지 내 관련 대상 검출 장치의 실시예는 전자 디바이스에 적용될 수 있다. 이에 따라, 본 발명은 전자 디바이스를 개시하는바, 당해 디바이스는 프로세서; 및 프로세서에 의해 실행 가능한 명령을 저장하기 위한 메모리를 구비하되, 여기서, 상기 프로세서는 상기 메모리에 저장된 실행 가능 명령을 호출하여, 상기의 임의의 실시예에 나타낸 이미지 내 관련 대상 검출 방법을 구현하게 구성된다.
도 9를 참조하면, 도 9는 본 발명에 나타낸 전자 디바이스의 하드웨어 구성도이다. 도 9에 나타낸 바와 같이, 당해 전자 디바이스는 명령을 실행하기 위한 프로세서; 네트워크 접속을 실행하기 위한 네트워크 인터페이스; 프로세서를 위한 운행 데이터를 기억하기 위한 메모리; 및 화상 처리 장치에 대응하는 명령을 기억하기 위한 비휘발성 메모리를 포함할 수 있다. 화상 처리 장치의 실시예는 소프트웨어, 하드웨어, 또는 양자의 조합에 의해 구현될 수 있다. 소프트웨어에 의해 구현되는 예를 들면, 논리 장치는, 전자 디바이스의 프로세서에 의해 비휘발성 메모리 내의 대응하는 컴퓨터 프로그램 명령을 메모리에 판독하여 운행되어 형성될 수 있다. 하드웨어의 관점에서는 도 9에 나타낸 프로세서, 메모리, 네트워크 인터페이스 및 비휘발성 메모리 이외에, 실시예의 장치가 배치되는 전자 디바이스는 일반적으로 실제 기능에 기반한 기타 하드웨어를 포함하는바, 이에 대해 반복적으로 설명하지 않는다. 처리 속도를 높이기 위하여, 화상 처리 장치에 대응하는 명령도 직접 메모리에 기억할 수 있는바, 본 발명은 이에 대해 한정하지 않음을 이해해야 한다.
본 발명은 컴퓨터 판독 가능 기록 매체를 제공하는바, 상기 기록 매체에는 컴퓨터 프로그램이 기억되어 있으며, 상기 컴퓨터 프로그램은 상기의 임의의 실시예에 나타낸 이미지 내 관련 대상 검출 방법을 실행한다.
당업자는 본 발명의 하나 또는 복수의 실시예는 방법, 시스템, 또는 컴퓨터 프로그램 제품으로 제공할 수 있음을 이해해야 한다. 따라서, 본 발명의 하나 또는 복수의 실시예는 완전한 하드웨어의 실시예, 완전한 소프트웨어의 실시예, 또는 소프트웨어와 하드웨어를 조합시킨 실시예의 형식을 채용할 수 있다. 또한, 본 발명의 하나 또는 복수의 실시예는 컴퓨터 이용 가능한 프로그램 코드를 포함하는 하나 또는 복수의 컴퓨터 이용 가능한 기억 매체(disk memory, CD-ROM, 광학 메모리 등을 포함하지만, 이에 한정되지 않음) 상에서 실시되는 컴퓨터 프로그램 제품의 형식을 사용할 수 있다.
본 발명에서의 "및/또는"은 적어도 양자 중의 하나를 가지는 것을 나타내며, 예를 들면, "A 및/또는 B"는 A, B 및 "A 및 B"와 같은 세 경우를 포함할 수 있다.
본 발명에 있어서의 각 실시예는 모두 점진적인 방식을 통해 서술되고, 각 실시예들 사이의 동일 또는 유사한 부분은 서로 참조할 수 있기에, 각 실시예에서는 기타 실시예와의 차이 점에 초점을 맞춰 설명했다. 특히, 데이터 처리 디바이스의 실시예의 경우, 기본 적으로 방법의 실시예와 유사이기 때문에, 상대적으로 간단히 서술했지만, 관련된 부분은 방법의 실시예의 부분 설명을 참조하면 된다.
상기에서 본 발명이 특정 실시예를 서술했다. 기타 실시예는 첨부된 "특허 청구 범위"의 범위 내에 있다. 몇몇의 경우, 특허 청구 범위에 기재된 행위 또는 단계는 실시예와 다른 순서에 따라 실행될 수 있으며, 이 때에도 여전히 기대하는 결과가 실현될 수 있다. 또한, 도면에 그려진 과정은 기대하는 결과를 얻기 위하여, 반드시 나타낸 특정 순서 또는 연속적인 순서를 필요로 하지 않는다. 몇몇의 실시 형태에 있어서, 멀티 태스크 처리 및 병렬 처리도 가능하며, 또한 더 유리할 수도 있다.
본 발명의 주제 및 기능 조작의 실시예는 디지털 전자 회로, 유형 컴퓨터 소프트웨어 또는 펌웨어, 본 발명에 개시되는 구성 및 그 구조적 동등물을 포함하는 컴퓨터 하드웨어, 또는 이들의 하나 또는 복수의 조합을 통해 실현될 수 있다. 본 발명의 주제의 실시예는 하나 또는 복수의 컴퓨터 프로그램으로 실현될 수 있는바, 즉, 유형의 비일시적 프로그램 캐리어 상에 부호화되어 데이터 처리 장치에 의해 실행되거나, 또는 데이터 처리 장치의 조작을 제어하기 위한 컴퓨터 프로그램 명령 중의 하나 또는 복수의 모듈에 의해 실현될 수 있다. 대체적 또는 추가적으로, 프로그램 명령은 수작업으로 생성하는 전파 신호 상에 부호화될 수 있는바, 예를 들면 기계가 생성하는 전기 신호, 광 신호, 또는 전자 신호 상에 부호화될 수 있다. 정보를 부호화하여 적절한 수신기 장치에 전송하며, 데이터 처리 장치에 의해 실행되도록 하기 위하여, 당해 신호가 생성된다. 컴퓨터 기억 매체는 기계 판독 가능 기억 디바이스, 기계 판독 가능 기억 기판, 랜덤 또는 시리얼 액세스 메모리 디바이스, 또는 이들의 하나 또는 복수의 조합일 수 있다.
본 발명 중의 처리와 논리 플로우는 하나 또는 복수의 컴퓨터 프로그램을 실행하는 하나 또는 복수의 프로그램 가능한 컴퓨터에 의해 실행될 수 있으며, 입력 데이터에 기반하여 조작을 실행하여 출력을 생성함으로써 해당하는 기능을 실행한다. 상기 처리와 논리 플로우는 또한 예를 들면 FPGA(필드 프로그래밍 가능 게이트 어레이) 또는 ASIC(전용 집적 회로) 등의 전용 논리 회로에 의해 실행될 수 있고, 또한 장치도 전용 논리 회로를 통해 실현될 수 있다.
컴퓨터 프로그램의 실행에 적합한 컴퓨터는 예를 들면 범용 및/또는 전용 마이크로 프로세서, 또는 임의의 기타 종류의 중앙 처리 유닛을 포함한다. 일반적으로 중앙 처리 유닛은 판독 전용 메모리 및/또는 랜덤 액세스 메모리로부터 명령과 데이터를 수신하게 된다. 컴퓨터의 기본 컴포넌트는 명령을 실시 또는 실행하기 위한 중앙 처리 유닛 및 명령과 데이터를 기억하기 위한 하나 또는 복수의 메모리 디바이스를 포함한다. 일반적으로 컴퓨터는 자기 디스크, 자기 광학 디스크, 또는 광학 디스크 등과 같은, 데이터를 기억하기 위한 하나 또는 복수의 대용량 기억 디바이스를 더 포함하거나, 또는 조작 가능하게 당해 대용량 기억 디바이스와 결합되어 데이터를 수신하거나, 데이터를 전송하거나, 또는 양자를 모두 포함한다. 하지만, 컴퓨터는 반드시 이러한 디바이스를 포함하는 것은 아니다. 한편, 컴퓨터는 다른 일 디바이스에 내장될 수 있는바, 예를 들면 휴대 전화, 개인용 디지털 처리 장치(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기, 또는 범용 직렬 버스(USB), 플래시 드라이브 등의 휴대용 기억 디바이스에 내장될 수 있으며, 이러한 디바이스는 몇몇의 예에 지나지 않는다.
컴퓨터 프로그램 명령과 데이터의 기억에 적합한 컴퓨터 판독 가능 매체는 모든 형식의 비휘발성 메모리, 매개 및 메모리 디바이스를 포함하는바, 예를 들면 반도체 메모리 디바이스(예를 들면, EPROM, EEPROM 및 플래시 디바이스), 자기 디스크(예를 들면, 내부 하드 디스크 또는 이동 가능 디스크), 자기 광학 디스크 및 CD ROM와 DVD-ROM 디스크를 포함한다. 프로세서와 메모리는 전용 논리 회로에 의해 보완되거나 또는 전용 논리 회로에 구비될 수 있다.
본 발명은 다양한 구체적인 실시 세부 사항을 포함하지만, 이를 본 발명의 범위 또는 보호하려고 하는 범위를 한정하는 것으로 해석해서는 안되며, 이는 주로 본 발명의 몇몇의 실시예의 특징을 서술하기 위하여 사용된다. 본 발명의 복수 실시예 중의 특정 특징은 단일 실시예에 결합되어 실시될 수도 있다. 반면에, 단일 실시예 중의 각 특징은 복수의 실시예에 나뉘어 실시되거나 또는 임의의 적절한 서브 조합에 의해 실시될 수도 있다. 한편, 특징이 상기와 같이 특정 조합으로 역할을 발휘하고, 또한 처음부터 이렇게 보호된다고 주장했지만, 보호한다고 주장한 조합 중의 하나 또는 복수의 특징은 경우에 따라 당해 조합으로부터 제외될 수도 있고, 또한 보호한다고 주장한 조합은 서브 조합 또는 서브 조합의 변형을 지향할 수 있다.
마찬가지로, 도면에서는 조작이 특정 순서로 나타내어져 있지만, 이는 이러한 조작을 나타낸 특정 순서로 실행되거나 순서로 실행될 필요가 있고, 또는 예시한 모든 조작을 전부 실행하여 기대하는 결과를 구현할 필요가 있는 것으로 해석하면 안된다. 경우에 따라 멀티 태스크와 병렬 처리가 더 유리할 경우가 있다. 한편, 상기의 실시예에 있어서의 다양한 시스템 모듈 및 컴포넌트의 분리는 모든 실시예에 있어서 반드시 그러한 분리를 필요로 하는 것으로서 이해해서는 안되며, 설명된 프로그램 컴포넌트 및 시스템은 일반적으로 하나 또는 복수의 소프트웨어 제품에 함께 통합될 수 있음을 이해해야 한다.
따라서, 주제의 특정 실시예가 서술되었다. 기타 실시예는 첨부된 "특허청구범위"의 범위 내에 있다. 경우에 따라 특허청구범위에 기재되어 있는 동작은 기타 순서에 따라 실행될 수 있으며, 이 경우에도 여전히 기대하는 결과가 실현될 수 있다. 한편, 도면에 그려진 처리는 기대하는 결과를 실현하는데, 반드시 나타낸 특정 순서를 필요로 하지 않는다. 일부 실현에 있어서, 멀티 태스크 및 병렬 처리가 더 유익할 가능성이 있다.
상기는 본 발명의 몇몇의 실시예에 불과할 뿐, 본 발명을 한정하려는 것이 아니다. 본 발명의 정신과 원칙의 범위 내에서 행하여진 어떠한 수정, 동등의 치환, 개량 등은 모두 본 발명의 범위에 포함되어야 한다.

Claims (15)

  1. 이미지 내 관련 대상 검출 방법으로서,
    이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하는 것 - 상기 소정의 인체 부위 대상은 사람 얼굴과 사람 손 사이의 신체 연결부 중의 소정의 인체 부위를 나타냄 -;
    상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하여, 상기 사람 얼굴 대상과 상기 소정의 인체 부위 대상의 제1 관련성 예측 결과, 상기 소정의 인체 부위 대상과 상기 사람 손 대상의 제2 관련성 예측 결과 및 상기 사람 얼굴 대상과 상기 사람 손 대상의 제3 관련성 예측 결과를 얻는 것;
    상기 이미지에 포함된 인체 대상에 대해 분할을 실행하고, 분할하여 얻어진 각 상기 인체 대상에 대응하는 영역에 기반하여, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정하는 것;
    상기 제1 인체 대상 및 상기 제2 인체 대상에 기반하여 상기 제1 관련성 예측 결과를 조정하는 것; 및
    조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여, 상기 이미지 내의 관련 대상을 확정하는 것을 포함하는
    것을 특징으로 하는, 이미지 내 관련 대상 검출 방법.
  2. 제1항에 있어서,
    상기 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하는 것은,
    이미지 내의 사람 얼굴 대상 및 소정의 인체 부위 대상에 각각 대응하는 제1 바운딩 박스 및 제2 바운딩 박스를 검출하는 것을 포함하고,
    상기 분할하여 얻어진 각 상기 인체 대상에 대응하는 영역에 기반하여 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정하는 것은,
    상기 제1 바운딩 박스에 기반하여 상기 사람 얼굴 대상에 대응하는 영역과 각 상기 인체 대상에 대응하는 영역 사이의 제1 중첩 범위를 확정하는 것;
    상기 제2 바운딩 박스에 기반하여 상기 소정의 인체 부위 대상에 대응하는 영역과 각 상기 인체 대상에 대응하는 영역 사이의 제2 중첩 범위를 확정하는 것; 및
    상기 제1 중첩 범위 및 상기 제2 중첩 범위에 기반하여 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정하는 것을 포함하는
    것을 특징으로 하는, 이미지 내 관련 대상 검출 방법.
  3. 제2항에 있어서,
    상기 제1 중첩 범위 및 상기 제2 중첩 범위에 기반하여 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 제1 인체 대상 및 제2 인체 대상을 확정하는 것은,
    각 상기 인체 대상에 각각 대응하는 영역 중에서 상기 사람 얼굴 대상에 대응하는 영역과의 제1 중첩 범위가 최대인 제1 목표 영역을 확정하는 것;
    각 상기 인체 대상에 각각 대응하는 영역 중에서 상기 소정의 인체 부위 대상에 대응하는 영역과의 제2 중첩 범위가 최대인 제2 목표 영역을 확정하는 것;
    상기 제1 목표 영역에 대응하는 인체 대상을 상기 사람 얼굴 대상이 속하는 제1 인체 대상으로 확정하는 것; 및
    상기 제2 목표 영역에 대응하는 인체 대상을 상기 소정의 인체 부위 대상이 속하는 제2 인체 대상으로 확정하는 것을 포함하는
    것을 특징으로 하는, 이미지 내 관련 대상 검출 방법.
  4. 제1항 내지 제3 항 중 어느 한 항에 있어서,
    상기 제1 인체 대상 및 상기 제2 인체 대상에 기반하여 상기 제1 관련성 예측 결과를 조정하는 것은,
    상기 제1 인체 대상과 상기 제2 인체 대상을 매칭하여 매칭 결과를 얻는 것; 및
    상기 매칭 결과에 기반하여 상기 제1 관련성 예측 결과를 조정하는 것을 포함하는
    것을 특징으로 하는, 이미지 내 관련 대상 검출 방법.
  5. 제4 항에 있어서,
    상기 매칭 결과에 기반하여 상기 제1 관련성 예측 결과를 조정하는 것은,
    상기 제1 인체 대상과 상기 제2 인체 대상이 매칭될 경우, 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어를 증가시키는 것; 및/또는,
    상기 제1 인체 대상과 상기 제2 인체 대상이 매칭되지 않을 경우, 상기 제1 관련성 예측 결과 중의 관련성 예측 스코어를 감소시키는 것을 포함하는
    것을 특징으로 하는, 이미지 내 관련 대상 검출 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    검출된 상기 사람 얼굴 대상, 상기 소정의 인체 부위 대상 및 상기 사람 손 대상을 결합시켜 하나의 사람 얼굴 대상, 하나의 인체 부위 대상 및 하나의 사람 손 대상을 포함하는 삼요소 세트를 적어도 하나 생성하는 것을 더 포함하며,
    상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하는 것은,
    각 삼요소 세트 중의 각 두 개의 대상에 대해 관련성 예측을 실행하는 것을 포함하고,
    상기 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정하는 것은,
    조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여 각 삼요소 세트에 대응하는 제4 관련성 예측 결과를 확정하는 것; 및
    각 삼요소 세트에 대응하는 제4 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정하는 것을 포함하는
    것을 특징으로 하는, 이미지 내 관련 대상 검출 방법.
  7. 제6항에 있어서,
    상기 각 삼요소 세트에 대응하는 제4 관련성 예측 결과에 기반하여 상기 이미지 내의 관련 대상을 확정하는 것은,
    각 삼요소 세트에 대응하는 상기 제4 관련성 예측 결과 중의 관련성 예측 스코어의 내림차순에 따라, 각 삼요소 세트를 순서대로 현재의 삼요소 세트로 확정하고, 이하의 조작을 실행하는 것을 포함하며,
    당해 조작은,
    이미 확정된 관련 대상에 기반하여, 현재의 삼요소 세트에 포함된 사람 얼굴 대상과 서로 관련 대상인 관련 사람 손 대상의 수량이 제1 소정의 한계값에 달하였는지 여부를 확정하고, 또한 현재의 삼요소 세트에 포함된 사람 손 대상과 서로 관련 대상인 관련 사람 얼굴 대상의 수량이 제2 소정의 한계값에 달하였는지 여부를 확정하는 것; 및
    상기 관련 사람 손 대상의 수량이 상기 제1 소정의 한계값에 달하지 않은 동시에, 상기 관련 사람 얼굴 대상의 수량이 상기 제2 소정의 한계값에 달하지 않으면, 현재의 삼요소 세트에 포함된 사람 얼굴 대상과 사람 손 대상을 상기 이미지 내의 관련 대상으로 확정하는 것을 포함하는
    것을 특징으로 하는, 이미지 내 관련 대상 검출 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 소정의 인체 부위 대상은 어깨 대상 및 팔꿈치 대상 중의 적어도 하나를 포함하는
    것을 특징으로 하는, 이미지 내 관련 대상 검출 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 이미지 내의 관련 대상의 검출 결과를 출력하는 것을 더 포함하는
    것을 특징으로 하는, 이미지 내 관련 대상 검출 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하는 것은,
    신경망에 기반하여 구축한 대상 검출 모델을 이용하여, 이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하는 것을 포함하고,
    상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하는 것은,
    신경망에 기반하여 구축한 관련성 예측 모델을 이용하여, 상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하는 것을 포함하고,
    상기 이미지에 포함된 인체 대상에 대해 분할을 실행하는 것은,
    신경망에 기반하여 구축한 인스턴스 분할 모델을 이용하여 상기 이미지에 포함된 인체 대상에 대해 분할을 실행하는 것을 포함하는
    것을 특징으로 하는, 이미지 내 관련 대상 검출 방법.
  11. 제10항에 있어서,
    제1 훈련 샘플 세트에 기반하여 상기 대상 검출 모델을 훈련하는 것;
    제2 훈련 샘플 세트에 기반하여 상기 인스턴스 분할 모델을 훈련하는 것; 및
    제3 훈련 샘플 세트에 기반하여 상기 대상 검출 모델, 상기 인스턴스 분할 모델 및 상기 관련성 예측 모델에 대해 공동 훈련을 실행하는 것을 더 포함하며,
    상기 제1 훈련 샘플 세트는 제1 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하고, 상기 제1 라벨링 정보는 사람 얼굴 대상, 상기 소정의 신체 부위 대상 및 사람 손 대상의 바운딩 박스를 포함하며,
    상기 제2 훈련 샘플 세트는 제2 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하고, 상기 제2 라벨링 정보는 인체 대상의 바운딩 박스를 포함하며,
    상기 제3 훈련 샘플 세트는 제3 라벨링 정보를 가지는 이미지 훈련 샘플을 포함하고, 상기 제3 라벨링 정보는 사람 얼굴 대상, 소정의 신체 부위 대상과 사람 손 대상 및 인체 대상에 각각 대응하는 바운딩 박스, 사람 얼굴 대상과 소정의 신체 부위 대상 사이의 관련성 라벨링 정보, 소정의 신체 부위 대상과 사람 손 대상 사이의 관련성 라벨링 정보 및 사람 얼굴 대상과 사람 손 대상 사이의 관련성 라벨링 정보를 포함하는
    것을 특징으로 하는, 이미지 내 관련 대상 검출 방법.
  12. 이미지 내 관련 대상 검출 장치로서,
    이미지 내에 포함된 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상을 검출하기 위한 대상 검출 모듈 - 상기 소정의 인체 부위 대상은 사람 얼굴과 사람 손 사이의 신체 연결부 중의 소정의 인체 부위를 나타냄 -;
    상기 사람 얼굴 대상, 소정의 인체 부위 대상 및 사람 손 대상 중의 각 두 개의 대상에 대해 관련성 예측을 실행하여, 상기 사람 얼굴 대상과 상기 소정의 인체 부위 대상의 제1 관련성 예측 결과, 상기 소정의 인체 부위 대상과 상기 사람 손 대상의 제2 관련성 예측 결과 및 상기 사람 얼굴 대상과 상기 사람 손 대상의 제3 관련성 예측 결과를 얻기 위한 관련성 예측 모듈;
    상기 이미지에 포함된 인체 대상에 대해 분할을 실행하고, 분할하여 얻어진 각 상기 인체 대상에 대응하는 영역에 기반하여, 상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 인체 대상을 확정하기 위한 귀속 관계 확정 모듈; 및
    상기 사람 얼굴 대상 및 상기 소정의 인체 부위 대상이 각각 속하는 인체 대상에 기반하여, 상기 제1 관련성 예측 결과를 조정하고, 조정 후의 상기 제1 관련성 예측 결과, 상기 제2 관련성 예측 결과 및 상기 제3 관련성 예측 결과에 기반하여, 상기 이미지 내의 관련 대상을 확정하기 위한 관련 대상 확정 모듈을 구비하는
    것을 특징으로 하는, 이미지 내 관련 대상 검출 장치.
  13. 전자 디바이스로서,
    프로세서; 및
    상기 프로세서에 의해 실행 가능한 명령을 저장하기 위한 메모리를 구비하며,
    상기 프로세서는 상기 메모리에 저장된 실행 가능 명령을 호출하여, 제1항 내지 제11항 중 어느 한 항에 기재된 이미지 내 관련 대상 검출 방법을 구현하는
    것을 특징으로 하는, 전자 디바이스.
  14. 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체로서,
    상기 컴퓨터 프로그램은 제1항 내지 제11항 중 어느 한 항에 기재된 이미지 내 관련 대상 검출 방법을 실행하는
    것을 특징으로 하는, 컴퓨터 판독 가능 기록 매체.
  15. 컴퓨터 명령을 포함하는 컴퓨터 프로그램으로서,
    상기 컴퓨터 명령이 디바이스의 프로세서에 의해 실행될 때, 제1항 내지 제11항 중 어느 한 항에 기재된 방법이 실현되는
    것을 특징으로 하는, 컴퓨터 프로그램.
KR1020217019260A 2020-12-31 2021-04-29 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체 KR20220098312A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10202013267T 2020-12-31
SG10202013267T 2020-12-31
PCT/IB2021/053563 WO2022144605A1 (en) 2020-12-31 2021-04-29 Methods, devices, apparatuses and storage media of detecting correlated objects in images

Publications (1)

Publication Number Publication Date
KR20220098312A true KR20220098312A (ko) 2022-07-12

Family

ID=79867888

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217019260A KR20220098312A (ko) 2020-12-31 2021-04-29 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체

Country Status (6)

Country Link
US (1) US11756205B2 (ko)
JP (1) JP2023511242A (ko)
KR (1) KR20220098312A (ko)
CN (1) CN114902299A (ko)
AU (1) AU2021203821B2 (ko)
PH (1) PH12021551366A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2021204614A1 (en) * 2021-06-21 2023-01-19 Sensetime International Pte. Ltd. Body and hand correlation method and apparatus, device, and storage medium
CN116486134A (zh) * 2023-03-02 2023-07-25 哈尔滨市科佳通用机电股份有限公司 基于深度神经网络的列车制动软管挂钩脱出故障检测方法
CN116895043B (zh) * 2023-06-13 2024-01-26 郑州宝冶钢结构有限公司 一种施工现场智能安全监控预警方法、***及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2467643B (en) * 2009-02-04 2011-06-29 Honeywell Int Inc Improved detection of people in real world videos and images
JP5848551B2 (ja) * 2011-08-26 2016-01-27 キヤノン株式会社 学習装置、学習装置の制御方法、検出装置、検出装置の制御方法、およびプログラム
CN104123532B (zh) 2013-04-28 2017-05-10 浙江大华技术股份有限公司 对目标对象进行检测、确定目标对象数量的方法和设备
US9857881B2 (en) * 2015-12-31 2018-01-02 Microsoft Technology Licensing, Llc Electrical device for hand gestures detection
US10037458B1 (en) * 2017-05-02 2018-07-31 King Fahd University Of Petroleum And Minerals Automated sign language recognition
WO2018207365A1 (ja) * 2017-05-12 2018-11-15 富士通株式会社 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
CN108038474B (zh) * 2017-12-28 2020-04-14 深圳励飞科技有限公司 人脸检测方法、卷积神经网络参数的训练方法、装置及介质
US11494938B2 (en) * 2018-05-15 2022-11-08 Northeastern University Multi-person pose estimation using skeleton prediction
WO2020153971A1 (en) * 2019-01-25 2020-07-30 Google Llc Whole person association with face screening
JP7464619B2 (ja) * 2019-03-12 2024-04-09 エレメント インク. モバイルデバイスによる顔認識のなりすまし検知
KR102199467B1 (ko) 2019-05-20 2021-01-07 넷마블 주식회사 기계 학습을 위한 데이터 수집 방법
KR102075293B1 (ko) * 2019-05-22 2020-02-07 주식회사 루닛 의료 영상의 메타데이터 예측 장치 및 방법
CN110636315B (zh) 2019-08-19 2020-12-15 北京达佳互联信息技术有限公司 一种多人虚拟直播方法、装置、电子设备及存储介质
CN110674719B (zh) * 2019-09-18 2022-07-26 北京市商汤科技开发有限公司 目标对象匹配方法及装置、电子设备和存储介质
CN110647834B (zh) * 2019-09-18 2021-06-25 北京市商汤科技开发有限公司 人脸和人手关联检测方法及装置、电子设备和存储介质
CN110852162B (zh) * 2019-09-29 2020-10-23 深圳云天励飞技术有限公司 一种人体完整度数据标注方法、装置及终端设备
CN110675433A (zh) * 2019-10-31 2020-01-10 北京达佳互联信息技术有限公司 视频处理方法、装置、电子设备及存储介质
CN110929651B (zh) * 2019-11-25 2022-12-06 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN111144215B (zh) * 2019-11-27 2023-11-24 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
CN111680654B (zh) * 2020-06-15 2023-10-13 杭州海康威视数字技术股份有限公司 一种基于物品取放事件的人员信息获取方法、装置及设备
CN112527107B (zh) * 2020-11-30 2023-04-07 京东方科技集团股份有限公司 手势识别方法、装置、电子设备及存储介质
KR20220130568A (ko) * 2021-03-17 2022-09-27 센스타임 인터내셔널 피티이. 리미티드. 객체들 사이의 상관성을 예측하기 위한 방법들, 장치들, 디바이스들, 및 저장 매체

Also Published As

Publication number Publication date
AU2021203821A1 (en) 2022-07-14
JP2023511242A (ja) 2023-03-17
CN114902299A (zh) 2022-08-12
PH12021551366A1 (en) 2021-12-13
AU2021203821B2 (en) 2022-08-18
US11756205B2 (en) 2023-09-12
US20220207741A1 (en) 2022-06-30

Similar Documents

Publication Publication Date Title
WO2022213879A1 (zh) 目标对象检测方法、装置、计算机设备和存储介质
KR20220098312A (ko) 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체
CN112434721A (zh) 一种基于小样本学习的图像分类方法、***、存储介质及终端
US9183431B2 (en) Apparatus and method for providing activity recognition based application service
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
CN110765860A (zh) 摔倒判定方法、装置、计算机设备及存储介质
WO2021164662A1 (zh) 交互关系识别方法、装置、设备及存储介质
CN112016475B (zh) 一种人体检测识别方法和装置
US11941838B2 (en) Methods, apparatuses, devices and storage medium for predicting correlation between objects
US20230334893A1 (en) Method for optimizing human body posture recognition model, device and computer-readable storage medium
KR20220004009A (ko) 키 포인트 검출 방법, 장치, 전자 기기 및 저장 매체
US20220269883A1 (en) Methods, apparatuses, devices and storage media for predicting correlation between objects involved in image
CN113557546B (zh) 图像中关联对象的检测方法、装置、设备和存储介质
CN113780145A (zh) ***形态检测方法、装置、计算机设备和存储介质
KR20190018274A (ko) 이미지에 포함된 특징 포인트의 시간 또는 공간의 움직임에 기초하여 이미지에 존재하는 피사체를 인식하는 장치 및 방법
CN116958584B (zh) 关键点检测方法、回归模型的训练方法、装置及电子设备
CN116958873A (zh) 行人跟踪方法、装置、电子设备及可读存储介质
US11961249B2 (en) Generating stereo-based dense depth images
CN113158710B (zh) 一种视频分类的方法、装置、终端及存储介质
CN114694257A (zh) 多人实时三维动作识别评估方法、装置、设备及介质
WO2022144605A1 (en) Methods, devices, apparatuses and storage media of detecting correlated objects in images
WO2022195338A1 (en) Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
CN113518201B (zh) 视频处理方法、装置及设备
WO2022195336A1 (en) Methods, apparatuses, devices and storage medium for predicting correlation between objects
US20230377188A1 (en) Group specification apparatus, group specification method, and computer-readable recording medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application