WO2023043001A1 - 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법 및 장치 - Google Patents

저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법 및 장치 Download PDF

Info

Publication number
WO2023043001A1
WO2023043001A1 PCT/KR2022/008543 KR2022008543W WO2023043001A1 WO 2023043001 A1 WO2023043001 A1 WO 2023043001A1 KR 2022008543 W KR2022008543 W KR 2022008543W WO 2023043001 A1 WO2023043001 A1 WO 2023043001A1
Authority
WO
WIPO (PCT)
Prior art keywords
face recognition
resolution
attention map
recognition network
low
Prior art date
Application number
PCT/KR2022/008543
Other languages
English (en)
French (fr)
Inventor
신성호
이규빈
이주순
이준석
전창현
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220072493A external-priority patent/KR20230039509A/ko
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Publication of WO2023043001A1 publication Critical patent/WO2023043001A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Definitions

  • the present invention relates to a method and apparatus for transmitting an attention map for improving face recognition performance of a low-resolution image, and more particularly, to a method and apparatus for transmitting an attention map using knowledge distillation.
  • a trained machine learning model may receive images containing people's faces, and detect and identify people's faces within the received images.
  • high-resolution images in which people's faces are clearly displayed are required for such face recognition.
  • the accuracy of face recognition is significantly reduced.
  • the step of learning the low-resolution face recognition network so that the second attention map is similar to the first attention map may include using the sum of the face recognition loss and the distillation loss in the low-resolution face recognition network. and training the face recognition network.
  • a high-resolution face recognition network includes a plurality of sequentially connected blocks.
  • the step of learning the high-resolution face recognition network includes extracting a first initial attention map from a first block included in a plurality of blocks, extracting a second initial attention map from a second block connected to the first block, and knowledge and training the high-resolution face recognition network to make the second initial attention map similar to the first initial attention map using distillation.
  • a computer program stored in a computer readable recording medium is provided to execute the above-described method according to an embodiment of the present invention on a computer.
  • the computing device can effectively improve the performance of a low-resolution face recognition network without additional parameters during training and without slowdown during inference.
  • the low-resolution face recognition network due to the low computing power included in the driving robot, etc., even when only a low-resolution image is received, the low-resolution face recognition network generates a precise attention map and, accordingly, more accurately recognizes the face included in the low-resolution image. can do.
  • FIG. 1 is a diagram illustrating an example of transferring an attention map between networks according to an embodiment of the present invention.
  • FIG. 2 is a functional block diagram showing the internal configuration of a computing device according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating an example of a high-resolution face recognition network and a low-resolution face recognition network according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating an example of learning a low-resolution face recognition network according to an embodiment of the present invention.
  • FIG. 7 is a block diagram showing an internal configuration of a computing device according to an embodiment of the present invention.
  • a first initial attention map is extracted from a first block (B1) (410_1) (eg, an attention module corresponding to the first block) included in the plurality of blocks 410_1, 410_2, 410_3, and 410_4. and a second initial attention map may be extracted from the second block (B2) 410_2 connected to the first block 410_1.
  • the second initial attention map may be learned to be similar to the first initial attention map by using knowledge distillation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법에 관한 것이다. 어텐션 맵 전달 방법은, 임의의 사람의 얼굴을 포함하는 복수의 고해상도 이미지를 기초로 임의의 사람의 얼굴을 인식하기 위한 고해상도 얼굴 인식 네트워크를 학습하는 단계, 학습된 고해상도 얼굴 인식 네트워크로부터 복수의 고해상도 이미지와 연관된 제1 어텐션 맵을 추출하는 단계, 추출된 제1 어텐션 맵을, 임의의 사람의 얼굴을 포함하는 복수의 저해상도 이미지를 기초로 임의의 사람의 얼굴을 인식하기 위한 저해상도 얼굴 인식 네트워크 상에 전달하는 단계 및 전달된 제1 어텐션 맵을 이용하여 저해상도 얼굴 인식 네트워크를 학습하는 단계를 포함한다.

Description

저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법 및 장치
본 발명은 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법 및 장치에 관한 것으로, 구체적으로, 지식 증류(knowledge distillation)를 이용하여 어텐션 맵을 전달하는 방법 및 장치에 관한 것이다.
컴퓨터 비전(computer vision) 분야에서 이미지 상에 포함된 사람들의 식별하기 위한 얼굴 인식(face recognition)은 중요한 과제이다. 예를 들어, 학습된 기계학습 모델은 사람들의 얼굴을 포함하는 이미지를 수신하고, 수신된 이미지 내의 사람들의 얼굴을 검출하고 식별할 수 있다. 일반적으로, 이와 같은 얼굴 인식을 위해서는 사람들의 얼굴이 선명하게 표시되는 고해상도 이미지가 요구된다. 이와 달리, 저해상도 이미지를 이용하는 경우, 얼굴 인식의 정확도가 현저히 감소된다.
한편, 저해상도 이미지를 이용한 얼굴 인식의 정확도 향상을 위한 연구가 지속되어 왔다. 예를 들어, SR(super resolution)과 같이 저해상도 이미지를 고해상도 이미지로 변환하는 네트워크를 사용한 후, 변환된 고해상도 이미지를 이용하여 얼굴 인식을 수행하는 방법이 있다. 그러나, 이와 같은 방법의 경우, 해상도 변환을 위해 더 큰 용량의 네트워크가 추가로 요구되는 문제가 있다.
본 발명은 상기와 같은 문제점을 해결하기 위한 어텐션 맵 전달 방법, 기록매체에 저장된 컴퓨터 프로그램 및 장치(시스템)를 제공한다.
본 발명은 방법, 장치(시스템) 또는 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 포함한 다양한 방식으로 구현될 수 있다.
본 발명의 일 실시예에 따르면, 적어도 하나의 프로세서에 의해 수행되는 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법은, 사람의 얼굴을 포함하는 고해상도 이미지를 기초로 사람의 얼굴을 인식하기 위한 고해상도 얼굴 인식 네트워크를 학습하는 단계, 학습된 고해상도 얼굴 인식 네트워크로부터 고해상도 이미지와 연관된 제1 어텐션 맵을 추출하는 단계, 추출된 제1 어텐션 맵을, 사람의 얼굴을 포함하는 저해상도 이미지를 기초로 사람의 얼굴을 인식하기 위한 저해상도 얼굴 인식 네트워크 상에 전달하는 단계 및 전달된 제1 어텐션 맵을 이용하여 저해상도 얼굴 인식 네트워크를 학습하는 단계를 포함한다.
본 발명의 일 실시예에 따르면, 저해상도 얼굴 인식 네트워크를 학습하는 단계는, 저해상도 얼굴 인식 네트워크로부터 제2 어텐션 맵을 추출하는 단계 및 지식 증류를 이용하여 제2 어텐션 맵이 제1 어텐션 맵과 유사해지도록 저해상도 얼굴 인식 네트워크를 학습하는 단계를 포함한다.
본 발명의 일 실시예에 따르면, 제2 어텐션 맵이 제1 어텐션 맵과 유사해지도록 저해상도 얼굴 인식 네트워크를 학습하는 단계는, 얼굴 인식 손실과 저해상도 얼굴 인식 네트워크에서의 증류 손실의 합을 이용하여 저해상도 얼굴 인식 네트워크를 학습하는 단계를 포함한다.
본 발명의 일 실시예에 따르면, 고해상도 얼굴 인식 네트워크는 순차적으로 연결된 복수의 블록을 포함한다. 고해상도 얼굴 인식 네트워크를 학습하는 단계는, 복수의 블록에 포함된 제1 블록으로부터 제1 초기 어텐션 맵을 추출하는 단계, 제1 블록과 연결된 제2 블록으로부터 제2 초기 어텐션 맵을 추출하는 단계 및 지식 증류를 이용하여 제2 초기 어텐션 맵이 제1 초기 어텐션 맵과 유사해지도록 고해상도 얼굴 인식 네트워크를 학습하는 단계를 포함한다.
본 발명의 일 실시예에 따르면, 제2 초기 어텐션 맵이 제1 초기 어텐션 맵과 유사해지도록 고해상도 얼굴 인식 네트워크를 학습하는 단계는,
Figure PCTKR2022008543-appb-img-000001
에 의해 고해상도 얼굴 인식 네트워크를 학습하는 단계를 포함한다. 여기서,
Figure PCTKR2022008543-appb-img-000002
는 아크페이스 손실과 고해상도 얼굴 인식 네트워크에서의 증류 손실의 합이고,
Figure PCTKR2022008543-appb-img-000003
는 고해상도 얼굴 인식 네트워크의 i번째 블록의 공간 어텐션 값을 나타내고,
Figure PCTKR2022008543-appb-img-000004
는 증류 손실을 위한 거리 함수를 나타내고,
Figure PCTKR2022008543-appb-img-000005
는 맥스 풀링 레이어를 나타낸다.
본 발명의 일 실시예에 따르면, 사람의 얼굴을 포함하는 고해상도 이미지를 획득하는 단계, 획득된 고해상도 이미지에 대한 다운 샘플링을 수행하는 단계, 다운 샘플링된 이미지에 대한 블러 처리를 수행하는 단계 및 블러 처리된 이미지의 크기를 고해상도 이미지에 대응하는 크기로 변경하여 저해상도 이미지를 생성하는 단계를 더 포함한다.
본 발명의 일 실시예에 따르면, 제1 어텐션 맵은 얼굴 인식을 위해 특정 기준 이상 참조되는 채널을 나타내는 채널 어텐션 맵 및 얼굴 인식을 위해 다른 특정 기준 이상 참조되는 특징 영역을 나타내는 공간 어텐션 맵을 포함한다.
본 발명의 일 실시예에 따르면, 고해상도 얼굴 인식 네트워크는 고해상도 이미지의 특징을 추출하기 위한 복수의 블록 및 제1 어텐션 맵을 추출하기 위한 복수의 어텐션 모듈을 포함한다.
본 발명의 일 실시예에 따른 상술된 방법을 컴퓨터에서 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 제공된다.
본 발명의 다양한 실시예에서 저해상도 얼굴 인식 네트워크는 저해상도 이미지를 이용하는 경우에도, 높은 수준의 어텐션 맵을 생성하도록 학습될 수 있으며, 이에 따라 저해상도 이미지를 이용한 얼굴 인식의 정확도가 효과적으로 향상될 수 있다.
본 발명의 다양한 실시예에서 컴퓨팅 장치는 학습 시 추가적인 파라미터 및 추론 시 속도 저하 없이 저해상도 얼굴 인식 네트워크의 성능을 효과적으로 향상시킬 수 있다.
본 발명의 다양한 실시예에서 주행 로봇 등에 포함된 낮은 컴퓨팅 파워로 인해, 저해상도 이미지만을 수신하는 경우에도, 저해상도 얼굴 인식 네트워크는 정밀한 어텐션 맵을 생성하고, 이에 따라 더 정확하게 저해상도 이미지에 포함된 얼굴을 인식할 수 있다.
본 발명의 다양한 실시예에서 고해상도 얼굴 인식 네트워크에서 추출된 어텐션 맵과 저해상도 얼굴 인식 네트워크에서 추출된 어텐션 맵이 상당히 높은 상관관계를 가질 수 있으며, 그에 따라, 저해상도 이미지를 이용하는 경우에도 높은 정확도로 얼굴 인식이 수행될 수 있다.
본 발명의 다양한 실시예에서 학습 과정에서 많은 용량이 요구되는 특징 벡터가 아닌 어텐션 맵을 전달함으로써, 효율적으로 저해상도 얼굴 인식 네트워크의 학습이 수행될 수 있다.
본 발명의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 다른 효과들은 청구범위의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자("통상의 기술자"라 함)에게 명확하게 이해될 수 있을 것이다.
본 발명의 실시예들은, 이하 설명하는 첨부 도면들을 참조하여 설명될 것이며, 여기서 유사한 참조 번호는 유사한 요소들을 나타내지만, 이에 한정되지는 않는다.
도 1은 본 발명의 일 실시예에 따른 네트워크들 사이에서 어텐션 맵이 전달되는 예시를 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 컴퓨팅 장치의 내부 구성을 나타내는 기능적인 블록도이다.
도 3은 본 발명의 일 실시예에 따른 고해상도 얼굴 인식 네트워크 및 저해상도 얼굴 인식 네트워크의 예시를 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 고해상도 얼굴 인식 네트워크가 학습되는 예시를 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 저해상도 얼굴 인식 네트워크가 학습되는 예시를 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 어텐션 맵 전달 방법의 예시를 나타내는 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 컴퓨팅 장치의 내부 구성을 나타내는 블록도이다.
이하, 본 발명의 실시를 위한 구체적인 내용을 첨부된 도면을 참조하여 상세히 설명한다. 다만, 이하의 설명에서는 본 발명의 요지를 불필요하게 흐릴 우려가 있는 경우, 널리 알려진 기능이나 구성에 관한 구체적 설명은 생략하기로 한다.
첨부된 도면에서, 동일하거나 대응하는 구성요소에는 동일한 참조부호가 부여되어 있다. 또한, 이하의 실시예들의 설명에 있어서, 동일하거나 대응되는 구성요소를 중복하여 기술하는 것이 생략될 수 있다. 그러나, 구성요소에 관한 기술이 생략되어도, 그러한 구성요소가 어떤 실시예에 포함되지 않는 것으로 의도되지는 않는다.
개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명이 완전하도록 하고, 본 발명이 통상의 기술자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다. 본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한, 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다. 명세서 전체에서 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
본 발명에서, "포함하다", "포함하는" 등의 용어는 특징들, 단계들, 동작들, 요소들 및/또는 구성 요소들이 존재하는 것을 나타낼 수 있으나, 이러한 용어가 하나 이상의 다른 기능들, 단계들, 동작들, 요소들, 구성 요소들 및/또는 이들의 조합이 추가되는 것을 배제하지는 않는다.
본 발명에서, 특정 구성 요소가 임의의 다른 구성 요소에 "결합", "조합", "연결" 되거나, "반응" 하는 것으로 언급된 경우, 특정 구성 요소는 다른 구성 요소에 직접 결합, 조합 및/또는 연결되거나, 반응할 수 있으나, 이에 한정되지 않는다. 예를 들어, 특정 구성 요소와 다른 구성 요소 사이에 하나 이상의 중간 구성 요소가 존재할 수 있다. 또한, 본 발명에서 "및/또는"은 열거된 하나 이상의 항목의 각각 또는 하나 이상의 항목의 적어도 일부의 조합을 포함할 수 있다.
본 발명에서, "제1", "제2" 등의 용어는 특정 구성 요소를 다른 구성 요소와 구별하기 위해 사용되는 것으로, 이러한 용어에 의해 상술된 구성 요소가 제한되진 않는다. 예를 들어, "제1" 구성 요소는 "제2" 구성 요소와 동일하거나 유사한 형태의 요소일 수 있다.
본 발명에서, '어텐션 맵(attention map)'은 이미지 내의 전체 영역 중 얼굴 인식에 영향을 미치는 특정 영역(예: 눈, 코, 귀, 입 등)을 나타내는 행렬(matrix) 및/또는 시각화된 이미지 등을 지칭할 수 있다. 예를 들어, 어텐션 맵은 복수의 초기 어텐션 맵을 포함할 수 있다. 또한, 어텐션 맵은 하나의 이미지로부터 추출된 어텐션 맵을 포함하거나, 복수의 이미지로부터 추출된 복수의 어텐션 맵을 포함할 수도 있다. 또한, 본 발명에서 어텐션 값은 어텐션 맵과 연관된 수치 값, 벡터(vector) 등을 포함할 수 있다.
본 발명에서, '어텐션 모듈(attention module)'은 블록과 연관되어 이미지로부터 어텐션 맵을 추출하기 위한 모듈을 지칭할 수 있다. 예를 들어, 어텐션 모듈은 CAM(channel attention module), SAM(spatial attention module), CBAM(convolution block attention module) 등을 포함할 수 있으나, 이에 한정되지 않는다.
본 발명에서, '지식 증류(knowledge distillation)'는 학습된 거대한 모델의 지식을 작은 모델로 전달하여 작은 모델의 성능을 향상시키는 기법 등을 지칭할 수 있다. 예를 들어, 지식 증류는 손실 함수 등을 이용하여 수행될 수 있다.
본 발명에서, '얼굴 인식 네트워크'는 이미지를 분석하여, 이미지에 포함된 사람을 식별하기 위한 기계학습 모델, 인공신경망 등을 지칭할 수 있다.
본 발명에서, '손실' 및/또는 '손실 함수(loss function)'는 기계학습 모델 등에서 대상의 오차를 측정하기 위한 척도, 함수 등을 지칭할 수 있다. 손실 함수에 의해 생성되는 오차를 감소시키도록 기계학습 모델 등이 학습될 수 있다. 예를 들어, 손실 함수는 얼굴 인식 손실, 증류 손실(distillation loss) 등을 포함할 수 있다. 여기서, 얼굴 인식 손실 함수는 소프트맥스 손실 함수(softmax loss function), 거리 기반 손실 함수, 앵귤러 마진 기반 손실 함수(스피어페이스(sphereface), 코스페이스(cosface), 아크페이스(arcface)) 등을 포함할 수 있다.
도 1은 본 발명의 일 실시예에 따른 네트워크들(110, 140) 사이에서 어텐션 맵(130)이 전달되는 예시를 나타내는 도면이다. 일 실시예에 따르면, 얼굴 인식 네트워크(110, 140)는 사람의 얼굴이 포함된 이미지를 이용하여, 해당 이미지 내에 포함된 사람을 특정하기 위한 네트워크를 지칭할 수 있으며, 기계학습 모델 등으로 구현될 수 있다. 예를 들어, 얼굴 인식 네트워크(110, 140)는 사람의 이목구비의 위치, 크기, 색, 모양, 이목구비 사이의 간격 등의 특징(feature)을 이용하여 이미지 내에 포함된 사람을 특정할 수 있으나, 이에 한정되지 않는다.
도시된 예에서, 고해상도 이미지를 이용하여 이미지에 포함된 사람 등을 특정하는 고해상도 얼굴 인식 네트워크(110)와 저해상도 이미지를 이용하여 이미지에 포함된 사람 등을 특정하는 저해상도 얼굴 인식 네트워크(140)가 존재할 수 있다. 일반적으로, 저해상도 이미지를 통해 사람을 특정하는 것은 고해상도 이미지를 통해 사람을 특정하는 것보다 정확도가 감소될 수 있다. 예를 들어, 저해상도 이미지의 경우, 사람의 이목구비의 위치, 크기, 색 등을 정확히 특정하기 어려울 수 있다.
일 실시예에 따르면, 고해상도 얼굴 인식 네트워크(110)는 복수의 고해상도 이미지(120)를 입력받아 얼굴 인식 결과(122)를 출력하도록 학습될 수 있다. 예를 들어, 고해상도 얼굴 인식 네트워크(110)는 복수의 고해상도 이미지(120)의 특징을 추출하기 위한 복수의 블록(예: 복수의 컨볼루션(convolutional) 블록) 및 어텐션 맵(130)을 추출하기 위한 복수의 어텐션 모듈(attention module)을 포함하는 기계학습 모델로 구성될 수 있다. 여기서, 어텐션 맵은 이미지 내의 전체 영역 중 얼굴 인식에 영향을 미치는 특정 영역(예: 눈, 코, 귀, 입 등)을 나타내는 행렬(matrix) 및/또는 시각화된 이미지 등을 지칭할 수 있다. 즉, 고해상도 얼굴 인식 네트워크(110)는 복수의 블록 및 복수의 어텐션 모듈을 기초로 어텐션 맵(130)을 생성하고, 생성된 어텐션 맵(130)을 기초로 사람의 얼굴을 인식하도록 학습될 수 있다.
상술된 바와 같이, 고해상도 얼굴 인식 네트워크(110)가 학습된 경우, 학습된 고해상도 얼굴 인식 네트워크(110)로부터 복수의 고해상도 이미지(120)와 연관된 어텐션 맵(130)이 추출될 수 있다. 또한, 이와 같이 추출된 어텐션 맵(130)은 저해상도 얼굴 인식 네트워크(140) 상에 전달될 수 있다. 여기서, 저해상도 얼굴 인식 네트워크(140)는 복수의 저해상도 이미지(150)를 입력받아 얼굴 인식 결과(152)를 출력하도록 학습될 수 있으며, 학습 과정에서 전달된 어텐션 맵(130)이 이용될 수 있다. 예를 들어, 저해상도 얼굴 인식 네트워크(140)는 지식 증류를 통해 어텐션 맵(130)을 이용하여 학습될 수 있다.
일 실시예에 따르면, 저해상도 얼굴 인식 네트워크(140)는 복수의 블록(예: 복수의 컨볼루션 블록) 및 각 컨볼루션 블록에서 추출되는 특징에 맞는 어텐션 맵을 추출하기 위한 복수의 어텐션 모듈을 포함하는 기계학습 모델로 구성될 수 있다. 즉, 고해상도 얼굴 인식 네트워크(110)와 마찬가지로, 저해상도 얼굴 인식 네트워크(140)는 복수의 블록 및 복수의 어텐션 모듈을 기초로 어텐션 맵들을 생성하고, 생성된 어텐션 맵을 기초로 사람의 얼굴을 인식하도록 학습될 수 있다. 일반적으로, 저해상도의 이미지를 이용하는 경우, 고해상도의 이미지를 이용하는 경우보다 어텐션 맵의 정확성이 감소될 수 있다. 이와 관련하여, 어텐션 맵의 정확성을 향상시키기 위해, 저해상도 얼굴 인식 네트워크(140)에서 추출된 어텐션 맵이 고해상도 얼굴 인식 네트워크(110)로부터 전달된 어텐션 맵(130)과 유사해지도록 학습될 수 있다. 예를 들어, 다른 어텐션 맵은 특정 손실 함수(loss function)를 이용하여 어텐션 맵(130)과 유사해지도록 학습될 수 있다.
도 1에서는 지식 증류를 통해 저해상도 얼굴 인식 네트워크(140)가 학습되는 것으로 상술되었으나, 이에 한정되지 않으며, 고해상도 얼굴 인식 네트워크(110)는 지식 증류를 통해 복수의 블록 중 뒤의 블록에서 생성된 초기 어텐션 맵이 앞의 블록에서 생성된 초기 어텐션 맵과 유사해지도록 학습될 수 있다. 이와 같은 구성에 의해, 저해상도 얼굴 인식 네트워크(140)는 저해상도 이미지를 이용하는 경우에도, 높은 수준의 어텐션 맵을 생성하도록 학습될 수 있으며, 이에 따라 저해상도 이미지를 이용한 얼굴 인식의 정확도가 효과적으로 향상될 수 있다.
도 2는 본 발명의 일 실시예에 따른 컴퓨팅 장치(200)의 내부 구성을 나타내는 기능적인 블록도이다. 도시된 바와 같이, 컴퓨팅 장치(200)는 저해상도 이미지 생성부(210), 고해상도 얼굴 인식 네트워크 학습부(220), 저해상도 얼굴 인식 네트워크 학습부(230) 등을 포함할 수 있으나, 이에 한정되지 않는다. 예를 들어, 컴퓨팅 장치(200)는 외부 장치, 데이터베이스 등과 통신하며, 네트워크를 학습시키기 위한 이미지 등을 수신할 수 있다.
일 실시예에 따르면, 저해상도 이미지 생성부(210)는 고해상도 이미지를 이용하여 저해상도 이미지를 생성할 수 있다. 예를 들어, 고해상도 얼굴 인식 네트워크에서 생성된 어텐션 맵과 저해상도 얼굴 인식 네트워크에서 생성된 어텐션 맵을 유사해지도록 학습시키기 위해, 해당 어텐션 맵들을 추출하기 위해 사용되는 이미지는 동일한 형상을 포함하는 이미지로서, 해상도가 상이한 이미지일 수 있다. 즉, 저해상도 이미지 생성부(210)는 고해상도 이미지만이 존재하는 경우, 해당 이미지의 해상도를 변경하여 저해상도 이미지를 생성할 수 있다.
저해상도 이미지 생성부(210)는 사람의 얼굴을 포함하는 고해상도 이미지를 획득하고, 획득된 고해상도 이미지에 대한 다운 샘플링(downsampling)을 수행할 수 있다. 여기서, 다운 샘플링은 이미지의 비율, 크기 등을 감소시키는 것으로서, 예를 들어, 고해상도 이미지는 보간(예: 바이큐빅 보간(bicubic interpolation))을 통해 2x, 4x, 8x 등의 비율로 다운 샘플링될 수 있다. 또한, 저해상도 이미지 생성부(210)는 다운 샘플링된 이미지에 대한 블러(blur) 처리를 수행할 수 있다. 예를 들어, 가우시안 블러(Gaussian blur) 기법이 이미지 상에 적용될 수 있으나, 이에 한정되지 않는다. 그리고 나서, 저해상도 이미지 생성부(210)는 블러 처리된 이미지의 크기를 고해상도 이미지에 대응하는 크기로 변경하여 저해상도 이미지를 생성할 수 있다. 다시 말해, 저해상도 이미지 생성부(210)는 보간(예: 바이큐빅 보간)을 통해 블러 처리된 이미지의 크기를 고해상도 이미지에 대응하는 초기(original) 크기로 변경하여 저해상도 이미지를 생성할 수 있다.
고해상도 얼굴 인식 네트워크 학습부(220)는 사람의 얼굴을 포함하는 고해상도 이미지를 기초로 사람의 얼굴을 인식하기 위한 고해상도 얼굴 인식 네트워크를 학습시킬 수 있다. 예를 들어, 고해상도 얼굴 인식 네트워크는 순차적으로 연결된 복수의 블록(block)(예: 컨볼루션 블록)을 포함할 수 있으며, 고해상도 얼굴 인식 네트워크 학습부(220)는 복수의 블록에 포함된 제1 블록으로부터 제1 초기 어텐션 맵을 추출하고, 제1 블록과 연결된 제2 블록으로부터 제2 초기 어텐션 맵을 추출할 수 있다. 그리고 나서, 고해상도 얼굴 인식 네트워크 학습부(220)는 지식 증류를 이용하여 제2 초기 어텐션 맵이 제1 초기 어텐션 맵과 유사해지도록 고해상도 얼굴 인식 네트워크를 학습시킬 수 있다. 예를 들어, 블록의 초기 부분에서 생성되거나 구성된 어텐션 맵은 블록의 나중 부분에서 생성되거나 구성된 어텐션 맵보다 더 많은 맥락(context) 정보를 포함할 수 있다. 이에 따라, 고해상도 얼굴 인식 네트워크 학습부(220)는 블록의 뒷 부분에서 생성된 제2 초기 어텐션 맵이 블록의 앞 부분에서 생성된 제1 초기 어텐션 맵과 유사해지도록 학습을 수행할 수 있다.
일 실시예에 따르면, 고해상도 얼굴 인식 네트워크는 손실 함수를 이용하여 학습될 수 있다. 여기서, 고해상도 얼굴 인식 네트워크 학습부(220)는 다음의 수학식 1을 이용하여 학습을 수행할 수 있다.
Figure PCTKR2022008543-appb-img-000006
여기서,
Figure PCTKR2022008543-appb-img-000007
는 아크페이스 손실과 고해상도 얼굴 인식 네트워크에서의 증류 손실의 합이고,
Figure PCTKR2022008543-appb-img-000008
는 고해상도 얼굴 인식 네트워크의 i번째 블록의 공간 어텐션 값을 나타내고,
Figure PCTKR2022008543-appb-img-000009
는 증류 손실을 위한 거리 함수를 나타내고,
Figure PCTKR2022008543-appb-img-000010
는 맥스 풀링 레이어(max pooling layer)를 나타낼 수 있다. 또한,
Figure PCTKR2022008543-appb-img-000011
는 2x2 커널을 갖는 맥스 풀링 레이어일 수 있다. 예를 들어, 고해상도 얼굴 인식 네트워크를 구성하는 i번째 블록의 어텐션 맵의 크기가 i+1번째 블록의 두 배에 해당할 수 있으며, 이에 따라 맥스 풀링 레이어는 어텐션 맵을 1/2 크기로 다운 샘플링할 수 있다.
또한, 거리 함수
Figure PCTKR2022008543-appb-img-000012
는 다음의 수학식 2에 의해 산출될 수 있다.
Figure PCTKR2022008543-appb-img-000013
여기서, 거리 함수
Figure PCTKR2022008543-appb-img-000014
는 코사인 거리(cosine distance)와 L-P 노름(L-P norm)의 선형 결합(linear combination)일 수 있으며, L-P 노름은 L1 거리, L2 거리 등을 포함할 수 있다. 또한,
Figure PCTKR2022008543-appb-img-000015
는 L-P 노름과 코사인 거리를 조정하기 위한 가중치 요소일 수 있다. 어텐션 맵의 차원(dimension)은 초기 블록에서 더 깊은 블록으로 갈수록 작아지므로, 코사인 거리와 L-P 노름 거리를 모두 이용함으로써, 지식 증류 과정을 안정화할 수 있다. 추가적으로 또는 대안적으로, 도 2에서는 거리 함수
Figure PCTKR2022008543-appb-img-000016
가 코사인 거리와 L-P 노름의 선형 결합인 것으로 상술되었으나, 이에 한정되지 않으며, 데이터 셋(data set)에 따라 임의의 거리 함수 및/또는 이들의 조합이 사용될 수도 있다.
일 실시예에 따르면, 저해상도 얼굴 인식 네트워크 학습부(230)는 고해상도 얼굴 인식 네트워크로부터 전달된 제1 어텐션 맵을 이용하여 저해상도 얼굴 인식 네트워크를 학습시킬 수 있다. 예를 들어, 저해상도 얼굴 인식 네트워크 학습부(230)는 저해상도 얼굴 인식 네트워크로부터 제2 어텐션 맵을 추출하고, 지식 증류를 이용하여 제2 어텐션 맵이 제1 어텐션 맵과 유사해지도록 저해상도 얼굴 인식 네트워크를 학습시킬 수 있다.
일 실시예에 따르면, 저해상도 얼굴 인식 네트워크는 손실 함수를 이용하여 학습될 수 있다. 여기서, 저해상도 얼굴 인식 네트워크 학습부(230)는 얼굴 인식 손실과 저해상도 얼굴 인식 네트워크에서의 증류 손실(distillation loss)의 합을 이용하여 학습을 수행할 수 있다. 예를 들어, 증류 손실은 다음의 수학식 3을 이용하여 산출될 수 있다.
Figure PCTKR2022008543-appb-img-000017
여기서,
Figure PCTKR2022008543-appb-img-000018
는 저해상도 얼굴 인식 네트워크에서의 증류 손실이고,
Figure PCTKR2022008543-appb-img-000019
Figure PCTKR2022008543-appb-img-000020
는 고해상도 얼굴 인식 네트워크 및 저해상도 얼굴 인식 네트워크의 i번째 블록의 공간 어텐션 값(spatial attention value)을 나타내고,
Figure PCTKR2022008543-appb-img-000021
Figure PCTKR2022008543-appb-img-000022
는 고해상도 얼굴 인식 네트워크 및 저해상도 얼굴 인식 네트워크의 i번째 블록의 채널 어텐션 값(channel attention value)을 나타내고,
Figure PCTKR2022008543-appb-img-000023
는 i번째 블록의 가중치 요소(weight factor)를 나타내고,
Figure PCTKR2022008543-appb-img-000024
는 증류 손실을 위한 거리 함수(distance function)를 나타낼 수 있다. 이와 같은 손실 함수를 이용하여, 저해상도 얼굴 인식 네트워크는 저해상도 이미지에 포함된 얼굴 영역 중 타겟 영역에 집중하도록 학습되어, 저해상도 이미지만을 이용하는 경우에도 고해상도 얼굴 인식 네트워크와 유사한 성능을 갖도록 학습될 수 있다. 추가적으로 또는 대안적으로, 도 2에서는 증류 손실이 공간 어텐션 값 및 채널 어텐션 값을 모두 이용하여 산출된 것으로 상술되었으나, 이에 한정되지 않으며, 공간 어텐션 값 또는 채널 어텐션 값이 독립적으로 전달되거나, 공간 어텐션 값, 채널 어텐션 값 및 다른 임의의 어텐션 값들 중 적어도 일부가 함께 전달될 수도 있다.
도 2에서는 컴퓨팅 장치(200)에 포함된 각각의 기능적인 구성이 구분되어 상술되었으나, 이는 발명의 이해를 돕기 위한 것일 뿐이며, 하나의 연산 장치에서 둘 이상의 기능을 수행할 수도 있다. 또한, 도 2에서는 컴퓨팅 장치(200)가 고해상도 얼굴 인식 네트워크 및 저해상도 얼굴 인식 네트워크를 모두 학습시키는 것으로 상술되었으나, 이에 한정되지 않으며, 각각의 네트워크를 학습시키기 위한 별도의 장치가 존재할 수도 있다. 이와 같은 구성에 의해, 컴퓨팅 장치(200)는 학습 시 추가적인 파라미터 및 추론 시 속도 저하 없이 저해상도 얼굴 인식 네트워크의 성능을 효과적으로 향상시킬 수 있다. 즉, 지식 전이 전후로 추론 네트워크 모델의 크기 증가는 발생하지 않으며, 이에 따라, 컴퓨팅 장치(200)는 추론 단계에서 지식 전이가 완료된 저해상도 얼굴 인식 네트워크만 활용하여 높은 정확도로 얼굴 인식을 수행할 수 있다.
도 3은 본 발명의 일 실시예에 따른 고해상도 얼굴 인식 네트워크(310) 및 저해상도 얼굴 인식 네트워크(330)의 예시를 나타내는 도면이다. 상술된 바와 같이, 고해상도 얼굴 인식 네트워크(310)는 사람의 얼굴을 포함하는 고해상도 이미지(320)를 이용하여 얼굴 인식(324)을 수행하도록 학습될 수 있다. 여기서, 고해상도 얼굴 인식 네트워크(310)는 고해상도 이미지의 특징을 추출하기 위한 복수의 블록 및 어텐션 맵(322)을 추출하기 위한 복수의 어텐션 모듈을 포함할 수 있다. 즉, 학습된 고해상도 얼굴 인식 네트워크로부터 고해상도 이미지(320)와 연관된 어텐션 맵(322)이 추출될 수 있다.
일 실시예에 따르면, 어텐션 맵(322)은 다음의 수학식 4에 의해 사람 얼굴의 특징을 추출하기 위해 사용될 수 있다.
Figure PCTKR2022008543-appb-img-000025
여기서, F는 이미지로부터 추출된 특징 맵(feature map)일 수 있으며, M(F)는 해당 이미지로부터 추출된 어텐션 맵일 수 있다. 또한, F'는 어텐션 맵에 의해 얼굴 인식을 위한 특정 영역에 집중하도록 정제된 특징 맵일 수 있다.
어텐션 맵(322)은 얼굴 인식을 위해 특정 기준 이상 참조되는 채널을 나타내는 채널 어텐션 맵(CAM: channel attention map) 및 얼굴 인식을 위해 다른 특정 기준 이상 참조되는 특징 영역을 나타내는 공간 어텐션 맵(SAM: spatial attention map)을 포함할 수 있다. 일 실시예에 따르면, 채널 어텐션 맵은 채널 어텐션 모듈에 의해, 활성화된 채널 영역을 획득하기 위해 풀링 레이어(pooling layer)를 이용하여 생성될 수 있다. 중간 단계의 특징 맵이
Figure PCTKR2022008543-appb-img-000026
를 만족할 때, 채널 어텐션 맵은 다음의 수학식 5에 의해 산출될 수 있다.
Figure PCTKR2022008543-appb-img-000027
여기서,
Figure PCTKR2022008543-appb-img-000028
는 시그모이드(sigmoid) 함수를 나타내고,
Figure PCTKR2022008543-appb-img-000029
는 가중치 행렬
Figure PCTKR2022008543-appb-img-000030
Figure PCTKR2022008543-appb-img-000031
을 갖는 FC(fully connected) 레이어를 나타낼 수 있다. 이 경우,
Figure PCTKR2022008543-appb-img-000032
Figure PCTKR2022008543-appb-img-000033
는 풀링 레이어와
Figure PCTKR2022008543-appb-img-000034
와 연관된 ReLU 활성 함수 모두에서 공유될 수 있다. 또한, r은 다운 샘플링을 위한 비율일 수 있으며,
Figure PCTKR2022008543-appb-img-000035
Figure PCTKR2022008543-appb-img-000036
는 각각 평균 풀링 레이어와 최대 풀링 레이어의 출력을 나타낼 수 있다. 또한,
Figure PCTKR2022008543-appb-img-000037
Figure PCTKR2022008543-appb-img-000038
은 1x1 커널을 갖는 풀링 레이어를 나타낼 수 있다.
또한, 공간 어텐션 맵은 공간 어텐션 모듈에 의해, 다음의 수학식 6을 이용하여 산출될 수 있다.
Figure PCTKR2022008543-appb-img-000039
여기서,
Figure PCTKR2022008543-appb-img-000040
는 시그모이드(sigmoid) 함수를 나타내고,
Figure PCTKR2022008543-appb-img-000041
Figure PCTKR2022008543-appb-img-000042
는 각각 평균 풀링 레이어와 최대 풀링 레이어의 출력을 나타낼 수 있다. 또한,
Figure PCTKR2022008543-appb-img-000043
는 7x7 커널을 갖는 컨볼루션 레이어로서,
Figure PCTKR2022008543-appb-img-000044
Figure PCTKR2022008543-appb-img-000045
가 결합(concatenation)되어 통과하는 레이어일 수 있다.
상술된 과정에 의해, 생성된 어텐션 맵(322)은 저해상도 얼굴 인식 네트워크(330)로 전달될 수 있다. 여기서, 저해상도 얼굴 인식 네트워크(330)는 저해상도 이미지(340)를 이용하여 얼굴 인식(346)을 수행하기 위한 네트워크일 수 있다. 여기서, 저해상도 이미지(340)는 고해상도 이미지(320)와 동일한 형상 및/또는 모양을 포함하되, 해상도가 상이한 이미지일 수 있다. 일 실시예에 따르면, 저해상도 얼굴 인식 네트워크(330)로부터 다른 어텐션 맵(342)이 추출될 수 있다. 이 경우, 다른 어텐션 맵(342)은 전달받은 어텐션 맵(322)과 유사해지도록 학습되거나 증류되어, 더 정밀한 어텐션 맵(344)으로 변환될 수 있다.
도 3에서는 채널 어텐션 맵과 공간 어텐션 맵이 각각 산출되는 것으로 상술되었으나, 이에 한정되지 않으며, 채널 어텐션 맵과 공간 어텐션 맵은 컨볼루션 블록 어텐션 모듈(CBAM: convolution block attention module) 등에 의해 동시에 생성되거나 산출될 수 있다. 이와 같은 구성에 의해, 주행 로봇 등에 포함된 낮은 컴퓨팅 파워로 인해, 저해상도 이미지만을 수신하는 경우에도, 저해상도 얼굴 인식 네트워크(330)는 정밀한 어텐션 맵을 생성하고, 이에 따라 더 정확하게 저해상도 이미지에 포함된 얼굴을 인식할 수 있다. 다시 말해, 저해상도 얼굴 인식 네트워크(330)는 해상도가 낮은 이미지 센서로부터 촬영된 이미지를 이용해서 높은 성능의 얼굴 인식을 수행할 수 있다. 또한, 저해상도 얼굴 인식 네트워크(330)는 다수 로봇, 에지 디바이스에서 저가형 IoT 센서를 활용한 운용 시스템을 구축하는데 사용될 수 있으므로, 하드웨어 비용이 효과적으로 절감될 수 있다.
도 4는 본 발명의 일 실시예에 따른 고해상도 얼굴 인식 네트워크가 학습되는 예시를 나타내는 도면이다. 상술된 바와 같이, 고해상도 얼굴 인식 네트워크는 사람의 얼굴을 포함하는 고해상도 이미지(420)를 기초로 해당 사람의 얼굴을 인식하도록 학습될 수 있다. 일 실시예에 따르면, 고해상도 얼굴 인식 네트워크는 고해상도 이미지의 특징을 추출하기 위한 복수의 블록(410) 및 각각의 블록(410)에 대응하는 어텐션 모듈(예: 채널 어텐션 모듈, 공간 어텐션 모듈, 컨볼루션 블록 어텐션 모듈 등)을 포함할 수 있다. 다시 말해, 각각의 블록(410)은 어텐션 맵을 추출하기 위한 어텐션 모듈과 연관될 수 있다. 즉, 각 블록(410)에 대응하는 어텐션 맵은 어텐션 모듈에 의해 추출될 수 있다.
일 실시예에 따르면, 복수의 블록(410_1, 410_2, 410_3, 410_4)에 포함된 제1 블록(B1)(410_1)(예: 제1 블록과 대응되는 어텐션 모듈)으로부터 제1 초기 어텐션 맵이 추출되고, 제1 블록(410_1)과 연결된 제2 블록(B2)(410_2)으로부터 제2 초기 어텐션 맵이 추출될 수 있다. 이 경우, 지식 증류를 이용하여 제2 초기 어텐션 맵이 제1 초기 어텐션 맵과 유사해지도록 학습될 수 있다.
도시된 예에서, 제2 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000046
)은 제1 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000047
)과 유사해지도록 학습될 수 있다. 이 경우, 제1 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000048
)의 어텐션 크기(attention size)는 제2 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000049
)의 어텐션 크기보다 특정 비율(예: 2 배)만큼 클 수 있다. 따라서, 지식 증류를 위해 제1 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000050
)의 크기는 맥스 풀링 레이어를 이용하여 해당 특정 비율만큼 작아질 수 있다. 그리고 나서, 동일한 크기의 제1 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000051
) 및 제2 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000052
)에 대한 지식 증류가 수행될 수 있다.
도 4에서는 고해상도 얼굴 인식 네트워크가 4개의 블록(410) 및 4개의 어텐션 모듈을 포함하는 것으로 도시되었으나, 이에 한정되지 않으며, 임의의 개수의 블록 및 어텐션 모듈이 고해상도 얼굴 인식 네트워크에 포함될 수 있다. 또한, 도 4에서는 하나의 고해상도 이미지(420)에 대한 초기 어텐션 맵이 생성되고, 지식 증류가 수행되는 것으로 상술되었으나, 이에 한정되지 않으며, 복수의 고해상도 이미지 각각에 대해 지식 증류가 수행될 수 있다.
도 5는 본 발명의 일 실시예에 따른 저해상도 얼굴 인식 네트워크가 학습되는 예시를 나타내는 도면이다. 상술된 바와 같이, 고해상도 얼굴 인식 네트워크는 고해상도 이미지를 이용하여 얼굴 인식을 수행하도록 학습될 수 있다. 또한, 저해상도 얼굴 인식 네트워크는 저해상도 이미지(520)를 이용하여 얼굴 인식을 수행하도록 학습될 수 있다. 이와 같이 학습되는 경우, 고해상도 얼굴 인식 네트워크와 연관된 제2 어텐션 맵(
Figure PCTKR2022008543-appb-img-000053
)이 생성될 수 있으며, 저해상도 얼굴 인식 네트워크와 연관된 제1 어텐션 맵(
Figure PCTKR2022008543-appb-img-000054
)이 생성될 수 있다.
저해상도 얼굴 인식 네트워크(또는 저해상도 얼굴 인식 네트워크에 포함된 복수의 블록(510) 및 어텐션 모듈) 는 고해상도 얼굴 인식 네트워크(또는 저해상도 얼굴 인식 네트워크에 포함된 복수의 블록(410) 및 어텐션 모듈) 로부터 제1 어텐션 맵(
Figure PCTKR2022008543-appb-img-000055
)을 전달받을 수 있다. 그리고 나서, 제2 어텐션 맵(
Figure PCTKR2022008543-appb-img-000056
)은 지식 증류를 이용하여 제1 어텐션 맵과 유사해지도록 학습될 수 있다. 여기서, 제1 어텐션 맵은 고해상도 얼굴 인식 네트워크의 각각의 블록(410)과 대응하는 복수의 초기 어텐션 맵을 포함할 수 있으며, 제2 어텐션 맵은 저해상도 얼굴 인식 네트워크의 각각의 블록(510)과 대응하는 복수의 초기 어텐션 맵을 포함할 수 있다. 즉, 지식 증류는 네트워크의 각각의 블록에서 수행될 수 있으나, 이에 한정되지 않는다. 이와 같이, 학습 과정에서 많은 용량이 요구되는 특징 벡터(feature vector)가 아닌 어텐션 맵을 전달함으로써, 효율적으로 저해상도 얼굴 인식 네트워크의 학습이 수행될 수 있다.
도 5에서는 고해상도 얼굴 인식 네트워크 및 저해상도 얼굴 인식 네트워크가 4개의 블록 및 4개의 어텐션 모듈을 포함하는 것으로 도시되었으나, 이에 한정되지 않으며, 임의의 개수의 블록 및 어텐션 모듈이 네트워크에 포함될 수 있다. 또한, 도 5에서는 각각의 네트워크에서 하나의 이미지(420, 520)에 대한 어텐션 맵이 생성되고, 지식 증류가 수행되는 것으로 상술되었으나, 이에 한정되지 않으며, 복수의 이미지 각각에 대해 지식 증류가 수행될 수 있다. 이와 같은 구성에 의해, 고해상도 얼굴 인식 네트워크에서 추출된 어텐션 맵과 저해상도 얼굴 인식 네트워크에서 추출된 어텐션 맵이 상당히 높은 상관관계를 가질 수 있으며, 그에 따라, 저해상도 이미지(520)를 이용하는 경우에도 높은 정확도로 얼굴 인식이 수행될 수 있다.
도 6은 본 발명의 일 실시예에 따른 어텐션 맵 전달 방법(600)의 예시를 나타내는 흐름도이다. 어텐션 맵 전달 방법(600)은 프로세서(예를 들어, 컴퓨팅 장치의 적어도 하나의 프로세서)에 의해 수행될 수 있다. 도시된 바와 같이, 어텐션 맵 전달 방법(600)은 프로세서가 사람의 얼굴을 포함하는 고해상도 이미지를 기초로 사람의 얼굴을 인식하기 위한 고해상도 얼굴 인식 네트워크를 학습함으로써 개시될 수 있다(S610). 예를 들어, 프로세서는 복수의 블록에 포함된 제1 블록으로부터 제1 초기 어텐션 맵을 추출하고, 제1 블록과 연결된 제2 블록으로부터 제2 초기 어텐션 맵을 추출하고, 지식 증류를 이용하여 제2 초기 어텐션 맵이 제1 초기 어텐션 맵과 유사해지도록 고해상도 얼굴 인식 네트워크를 학습할 수 있다.
프로세서는 학습된 고해상도 얼굴 인식 네트워크로부터 고해상도 이미지와 연관된 제1 어텐션 맵을 추출할 수 있다(S620). 또한, 프로세서는 추출된 제1 어텐션 맵을, 사람의 얼굴을 포함하는 저해상도 이미지를 기초로 사람의 얼굴을 인식하기 위한 저해상도 얼굴 인식 네트워크 상에 전달할 수 있다(S630). 여기서, 저해상도 이미지는 프로세서에 의해 생성될 수 있다. 예를 들어, 프로세서는 사람의 얼굴을 포함하는 고해상도 이미지를 획득하고, 획득된 고해상도 이미지에 대한 다운 샘플링을 수행할 수 있다. 그리고 나서, 프로세서는 다운 샘플링된 이미지에 대한 블러 처리를 수행하고, 블러 처리된 이미지의 크기를 고해상도 이미지에 대응하는 크기로 변경하여 저해상도 이미지를 생성할 수 있다.
프로세서는 전달된 제1 어텐션 맵을 이용하여 저해상도 얼굴 인식 네트워크를 학습할 수 있다(S640). 예를 들어, 프로세서는 저해상도 얼굴 인식 네트워크로부터 제2 어텐션 맵을 추출하고, 지식 증류를 이용하여 제2 어텐션 맵이 제1 어텐션 맵과 유사해지도록 저해상도 얼굴 인식 네트워크를 학습할 수 있다.
도 7은 본 발명의 일 실시예에 따른 컴퓨팅 장치(700)의 내부 구성을 나타내는 블록도이다. 컴퓨팅 장치(700)는 메모리(710), 프로세서(720), 통신 모듈(730) 및 입출력 인터페이스(740)를 포함할 수 있다. 도 7에 도시된 바와 같이, 컴퓨팅 장치(700)는 통신 모듈(730)을 이용하여 네트워크를 통해 정보 및/또는 데이터를 통신할 수 있도록 구성될 수 있다.
메모리(710)는 비-일시적인 임의의 컴퓨터 판독 가능한 기록매체를 포함할 수 있다. 일 실시예에 따르면, 메모리(710)는 RAM(random access memory), ROM(read only memory), 디스크 드라이브, SSD(solid state drive), 플래시 메모리(flash memory) 등과 같은 비소멸성 대용량 저장 장치(permanent mass storage device)를 포함할 수 있다. 다른 예로서, ROM, SSD, 플래시 메모리, 디스크 드라이브 등과 같은 비소멸성 대용량 저장 장치는 메모리와는 구분되는 별도의 영구 저장 장치로서 컴퓨팅 장치(700)에 포함될 수 있다. 또한, 메모리(710)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다.
이러한 소프트웨어 구성요소들은 메모리(710)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 이러한 컴퓨팅 장치(700)에 직접 연결가능한 기록 매체를 포함할 수 있는데, 예를 들어, 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 예로서, 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 모듈(730)을 통해 메모리(710)에 로딩될 수도 있다. 예를 들어, 적어도 하나의 프로그램은 개발자들 또는 어플리케이션의 설치 파일을 배포하는 파일 배포 시스템이 통신 모듈(730)을 통해 제공하는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 메모리(710)에 로딩될 수 있다.
프로세서(720)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(710) 또는 통신 모듈(730)에 의해 사용자 단말(미도시) 또는 다른 외부 시스템으로 제공될 수 있다.
통신 모듈(730)은 네트워크를 통해 사용자 단말(미도시)과 컴퓨팅 장치(700)가 서로 통신하기 위한 구성 또는 기능을 제공할 수 있으며, 컴퓨팅 장치(700)가 외부 시스템(일례로 별도의 클라우드 시스템 등)과 통신하기 위한 구성 또는 기능을 제공할 수 있다. 일례로, 컴퓨팅 장치(700)의 프로세서(720)의 제어에 따라 제공되는 제어 신호, 명령, 데이터 등이 통신 모듈(730)과 네트워크를 거쳐 사용자 단말 및/또는 외부 시스템의 통신 모듈을 통해 사용자 단말 및/또는 외부 시스템으로 전송될 수 있다.
또한, 컴퓨팅 장치(700)의 입출력 인터페이스(740)는 컴퓨팅 장치(700)와 연결되거나 컴퓨팅 장치(700)가 포함할 수 있는 입력 또는 출력을 위한 장치(미도시)와의 인터페이스를 위한 수단일 수 있다. 도 7에서는 입출력 인터페이스(740)가 프로세서(720)와 별도로 구성된 요소로서 도시되었으나, 이에 한정되지 않으며, 입출력 인터페이스(740)가 프로세서(720)에 포함되도록 구성될 수 있다. 컴퓨팅 장치(700)는 도 7의 구성요소들보다 더 많은 구성요소들을 포함할 수 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다.
컴퓨팅 장치(700)의 프로세서(720)는 복수의 사용자 단말 및/또는 복수의 외부 시스템으로부터 수신된 정보 및/또는 데이터를 관리, 처리 및/또는 저장하도록 구성될 수 있다.
상술된 방법 및/또는 다양한 실시예들은, 디지털 전자 회로, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 본 발명의 다양한 실시예들은 데이터 처리 장치, 예를 들어, 프로그래밍 가능한 하나 이상의 프로세서 및/또는 하나 이상의 컴퓨팅 장치에 의해 실행되거나, 컴퓨터 판독 가능한 기록 매체 및/또는 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 상술된 컴퓨터 프로그램은 컴파일된 언어 또는 해석된 언어를 포함하여 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램, 모듈, 서브 루틴 등의 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨팅 장치, 동일한 네트워크를 통해 연결된 복수의 컴퓨팅 장치 및/또는 복수의 상이한 네트워크를 통해 연결되도록 분산된 복수의 컴퓨팅 장치를 통해 배포될 수 있다.
상술된 방법 및/또는 다양한 실시예들은, 입력 데이터를 기초로 동작하거나 출력 데이터를 생성함으로써, 임의의 기능, 함수 등을 처리, 저장 및/또는 관리하는 하나 이상의 컴퓨터 프로그램을 실행하도록 구성된 하나 이상의 프로세서에 의해 수행될 수 있다. 예를 들어, 본 발명의 방법 및/또는 다양한 실시예는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 특수 목적 논리 회로에 의해 수행될 수 있으며, 본 발명의 방법 및/또는 실시예들을 수행하기 위한 장치 및/또는 시스템은 FPGA 또는 ASIC와 같은 특수 목적 논리 회로로서 구현될 수 있다.
컴퓨터 프로그램을 실행하는 하나 이상의 프로세서는, 범용 목적 또는 특수 목적의 마이크로 프로세서 및/또는 임의의 종류의 디지털 컴퓨팅 장치의 하나 이상의 프로세서를 포함할 수 있다. 프로세서는 읽기 전용 메모리, 랜덤 액세스 메모리의 각각으로부터 명령 및/또는 데이터를 수신하거나, 읽기 전용 메모리와 랜덤 액세스 메모리로부터 명령 및/또는 데이터를 수신할 수 있다. 본 발명에서, 방법 및/또는 실시예들을 수행하는 컴퓨팅 장치의 구성 요소들은 명령어들을 실행하기 위한 하나 이상의 프로세서, 명령어들 및/또는 데이터를 저장하기 위한 하나 이상의 메모리 디바이스를 포함할 수 있다.
일 실시예에 따르면, 컴퓨팅 장치는 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치와 데이터를 주고받을 수 있다. 예를 들어, 컴퓨팅 장치는 자기 디스크(magnetic disc) 또는 광 디스크(optical disc)로부터 데이터를 수신하거나/수신하고, 자기 디스크 또는 광 디스크로 데이터를 전송할 수 있다. 컴퓨터 프로그램과 연관된 명령어들 및/또는 데이터를 저장하기에 적합한 컴퓨터 판독 가능한 저장 매체는, EPROM(Erasable Programmable Read-Only Memory), EEPROM(Electrically Erasable PROM), 플래시 메모리 장치 등의 반도체 메모리 장치를 포함하는 임의의 형태의 비 휘발성 메모리를 포함할 수 있으나, 이에 한정되지 않는다. 예를 들어, 컴퓨터 판독 가능한 저장 매체는 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크, 광 자기 디스크, CD-ROM 및 DVD-ROM 디스크를 포함할 수 있다.
사용자와의 상호 작용을 제공하기 위해, 컴퓨팅 장치는 정보를 사용자에게 제공하거나 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT (Cathode Ray Tube), LCD(Liquid Crystal Display) 등) 및 사용자가 컴퓨팅 장치 상에 입력 및/또는 명령 등을 제공할 수 있는 포인팅 장치(예를 들어, 키보드, 마우스, 트랙볼 등)를 포함할 수 있으나, 이에 한정되지 않는다. 즉, 컴퓨팅 장치는 사용자와의 상호 작용을 제공하기 위한 임의의 다른 종류의 장치들을 더 포함할 수 있다. 예를 들어, 컴퓨팅 장치는 사용자와의 상호 작용을 위해, 시각적 피드백, 청각 피드백 및/또는 촉각 피드백 등을 포함하는 임의의 형태의 감각 피트백을 사용자에게 제공할 수 있다. 이에 대해, 사용자는 시각, 음성, 동작 등의 다양한 제스처를 통해 컴퓨팅 장치로 입력을 제공할 수 있다.
본 발명에서, 다양한 실시예들은 백엔드 구성 요소(예: 데이터 서버), 미들웨어 구성 요소(예: 애플리케이션 서버) 및/또는 프론트 엔드 구성 요소를 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 이 경우, 구성 요소들은 통신 네트워크와 같은 디지털 데이터 통신의 임의의 형태 또는 매체에 의해 상호 연결될 수 있다. 예를 들어, 통신 네트워크는 LAN(Local Area Network), WAN(Wide Area Network) 등을 포함할 수 있다.
본 명세서에서 기술된 예시적인 실시예들에 기반한 컴퓨팅 장치는, 사용자 디바이스, 사용자 인터페이스(UI) 디바이스, 사용자 단말 또는 클라이언트 디바이스를 포함하여 사용자와 상호 작용하도록 구성된 하드웨어 및/또는 소프트웨어를 사용하여 구현될 수 있다. 예를 들어, 컴퓨팅 장치는 랩톱(laptop) 컴퓨터와 같은 휴대용 컴퓨팅 장치를 포함할 수 있다. 추가적으로 또는 대안적으로, 컴퓨팅 장치는, PDA(Personal Digital Assistants), 태블릿 PC, 게임 콘솔(game console), 웨어러블 디바이스(wearable device), IoT(internet of things) 디바이스, VR(virtual reality) 디바이스, AR(augmented reality) 디바이스 등을 포함할 수 있으나, 이에 한정되지 않는다. 컴퓨팅 장치는 사용자와 상호 작용하도록 구성된 다른 유형의 장치를 더 포함할 수 있다. 또한, 컴퓨팅 장치는 이동 통신 네트워크 등의 네트워크를 통한 무선 통신에 적합한 휴대용 통신 디바이스(예를 들어, 이동 전화, 스마트 전화, 무선 셀룰러 전화 등) 등을 포함할 수 있다. 컴퓨팅 장치는, 무선 주파수(RF; Radio Frequency), 마이크로파 주파수(MWF; Microwave Frequency) 및/또는 적외선 주파수(IRF; Infrared Ray Frequency)와 같은 무선 통신 기술들 및/또는 프로토콜들을 사용하여 네트워크 서버와 무선으로 통신하도록 구성될 수 있다.
본 발명에서 특정 구조적 및 기능적 세부 사항을 포함하는 다양한 실시예들은 예시적인 것이다. 따라서, 본 발명의 실시예들은 상술된 것으로 한정되지 않으며, 여러 가지 다른 형태로 구현될 수 있다. 또한, 본 발명에서 사용된 용어는 일부 실시예를 설명하기 위한 것이며 실시예를 제한하는 것으로 해석되지 않는다. 예를 들어, 단수형 단어 및 상기는 문맥상 달리 명확하게 나타내지 않는 한 복수형도 포함하는 것으로 해석될 수 있다.
본 발명에서, 달리 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함하여 본 명세서에서 사용되는 모든 용어는 이러한 개념이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 또한, 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 맥락에서의 의미와 일치하는 의미를 갖는 것으로 해석되어야 한다.
본 명세서에서는 본 발명이 일부 실시예들과 관련하여 설명되었지만, 본 발명의 발명이 속하는 기술분야의 통상의 기술자가 이해할 수 있는 본 발명의 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다. 또한, 그러한 변형 및 변경은 본 명세서에 첨부된 특허청구의 범위 내에 속하는 것으로 생각되어야 한다.

Claims (9)

  1. 적어도 하나의 프로세서에 의해 수행되는 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵(attention map) 전달 방법으로서,
    사람의 얼굴을 포함하는 고해상도 이미지를 기초로 상기 사람의 얼굴을 인식하기 위한 고해상도 얼굴 인식 네트워크를 학습하는 단계;
    상기 학습된 고해상도 얼굴 인식 네트워크로부터 상기 고해상도 이미지와 연관된 제1 어텐션 맵(attention map)을 추출하는 단계;
    상기 추출된 제1 어텐션 맵을, 상기 사람의 얼굴을 포함하는 저해상도 이미지를 기초로 상기 사람의 얼굴을 인식하기 위한 저해상도 얼굴 인식 네트워크 상에 전달하는 단계; 및
    상기 전달된 제1 어텐션 맵을 이용하여 상기 저해상도 얼굴 인식 네트워크를 학습하는 단계;
    를 포함하는, 어텐션 맵 전달 방법.
  2. 제1항에 있어서,
    상기 저해상도 얼굴 인식 네트워크를 학습하는 단계는,
    상기 저해상도 얼굴 인식 네트워크로부터 제2 어텐션 맵을 추출하는 단계; 및
    지식 증류(knowledge distillation)를 이용하여 상기 제2 어텐션 맵이 상기 제1 어텐션 맵과 유사해지도록 상기 저해상도 얼굴 인식 네트워크를 학습하는 단계;
    를 포함하는, 어텐션 맵 전달 방법.
  3. 제2항에 있어서,
    상기 제2 어텐션 맵이 상기 제1 어텐션 맵과 유사해지도록 상기 저해상도 얼굴 인식 네트워크를 학습하는 단계는,
    얼굴 인식 손실과 상기 저해상도 얼굴 인식 네트워크에서의 증류 손실(distillation loss)의 합을 이용하여 상기 저해상도 얼굴 인식 네트워크를 학습하는 단계;
    를 포함하는, 어텐션 맵 전달 방법.
  4. 제1항에 있어서,
    상기 고해상도 얼굴 인식 네트워크는 순차적으로 연결된 복수의 블록(block)을 포함하고,
    상기 고해상도 얼굴 인식 네트워크를 학습하는 단계는,
    상기 복수의 블록에 포함된 제1 블록으로부터 제1 초기 어텐션 맵을 추출하는 단계;
    상기 제1 블록과 연결된 제2 블록으로부터 제2 초기 어텐션 맵을 추출하는 단계; 및
    지식 증류를 이용하여 상기 제2 초기 어텐션 맵이 상기 제1 초기 어텐션 맵과 유사해지도록 상기 고해상도 얼굴 인식 네트워크를 학습하는 단계;
    를 포함하는, 어텐션 맵 전달 방법.
  5. 제4항에 있어서,
    상기 제2 초기 어텐션 맵이 상기 제1 초기 어텐션 맵과 유사해지도록 상기 고해상도 얼굴 인식 네트워크를 학습하는 단계는,
    Figure PCTKR2022008543-appb-img-000057
    에 의해 상기 고해상도 얼굴 인식 네트워크를 학습하는 단계를 포함하고,
    여기서,
    Figure PCTKR2022008543-appb-img-000058
    는 아크페이스 손실과 상기 고해상도 얼굴 인식 네트워크에서의 증류 손실의 합이고,
    Figure PCTKR2022008543-appb-img-000059
    는 상기 고해상도 얼굴 인식 네트워크의 i번째 블록의 공간 어텐션 값을 나타내고,
    Figure PCTKR2022008543-appb-img-000060
    는 상기 증류 손실을 위한 거리 함수를 나타내고,
    Figure PCTKR2022008543-appb-img-000061
    는 맥스 풀링 레이어(max pooling layer)를 나타내는, 어텐션 맵 전달 방법.
  6. 제1항에 있어서,
    상기 사람의 얼굴을 포함하는 고해상도 이미지를 획득하는 단계;
    상기 획득된 고해상도 이미지에 대한 다운 샘플링(downsampling)을 수행하는 단계;
    상기 다운 샘플링된 이미지에 대한 블러(blur) 처리를 수행하는 단계; 및
    상기 블러 처리된 이미지의 크기를 상기 고해상도 이미지에 대응하는 크기로 변경하여 상기 저해상도 이미지를 생성하는 단계;
    를 더 포함하는, 어텐션 맵 전달 방법.
  7. 제1항에 있어서,
    상기 제1 어텐션 맵은 얼굴 인식을 위해 특정 기준 이상 참조되는 채널을 나타내는 채널 어텐션 맵 및 얼굴 인식을 위해 다른 특정 기준 이상 참조되는 특징 영역을 나타내는 공간 어텐션 맵을 포함하는, 어텐션 맵 전달 방법.
  8. 제1항에 있어서,
    상기 고해상도 얼굴 인식 네트워크는 상기 고해상도 이미지의 특징(feature)을 추출하기 위한 복수의 블록 및 상기 제1 어텐션 맵을 추출하기 위한 복수의 어텐션 모듈(attention module)을 포함하는, 어텐션 맵 전달 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 따른 방법을 컴퓨터에서 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
PCT/KR2022/008543 2021-09-14 2022-06-16 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법 및 장치 WO2023043001A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20210122283 2021-09-14
KR10-2021-0122283 2021-09-14
KR1020220072493A KR20230039509A (ko) 2021-09-14 2022-06-15 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법 및 장치
KR10-2022-0072493 2022-06-15

Publications (1)

Publication Number Publication Date
WO2023043001A1 true WO2023043001A1 (ko) 2023-03-23

Family

ID=85603067

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/008543 WO2023043001A1 (ko) 2021-09-14 2022-06-16 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법 및 장치

Country Status (1)

Country Link
WO (1) WO2023043001A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863279A (zh) * 2023-09-01 2023-10-10 南京理工大学 用于移动端模型轻量化的基于可解释指导的模型蒸馏方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304900A (ja) * 2006-05-12 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> オブジェクト認識装置及びオブジェクト認識プログラム
CN112069877A (zh) * 2020-07-21 2020-12-11 北京大学 一种基于边缘信息和注意力机制的人脸信息识别方法
CN112288627A (zh) * 2020-10-23 2021-01-29 武汉大学 一种面向识别的低分辨率人脸图像超分辨率方法
CN112598587A (zh) * 2020-12-16 2021-04-02 南京邮电大学 一种联合人脸去口罩和超分辨率的图像处理***和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304900A (ja) * 2006-05-12 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> オブジェクト認識装置及びオブジェクト認識プログラム
CN112069877A (zh) * 2020-07-21 2020-12-11 北京大学 一种基于边缘信息和注意力机制的人脸信息识别方法
CN112288627A (zh) * 2020-10-23 2021-01-29 武汉大学 一种面向识别的低分辨率人脸图像超分辨率方法
CN112598587A (zh) * 2020-12-16 2021-04-02 南京邮电大学 一种联合人脸去口罩和超分辨率的图像处理***和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIN SUNGHO, CHOI SEUNGJUN, LEE KYOOBIN: "Low-Resolution Image Classification using Knowledge Distillation from High-Resolution Image via Self-Attention Map", JOURNAL OF KIISE, 1 January 2019 (2019-01-01), pages 566 - 568, XP093047730 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863279A (zh) * 2023-09-01 2023-10-10 南京理工大学 用于移动端模型轻量化的基于可解释指导的模型蒸馏方法
CN116863279B (zh) * 2023-09-01 2023-11-21 南京理工大学 用于移动端模型轻量化的基于可解释指导的模型蒸馏方法

Similar Documents

Publication Publication Date Title
WO2020027540A1 (en) Apparatus and method for personalized natural language understanding
WO2020224479A1 (zh) 目标的位置获取方法、装置、计算机设备及存储介质
WO2018112833A1 (en) Efficient transferring of human experiences to robots and other autonomous machines
WO2014051246A1 (en) Method and apparatus for inferring facial composite
WO2020027454A1 (en) Multi-layered machine learning system to support ensemble learning
CN113487608B (zh) 内窥镜图像检测方法、装置、存储介质及电子设备
EP4105766A1 (en) Image display method and apparatus, and computer device and storage medium
US20220358662A1 (en) Image generation method and device
CN111652946B (zh) 显示标定方法及装置、设备、存储介质
WO2023043001A1 (ko) 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법 및 장치
WO2022059969A1 (ko) 심전도 데이터 분류를 위한 심층 신경망 사전 학습 방법
WO2022124725A1 (ko) 화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램
EP3776469A1 (en) System and method for 3d association of detected objects
EP4176393A1 (en) Systems and methods for automatic mixed-precision quantization search
WO2019190076A1 (ko) 시선 추적 방법 및 이를 수행하기 위한 단말
WO2023185516A1 (zh) 图像识别模型的训练方法、识别方法、装置、介质和设备
WO2020231005A1 (ko) 영상 처리 장치 및 그 동작방법
WO2022025565A1 (en) System and method for generating bokeh image for dslr quality depth-of-field rendering and refinement and training method for the same
CN112037305B (zh) 对图像中的树状组织进行重建的方法、设备及存储介质
WO2023229345A1 (en) System and method for detecting unhandled applications in contrastive siamese network training
WO2023149714A1 (en) Method and electronic device of estimating optical flow using network with lossless pyramid micro-architecture
KR20230039509A (ko) 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법 및 장치
WO2022197136A1 (en) System and method for enhancing machine learning model for audio/video understanding using gated multi-level attention and temporal adversarial training
WO2022139327A1 (en) Method and apparatus for detecting unsupported utterances in natural language understanding
CN113989121A (zh) 归一化处理方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22870091

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE