KR20200143450A - 화상 처리 방법, 장치, 전자 장치 및 저장 매체 - Google Patents

화상 처리 방법, 장치, 전자 장치 및 저장 매체 Download PDF

Info

Publication number
KR20200143450A
KR20200143450A KR1020207032622A KR20207032622A KR20200143450A KR 20200143450 A KR20200143450 A KR 20200143450A KR 1020207032622 A KR1020207032622 A KR 1020207032622A KR 20207032622 A KR20207032622 A KR 20207032622A KR 20200143450 A KR20200143450 A KR 20200143450A
Authority
KR
South Korea
Prior art keywords
processing method
neural network
parameter
whitening
image data
Prior art date
Application number
KR1020207032622A
Other languages
English (en)
Other versions
KR102428054B1 (ko
Inventor
신강 판
핑 루오
지안핑 시
샤오오우 탕
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20200143450A publication Critical patent/KR20200143450A/ko
Application granted granted Critical
Publication of KR102428054B1 publication Critical patent/KR102428054B1/ko

Links

Images

Classifications

    • G06K9/6256
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 출원의 실시예는 화상 처리 방법, 장치, 전자 장치 및 저장 매체를 개시한다. 화상 처리 방법은, 처리하려는 화상 데이터에 따라 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터 및 제 2 특징 파라미터를 확정하는 단계- 처리 방법 세트는 백화 방법 및 표준화 방법 중 적어도 두가지를 포함하고, 처리하려는 화상 데이터는 적어도 하나의 화상 데이터를 포함함 -와; 각 제 1 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 1 특징 파라미터의 가중 평균을 확정하고, 각 제 2 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 2 특징 파라미터의 가중 평균을 확정하는 단계와; 적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 처리하려는 화상 데이터에 대하여 백화 처리를 수행하는 단계를 포함하고, 화상 처리에서 적응적 백화 조작을 실현하고, 화상 처리 효과를 향상시킬 수 있다.

Description

화상 처리 방법, 장치, 전자 장치 및 저장 매체
(관련 출원)
본 출원은 중국 특허청에 제출된 중국 특허 출원의 우선권을 주장하고, 출원일은 2019년 3월 30일이고, 출원 번호는 CN201910253934.9이며, 발명의 명칭은 '화상 처리 방법, 장치, 전자 장치 및 기억 매체'이며, 그 전문이 본원에 참조로 포함된다.
본 발명은 컴퓨터 비전 기술 분야에 관한 것으로, 보다 구체적으로 화상 처리 방법, 장치, 전자 장치 및 저장 매체에 관한 것이다.
컨볼 루션 신경망(Convolutional Neural Networks, CNN)은 컴퓨터 비전 분야의 주류 방법으로 되었다. 서로 다른 컴퓨터 비전 임무에 대하여, 연구자들은 상이한 표준화(normalization) 및 백화(whitening) 방법을 개발하였다. 화상 표준화는 평균치를 제거함으로써 데이터 중앙화를 실현하는 처리 방식이며, 볼록 최적화 이론 및 데이터 확률 분포 관련 지식에 의하면, 데이터 중앙화는 데이터 분포 법칙에 부합되고, 훈련 후의 일반화 효과를 더 쉽게 획득할 수 있으며, 데이터 표준화는 데이터 전처리의 일반적인 방법 중 하나이다. 백화의 목적은 입력 데이터의 쓸데없는 정보를 제거하는 것이다.
보다 싶이, 컴퓨터 비전 임무에서 표준화 및 백화를 사용하는 것은 매우 중요하다. 현재, 화상을 처리하는 데에 사용되는 다양한 표준화 및 백화 방법은 각각 장단점이 있고, 화상 처리 효과는 충분하지 않고, 또한 컨볼 루션 신경망 모델을 설계하는 공간과 난이도는 더욱 높아진다.
본 출원의 실시예는 화상 처리 방법, 장치, 전자 장치 및 기억 매체을 제공하고, 이미지 정합(Image registration)의 정확성과 실시간을 향상시킬 수 있다.
제 1 양태에서, 본 출원의 실시예는 화상 처리 방법을 제공한다. 화상 처리 방법은,
처리하려는 화상 데이터에 따라 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터 및 제 2 특징 파라미터를 확정하는 단계- 처리 방법 세트는 백화 방법 및 표준화 방법 중 적어도 두가지를 포함하고, 처리하려는 화상 데이터는 적어도 하나의 화상 데이터를 포함함 -와,
각 제 1 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 1 특징 파라미터의 가중 평균을 확정하고, 각 제 2 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 2 특징 파라미터의 가중 평균을 확정하는 단계와;
적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 처리하려는 화상 데이터에 대하여 백화 처리를 수행하는 단계를 포함한다.
선택 가능한 실시예에 있어서, 제 1 특징 파라미터는 평균치 벡터이고, 제 2 특징 파라미터는 공분산 행열(covariance matrix)이다.
선택 가능한 실시예에 있어서, 적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 처리하려는 화상 데이터에 대하여 백화 처리를 수행하는 단계는 신경망에 의해 실행되고,
미리 설정된 처리 방법 세트 중 한가지 처리 방법의 제 1 특징 파라미터의 가중치 계수는 아래 방법에 의해 확정된다: 미리 설정된 처리 방법 세트 중 상기 처리 방법의 제 1 특징 파라미터의 가중치 계수는 신경망 중 상기 처리 방법의 제 1 제어 파라미터의 값을 이용하여 표준화 지수 함수(normalized exponential function)에 따라 확정되며,
미리 설정된 처리 방법 세트 중 한가지 처리 방법의 제 2 특징 파라미터의 가중치 계수는 아래 방법에 의해 확정된다: 상기 처리 방법의 제 2 특징 파라미터의 가중치 계수는 신경망 중 상기 처리 방법의 제 2 제어 파라미터의 값을 이용하여 표준화 지수 함수에 따라 확정된다.
선택 가능한 실시예에 있어서, 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 제어 파라미터 및 제 2 제어 파라미터는 아래 단계를 거쳐 획득된다:
신경망 모델의 역 전파 방법에 따라, 훈련하려는 신경망의 손실 함수를 최소화함으로써, 훈련하려는 신경망의 각 제 1 제어 파라미터, 각 제 2 제어 파라미터 및 각 네트워크 파라미터에 대하여 공동 최적화를 수행하고;
훈련하려는 신경망의 손실 함수가 가장 작을 때의 각 제 1 제어 파라미터의 값을 훈련 완료된 신경망의 각 제 1 제어 파라미터의 값으로 하고;
훈련하려는 신경망의 손실 함수가 가장 작을 때의 각 제 2 제어 파라미터의 값을 훈련 완료된 신경망의 각 제 2 제어 파라미터의 값으로 한다.
선택 가능한 실시예에 있어서, 신경망 모델의 역 전파 방법에 따라, 훈련하려는 신경망의 손실 함수를 최소화함으로써, 훈련하려는 신경망의 각 제 1 제어 파라미터, 각 제 2 제어 파라미터 및 각 네트워크 파라미터에 대하여 공동 최적화를 수행하는 것은,
훈련하려는 신경망은 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터의 가중 평균 및 각 처리 방법의 제 2 특징 파라미터의 가중 평균에 따라 훈련용 데이터에 대하여 백화 처리를 수행하고, 또한 예측 결과를 출력하는 것- 그 중에서, 미리 설정된 처리 방법 세트 중 제 1 처리 방법의 제 1 제어 파라미터의 초기 값은 제 1 프리셋 값이고, 미리 설정된 처리 방법 세트 중 제 1 처리 방법의 제 2 제어 파라미터의 초기 값은 제 2 프리셋 값임 -과,
훈련하려는 신경망에서 출력된 예측 결과 및 훈련용 화상 데이터의 주석 결과에 따라 신경망의 손실 함수를 확정하는 것과,
훈련하려는 신경망의 손실 함수를 기반으로 훈련하려는 신경망의 각 제 1 제어 파라미터, 각 제 2 제어 파라미터 및 각 네트워크 파라미터를 조정하는 것을 포함한다.
선택 가능한 실시예에 있어서, 적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 처리하려는 화상 데이터에 대하여 백화 처리를 수행하는 것은,
적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균 및 처리하려는 화상 데이터의 채널 수량, 높이 및 넓이에 따라, 처리하려는 화상 데이터 중 각 화상 데이터에 대하여 백화 처리를 수행하는 것을 포함한다.
선택 가능한 실시예에 있어서, 표준화 방법은 일괄 표준화 방법, 인스턴스 표준화 방법, 레이어 표준화 방법 중 적어도 하나를 포함한다.
선택 가능한 실시예에 있어서, 백화 방법은 일괄 백화 방법, 인스턴스 표준화 방법 중 적어도 하나를 포함한다.
제 2 양태에서, 본 출원의 실시예는 화상 처리 장치를 제공한다. 화상 처리 장치는 확정 모듈, 가중 모듈 및 백화 처리 모듈을 포함하고,
확정 모듈은 처리하려는 화상 데이터에 따라 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터 및 제 2 특징 파라미터를 확정하는 데에 사용되고, 처리 방법 세트는 백화 방법 및 표준화 방법 중 적어도 두가지를 포함하고, 처리하려는 화상 데이터는 적어도 하나의 화상 데이터를 포함하며,
가중 모듈은 각 제 1 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 1 특징 파라미터의 가중 평균을 확정하고, 각 제 2 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 2 특징 파라미터의 가중 평균을 확정하는 데에 사용되며,
백화 처리 모듈은 적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 처리하려는 화상 데이터에 대하여 백화 처리를 수행하는 데에 사용된다.
선택 가능한 실시예에 있어서, 제 1 특징 파라미터는 평균치 벡터이고, 제 2 특징 파라미터는 공분산 행열이다.
선택 가능한 실시예에 있어서, 백화 처리 모듈의 기능은 신경망에 의해 실행되고,
미리 설정된 처리 방법 세트 중 한가지 처리 방법의 제 1 특징 파라미터의 가중치 계수는 신경망 중 상기 처리 방법의 제 1 제어 파라미터의 값을 이용하여 표준화 지수 함수(normalized exponential function)에 따라 확정되며,
상기 처리 방법의 제 2 특징 파라미터의 가중치 계수는 신경망 중 상기 처리 방법의 제 2 제어 파라미터의 값을 이용하여 표준화 지수 함수에 따라 확정된다.
선택 가능한 실시예에 있어서, 제 2 양태에 있어서, 본 출원의 실시예에 따른 화상 처리 장치는 훈련 모듈을 더 포함하고, 제 1 제어 파라미터 및 제 2 제어 파라미터는 훈련 모듈이 신경망을 훈련할 때에 획득된다. 훈련 모듈은,
신경망 모델의 역 전파 방법에 따라, 신경망의 손실 함수를 최소화함으로써, 제 1 제어 파라미터, 제 2 제어 파라미터 및 신경망의 네트워크 파라미터에 대하여 공동 최적화를 수행하고,
신경망의 손실 함수가 가장 작을 때의 제 1 제어 파라미터의 값을 신경망의 제 1 제어 파라미터의 값으로 하고,
신경망의 손실 함수가 가장 작을 때의 제 2 제어 파라미터의 값을 신경망의 제 2 제어 파라미터의 값으로 하는 데에 사용된다.
선택 가능한 실시예에 있어서, 훈련 모듈은, 구체적으로,
훈련하려는 신경망에 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터의 가중 평균 및 각 처리 방법의 제 2 특징 파라미터의 가중 평균에 따라 훈련용 화상 데이터에 대하여 백화 처리를 수행하고, 또한 예측 결과를 출력하며, 그 중에서, 미리 설정된 처리 방법 세트 중 제 1 처리 방법의 제 1 제어 파라미터의 초기 값은 제 1 프리셋 값이고, 미리 설정된 처리 방법 세트 중 제 1 처리 방법의 제 2 제어 파라미터의 초기 값은 제 2 프리셋 값이며,
훈련하려는 신경망에서 출력된 예측 결과 및 훈련용 화상 데이터의 주석 결과에 따라 신경망의 손실 함수를 확정하고,
훈련하려는 신경망의 손실 함수를 기반으로 훈련하려는 신경망의 각 제 1 제어 파라미터, 각 제 2 제어 파라미터 및 각 네트워크 파라미터를 조정하는 데에 사용된다.
선택 가능한 실시예에 있어서, 백화 처리 모듈은, 구체적으로
적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균 및 처리하려는 화상 데이터의 채널 수량, 높이 및 넓이에 따라, 처리하려는 화상 데이터 중 각 화상 데이터에 대하여 백화 처리를 수행하는 데에 사용된다.
선택 가능한 실시예에 있어서, 표준화 방법은 일괄 표준화 방법, 인스턴스 표준화 방법, 레이어 표준화 방법 중 적어도 하나를 포함한다.
선택 가능한 실시예에 있어서, 백화 방법은 일괄 백화 방법, 인스턴스 표준화 방법 중 적어도 하나를 포함한다.
제 3 양태에서, 본 출원의 실시예는 전자 장치를 제공한다. 전자 장치는 프로세서 및 메모리를 포함하고, 메모리는 하나 이상의 프로그램을 저장하는 데에 사용되며, 하나 이상의 프로그램은 프로세서에 의해 실행되도록 구성되고, 프로그램은 본 출원의 실시예의 제 1 양태의 임의의 하나의 방법에 기재된 단계의 일부 또는 전부를 실행하도록 한다.
제 4 양태에서, 본 출원의 실시예는 컴퓨터 판독 가능 저장 매체를 제공한다. 컴퓨터 판독 가능 저장 매체는 전자 데이터 교환을 위한 컴퓨터 프로그램을 저장하는 데에 사용되고, 컴퓨터 프로그램은 컴퓨터가 본 출원의 실시예의 제 1 양태의 임의의 하나의 방법에 기재된 단계의 일부 또는 전부를 실행하도록 한다.
제 5 양태에서, 본 출원의 실시예는 명령어를 포함하는 컴퓨터 프로그램 제품을 제공하고, 그것이 컴퓨터에서 실행되면, 컴퓨터가 상술한 제 1 양태 및 그 임의의 가능한 실현 방법을 실행하도록 한다.
본 출원의 실시예는 처리하려는 화상 데이터에 따라 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터 및 제 2 특징 파라미터를 확정하고, 처리 방법 세트는 백화 방법 및 표준화 방법 중 적어도 두가지를 포함하고, 처리하려는 화상 데이터는 적어도 하나의 화상 데이터를 포함하며, 각 제 1 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 1 특징 파라미터의 가중 평균을 확정하고, 각 제 2 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 2 특징 파라미터의 가중 평균을 확정하고, 적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 처리하려는 화상 데이터에 대하여 백화 처리를 수행하며, 단독으로 사용되는 일반적인 표준화 방법 및 백화 방법과 비교하면, 각 방법의 장점을 결합하여 화상 처리 효과를 향상시킬 수 있다.
도면은 명세서에 포함되어 본 명세서의 일부를 구성하고, 이러한 도면은 본 발명에 부합되는 실시예를 나타내고, 또한 명세서와 함께 본 발명의 기술적 해결책을 설명한다.
도 1은 본 발명의 실시예에 따른 화상 처리 방법을 나타내는 흐름도이다.
도 2는 본 발명의 실시예에 따른 제어 파라미터 훈련 방법을 나타내는 흐름도이다.
도 3은 본 발명의 실시예에 따른 서로 다른 표준화 레이어의 스타일 변환을 나타내는 가시적 도면이다.
도 4는 본 발명의 실시예에 따른 화상 처리 장치의 구조를 나타내는 개략도이다.
도 5는 본 발명의 실시예에 따른 전자 장치의 구조를 나타내는 개략도이다.
당업자가 본 발명을 보다 잘 이해할 수 있도록, 아래, 본 출원의 실시예의 첨부 도면을 참조하면서 본 출원의 실시예의 기술 방안을 명확하고 완전하게 설명한다. 물론, 기재된 실시예는 본 발명의 실시예의 일부에 지나지 않고, 모든 실시예가 아니다. 창조적인 노력없이 당업자가 본 발명의 실시예에 따라 얻을 수 있는 모든 다른 실시예는 본 발명의 보호 범위에 포함된다.
본 발명의 명세서, 특허 청구 범위 및 도면에 기재된 용어 ‘제 1’, ‘제 2’ 등은 특정 순서를 설명하는 데에 사용되는 것이 아니라, 서로 다른 대상을 구별하는 데에 사용된다. 용어 ‘포함한다’, ‘갖고 있다’ 및 그 변형은 비 배타적인 포함을 포괄한다. 예를 들어, 일련의 단계 또는 유닛을 포함하는 프로세스, 방법, 시스템, 제품 또는 장치는 나열된 단계 또는 유닛에 한정되지 않고, 선택적으로 나열되지 않은 다른 단계 또는 유닛을 포함할 수 있고, 또는 선택적으로 이러한 프로세스, 방법, 제품, 또는 장치의 고유한 다른 단계 또는 유닛을 포함할 수도 있다.
본 명세서에서 언급되는 ‘실시예’라는 용어는, 실시예와 관련하여 설명되는 특정 특징, 구조 또는 특성이 본 발명의 적어도 하나의 실시예에 포함될 수 있음을 의미한다. 본 명세서의 각 곳에 나타나는 이 용어는 꼭 동일한 실시예를 지칭하는 것이 아니고, 다른 실시예와 배타적인 독립적인 또는 후보 실시예를 가리키는 것도 아니다. 본 명세서에 기재된 실시예는 다른 실시예와 결합될 수 있음을 당업자는 명시적 및 암시적으로 이해할 수 있다.
본 출원의 실시예에 따른 화상 처리 장치는 여러 다른 단말 장치가 액세스하는 것을 허용할 수 있다. 상술한 화상 처리 장치는 단말 장치를 포함하는 전자 장치일 수 있다. 구체적인 실시예에 있어서, 상기 단말 장치는 터치 민감 표면(예를 들어, 터치 스크린 디스플레이 및/또는 터치 패널)을 갖는 휴대폰, 노트북 컴퓨터 또는 태블릿 컴퓨터 등과 같은 기타 휴대용 장치를 포함하지만, 여기에 한정되지 않는다. 일부 실시예에 있어서, 상기 장치는 이동 통신 장치가 아니라 터치 민감 표면(예를 들어, 터치 스크린 디스플레이 및/또는 터치 패널)을 갖는 데스크톱 컴퓨터임을 이해하여야 한다.
본 출원의 실시예에 있어서, 딥 러닝의 개념은 인공 신경망의 연구에서 기원하다. 여러 숨겨진 레이어를 포함하는 다층 퍼셉트론(Multilayer Perceptron, MLP)은 한가지 딥 러닝 구조이다. 딥 러닝은 저수준 특징을 결합하여 더 추상적인 고수준 표현 속성 카테고리 또는 특징을 형성함으로써, 데이터의 분산 특성 표현을 발견하도록 한다.
딥 러닝은 기계 학습에 있어서 데이터의 특성화 학습을 기반으로 하는 방법이다. 관측값(하나의 화상 등)은 다양한 방법으로 표현될 수 있으며, 예를 들어, 각 픽셀의 강도값의 벡터, 또는 더 추상적으로 일련의 가장자리, 특정 형상의 영역 등으로 나타낼 수도 있다. 어떤 특정된 표현 방법(예를 들면, 얼굴 인식 및 표정 인식)을 사용하여 실례에서 임무를 학습하는 것이 더 간단하다. 딥 러닝의 장점은 비 감독식 또는 반 감독식의 특징 학습 및 계층적 특징 추출의 효율적인 알고리즘을 사용하여 수동으로 특징을 획득하는 것을 대체하는 것이다. 딥 러닝은 기계 학습 연구의 새로운 분야이며, 그 동기는 인간의 뇌가 분석하고 학습하는 신경망을 구축하고 모방하는 것이며, 인간의 뇌의 메커니즘을 모방하여 화상, 오디오 및 텍스트 등 데이터를 해석한다.
이하, 본 출원의 실시예에 대하여 상세하게 소개한다.
도 1을 참조하면, 도 1은 본 발명의 실시예에 따른 화상 처리 방법을 나타내는 흐름도이다. 도 1에 도시된 바와 같이, 화상 처리 방법은 상술한 화상 처리 장치에 의해 수행될 수 있으며, 아래 단계를 포함한다.
101, 처리하려는 화상 데이터에 따라 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터 및 제 2 특징 파라미터를 확정하고, 처리 방법 세트는 백화 방법 및 표준화 방법 중 적어도 두가지를 포함하고, 처리하려는 화상 데이터는 적어도 하나의 화상 데이터를 포함한다.
화상 데이터의 표준화(normalization)는 정규화이라고도 하며, 데이터 마이닝의 기본적인 작업이다. 서로 다른 평가 지표는 종종 서로 다른 차원(dimension) 및 차원 단위를 가지며, 이러한 상황은 데이터 분석 결과에 영향을 준다. 지표 간의 차원의 영향을 제거하기 위하여, 데이터 표준화 처리가 필요하며, 따라서 데이터 지표 간의 비교 가능성을 해결한다.
화상이 최종 이미징은 주변 빛의 강도, 물체의 반사, 카메라 촬영 등 많은 요인의 영향을 받는다. 화상에 포함된 외계의 영향을 받지 않는 일정한 정보를 얻기 위하여, 화상에 대하여 백화 처리할 필요가 있다.
본 출원의 실시예에서 언급된 백화(whitening)는 노출이 과도하거나 또는 노출이 부족한 화상을 처리하는 데에 사용될 수 있다. 일반적으로 이러한 요인의 영향을 제거하기 위하여, 처리 방법은 일반적으로 화상의 평균 화소 값을 0으로 변경하고, 화상의 분산(Variance)을 단위 분산 1로 변경하며, 구체적으로 평균치 벡터 및 공분산 행열에 의해 실현될 수 있으며, 즉 픽셀 값을 제로 평균치와 단위 분산으로 변환한다.
서로 다른 컴퓨터 비전 임무에 대하여, 연구자들은 서로 다른 표준화 방법 및 백화(whitening) 방법을 개발하였다. 예를 들어, 일괄 표준화(batch normalization) 및 일괄 백화(batch whitening)는 화상 분류, 물체 감지 등 임무에 응용되고, 인스턴스 표준화(instance normalization) 및 인스턴스 백화(instance whitening)는 화상 스타일 변환 및 화상 생성에 응용되며, 레이어 표준화(layer normalization)는 순환 신경망에 응용된다.
편리하게 설명하기 위하여, 본 출원의 실시예에 있어서의 일괄 백화, 인스턴스 백화, 일괄 표준화, 인스턴스 표준화 및 레이어 표준화는 각각 bw, iw, bn, in 및 ln로 약칭된다.
본 출원의 실시예에 있어서, 상술한 처리 방법 세트를 미리 설정할 수 있으며, 처리 방법 세트에 어떤 백화 방법 및 표준화 방법이 포함되느냐는 처리하려는 화상 데이터를 기반으로 상술한 처리 방법 세트를 선택하고 설정할 수 있으며, 예를 들어, 일괄 표준화, 일괄 백화, 인스턴스 표준화, 인스턴스 백화 및 레이어 표준화를 포함할 수 있으며, 그 중 일부 방법만을 포함할 수도 있지만, 백화 방법 및 표준화 방법 중 적어도 두가지 방법을 포함하는 것이 필요하다.
우선, 처리하려는 화상 데이터와 미리 설정된 처리 방법 세트 중 각 처리 방법에 따라 각 처리 방법의 제 1 특징 파라미터 및 제 2 특징 파라미터를 확정하고, 즉 가중 평균에 사용되는 특징 파라미터를 획득한다.
본 출원의 실시예의 단계는 훈련된 컨볼 루션 신경망을 기반으로 실현될 수 있다. 컨볼 루션 신경망(Convolutional Neural Networks, CNN)은 컨볼 루션 계산을 포함하고, 또한 딥 구조를 갖는 피드 포워드 신경망(Feedforward Neural Networks)의 일종이며, 딥 러닝(deep learning)의 대표적인 알고리즘의 한가지이다.
단계 101에서, 각 처리 방법의 계산식에 따라 각 처리 방법의 제 1 특징 파라미터 및 제 2 특징 파라미터를 획득할 수 있다. 처리 방법 세트는 적어도 두가지 처리 방법을 포함하기 때문에, 획득한 제 1 특징 파라미터 및 제 2 특징 파라미터는 모두 적어도 2개이다. 화상 백화 또는 화상 표준화에 대하여, 출력되는 제 1 특징 파라미터는 평균치 벡터일 수 있고, 제 2 특징 파라미터는 공분산 행열일 수 있다. 즉, 화상 처리 장치는 처리하려는 화상 데이터의 적어도 2개의 평균치 벡터와 적어도 2개의 공분산 행열을 획득할 수 있으며, 2개의 파라미터는 화상 데이터 및 미리 설정된 처리 방법에 따라 계산하여 획득된다.
평균치 벡터의 가중 평균은
Figure pct00001
이고; 그 중에서
Figure pct00002
은 처리 방법 세트이고,
Figure pct00003
은 제 1 가중치 계수이며,
Figure pct00004
는 처리 방법 세트 중 각 처리 방법의 평균치 벡터이며,
공분산 행열의 가중 평균은
Figure pct00005
이고, 그 중에서
Figure pct00006
은 처리 방법 세트이며,
Figure pct00007
은 제 2 가중치 계수이고,
Figure pct00008
는 공분산 행열이다.
선택 가능한 실시예에 있어서, 미리 설정된 처리 방법 세트는 일괄 백화 처리를 포함할 수 있고, 일괄 백화 처리의 제 1 특징 파라미터와 제 2 특징 파라미터의 계산식은,
Figure pct00009
,
Figure pct00010
을 포함하며,
그 중에서,
Figure pct00011
은 상기 방법의 제 1 특징 파라미터(평균치 벡터)이고,
Figure pct00012
은 상기 방법의 제 2 특징 파라미터(공분산 행렬)이며,
Figure pct00013
는 처리하려는 화상 데이터 중의 일괄 화상 데이터이며,
Figure pct00014
이고, N은 화상 데이터의 수량이고, 1은 요소가 모두 1인 열 벡터이고, I는 단위 행열이며, 단위 행열의 대각선 요소는 1이고, 나머지는 0이며,
Figure pct00015
는 정수이다.
구체적으로,
Figure pct00016
는 작은 정수일 수 있고, 특이한 공분산 행열이 나타나는 것을 방지하는 데에 사용된다. 일괄 백화는 일괄 데이터를 백화하는 것이며, 즉
Figure pct00017
이다.
선택 가능한 실시예에 있어서, 상술한 처리 방법은 인스턴스 백화 처리를 포함할 수 있으며, 인스턴스 백화 처리의 제 1 특징 파라미터 및 제 2 특징 파라미터의 계산식은,
Figure pct00018
,
Figure pct00019
을 포함하며,
그 중에서,
Figure pct00020
는 상기 방법의 제 1 특징 파라미터(평균치 벡터)이고,
Figure pct00021
는 상기 방법의 제 2 특징 파라미터(공분산 행열)이며, 1은 요소가 모두 1인 열 벡터이고, I는 단위 행열이며,
Figure pct00022
는 정수이다.
구체적으로, 인스턴스 백화는 하나의 화상 데이터를 백화하는 것이며, 즉
Figure pct00023
이다.
일괄 표준화는 일괄 정규화라고도 하며, 인공 신경망의 성능과 안정성을 향상시키는 데에 사용되는 기술이다. 이것은 신경망의 임의의 층에 제로 평균치/단위 분산 입력을 제공하는 기술이다. 일괄 표준화는 센터(center) 및 스케일(scale) 조작에 의해, 일괄 데이터 전체의 평균치와 분산을 각각 0과 1로 한다. 따라서, 평균치는 일괄 백화와 동일하며, 즉
Figure pct00024
이다. 또한, 일괄 표준화는 백화 없이 데이터의 분산으로 나누기만 하면 되며, 공분산 행열은 대각선 요소만을 보류하기만 하면 되고, 즉
Figure pct00025
이며, 그중에서 diag()는 대각선 요소를 보류하고, 비 대각선 요소를 0으로 설정한다.
마찬가지로, 인스턴스 표준화는 단일 화상 데이터를 처리하고,
Figure pct00026
,
Figure pct00027
이다.
레이어 표준화는 단일 화상 데이터의 모든 채널의 평균치와 분산을 사용하여 표준화하고, μln과 σln를 평균치와 분산으로 할 때,
Figure pct00028
,
Figure pct00029
이다.
제 1 특징 파라미터 및 제 2 특징 파라미터를 획득한 후에, 단계 102을 실행할 수 있다.
102, 각 제 1 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 1 특징 파라미터의 가중 평균을 확정하고, 각 제 2 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 2 특징 파라미터의 가중 평균을 확정한다.
본 출원의 실시예에 있어서, 화상 처리 장치는 상술한 가중치 계수를 기억할 수 있고, 적어도 2개의 제 1 특징 파라미터 및 적어도 2개의 제 2 특징 파라미터를 획득한 후에, 각 제 1 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 1 특징 파라미터의 가중 평균을 확정하고, 각 제 2 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 2 특징 파라미터의 가중 평균을 확정한다.
선택 가능한 실시예에 있어서, 적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 처리하려는 화상 데이터에 대하여 백화 처리를 수행하는 단계는 신경망에 의해 실행된다. 가중치 계수는 수학에서 특정 수량이 총량에서의 중요 정도를 표시하기 위해 각각 서로 다른 비례 계수가 주어짐을 의미한다.
선택 가능한 실시예에 있어서, 미리 설정된 처리 방법 세트 중의 한가지 처리 방법의 제 1 특징 파라미터의 가중치 계수는 아래 방법으로 확정된다:
미리 설정된 처리 방법 세트 중의 상기 처리 방법의 제 1 특징 파라미터의 가중치 계수는 신경망 중 상기 처리 방법의 제 1 제어 파라미터의 값을 이용하여 정규화된 지수 함수(normalized exponential function)에 따라 확정된다.
선택 가능한 실시예에 있어서, 미리 설정된 처리 방법 세트 중의 한가지 처리 방법의 제 2 특징 파라미터의 가중치 계수는 아래 방법으로 확정된다:
상기 처리 방법의 제 2 특징 파라미터의 가중치 계수는 신경망 중 상기 처리 방법의 제 2 제어 파라미터의 값을 이용하여 정규화된 지수 함수에 따라 확정된다.
그 중에서, 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 제어 파라미터 및 제 2 제어 파라미터는 신경망의 각 제 1 제어 파라미터 및 제 2 제어 파라미터이다.
구체적으로, 정규화된 지수 함수(Softmax 함수)에 따라 정규화 변환을 수행할 수 있으며, Softmax 함수는 실제로 유한 항목 이산 확률 분포의 기울기 로그 정규화이다. 본 출원의 실시예에 있어서, 제어 파라미터는 본질적으로 서로 다른 처리 방법에 의해 계산된 통계량(평균치 벡터 또는 공분산 행열)이 차지하는 비중이다.
선택적으로, 제 1 제어 파라미터 및 제 2 제어 파라미터는 신경망의 확률적 기울기 강하(stochastic gradient descent, SGD) 알고리즘 및/또는 역전파(Backpropagation, BP) 알고리즘에 따라 학습하여 획득할 수 있다.
역전파 알고리즘은 다층 신경망에 적합한 학습 알고리즘이며, 기울기 강하법을 기반으로 한다. 역전파 알고리즘은 입력에 대한 네트워크의 응답이 예정된 목표 범위에 도달할 때까지 2개의 단계(인센티브 전파, 가중치 업데이트)가 반복 루프(Iterative loop)한다. BP 알고리즘의 학습 과정은 순방향 전파 과정과 역방향 전파 과정으로 구성된다. 순방향 전파 과정에서 출력 레이어에서 기대하는 출력값을 얻을 수 없는 경우, 출력과 기대하는 오차의 평방의 합계를 목적 함수로 하고, 역전파로 변환되며, 각 뉴런의 가중치에 대한 목표 함수의 편도 함수(Partial derivative)를 레이어별로 계산하여 가중치 벡터에 대한 목표 함수의 기울기를 구성하고, 가중치를 변경하는 기초로 하며, 가중치 변경 과정에서 네트워크 학습이 완료되고, 오차가 기대치에 도달하면 네트워크 학습이 종료된다.
상술한 가중 평균을 획득한 후에 단계 103을 실행할 수 있다.
103, 적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 처리하려는 화상 데이터에 대하여 백화 처리를 수행한다.
백화 처리는 처리 방법 세트 중의 각 처리 방법의 평균치 벡터의 가중 평균 및 각 처리 방법의 공분산 행열의 가중 평균을 계산함으로써, 가중 평균 후에 얻은 평균치 벡터와 공분산 행열을 백화 처리의 파라미터로 하여 처리하려는 화상 데이터를 백화처리하는 것으로 이해될 수 있으며, 따라서 서로 다른 처리 방법의 결합을 실현하고, 신경망을 훈련하여 각 방법의 가중치(상술한 가중치 계수)를 얻을 수 있다.
또한, 처리하려는 화상 데이터에 하나 이상의 화상 데이터가 포함되고, 미리 설정된 처리 방법 세트에 서로 다른 처리 방법이 포함되는 경우, 서로 다른 화상 데이터의 처리 방법은 서로 다를 수 있다. 예를 들어, 미리 설정된 처리 방법 세트에 일괄 백화 방법과 일괄 표준화 방법이 포함되는 경우, 각 작은 일괄 화상 데이터의 평균치 벡터의 가중 평균은 같고, 각 작은 일괄 화상 데이터의 공분산 행열의 가중 평균은 같으며, 처리하려는 화상 데이터에 대한 백화 처리는 일괄 백화 방법과 유사한 방법으로 각 작은 일괄 화상 데이터를 처리하는 것으로 이해될 수 있다. 미리 설정된 처리 방법 세트에 일괄 백화 방법과 인스턴스 백화 방법이 포함되는 경우, 각 화상 데이터의 평균치 벡터의 가중 평균은 다르고, 각 화상 데이터의 공분산 행열의 가중 평균도 다르며, 처리하려는 화상 데이터에 대한 백화 처리는 인스턴스 백화 방법과 유사한 방법으로 단일 화상 데이터를 처리하는 것으로 이해될 수 있다.
선택 가능한 실시예에 있어서, 적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균 및 처리하려는 화상 데이터의 채널 수량, 높이 및 넓이에 따라, 처리하려는 화상 데이터 중 각 화상 데이터에 대하여 백화 처리를 수행할 수 있다.
컨볼 루션 신경망에 있어서, 데이터는 일반적으로 4차원 형식으로 저장되고,
Figure pct00030
는 일괄 화상 데이터로 하며, N, C, H, W는 각각 화상 데이터 수량, 채널 수량, 높이, 넓이를 나타낸다. 편리하게 설명하기 위하여, N, H, W의 3차원은 여기서 1차원으로 간주된다.
Figure pct00031
를 일괄 화상 데이터 중 n번째 화상 데이터(훈련 과정은 샘플 데이터로 이해할 수 있다)로 하며, 상기 화상 데이터에 대한 백화 작업은 다음과 같이 표시할 수 있으며,
Figure pct00032
μ와 Σ는 화상 데이터로부터 계산된 평균치 벡터와 공분산 행열이다. 1은 요소가 모두 1인 열 벡터이고, 서로 다른 백화 방법과 표준화 방법은 서로 다른 세트를 사용하여 μ와 Σ를 계산할 수 있다. 예를 들어, 일괄 백화와 일괄 표준화에 대하여, 각 일괄 화상 데이터를 사용하여 μ와 Σ를 계산하고, 레이어 표준화, 인스턴스 표준화 및 인스턴스 백화에 대하여, 각 화상 데이터를 사용하여 μ와 Σ를 계산한다.
또한, 상술한
Figure pct00033
의 공분산 행열의 음제곱근은 제로 위상 성분 분석(Zero-phase Component Analysis, ZCA) 또는 주성분 분석(principal component analysis, PCA) 백화에 의해 얻을 수 있다. 바람직하기로는, ZCA 백화에 의해 얻을 수 있으며, 즉,
Figure pct00034
그 중에서,
Figure pct00035
Figure pct00036
은 Σ의 특징값과 특징 벡터이고, 즉
Figure pct00037
이며, 이것은 특징 분해(Eigen decomposition)를 통해 얻을수 있다.
상술한 특징 분해는 스펙트럼 분해(Spectral decomposition)라고도 한다. 이것은 행열을 그 특징값과 특징 벡터로 표현되는 행열의 곱으로 분해하는 방법이다.
구체적으로, PCA 백화는 데이터의 각 차원의 분산이 1임을 보증하고, ZCA 백화는 데이터의 각 차원의 분산이 같도록 보증한다. PCA 백화는 차원 감소 또는 상관성 제거에 사용할 수 있지만, ZCA 백화는 주로 상관성 제거에 사용되고, 백화된 데이터가 될수록 원래의 입력 데이터에 근접하도록 한다.
단계 102에서 얻은 것은 최종 백화 처리에 사용되는 목표 평균치 벡터와 목표 공분산 행열이라는 것을 이해할 수 있으며, 각 화상 데이터에 대응하는 서로 다른 백화 방법과 표준화 방법의 특징 파라미터는 가중 평균 계산을 통해 얻으며, 목표 평균치 벡터와 목표 공분산 행열에 따라 백화 처리를 실현할 수 있다.
구체적으로, 처리하려는 화상 데이터를 백화하는 식은 다음과 같다:
Figure pct00038
;
Figure pct00039
은 처리하려는 화상 데이터 중 n번째 화상 데이터이고,
Figure pct00040
이며,
Figure pct00041
은 가중 평균 계산 후에 얻은 평균치 벡터이고,
Figure pct00042
은 가중 평균 계산 후에 얻은 공분산 행열이며, C, H, W는 각각 화상 데이터의 채널 수량, 높이, 넓이이다.
하나의 응용 시나리오에서, 미리 설정된 처리 방법 세트에 일괄 백화 방법과 일괄 표준화 방법이 포함되고, 처리하려는 화상 데이터는 하나 이상의 화상 데이터를 포함하는 경우, 각 작은 일괄 화상 데이터의 평균치 벡터의 가중 평균
Figure pct00043
은 같고, 서로 다른 일괄 화상 데이터의 평균치 벡터의 가중 평균
Figure pct00044
은 다르며, 각 작은 일괄 화상 데이터의 공분산 행열의 가중 평균
Figure pct00045
은 같고, 서로 다른 일괄 화상 데이터의 공분산 행열의 가중 평균
Figure pct00046
은 다르며, 처리하려는 화상 데이터에 대한 백화 처리는 각 작은 일괄 화상 데이터의 평균치 벡터의 가중 평균
Figure pct00047
과 공분산 행열의 가중 평균
Figure pct00048
을 각각 일괄 백화 방법의 평균치 벡터와 공분산 행열로 하여 일괄 백화 방법으로 상기 일괄 화상 데이터를 처리하는 것으로 이해할 수 있다.
다른 하나의 응용 시나리오에서, 미리 설정된 처리 방법 세트에 일괄 백화 방법과 일괄 표준화 방법 중 적어도 한가지 및 레이어 표준화 방법, 인스턴스 표준화 방법, 인스턴스 백화 방법 중 적어도 한가지가 포함되는 경우, 각 화상 데이터의 평균치 벡터의 가중 평균
Figure pct00049
은 다르고, 각 화상 데이터의 공분산 행열의 가중 평균
Figure pct00050
도 다르며, 처리하려는 화상 데이터에 대한 백화 처리는 각 화상 데이터의 평균치 벡터의 가중 평균
Figure pct00051
과 공분산 행열의 가중 평균
Figure pct00052
을 각각 인스턴스 백화 방법의 평균치 벡터와 공분산 행열로 하여 인스턴스 백화 방법으로 상기 화상 데이터를 처리하는 것으로 이해할 수 있다.
선택 가능한 실시예에 있어서, 처리하려는 화상 데이터는 다양한 단말 장치가 수집한 화상 데이터를 포함하고, 예를 들어, 자동 운전 과정에서 카메라가 수집한 안면 화상 데이터, 모니터링 시스템이 수집한 모니터링 화상 데이터, 지능 비디오 분석시 분석하려는 비디오 화상 데이터, 안면 인식 제품이 수집한 안면 화상 데이터 등이다. 구체적으로, 모바일 단말기에서 미화하려는 사진에 대하여, 상술한 방법은 모바일 단말기에 설치된 뷰티 애플리케이션에 적용할 수 있으며, 화상 처리의 정확도를 향상시키고, 예를 들어, 화상 분류, 시맨틱 세분화, 화상 스타일 변환 등 방면의 성능이 더 뛰어나도록 한다.
현재, 표준화 방법과 백화 방법은 일반적으로 별도로 사용되기 때문에, 각 방법의 장점을 결합하기 어렵다. 또한 다양한 표준화 방법과 백화 방법은 모델 설계 공간과 난이도를 증가시킨다.
본 출원의 실시예에 따른 화상 처리 방법은 서로 다른 표준화 방법과 백화 방법을 하나의 레이어에 결합할 수 있으며, 예를 들어, 일괄 표준화, 일괄 백화, 인스턴스 표준화, 인스턴스 백화, 레이어 표준화 등 방법을 포함하고, 다양한 표준화 및 백화 조작의 비율을 적응적으로 학습할 수 있으며, 또한 컨볼 루션 신경망과 함께 end-to-end 훈련을 실현할 수 있다.
본 출원의 실시예에 있어서, 처리하려는 화상 데이터에 따라 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터 및 제 2 특징 파라미터를 확정하고, 처리 방법 세트는 백화 방법 및 표준화 방법 중 적어도 두가지를 포함하고, 처리하려는 화상 데이터는 적어도 하나의 화상 데이터를 포함하며, 각 제 1 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 1 특징 파라미터의 가중 평균을 확정하고, 각 제 2 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 2 특징 파라미터의 가중 평균을 확정하며, 적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 처리하려는 화상 데이터에 대하여 백화 처리를 수행함으로써, 화상 처리 과정에서 다양한 처리 방법(표준화 및/또는 백화)을 결합하는 조작을 실현하고, 화상 처리 효과를 향상시킬 수 있다.
선택적으로, 103은 신경망에 의해 실행되고, 이 때, 미리 설정된 처리 방법 세트 중 한가지 처리 방법의 제 1 특징 파라미터의 가중치 계수는 신경망 중 상기 처리 방법의 제 1 제어 파라미터의 값을 이용하여 표준화 지수 함수(normalized exponential function)에 따라 확정되며; 미리 설정된 처리 방법 세트 중 한가지 처리 방법의 제 2 특징 파라미터의 가중치 계수는 신경망 중 상기 처리 방법의 제 2 제어 파라미터의 값을 이용하여 표준화 지수 함수에 따라 확정된다.
하나의 선택적인 실시예에 있어서, 한가지 처리 방법의 제 1 특징 파라미터의 가중치 계수
Figure pct00053
의 계산식은 아래와 같으며,
Figure pct00054
그 중에서,
Figure pct00055
는 제 1 제어 파라미터이고,
Figure pct00056
은 처리 방법 세트이며, 예를 들면, Ω={bw, iw, bn, in, ln}이다.
유사하게, 한가지 처리 방법의 제 1 특징 파라미터
Figure pct00057
의 가중치 계수의 계산식은 아래와 같으며,
Figure pct00058
그 중에서,
Figure pct00059
는 제 2 제어 파라미터이고,
Figure pct00060
은 처리 방법 세트이다.
선택적으로, 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 제어 파라미터 및 제 2 제어 파라미터(신경망의 각 제 1 제어 파라미터 및 제 2 제어 파라미터이다)는 도 2에 도시된 방법으로 획득한다.
201, 신경망 모델의 역 전파 방법에 따라, 훈련하려는 신경망의 손실 함수를 최소화함으로써, 훈련하려는 신경망의 각 제 1 제어 파라미터, 각 제 2 제어 파라미터 및 각 네트워크 파라미터에 대하여 공동 최적화를 수행한다.
본 출원의 실시예에 있어서, 제어 파라미터는 본질적으로 서로 다른 처리 방법에 의해 계산된 통계량(평균치 벡터 또는 공분산 행열)이 차지하는 비중이다. 선택적으로, 제어 파라미터는 신경망의 훈련 과정에서 컨볼 루션 신경망의 확률적 기울기 강하(stochastic gradient descent, SGD) 알고리즘 및 역전파(Backpropagation, BP) 알고리즘에 따라 학습하여 획득할 수 있다.
신경망의 훈련 과정은 다음과 같다:
훈련하려는 신경망은 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터의 가중 평균 및 각 처리 방법의 제 2 특징 파라미터의 가중 평균에 따라 훈련용 데이터에 대하여 백화 처리를 수행하고, 또한 예측 결과를 출력하며,
훈련하려는 신경망에서 출력된 예측 결과 및 훈련용 화상 데이터의 주석 결과에 따라 신경망의 손실 함수를 확정하고,
훈련하려는 신경망의 손실 함수를 기반으로 훈련하려는 신경망의 각 제 1 제어 파라미터, 각 제 2 제어 파라미터 및 각 네트워크 파라미터를 조정한다,
그 중에서, 미리 설정된 처리 방법 세트 중 제 1 처리 방법의 제 1 제어 파라미터의 초기 값은 제 1 프리셋 값이고, 미리 설정된 처리 방법 세트 중 제 1 처리 방법의 제 2 제어 파라미터의 초기 값은 제 2 프리셋 값이다. 구체적으로, 컨볼 루션 신경망이 훈련을 시작하기 전에 제 1 제어 파라미터의 초기 값과 제 2 제어 파라미터의 초기 값을 미리 설정할 수 있으며, 예를 들어, 제 1 프리셋 값과 제 2 프리셋 값은 모두 1이다. 신경망 훈련을 시작할 때, 제 1 처리 방법의 제 1 제어 파라미터의 초기 값에 따라 제 1 처리 방법의 제 1 특징 파라미터의 가중치 계수를 계산할 수 있고, 제 1 처리 방법의 제 2 제어 파라미터의 초기 값에 따라 제 1 처리 방법의 제 2 특징 파라미터의 가중치 계수를 계산할 수 있으며, 따라서 훈련을 시작할 때에 각 처리 방법의 제 1 특징 파라미터의 가중 평균 및 각 처리 방법의 제 2 특징 매개 변수의 가중 평균을 계산할 수 있으며, 신경망의 훈련을 시작한다. 그 중에서, 제 1 처리 방법은 미리 설정된 처리 방법 세트 중 임의의 한가지 처리 방법일 수 있다.
신경망의 훈련 과정에서, 신경망의 각 제 1 제어 파라미터, 각 제 2 제어 파라미터 및 각 네트워크 파라미터는 손실 함수를 이용하여 확률적 기울기 강하 알고리즘과 역전파 알고리즘에 의해 지속적으로 업데이트되고, 손실 함수가 최소로 될 때까지 상술한 훈련 과정을 반복하여 신경망의 훈련을 완성한다.
202, 훈련하려는 신경망의 손실 함수가 가장 작을 때의 각 제 1 제어 파라미터의 값을 훈련 완료된 신경망의 각 제 1 제어 파라미터의 값으로 하고; 훈련하려는 신경망의 손실 함수가 가장 작을 때의 각 제 2 제어 파라미터의 값을 훈련 완료된 신경망의 각 제 2 제어 파라미터의 값으로 한다.
훈련하려는 신경망의 손실 함수에 따라 상술한 파라미터를 조정하고, 손실 함수가 가장 작을 때, 신경망 훈련을 완료한다. 훈련이 완료된 후에, 신경망의 각 제 1 제어 파라미터, 각 제 2 제어 파라미터 및 각 네트워크 파라미터를 학습하여 획득하며, 테스트 또는 실제 화상 처리 응용에서 이러한 파라미터는 고정되고 변하지 않는다. 구체적으로, 신경망 훈련은 포워드 계산 및 역방향 전파 계산이 필요하며, 테스트 또는 실제 화상 처리 응용에서는 단지 포워드 계산만 필요하며, 화상을 입력하면 처리 결과를 얻을 수 있다.
선택 가능한 실시예에 있어서, 훈련용 화상 데이터와 주석 결과로신경망을 훈련할 수 있다. 그 다음에 훈련된 신경망으로 수집된 화상 데이터를 처리함으로써, 화상 중의 물체를 식별한다. 구체적으로, 서로 다른 표준화 방법과 백화 방법을 통일할 수 있으며, 컨볼 루션 신경망이 특정 임무에 따라 다양한 표준화 및 백화 조작의 비율을 적응적으로 학습하도록 하여 각 방법의 장점을 결합할 수 있고, 표준화 및 백화 조작의 자동 선택이 가능하게 된다.
응용에서, 다양한 통계 데이터를 기반으로 소프트웨어는 높은 수준의 비전 작업뿐만 아니라, 화상 스타일 변환과 같은 낮은 수준의 비전 작업에도 사용될 수 있다.
도 3을 참조하면, 도 3은 본 발명의 실시예에 따른 서로 다른 표준화 레이어의 스타일 변환을 나타내는 가시적 도면이다. 그 중에서, 인기있는 스타일 변환 알고리즘을 사용하여 처리하려는 화상에 대하여 스타일 변환을 수행한다. 손실 네트워크에 의해 계산된 콘텐츠 손실과 스타일 손실로 훈련된 화상 양식화 네트워크가 있으며, 서로 다른 화상 표준화 방법과 백화 방법으로 처리할 수 있다. MS-COCO 데이터 세트를 화상에 사용하며, 선택한 처리하려는 화상의 화상 스타일은 촛불과 별빛 밤이며, 상술한 스타일 변환 알고리즘과 같은 훈련 방법을 따르게 되며, 또한 화상 스타일 네트워크에 서로 다른 표준화 레이어(일괄 표준화, 인스턴스 백화 및 본 출원의 실시예에 따른 화상 처리 방법)을 채용하고, 즉, 도 3의 제 2 행의 화상은 서로 다른 처리 방법으로 처리한 다음의 효과를 나타내는 도면이고, 제 1 행의 화상은 동시에 스타일을 변환 후의 효과를 나타내는 도면이다.
구체적으로, 도 3에 도시된 바와 같이, 일괄 표준화에 의해 생성된 화상 효과는 좋지 않고, 인스턴스 백화에 의해 생성된 화상 효과는 상대적으로 더 만족스럽다. 인스턴스 백화와 비교하면, 본 출원의 실시예에 따른 화상 처리 방법은 그 처리 방법 세트에 일괄 표준화 및 인스턴스 백화가 포함되고, 양자의 비율은 신경망 학습에 의해 이미 확정되었으며, 그 화상 처리 효과는 가장 좋다. 본 출원의 실시예에 따른 화상 처리 방법은 임무에 따라 적절한 처리 방법을 사용하여 화상을 처리할 수 있다.
표준화 방법과 백화 방법은 일반적으로 별도로 사용되기 때문에, 각 방법의 장점을 결합하기 어렵다. 또한 다양한 표준화 방법과 백화 방법은 신경망 모델 설계 공간과 난이도를 증가시킨다. 보다 싶이, 한가지 표준화 방법 또는 백화 방법만을 사용하는 컨볼 루션 신경망과 비교하면, 본 출원의 화상 처리는 다양한 표준화 및 백화 조작의 비율을 적응적으로 학습할 수 있으며, 수동 설계의 필요성을 제거하고, 각 방법의 장점을 결합할 수 있으며, 다양한 컴퓨터 비전 작업에서 뛰어난 성능을 가진다.
선택 가능한 실시예에 있어서, 처리하려는 화상 데이터는 다양한 단말 장치가 수집한 화상 데이터를 포함하고, 예를 들어, 자동 운전 과정에서 카메라가 수집한 안면 화상 데이터, 모니터링 시스템이 수집한 모니터링 화상 데이터, 지능 비디오 분석시 분석하려는 비디오 화상 데이터, 안면 인식 제품이 수집한 안면 화상 데이터 등이다. 구체적으로, 모바일 단말기에서 미화하려는 사진에 대하여, 상술한 방법은 모바일 단말기에 설치된 뷰티 애플리케이션에 적용할 수 있으며, 화상 처리의 정확도를 향상시키고, 예를 들어, 화상 분류, 시맨틱 세분화, 화상 스타일 변환 등 방면의 성능이 더 뛰어나도록 한다.
실제 응용에서, 본 출원의 실시예에 따른 화상 처리 조작은 컨볼 루션 신경망의 컨볼 루션 레이어에 적용할 수 있으며, 컨볼 루션 신경망의 자기 적응형 백화 레이어(자기 적응형 백화 레이어와 기존의 백화 레이어의 차이는 자기 적응형 백화 레이어를 갖는 컨볼 루션 신경망은 모델 훈련 단계에서 훈련 데이터에 따라 다양한 표준화 및 백화 조작의 비율을 적응적으로 학습하여 최적의 비율을 얻을수 있는 것이다)으로 이해할 수 있으며, 네트워크의 임의의 위치에 응용할 수도 있다.
이상은 주로 방법 실행 과정의 관점에서 본 출원의 실시예 방안을 소개하였다. 화상 처리 장치는 상술한 기능을 실현하기 위하여 각 기능에 대응하는 하드웨어 구성 및/또는 소프트웨어 모듈을 포함한다는 것을 이해할 수 있다. 당업자라면 본 명세서의 실시예에서 설명된 각 예시의 유닛 및 알고리즘 단계를 결합하여 본 발명은 하드웨어 또는 하드웨어와 컴퓨터 소프트웨어의 결합 형태로 구현될 수 있다는 것을 쉽게 인식할 수 있다. 특정 기능이 하드웨어로 실행되는지, 아니면 컴퓨터 소프트웨어가 하드웨어를 구동하는 방식으로 실행되는지는 본 기술 방안의 특정 응용 및 설계 제약 조건에 따라 다르다. 전문 기술자는 특정 응용에 따라 서로 다른 방법으로 설명된 기능을 실현할 수 있지만, 이것은 본 발명의 범위를 벗어나는 것으로 간주되어서는 안된다.
본 출원의 실시예는 상술한 방법 실시예에 따라 화상 처리 장치에 대하여 기능 모듈의 분할을 수행할 수 있으며, 예를 들어, 각 기능에 대응하여 각 기능 모듈을 분할할 수 있으며, 2개 이상의 기능을 하나의 처리 모듈에 통합할 수도 있다. 상기 통합 모듈은 하드웨어 또는 소프트웨어 기능 모듈의 형식으로 실현될 수 있다. 본 출원의 실시예에서 모듈의 분할은 예시적인 것이며, 논리적 기능 분할에 불과하며, 실제 구현에서 다른 분할 방법이 있다는 것을 유념하기 바란다.
도 4를 참조하면, 도 4는 본 발명의 실시예에 따른 화상 처리 장치의 구조를 나타내는 개략도이다. 도 4에 도시된 바와 같이, 화상 처리 장치(300)는 확정 모듈(310), 가중 모듈(320) 및 백화 처리 모듈(330)을 포함하되,
확정 모듈(310)은 처리하려는 화상 데이터에 따라 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터 및 제 2 특징 파라미터를 확정하는 데에 사용되고, 처리 방법 세트는 백화 방법 및 표준화 방법 중 적어도 두가지를 포함하고, 처리하려는 화상 데이터는 적어도 하나의 화상 데이터를 포함하며,
가중 모듈(320)은 각 제 1 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 1 특징 파라미터의 가중 평균을 확정하고, 각 제 2 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 2 특징 파라미터의 가중 평균을 확정하는 데에 사용되며,
백화 처리 모듈(330)은 적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 처리하려는 화상 데이터에 대하여 백화 처리를 수행하는 데에 사용된다.
선택적으로, 제 1 특징 파라미터는 평균치 벡터이고, 제 2 특징 파라미터는 공분산 행열이다.
선택적으로, 백화 처리 모듈(330)의 기능은 신경망에 의해 실행되고,
미리 설정된 처리 방법 세트 중 한가지 처리 방법의 제 1 특징 파라미터의 가중치 계수는 신경망 중 상기 처리 방법의 제 1 제어 파라미터의 값을 이용하여 표준화 지수 함수에 따라 확정되며,
상기 처리 방법의 제 2 특징 파라미터의 가중치 계수는 신경망 중 상기 처리 방법의 제 2 제어 파라미터의 값을 이용하여 표준화 지수 함수에 따라 확정된다.
선택적으로, 화상 처리 장치(300)는 훈련 모듈(340)을 더 포함하고, 제 1 제어 파라미터 및 제 2 제어 파라미터는 훈련 모듈이 신경망을 훈련할 때에 획득된다. 훈련 모듈(340)은,
신경망 모델의 역 전파 방법에 따라, 신경망의 손실 함수를 최소화함으로써, 제 1 제어 파라미터, 제 2 제어 파라미터 및 신경망의 네트워크 파라미터에 대하여 공동 최적화를 수행하고,
신경망의 손실 함수가 가장 작을 때의 제 1 제어 파라미터의 값을 신경망의 제 1 제어 파라미터의 값으로 하고,
신경망의 손실 함수가 가장 작을 때의 제 2 제어 파라미터의 값을 신경망의 제 2 제어 파라미터의 값으로 하는 데에 사용된다.
선택적으로, 훈련 모듈(340)은, 구체적으로,
훈련하려는 신경망에 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터의 가중 평균 및 각 처리 방법의 제 2 특징 파라미터의 가중 평균에 따라 훈련용 화상 데이터에 대하여 백화 처리를 수행하고, 또한 예측 결과를 출력하며, 그 중에서, 미리 설정된 처리 방법 세트 중 제 1 처리 방법의 제 1 제어 파라미터의 초기 값은 제 1 프리셋 값이고, 미리 설정된 처리 방법 세트 중 제 1 처리 방법의 제 2 제어 파라미터의 초기 값은 제 2 프리셋 값이며,
훈련하려는 신경망에서 출력된 예측 결과 및 훈련용 화상 데이터의 주석 결과에 따라 신경망의 손실 함수를 확정하고,
훈련하려는 신경망의 손실 함수를 기반으로 훈련하려는 신경망의 각 제 1 제어 파라미터, 각 제 2 제어 파라미터 및 각 네트워크 파라미터를 조정하는 데에 사용된다.
선택적으로, 백화 처리 모듈(330)은, 구체적으로
적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균 및 처리하려는 화상 데이터의 채널 수량, 높이 및 넓이에 따라, 처리하려는 화상 데이터 중 각 화상 데이터에 대하여 백화 처리를 수행하는 데에 사용된다.
선택적으로, 표준화 방법은 일괄 표준화 방법, 인스턴스 표준화 방법, 레이어 표준화 방법 중 적어도 하나를 포함한다.
선택적으로, 백화 방법은 일괄 백화 방법, 인스턴스 표준화 방법 중 적어도 하나를 포함한다.
도 4에 도시된 실시예의 화상 처리 장치(300)는 도 1 및/또는 도 2에 도시된 실시예의 방법의 일부 또는 전부를 실행할 수 있다.
도 4에 도시된 화상 처리 장치(300)를 실시하면, 화상 처리 장치(300)는 처리하려는 화상 데이터에 따라 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터 및 제 2 특징 파라미터를 확정하며, 처리 방법 세트는 백화 방법 및 표준화 방법 중 적어도 두가지를 포함하고, 처리하려는 화상 데이터는 적어도 하나의 화상 데이터를 포함하며, 각 제 1 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 1 특징 파라미터의 가중 평균을 확정하고, 각 제 2 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 2 특징 파라미터의 가중 평균을 확정하고, 그 다음에 적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 처리하려는 화상 데이터에 대하여 백화 처리를 수행함으로써, 화상 처리에서 적응적 백화 조작을 실현하고, 화상 처리 효과를 향상시킬 수 있다.
도 5를 참조하면, 도 5는 본 발명의 실시예에 따른 전자 장치의 구조를 나타내는 개략도이다. 도 5에 도시된 바와 같이, 전자 장치(400)는 프로세서(401) 및 메모리(402)를 포함하고, 그 중에서 전자 장치(400)는 버스 라인(403)을 더 포함할 수 있으며, 프로세서(401)와 메모리(402)는 버스 라인(403)을 통해 서로 연결될 수 있다. 버스 라인(403)은 주변 장치 상호 연결(Peripheral Component Interconnect, PCI로 약칭함) 버스 라인 또는 확장 산업 표준 아키텍처(Extended Industry Standard Architecture, EISA로 약칭함) 버스 라인 등일 수 있다. 버스 라인(403)은 어드레스 버스 라인, 데이터 버스 라인, 제어 버스 라인 등으로 나눌 수 있다. 편리하게 표시하기 위하여, 도 5에서는 단지 하나의 굵은 선으로 표시하고 있지만, 하나의 버스 라인 또는 버스 라인의 유형이 한가지이다는 것을 의미하지 않는다. 전자 장치(400)는 또한 입력/출력 장치(404)를 포함할 수 있으며, 입력/출력 장치(404)는 액정 디스플레이 화면 등 디스플레이 화면을 포함할 수 있다. 메모리(402)는 명령어를 포함하는 하나 이상의 프로그램을 저장하는 데에 사용되며, 프로세서(401)는 메모리(402)에 저장된 명령어를 호출하여 도 1 및 도 2의 실시예에서 언급된 방법 단계의 일부 또는 전부를 실행하는 데에 사용된다. 상술한 프로세서(401)는 도 5에 도시된 전자 장치(400)의 각 모듈의 기능을 실현할 수 있다.
전자 장치(400)는 처리하려는 화상 데이터에 따라 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터 및 제 2 특징 파라미터를 확정할 수 있으며, 처리 방법 세트는 백화 방법 및 표준화 방법 중 적어도 두가지를 포함하고, 처리하려는 화상 데이터는 적어도 하나의 화상 데이터를 포함하며, 각 제 1 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 1 특징 파라미터의 가중 평균을 확정하고, 각 제 2 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 2 특징 파라미터의 가중 평균을 확정하고, 그 다음에 적어도 2개의 제 1 특징 파라미터의 가중 평균과 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 처리하려는 화상 데이터에 대하여 백화 처리를 수행함으로써, 화상 처리에서 적응적 백화 조작을 실현하고, 화상 처리 효과를 향상시킬 수 있다.
본 출원의 실시예는 또한 컴퓨터 판독 가능 저장 매체를 제공한다. 컴퓨터 판독 가능 저장 매체는 전자 데이터 교환을 위한 컴퓨터 프로그램을 저장하는 데에 사용되고, 컴퓨터 프로그램은 컴퓨터가 상기 방법 실시예에 언급된 임의의 한가지 화상 처리 방법에 기재된 단계의 일부 또는 전부를 실행하도록 한다.
쉽게 설명하기 위하여, 상술한 각 방법 실시예는 모두 일련의 동작 조합으로 설명되어 있지만, 당업자라면 본 발명은 설명된 동작 순서에 한정되지 않음을 유념해야 한다. 본 발명에 따르면, 일부 단계는 다른 순서를 채용할 수 있으며, 또는 동시에 수행할 수도 있다. 다음 당업자라면 명세서에 기재된 실시예는 모든 바람직한 실시예이고, 관련된 동작 및 모듈은 본 발명에 있어서 반드시 필요한 것이 아님을 유념해야 한다.
상술한 실시예에 있어서, 각 실시예의 설명은 각자의 중점이 있으며, 어느 실시예에서 상세하게 설명되지 않은 부분은 다른 실시예의 관련 설명을 참조할 수 있다.
본 출원에서 제공되는 몇몇 실시예에서, 개시된 장치는 다른 방식으로 구현할 수 있다는 것을 이해할 수 있다. 예를 들어, 상기 설명된 장치 실시예는 단지 예시적인 것이며, 예를 들어, 상기 모듈(또는 유닛)의 분할은 단지 논리적인 기능 분할일 뿐, 실제 구현에서는 다른 분할 방식이 있을 수 있으며, 예들 들어, 여러개의 모듈 또는 컴포넌트가 결합되거나 다른 시스템에 통합될 수 있고, 또는 일부 기능은 무시되거나 실행되지 않을 수 있다. 또한, 표시되거나 논의된 결합 또는 직접 결합 또는 통신 연결은 일부 인터페이스, 장치 또는 모듈을 통한 간접적 결합 또는 통신 연결일 수 있으며, 전기적, 기계적 또는 다른 형태일 수 있다.
분리된 구성 요소로 설명된 모듈은 물리적으로 분리되거나 분리되지 않을 수도 있고, 모듈로 표시되는 구성 요소는 물리적 모듈일 수 있고 아닐 수도 있으며, 한 위치에 배치되거나 여러 네트워크 모듈에 분포되어 있을 수도 있다. 본 실시예 방안의 목적을 달성하기 위해 실제 요구에 따라 그중의 일부 또는 모든 모듈을 선택할 수 있다.
또한, 본 발명의 각 실시예에서의 각 기능 모듈은 하나의 처리 모듈에 통합될 수 있고, 또는 각 모듈이 물리적으로 별도로 존재할 수도 있고, 또는 2개 이상의 모듈이 하나의 모듈에 통합될 수도 있다. 상기 통합 모듈은 하드웨어 또는 소프트웨어 기능 모듈 형식으로 실현될 수 있다.
통합된 모듈은 소프트웨어 기능 모듈 형태로 구현되어 별도의 제품으로 판매되거나 사용되는 경우, 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 이러한 이해를 기초로 하여, 본 발명의 기술방안의 본질, 혹은 기술 분야에 기여하는 부분 또는 기술적 방안의 전부 또는 일부를 소프트웨어 제품의 형태로 구현될 수 있다. 해당 컴퓨터 소프트웨어는 하나의 저장 매체에 저장되며, 컴퓨터 장치(개인용 컴퓨터, 서버 또는 네트워크 장치일 수 있음)가 본 발명의 각 실시예에 따른 방법의 전부 또는 일부를 실행할 수 있도록 하는 다수의 명령어를 포함한다. 전술한 저장 매체는 USB, 읽기 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 이동식 하드 디스크(removable hard disk), 자기 디스크 또는 광 디스크 등과 같은 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다
당업자라면 상술한 방법 실시예의 전부 또는 일부 단계는 관련 하드웨어를 명령하는 프로그램에 의해 달성될 수 있고, 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다는 것을 이해할 수 있다. 저장 매체는 플래시 메모리, 읽기 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 자기 디스크 또는 광 디스크 등을 포함할 수 있다.
이상, 본 출원의 실시예를 상세하게 설명하고, 본 명세서에서는 구체적인 실시예를 사용하여 본 발명의 원리 및 실시예를 설명한다. 상기 실시예의 설명은 단지 본 발명의 방법 및 핵심 사상을 이해하는 것을 돕는 데에 사용된다. 당업자라면 본 발명의 요지에 따라 구체적인 실시예 및 적용 범위를 변경할 수 있으며, 상술한 바와 같이, 본 명세서의 내용은 본 발명을 한정하는 것으로 이해해서는 안된다.

Claims (19)

  1. 처리하려는 화상 데이터에 따라 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터 및 제 2 특징 파라미터를 확정하는 단계- 상기 처리 방법 세트는 백화 방법 및 표준화 방법 중 적어도 두가지를 포함하고, 상기 처리하려는 화상 데이터는 적어도 하나의 화상 데이터를 포함함 -와,
    각 제 1 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 1 특징 파라미터의 가중 평균을 확정하고, 각 제 2 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 2 특징 파라미터의 가중 평균을 확정하는 단계와;
    상기 적어도 2개의 제 1 특징 파라미터의 가중 평균과 상기 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 상기 처리하려는 화상 데이터에 대하여 백화 처리를 수행하는 단계를 포함하는 것을 특징으로 하는 화상 처리 방법.
  2. 제 1 항에 있어서,
    상기 제 1 특징 파라미터는 평균치 벡터이고, 상기 제 2 특징 파라미터는 공분산 행열인 것을 특징으로 하는 화상 처리 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 적어도 2개의 제 1 특징 파라미터의 가중 평균과 상기 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 상기 처리하려는 화상 데이터에 대하여 백화 처리를 수행하는 단계는 신경망에 의해 실행되고,
    미리 설정된 처리 방법 세트 중 한가지 처리 방법의 제 1 특징 파라미터의 가중치 계수는 아래 방법에 의해 확정된다: 미리 설정된 처리 방법 세트 중 상기 처리 방법의 제 1 특징 파라미터의 가중치 계수는 상기 신경망 중 상기 처리 방법의 제 1 제어 파라미터의 값을 이용하여 표준화 지수 함수에 따라 확정되며,
    미리 설정된 처리 방법 세트 중 한가지 처리 방법의 제 2 특징 파라미터의 가중치 계수는 아래 방법에 의해 확정된다: 상기 처리 방법의 제 2 특징 파라미터의 가중치 계수는 상기 신경망 중 상기 처리 방법의 제 2 제어 파라미터의 값을 이용하여 표준화 지수 함수에 따라 확정되는 것을 특징으로 하는 화상 처리 방법.
  4. 제 3 항에 있어서,
    상기 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 제어 파라미터 및 제 2 제어 파라미터는 아래 단계를 거쳐 획득된다:
    신경망 모델의 역 전파 방법에 따라, 훈련하려는 신경망의 손실 함수를 최소화함으로써, 상기 훈련하려는 신경망의 각 제 1 제어 파라미터, 각 제 2 제어 파라미터 및 각 네트워크 파라미터에 대하여 공동 최적화를 수행하고;
    상기 훈련하려는 신경망의 손실 함수가 가장 작을 때의 각 제 1 제어 파라미터의 값을 훈련 완료된 신경망의 각 제 1 제어 파라미터의 값으로 하고;
    상기 훈련하려는 신경망의 손실 함수가 가장 작을 때의 각 제 2 제어 파라미터의 값을 훈련 완료된 신경망의 각 제 2 제어 파라미터의 값으로 하는 것을 특징으로 하는 화상 처리 방법.
  5. 제 4 항에 있어서,
    신경망 모델의 역 전파 방법에 따라, 훈련하려는 신경망의 손실 함수를 최소화함으로써, 상기 훈련하려는 신경망의 각 제 1 제어 파라미터, 각 제 2 제어 파라미터 및 각 네트워크 파라미터에 대하여 공동 최적화를 수행하는 것은,
    상기 훈련하려는 신경망은 상기 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터의 가중 평균 및 각 처리 방법의 제 2 특징 파라미터의 가중 평균에 따라 훈련용 데이터에 대하여 백화 처리를 수행하고, 또한 예측 결과를 출력하는 것- 그 중에서, 상기 미리 설정된 처리 방법 세트 중 제 1 처리 방법의 제 1 제어 파라미터의 초기 값은 제 1 프리셋 값이고, 상기 미리 설정된 처리 방법 세트 중 제 1 처리 방법의 제 2 제어 파라미터의 초기 값은 제 2 프리셋 값임 -과,
    상기 훈련하려는 신경망에서 출력된 예측 결과 및 상기 훈련용 화상 데이터의 주석 결과에 따라 상기 신경망의 손실 함수를 확정하는 것과,
    상기 훈련하려는 신경망의 손실 함수를 기반으로 상기 훈련하려는 신경망의 각 제 1 제어 파라미터, 각 제 2 제어 파라미터 및 각 네트워크 파라미터를 조정하는 것을 포함하는 것을 특징으로 하는 화상 처리 방법.
  6. 제 4 항 또는 제 5 항에 있어서,
    상기 적어도 2개의 제 1 특징 파라미터의 가중 평균과 상기 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 상기 처리하려는 화상 데이터에 대하여 백화 처리를 수행하는 것은,
    상기 적어도 2개의 제 1 특징 파라미터의 가중 평균과 상기 적어도 2개의 제 2 특징 파라미터의 가중 평균 및 상기 처리하려는 화상 데이터의 채널 수량, 높이 및 넓이에 따라, 상기 처리하려는 화상 데이터 중 각 화상 데이터에 대하여 백화 처리를 수행하는 것을 포함하는 것을 특징으로 하는 화상 처리 방법.
  7. 제 6 항에 있어서,
    상기 표준화 방법은 일괄 표준화 방법, 인스턴스 표준화 방법, 레이어 표준화 방법 중 적어도 하나를 포함하는 것을 특징으로 하는 융합 데이터 처리 방법.
  8. 제 7 항에 있어서,
    상기 백화 방법은 일괄 백화 방법, 인스턴스 표준화 방법 중 적어도 하나를 포함하는 것을 특징으로 하는 화상 처리 방법.
  9. 확정 모듈, 가중 모듈 및 백화 처리 모듈을 포함하고,
    상기 확정 모듈은 처리하려는 화상 데이터에 따라 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터 및 제 2 특징 파라미터를 확정하는 데에 사용되고, 상기 처리 방법 세트는 백화 방법 및 표준화 방법 중 적어도 두가지를 포함하고, 상기 처리하려는 화상 데이터는 적어도 하나의 화상 데이터를 포함하며,
    상기 가중 모듈은 각 제 1 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 1 특징 파라미터의 가중 평균을 확정하고, 각 제 2 특징 파라미터의 가중치 계수에 따라 적어도 2개의 제 2 특징 파라미터의 가중 평균을 확정하는 데에 사용되며,
    상기 백화 처리 모듈은 상기 적어도 2개의 제 1 특징 파라미터의 가중 평균과 상기 적어도 2개의 제 2 특징 파라미터의 가중 평균을 기반으로 상기 처리하려는 화상 데이터에 대하여 백화 처리를 수행하는 데에 사용되는 것을 특징으로 하는 화상 처리 장치.
  10. 제 9 항에 있어서,
    상기 제 1 특징 파라미터는 평균치 벡터이고, 상기 제 2 특징 파라미터는 공분산 행열인 것을 특징으로 하는 화상 처리 장치.
  11. 제 9 항 또는 제 10 항에 있어서,
    상기 백화 처리 모듈의 기능은 신경망에 의해 실행되고,
    미리 설정된 처리 방법 세트 중 한가지 처리 방법의 제 1 특징 파라미터의 가중치 계수는 상기 신경망 중 상기 처리 방법의 제 1 제어 파라미터의 값을 이용하여 표준화 지수 함수에 따라 확정되며,
    상기 처리 방법의 제 2 특징 파라미터의 가중치 계수는 상기 신경망 중 상기 처리 방법의 제 2 제어 파라미터의 값을 이용하여 표준화 지수 함수에 따라 확정되는 것을 특징으로 하는 화상 처리 장치.
  12. 제 11 항에 있어서,
    상기 화상 처리 장치는 훈련 모듈을 더 포함하고, 상기 제 1 제어 파라미터 및 상기 제 2 제어 파라미터는 상기 훈련 모듈이 상기 신경망을 훈련할 때에 획득되고, 상기 훈련 모듈은,
    신경망 모델의 역 전파 방법에 따라, 상기 신경망의 손실 함수를 최소화함으로써, 상기 제 1 제어 파라미터, 상기 제 2 제어 파라미터 및 상기 신경망의 네트워크 파라미터에 대하여 공동 최적화를 수행하고,
    상기 신경망의 손실 함수가 가장 작을 때의 제 1 제어 파라미터의 값을 상기 신경망의 제 1 제어 파라미터의 값으로 하고,
    상기 신경망의 손실 함수가 가장 작을 때의 제 2 제어 파라미터의 값을 상기 신경망의 제 2 제어 파라미터의 값으로 하는 데에 사용되는 것을 특징으로 하는 화상 처리 장치.
  13. 제 12 항에 있어서,
    상기 훈련 모듈은, 구체적으로,
    훈련하려는 신경망에 미리 설정된 처리 방법 세트 중 각 처리 방법의 제 1 특징 파라미터의 가중 평균 및 각 처리 방법의 제 2 특징 파라미터의 가중 평균에 따라 훈련용 화상 데이터에 대하여 백화 처리를 수행하고, 또한 예측 결과를 출력하며, 그 중에서, 상기 미리 설정된 처리 방법 세트 중 제 1 처리 방법의 제 1 제어 파라미터의 초기 값은 제 1 프리셋 값이고, 상기 미리 설정된 처리 방법 세트 중 제 1 처리 방법의 제 2 제어 파라미터의 초기 값은 제 2 프리셋 값이며,
    상기 훈련하려는 신경망에서 출력된 예측 결과 및 상기 훈련용 화상 데이터의 주석 결과에 따라 상기 신경망의 손실 함수를 확정하고,
    상기 훈련하려는 신경망의 손실 함수를 기반으로 상기 훈련하려는 신경망의 각 제 1 제어 파라미터, 각 제 2 제어 파라미터 및 각 네트워크 파라미터를 조정하는 데에 사용되는 것을 특징으로 하는 화상 처리 장치.
  14. 제 12 항 또는 제 13 항에 있어서,
    상기 백화 처리 모듈은, 구체적으로
    상기 적어도 2개의 제 1 특징 파라미터의 가중 평균과 상기 적어도 2개의 제 2 특징 파라미터의 가중 평균 및 상기 처리하려는 화상 데이터의 채널 수량, 높이 및 넓이에 따라, 상기 처리하려는 화상 데이터 중 각 화상 데이터에 대하여 백화 처리를 수행하는 데에 사용되는 것을 특징으로 하는 화상 처리 장치.
  15. 제 14 항에 있어서,
    상기 표준화 방법은 일괄 표준화 방법, 인스턴스 표준화 방법, 레이어 표준화 방법 중 적어도 하나를 포함하는 것을 특징으로 하는 화상 처리 장치.
  16. 제 15 항에 있어서,
    상기 백화 방법은 일괄 백화 방법, 인스턴스 표준화 방법 중 적어도 하나를 포함하는 것을 특징으로 하는 화상 처리 장치.
  17. 프로세서 및 메모리를 포함하고, 상기 메모리는 컴퓨터 실행 가능 명령어를 저장하는 데에 사용되며, 상기 메모리에 저장된 컴퓨터 실행 가능 명령어가 상기 프로세서에 의해 실행되면, 청구항 제 1 항 내지 제 8 항 중 어느 한 항에 기재된 상기 화상 처리 방법을 실현하는 것을 특징으로 하는 전자 장치.
  18. 컴퓨터 프로그램을 저장하는 데에 사용되고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행되면, 청구항 제 1 항 내지 제 8 항 중 어느 한 항에 기재된 상기 화상 처리 방법을 실현하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
  19. 명령어를 포함하는 컴퓨터 프로그램 제품으로서, 그것이 컴퓨터에서 실행되면, 컴퓨터가 청구항 제 1 항 내지 제 8 항 중 어느 한 항에 기재된 상기 화상 처리 방법을 실행하도록 하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
KR1020207032622A 2019-03-30 2019-11-27 화상 처리 방법, 장치, 전자 장치 및 저장 매체 KR102428054B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910253934.9A CN109961102B (zh) 2019-03-30 2019-03-30 图像处理方法、装置、电子设备及存储介质
CN201910253934.9 2019-03-30
PCT/CN2019/121180 WO2020199619A1 (zh) 2019-03-30 2019-11-27 图像处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
KR20200143450A true KR20200143450A (ko) 2020-12-23
KR102428054B1 KR102428054B1 (ko) 2022-08-01

Family

ID=67025391

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207032622A KR102428054B1 (ko) 2019-03-30 2019-11-27 화상 처리 방법, 장치, 전자 장치 및 저장 매체

Country Status (6)

Country Link
US (1) US20210049403A1 (ko)
JP (1) JP2021526678A (ko)
KR (1) KR102428054B1 (ko)
CN (1) CN109961102B (ko)
SG (1) SG11202010734RA (ko)
WO (1) WO2020199619A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228696B (zh) * 2017-08-31 2021-03-23 深圳市商汤科技有限公司 人脸图像检索方法和***、拍摄装置、计算机存储介质
CN109961102B (zh) * 2019-03-30 2021-06-22 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质
US11080834B2 (en) * 2019-12-26 2021-08-03 Ping An Technology (Shenzhen) Co., Ltd. Image processing method and electronic device
CN112541857B (zh) * 2020-12-24 2022-09-16 南开大学 基于增强表现力神经网络批归一化的图像表征方法及***
CN115460346B (zh) * 2022-08-17 2024-01-23 山东浪潮超高清智能科技有限公司 一种自动调整角度的数据采集装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160108827A (ko) * 2015-02-11 2016-09-20 시아오미 아이엔씨. 이미지 필터를 생성하기 위한 방법 및 장치
KR20180010243A (ko) * 2015-11-26 2018-01-30 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 사람 얼굴 모델 행렬 트레이닝 방법 및 장치, 및 저장 매체
CN108780508A (zh) * 2016-03-11 2018-11-09 高通股份有限公司 用于归一化图像的***和方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076233B2 (en) * 2012-02-03 2015-07-07 Seiko Epson Corporation Image processing device and electronic apparatus using the same
CN104021558B (zh) * 2014-06-16 2017-01-11 哈尔滨工业大学 一种基于归一Zernike矩和灰度匹配的液晶仪表图案视觉检测方法
CN104240200B (zh) * 2014-09-02 2017-06-06 西安电子科技大学 基于散射模型和非局部均值相结合的极化sar相干斑抑制方法
WO2016145379A1 (en) * 2015-03-12 2016-09-15 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
CN107690663B (zh) * 2015-06-05 2022-04-12 渊慧科技有限公司 白化神经网络层
CN105574829A (zh) * 2016-01-13 2016-05-11 合肥工业大学 针对极化sar图像的自适应双边滤波算法
CN107633293A (zh) * 2016-07-19 2018-01-26 北京图森未来科技有限公司 一种领域自适应方法及装置
CN106529428A (zh) * 2016-10-31 2017-03-22 西北工业大学 基于深度学习的水下目标识别方法
CN107273845B (zh) * 2017-06-12 2020-10-02 大连海事大学 一种基于置信区域和多特征加权融合的人脸表情识别方法
US10691975B2 (en) * 2017-07-19 2020-06-23 XNOR.ai, Inc. Lookup-based convolutional neural network
CN108875787B (zh) * 2018-05-23 2020-07-14 北京市商汤科技开发有限公司 一种图像识别方法及装置、计算机设备和存储介质
US11455807B2 (en) * 2018-09-20 2022-09-27 Nvidia Corporation Training neural networks for vehicle re-identification
US10791310B2 (en) * 2018-10-02 2020-09-29 Intel Corporation Method and system of deep learning-based automatic white balancing
CN109146825B (zh) * 2018-10-12 2020-11-27 深圳美图创新科技有限公司 摄影风格转换方法、装置及可读存储介质
CN109165698A (zh) * 2018-10-16 2019-01-08 中国电子科技集团公司信息科学研究院 一种面向智慧交通的图像分类识别方法及其存储介质
US11138469B2 (en) * 2019-01-15 2021-10-05 Naver Corporation Training and using a convolutional neural network for person re-identification
CN109961102B (zh) * 2019-03-30 2021-06-22 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160108827A (ko) * 2015-02-11 2016-09-20 시아오미 아이엔씨. 이미지 필터를 생성하기 위한 방법 및 장치
KR20180010243A (ko) * 2015-11-26 2018-01-30 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 사람 얼굴 모델 행렬 트레이닝 방법 및 장치, 및 저장 매체
CN108780508A (zh) * 2016-03-11 2018-11-09 高通股份有限公司 用于归一化图像的***和方法

Also Published As

Publication number Publication date
JP2021526678A (ja) 2021-10-07
KR102428054B1 (ko) 2022-08-01
CN109961102B (zh) 2021-06-22
US20210049403A1 (en) 2021-02-18
WO2020199619A1 (zh) 2020-10-08
CN109961102A (zh) 2019-07-02
SG11202010734RA (en) 2020-11-27

Similar Documents

Publication Publication Date Title
KR102428054B1 (ko) 화상 처리 방법, 장치, 전자 장치 및 저장 매체
US11544831B2 (en) Utilizing an image exposure transformation neural network to generate a long-exposure image from a single short-exposure image
US10535141B2 (en) Differentiable jaccard loss approximation for training an artificial neural network
CN111489412A (zh) 用于使用神经网络生成基本逼真图像的语义图像合成
WO2017206936A1 (zh) 基于机器学习的网络模型构造方法及装置
JP7144699B2 (ja) 信号変更装置、方法、及びプログラム
CA3144236A1 (en) Real-time video ultra resolution
CN106503723A (zh) 一种视频分类方法及装置
JP2020087103A (ja) 学習方法、コンピュータプログラム、分類器、及び生成器
US20230267381A1 (en) Neural trees
KR20200078214A (ko) 스타일 변환을 위한 영상 처리 장치 및 방법
KR102046113B1 (ko) 신경망 학습 방법 및 그 장치
US11393144B2 (en) System and method for rendering an image
US12008739B2 (en) Automatic photo editing via linguistic request
WO2020023760A1 (en) System and method for clustering products by combining attribute data with image recognition
Celona et al. Composition and style attributes guided image aesthetic assessment
CN110163052B (zh) 视频动作识别方法、装置和机器设备
US11138693B2 (en) Attention-driven image manipulation
Sikka Elements of Deep Learning for Computer Vision: Explore Deep Neural Network Architectures, PyTorch, Object Detection Algorithms, and Computer Vision Applications for Python Coders (English Edition)
CN117237756A (zh) 一种训练目标分割模型的方法、目标分割方法及相关装置
US11670023B2 (en) Artificial intelligence techniques for performing image editing operations inferred from natural language requests
Kepesiova et al. Comparison of Optimization Techniques for Process Recognition Using Deep Neural Network
JP7493813B2 (ja) 説明生成装置、説明生成方法およびプログラム
US20220319158A1 (en) Cell nuclei classification with artifact area avoidance
Yin et al. Exploring the path of environmental visual design based on the perspective of new media

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant