KR20190048279A - 합성곱 신경망 기반의 영상 처리 방법 및 장치 - Google Patents

합성곱 신경망 기반의 영상 처리 방법 및 장치 Download PDF

Info

Publication number
KR20190048279A
KR20190048279A KR1020170143093A KR20170143093A KR20190048279A KR 20190048279 A KR20190048279 A KR 20190048279A KR 1020170143093 A KR1020170143093 A KR 1020170143093A KR 20170143093 A KR20170143093 A KR 20170143093A KR 20190048279 A KR20190048279 A KR 20190048279A
Authority
KR
South Korea
Prior art keywords
layer
input
convolution
result
image data
Prior art date
Application number
KR1020170143093A
Other languages
English (en)
Inventor
한동일
조주연
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020170143093A priority Critical patent/KR20190048279A/ko
Publication of KR20190048279A publication Critical patent/KR20190048279A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명의 일 측면에 따른 영상 처리 장치는 뇌의 신피질 기능을 모사한 합성곱 신경망 기반의 영상 처리 장치로서, 영상 처리 프로그램이 저장된 메모리, 데이터 입출력을 수행하는 데이터 입출력 모듈 및 프로세서를 포함하되, 상기 영상 처리 프로그램은 상기 프로세서에 의하여 구동되어, 상기 데이터 입출력 모듈을 통해 입력된 영상 데이터에 입력 합성곱 레이어를 통해 제 1 합성곱(Convolution) 연산을 수행하여 학습 하는 과정, 상기 합성곱 연산 처리가 수행된 영상 데이터에 대하여 에버리지 풀링 레이어와 맥스 풀링 레이어를 통해 에버리지 풀링과 맥스 풀링을 병렬적으로 함께 수행하는 과정, 상기 에버리지 풀링 레이어와 맥스 풀링 레이어를 통해 상기 산출된 각 풀링 결과를 연결 레이어를 통해 연결(Concatenatin)하는 연산을 수행하는 과정, 상기 연결 연산을 수행한 결과물에 대하여 제 2 합성곱 연산을 추가로 수행하여 학습 하는 과정, 상기 제 2 합성곱 연산의 결과를 출력 레이어로 출력하는 과정 및 상기 제 2 합성곱 연산의 결과에 대하여 완전 연결 히든 레이어를 통해 완전 연결 연산 처리를 수행하고 이를 상기 입력 합성곱 레이어로 전달하여 입력 영상 데이터와 함께 입력시키는 과정을 수행하는 것이다.

Description

합성곱 신경망 기반의 영상 처리 방법 및 장치{IMAGE PROCESSING METHOD AND APPARATUS USING CONVOLUTION NEURAL NETWORK}
본 발명은 인간 뇌의 신피질 기능을 반영하여 새롭게 구성한 합성곱 신경망에 기반하여 영상을 처리하는 방법 및 장치에 관한 것이다.
최근 다양한 종류와 방대한 양의 영상 데이터들이 생성되고 있고, 이러한 영상 데이터를 자동화하여 처리하기 위한 다양한 기술들이 개발되고 있다. 특히 인공 신경망(Neural network) 기술이 발전하면서, 이를 이용하여 자동으로 영상 데이터를 학습하고 분류하는 처리등이 산업계에 적용되고 있다.
이러한 인공 신경망 기술중 비교적 널리 사용되고 있는 합성곱 신경망(Convoltuional Neural Network, CNN) 기술의 경우, 하나 또는 여러 개의 콘볼루션 계층(convolutional layer)과 풀링 계층(pooling layer), 완전하게 연결된 계층(fully connected layer)들로 구성된 구조를 가지며, 특히 2차원 데이터의 학습에 적합한 구조를 가지고 있는 것으로 알려져 있다. 역전달(Backpropagation algorithm)을 통해 훈련될 수 있으며, 영상 내 객체 분류, 객체 탐지 등 다양한 응용 분야에 폭넓게 활용되는 모델이다.
다만, 하지만 이러한 합성곱 신경망 구조들은 인간의 뇌를 모방하여 적용한다는 딥러닝의 근본적인 목표를 충분히 이행하고 있지 못하고 있다. 입력 정보를 축소시키고, 뇌의 뉴런들 사이에 가중치를 설정하는 인간 뇌의 기능을 콘볼루션 계층과 풀링 계층을 이용하여 구현하고 있지만, 인간의 뇌는 데이터 양을 줄이고 뉴런 사이의 가중치를 재설정하는 기능 외에도 입력된 정보를 바탕으로 다음 정보를 예측하고 예측과 관련된 뉴런들의 가중치를 상승시켜 더욱 활성화 시키는 역할을 수행한다. 이와 더불어 인간의 감각기관 중 시각은 동일한 객체에 대해 각기 다른 양상의 9개 영상으로 분리하여 뇌로 전달함으로써, 단일 정보도 그 양상을 다양화하여 처리한다. 이러한 뇌의 기능은 현재의 합성곱 신경망 구조에 구체적으로 구현되어 있지 않다. 따라서, 이러한 현재의 합성곱 신경망 구조의 한계점을 극복하고 인간의 시각 피질 기능을 구현한 새로운 형태의 합성곱 신경망 구조를 제안하고자 한다.
대한민국 등록특허 제 10-1563569 호(발명의 명칭: 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법)
본 발명의 일 실시예는 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 인간의 뇌에서 시각 기능을 담당하는 신피질의 기능을 모사한 합성곱 신경망에 기반하여 영상 정보를 처리하는 장치 및 방법을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 영상 처리 장치는 뇌의 신피질 기능을 모사한 합성곱 신경망 기반의 영상 처리 장치로서, 영상 처리 프로그램이 저장된 메모리, 데이터 입출력을 수행하는 데이터 입출력 모듈 및 프로세서를 포함하되, 상기 영상 처리 프로그램은 상기 프로세서에 의하여 구동되어, 상기 데이터 입출력 모듈을 통해 입력된 영상 데이터에 입력 합성곱 레이어를 통해 제 1 합성곱(Convolution) 연산을 수행하여 학습 하는 과정, 상기 합성곱 연산 처리가 수행된 영상 데이터에 대하여 에버리지 풀링 레이어와 맥스 풀링 레이어를 통해 에버리지 풀링과 맥스 풀링을 병렬적으로 함께 수행하는 과정, 상기 에버리지 풀링 레이어와 맥스 풀링 레이어를 통해 상기 산출된 각 풀링 결과를 연결 레이어를 통해 연결(Concatenatin)하는 연산을 수행하는 과정, 상기 연결 연산을 수행한 결과물에 대하여 제 2 합성곱 연산을 추가로 수행하여 학습 하는 과정, 상기 제 2 합성곱 연산의 결과를 출력 레이어로 출력하는 과정 및 상기 제 2 합성곱 연산의 결과에 대하여 완전 연결 히든 레이어를 통해 완전 연결 연산 처리를 수행하고 이를 상기 입력 합성곱 레이어로 전달하여 입력 영상 데이터와 함께 입력시키는 과정을 수행하는 것이다.
본 발명의 다른 측면에 따른 영상 처리 방법은 뇌의 신피질 기능을 모사한 합성곱 신경망 기반의 영상 처리 장치를 이용한 것으로서, 영상 처리 장치를 입력된 영상 데이터에 입력 합성곱 레이어를 통해 제 1 합성곱(Convolution) 연산을 수행하여 학습 하는 단계; 상기 합성곱 연산 처리가 수행된 영상 데이터에 대하여 에버리지 풀링 레이어와 맥스 풀링 레이어를 통해 에버리지 풀링과 맥스 풀링을 병렬적으로 함께 수행하는 단계; 상기 에버리지 풀링 레이어와 맥스 풀링 레이어를 통해 상기 산출된 각 풀링 결과를 연결 레이어를 통해 연결(Concatenatin)하는 연산을 수행하는 단계; 상기 연결 연산을 수행한 결과물에 대하여 제 2 합성곱 연산을 추가로 수행하여 학습 하는 단계; 상기 제 2 합성곱 연산의 결과를 출력 레이어로 출력하는 단계 및 상기 제 2 합성곱 연산의 결과에 대하여 완전 연결 히든 레이어를 통해 완전 연결 연산 처리를 수행하고 이를 상기 입력 합성곱 레이어로 전달하여 입력 영상 데이터와 함께 입력시키는 단계를 수행하는 것이다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 인간의 뇌에서 시각 기능을 담당하는 신피질의 기능을 모사한 합성곱 신경망에 기반하여 영상 정보를 처리함으로써, 영상으로부터 보다 다양한 특징 도출이 가능해지고 영상 처리의 정확도를 향상시킬 수 있다.
도 1은 인간의 뇌의 시각 정보 처리와 관련한 뇌의 해부학적 구조를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 영상 처리 장치를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 뇌의 신피질 기능을 모사한 합성곱 신경망 기반의 영상 처리 프로그램의 동작을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 에버리지 풀링 레이어(320)와 맥스 풀링 레이어(330)에서 수행되는 맥스 풀링과 에버리지 풀링을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 연결 연산 처리 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따라 수행되는 배치 노멀라이제이션(batch normalization) 미 적용시 발생하는 문제점을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따라 수행되는 배치 노멀라이제이션(batch normalization) 과정을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 적용되는 ReLU 함수를 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 완전 연결 히든 레이어의 동작을 설명하기 위한 도면이다.
도 10은 본 발명의 다른 실시예에 영상 처리 장치의 구성을 설명하기 위한 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 본 발명을 명확하게 설명하기 위해 도면에서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한, 도면을 참고하여 설명하면서, 같은 명칭으로 나타낸 구성일지라도 도면에 따라 도면 번호가 달라질 수 있고, 도면 번호는 설명의 편의를 위해 기재된 것에 불과하고 해당 도면 번호에 의해 각 구성의 개념, 특징, 기능 또는 효과가 제한 해석되는 것은 아니다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)' 또는 '모듈'이란, 하드웨어 또는 소프트웨어에 의해 실현되는 유닛(unit), 양방을 이용하여 실현되는 유닛을 포함하며, 하나의 유닛이 둘 이상의 하드웨어를 이용하여 실현되어도 되고, 둘 이상의 유닛이 하나의 하드웨어에 의해 실현되어도 된다.
도 1은 인간의 뇌의 시각 정보 처리와 관련한 뇌의 해부학적 구조를 도시한 도면이다.
시각 정보는 망막(retina), 외측슬상체 (Lateral geniculate Nucleus, LGN), 신피질(V1, V2, V3, V4), 후두피질 (Later Occipital Cortex, LOC), 하부측부(Inferior Temporal, IT)순으로 인간 뇌에 입력된다. 인간 뇌에서 시각 정보를 처리하는 시각 피질의 구성요소들은 각기 다른 역할을 수행한다.
외측슬상체(LGN)는 양안으로 들어온 정보를 각각 배타적으로 처리하며 전체적인 영상을 압축하고 양안 정보를 취합하여 1차 시각 피질(V1)에 전달한다. 시각피질은 외측슬상체(LGN)으로부터 받은 정보를 바탕으로 모서리 등과 같은 대략적 형태를 처리하고 이를 바탕으로 형태를 구분하며, 총 4개의 시각 피질(V1, V2, V3, V4)로 구성되어 있고, 이전 단계의 피질을 통과할 때마다 정보가 취합되어 추상화 된다. 후두피질(LOC)은 시각 피질이 제공한 정보를 바탕으로 물체의 전체적인 형상과 색을 인지한다. 마지막으로 하부측부(IT)에서는 후두피질의 정보를 바탕으로 추상화 하여 대상의 정답을 추론 한다.
위와 같이, 시각 피질은 하위레벨 패턴인식기와 상위레벨 패턴인식기로 구성되어 있으며 여러 개의 하위레벨 패턴인식기를 조합하여 한 차원 높은 정보를 그 다음 상위레벨 패턴인식기에 전달한다. 예를 들면, 시각 피질과 외측슬상체(LGN)와의 관계를 살펴보면, 시각 피질은 외측슬상체에 비하여 상위레벨 패턴인식기로서 그 기능을 수행하며, 후두 피질은 시각 피질에 비하여 상위레벨 패턴인식기로서 그 기능을 수행한다. 상기 추론과 관련된 뉴런들을 활성화여 해당 물체를 더 빠르게 인식할 수 있도록 한다. 즉, 인간의 시각 피질은 상위레벨 패턴인식기가 하위레벨 패턴인식기에 그 결과를 전달하는 피드백(feedback) 기능 역시 수행한다.
도 2는 본 발명의 일 실시예에 따른 영상 처리 장치를 도시한 도면이다.
도 2에 도시한 바와 같이, 영상 처리 장치(100)는 데이터 입출력모듈(110), 메모리(120), 프로세서(130)를 포함한다.
데이터 입출력모듈(110)은 통신 모듈을 통해 데이터를 수신 또는 송신하는 기능을 수행할 수 있다. 데이터 입출력 모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.
메모리(120)에는 뇌의 신피질 기능을 모사한 합성곱 신경망 기반의 영상 처리 프로그램이 저장된다. 해당 프로그램은 프로세서에 의하여 구동되어, 입력 합성곱 레이어를 통해 제 1 합성곱(Convolution) 연산을 수행하여 학습 하는 과정, 합성곱 연산 처리가 수행된 영상 데이터에 대하여 에버리지 풀링 레이어와 맥스 풀링 레이어를 통해 에버리지 풀링과 맥스 풀링을 병렬적으로 함께 수행하는 과정, 에버리지 풀링 레이어와 맥스 풀링 레이어를 통해 상기 산출된 각 풀링 결과를 연결 레이어를 통해 연결(Concatenatin)하는 연산을 수행하는 과정, 상기 연결 연산을 수행한 결과물에 대하여 제 2 합성곱 연산을 추가로 수행하여 학습 하는 과정, 제 2 합성곱 연산의 결과를 출력 레이어로 출력하는 과정 및 제 2 합성곱 연산의 결과에 대하여 완전 연결 히든 레이어를 통해 완전 연결 연산 처리를 수행하고 이를 입력 합성곱 레이어로 전달하여 입력 영상 데이터와 함께 입력시키는 과정을 수행한다.
이러한 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 또는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치를 통칭하는 것이다..
프로세서(130)는 데이터메모리(120)에 저장된 합성곱 신경망 기반의 영상 처리 프로그램을 수행한다.
도 3은 본 발명의 일 실시예에 따른 뇌의 신피질 기능을 모사한 합성곱 신경망 기반의 영상 처리 프로그램의 동작을 설명하기 위한 도면이다.
먼저, 데이터 입출력 모듈(110)을 통해 입력된 영상 데이터에 입력 합성곱 레이어(310)를 통해 제 1 합성곱(Convolution) 연산을 수행하여 학습 하는 과정이 수행된다. 입력 합성곱 레이어(310)는 망막에서 처리되는 동작을 모사하고 있으며, 입력 레이어를 통해 입력되는 영상 데이터에 대하여 합성곱 연산, 정규화 연산 및 활성화 함수 적용등을 수행한다.
정규화 연산의 처리와 관련해서는 도 6과 도 7을 참조하여 설명하면 다음과 같다.
도 6과 도 7은 본 발명의 일 실시예에 따라 수행되는 배치 노멀라이제이션(batch normalization) 과정을 설명하기 위한 도면이다.
먼저 도 6을 살펴보면, 딥러닝(Deep learning)에서 학습하는 도중 이전 레이어(layer)의 파라미터(parameter) 변화로 인해 현재 레이어의 입력 분포가 바뀌는 공분산 현상(Covariate shift)이 자주 발생하게 된다. 도시된 바와 같이, 공분산 현상은 조건에 따라 그 분포 양상이 달리질 수 있으며 이러한 현상은 딥러닝 성능 감소에 큰 영향을 끼친다. 이러한 문제점을 해결하기 위해 현재 학습 대상인 레이어의 평균(γ)과 분산(β)을 구한 후 이를 이용하여 입력 정보를 정규화 한다. 두 파라미터는 다음 레이어를 학습할 때에도 적용되어 뉴런들의 학습 공간을 일정하게 유지하도록 한다. 배치 노멀라이제이션 레이어는 활성화 함수 앞쪽에 배치가 되며 이는 역전파(back-propagation)를 통해서도 역시 학습이 가능함을 의미한다. 학습시에 저장한 평균(γ)과 분산(β)을 이용하여 테스트 시에는 평균(γ)의 평균을 이용한다. 반면, 분산(β)의 평균에 배치 사이즈인(batch size)인 m/(m-1)을 곱한 값을 분산으로 사용한다. 이에 대한 상세한 내용은 아래의 의사코드에서 각각 확인 가능하다.
Figure pat00001
Figure pat00002
도 7은 합성곱 레이어에 배치 노멀라이제이션을 적용하는 과정에 대한 예시도이다. 기존 합성곱 레이어에 배치 노멀라이제이션 레이어를 추가하여 평균(γ)과 분산(β)을 학습할 수 있도록 한다.
이와 같은 정규화 연산 처리는 추후 설명할 에버리지 풀링 레이어(320), 맥스 풀링 레이어(330) 및 연결 레이어(350)에도 추가될 수 있다.
한편, 활성화 함수로는 도 8에 도시된 ReLU(Rectified Linear Unit) 함수가 사용될 수 있으나, 이는 예시에 해당하는 것으로 사용자의 선택에 따라 변경될 수 있다. 활성화 함수란 뉴런들의 신호 세기를 재조정 하기 위해 필요한 것으로서, 활성화 함수 방법 중 하나인 ReLU는 다음의 수학식 1과 같이 뉴런의 신호 세기를 재조정한다.
[수학식 1]
Figure pat00003
이와 같은 활성화 함수는 추후 설명할 에버리지 풀링 레이어(320), 맥스 풀링 레이어(330) 및 연결 레이어(350)에도 사용될 수 있다.
다음으로, 다시 도 3을 참조하면, 합성곱 연산 처리가 수행된 영상 데이터에 대하여 에버리지 풀링 레이어(320)와 맥스 풀링 레이어(330)를 통해 에버리지 풀링과 맥스 풀링을 병렬적으로 함께 수행한다. 이때, 에버리지 풀링 레이어(320) 및 맥스 풀링 레이어(330)의 수행 동작과 이후 설명할 연결 레이어(350)의 수행 동작은 양안으로 입력되는 정보를 압축 전달하는 외측슬상체(Lateral Geniculate Nucleus, LGN)를 모사한 것이다.
도 4는 본 발명의 일 실시예에 따른 에버리지 풀링 레이어(320)와 맥스 풀링 레이어(330)에서 수행되는 맥스 풀링과 에버리지 풀링을 설명하기 위한 도면이다.
일반적으로 합성곱 신경망에서 많이 사용되는 맥스 풀링(Max pooling)은 입력 레이어의 각 픽셀에 일정한 크기의 마스크(mask)를 적용하여 해당 마스크 내의 값 중 가장 큰 값을 결과값으로 지정한다. 반면, 에버리지 풀링(Average pooling)은 해당 마스크 내의 픽셀 값들의 평균을 결과값으로 설정한다. 도시된 바와 같이, 풀링의 방법에 따라 풀링 레이어의 결과는 다르다. 예를 들어, 크기가 2x2인 마스크(mask)에 대응하는 입력 이미지의 (0, 0), (0, 1), (1, 0), (1, 1)에 맥스 풀링을 적용할 경우 20이 출력되는 반면, 에버리지 풀링을 적용할 경우 13이 출력됨을 확인할 수 있다.
이와 같이, 에버리지 풀링과 맥스 풀링을 각각 거친 데이터들에 대하여 합성곱 연산과 배치 노멀라이제이션, 활성화 함수(ReLU) 적용 등을 순차적으로 처리한다.
이후 각각의 결과물에 대하여 아이덴티티(Identity) 레이어(340)의 출력값을 합산한다. 이를 통해 피질 모듈에게 정답을 알려줌으로써 적절한 학습 방향을 제시할 수 있다.
다음으로, 다시 도 3을 참조하면, 에버리지 풀링 레이어와 맥스 풀링 레이어를 통해 산출된 각 풀링 결과를 연결 레이어(350)를 통해 연결(Concatenatin)하는 연산을 수행한다. 이를 통해, 서로 분리된 레이어의 출력 데이터를 하나의 단일 레이어를 통해 취합하게 된다.
도 5는 본 발명의 일 실시예에 따른 연결 연산 처리 과정을 설명하기 위한 도면이다.
연결(concatenation) 연산은 독립적인 두 개의 차원을 하나의 차원으로 합쳐 확장하는 것이다. 도시된 바와 같이, 에버리지 풀링 레이어(320)와 맥스 풀링 레이어(330)에서 출력된 동일한 크기의 피쳐맵(feature map) 두 개(510, 520)를 높이축 방향으로 연결 연산을 진행하면 결과 피쳐맵(530)이 생성된다. 이와 같은 과정을 통해 서로 독립적이었던 두 개 차원의 피쳐맵을 단일 차원으로 취합할 수 있다.
연결 연산 이후에는 연결 연산의 결과물에 대해서는 활성화 함수 적용 이후, 합성곱 연산, 배치 노멀라이제이션, 활성화 함수 적용등이 순차적으로 진행될 수 있다.
이와 같이 연결 레이어(350) 통해 처리된 결과물은 출력 레이어(360)를 통해 출력될 수 있다. 또한, 완전 연결 히든 레이어(370, fully connected hidden layer)를 통해 완전 연결 연산 처리를 수행하고, 이를 입력 합성곱 레이어(310)로 전달하여 입력 영상 데이터와 함께 입력시키는 과정을 수행할 수 있다.
도 9는 본 발명의 일 실시예에 따른 완전 연결 히든 레이어의 동작을 설명하기 위한 도면이다.
완전 연결 히든 레이어(370)의 수행 동작은 하부측부(Inferior Temporal)를 모사한 것이다. 완전 연결 히든 레이어(370)는 연결 레이어(350)의 출력 결과물(910)에 대하여, 에버리지 풀링(average-pooling)을 적용하여 1x1 크기(920)로 축소한다. 축소된 영상을 2차원으로 전환한 후, 완전 연결 연산을 적용하여 피쳐맵끼리의 긴밀성을 부여한다(930). 그리고 다시 3차원으로 변경한 후(940), 스케일링을 통해 1x1 크기의 영상은 원래 영상 크기로 확대된다(950). 확대되는 과정에서 1x1 데이터가 가로, 세로 방향으로 복사된다. 예를 들어, 16x16 크기의 8개의 피쳐맵(featuremap)이 입력된 경우, 1x1x8 크기로 영상이 축소되고, 1x8과 같이 2차원으로 변경된 후 완전 연결 연산이 적용된다. 완전 연결 연산 적용 후, 다시 1x1x8과 같이 3차원으로 전환되어 1x1 정보는 가로, 세로 방향으로 원래 입력 영상의 크기 만큼 즉, 16x16으로 복사 및 확대된다. 본 발명에서는 이러한 수행 과정을 완전곱 연산이라 정의한다.
도 10은 본 발명의 다른 실시예에 영상 처리 장치의 구성을 설명하기 위한 도면이다.
도시된 바와 같이 각각의 피질 모듈이 순차적으로 접속된 구조를 가지며, 각 피질 모듈은 상세하게는 도 3의 구성을 가진 모듈의 형태로 구현된다. 따라서, 복수의 피질 모듈을 통해 영상 처리 과정을 진행하게 되며, 각 피질 모듈의 접속노드에서 완전 연결 히든 레이어의 출력 결과물이 산출될 수 있다. 이와 같은 구조를 통해 예를 들어, 총 깊이가 33인 합성곱 신경망 네트워크를 구현할 수 있다.
이상에서 설명한 본 발명의 실시예에 따른 뇌의 신피질 기능을 모사한 합성곱 신경망 기반의 영상 처리 장치 및 이를 통한 영상 처리 방법은, 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 이러한 기록 매체는 컴퓨터 판독 가능 매체를 포함하며, 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함하며, 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 조사 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
또한, 본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수도 있다.
본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 영상 보정 장치 110: 영상 입출력 모듈
120: 메모리 130: 프로세서

Claims (12)

  1. 뇌의 신피질 기능을 모사한 합성곱 신경망 기반의 영상 처리 장치에 있어서,
    영상 처리 프로그램이 저장된 메모리,
    데이터 입출력을 수행하는 데이터 입출력 모듈 및
    프로세서를 포함하되,
    상기 영상 처리 프로그램은 상기 프로세서에 의하여 구동되어, 상기 데이터 입출력 모듈을 통해 입력된 영상 데이터에 입력 합성곱 레이어를 통해 제 1 합성곱(Convolution) 연산을 수행하여 학습 하는 과정, 상기 합성곱 연산 처리가 수행된 영상 데이터에 대하여 에버리지 풀링 레이어와 맥스 풀링 레이어를 통해 에버리지 풀링과 맥스 풀링을 병렬적으로 함께 수행하는 과정, 상기 에버리지 풀링 레이어와 맥스 풀링 레이어를 통해 상기 산출된 각 풀링 결과를 연결 레이어를 통해 연결(Concatenatin)하는 연산을 수행하는 과정, 상기 연결 연산을 수행한 결과물에 대하여 제 2 합성곱 연산을 추가로 수행하여 학습 하는 과정, 상기 제 2 합성곱 연산의 결과를 출력 레이어로 출력하는 과정 및 상기 제 2 합성곱 연산의 결과에 대하여 완전 연결 히든 레이어를 통해 완전 연결 연산 처리를 수행하고 이를 상기 입력 합성곱 레이어로 전달하여 입력 영상 데이터와 함께 입력시키는 과정을 수행하는 것인 영상 처리 장치.
  2. 제 1 항에 있어서,
    상기 에버리지 풀링 레이어 및 맥스 풀링 레이어의 수행 동작과 상기 연결 레이어의 수행 동작은 양안으로 입력되는 정보를 압축 전달하는 외측슬상체(Lateral Geniculate Nucleus, LGN)를 모사한 것이고,
    상기 연결 연산을 수행한 결과물에 대하여 제 2 합성곱 연산을 추가로 수행하여 학습 하는 과정은 시각피질(V1, V2, V3, V4)을 모사한 것이고,
    상기 완전 연결 히든 레이어의 수행 동작은 하부측부(Inferior Temporal)를 모사한 것인 영상 처리 장치.
  3. 제 1 항에 있어서,
    상기 입력 합성곱 레이어를 통해 제 1 합성곱(Convolution) 연산을 수행하여 학습 하는 과정은 제 1 합성곱 연산 이후 배치 노멀라이제이션 처리를 수행하는 과정과 활성화 함수를 적용하는 과정을 추가적으로 수행하는 것인 영상 처리 장치.
  4. 제 1 항에 있어서,
    상기 에버리지 풀링과 맥스 풀링을 병렬적으로 함께 수행하는 과정은 에버리지 풀링 결과물에 대하여 합성곱 연산, 배치 노멀라이제이션 처리를 수행하는 과정 및 활성화 함수를 적용하는 과정을 순차적으로 진행함과 동시에, 맥스 풀링 결과물에 대하여 합성곱 연산, 배치 노멀라이제이션 처리를 수행하는 과정 및 활성화 함수를 적용하는 과정을 순차적으로 진행하는 것인 영상 처리 장치.
  5. 제 1 항에 있어서,
    상기 연결 레이어를 통해 연결(Concatenatin)하는 연산을 수행하는 과정은 활성화 함수를 적용하는 과정, 상기 제 2 합성곱 연산, 배치 노멀라이제이션 처리를 수행하는 과정 및 활성화 함수를 적용하는 과정을 순차적으로 진행하는 것인 영상 처리 장치.
  6. 제 1 항에 있어서,
    상기 완전 연결 히든 레이어를 통해 완전 연결 연산 처리를 수행하는 과정은
    에버리지 풀링을 적용하여 축소시키는 과정, 축소된 영상을 2차원으로 전환한 후, 완전 연결 연산을 적용하는 과정 및 완전 연결 연산의 적용 후 3차원으로 재배열하여 입력 영상 데이터의 크기로 확대한 후 입력 영상 데이터와 합산하는 과정을 순차적으로 진행하는 것인 영상 처리 장치.
  7. 뇌의 신피질 기능을 모사한 합성곱 신경망 기반의 영상 처리 장치를 이용한 영상 처리 방법에 있어서,
    상기 영상 처리 장치를 입력된 영상 데이터에 입력 합성곱 레이어를 통해 제 1 합성곱(Convolution) 연산을 수행하여 학습 하는 단계;
    상기 합성곱 연산 처리가 수행된 영상 데이터에 대하여 에버리지 풀링 레이어와 맥스 풀링 레이어를 통해 에버리지 풀링과 맥스 풀링을 병렬적으로 함께 수행하는 단계;
    상기 에버리지 풀링 레이어와 맥스 풀링 레이어를 통해 상기 산출된 각 풀링 결과를 연결 레이어를 통해 연결(Concatenatin)하는 연산을 수행하는 단계;
    상기 연결 연산을 수행한 결과물에 대하여 제 2 합성곱 연산을 추가로 수행하여 학습 하는 단계;
    상기 제 2 합성곱 연산의 결과를 출력 레이어로 출력하는 단계; 및
    상기 제 2 합성곱 연산의 결과에 대하여 완전 연결 히든 레이어를 통해 완전 연결 연산 처리를 수행하고 이를 상기 입력 합성곱 레이어로 전달하여 입력 영상 데이터와 함께 입력시키는 단계;를 수행하는 것인 영상 처리 방법.
  8. 제 7 항에 있어서,
    상기 에버리지 풀링 레이어 및 맥스 풀링 레이어의 수행 동작과 상기 연결 레이어의 수행 동작은 양안으로 입력되는 정보를 압축 전달하는 외측슬상체(Lateral Geniculate Nucleus, LGN)를 모사한 것이고,
    상기 연결 연산을 수행한 결과물에 대하여 제 2 합성곱 연산을 추가로 수행하여 학습 하는 과정은 시각피질(V1, V2, V3, V4)을 모사한 것이고,
    상기 완전 연결 히든 레이어의 수행 동작은 하부측부(Inferior Temporal)를 모사한 것인 영상 처리 방법.
  9. 제 7 항에 있어서,
    상기 입력 합성곱 레이어를 통해 제 1 합성곱(Convolution) 연산을 수행하여 학습 하는 과정은 제 1 합성곱 연산 이후 배치 노멀라이제이션 처리를 수행하는 과정과 활성화 함수를 적용하는 과정을 추가적으로 수행하는 것인 영상 처리 방법.
  10. 제 7 항에 있어서,
    상기 에버리지 풀링과 맥스 풀링을 병렬적으로 함께 수행하는 과정은 에버리지 풀링 결과물에 대하여 합성곱 연산, 배치 노멀라이제이션 처리를 수행하는 과정 및 활성화 함수를 적용하는 과정을 순차적으로 진행함과 동시에, 맥스 풀링 결과물에 대하여 합성곱 연산, 배치 노멀라이제이션 처리를 수행하는 과정 및 활성화 함수를 적용하는 과정을 순차적으로 진행하는 것인 영상 처리 방법.
  11. 제 7 항에 있어서,
    상기 연결 레이어를 통해 연결(Concatenatin)하는 연산을 수행하는 과정은 활성화 함수를 적용하는 과정, 상기 제 2 합성곱 연산, 배치 노멀라이제이션 처리를 수행하는 과정 및 활성화 함수를 적용하는 과정을 순차적으로 진행하는 것인 영상 처리 방법.
  12. 제 7 항에 있어서,
    상기 완전 연결 히든 레이어를 통해 완전 연결 연산 처리를 수행하는 과정은
    에버리지 풀링을 적용하여 축소시키는 과정, 축소된 영상을 2차원으로 전환한 후, 완전 연결 연산을 적용하는 과정 및 완전 연결 연산의 적용 후 3차원으로 재배열하여 입력 영상 데이터의 크기로 확대한 후 입력 영상 데이터와 합산하는 과정을 순차적으로 진행하는 것인 영상 처리 방법.
KR1020170143093A 2017-10-31 2017-10-31 합성곱 신경망 기반의 영상 처리 방법 및 장치 KR20190048279A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170143093A KR20190048279A (ko) 2017-10-31 2017-10-31 합성곱 신경망 기반의 영상 처리 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170143093A KR20190048279A (ko) 2017-10-31 2017-10-31 합성곱 신경망 기반의 영상 처리 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20190048279A true KR20190048279A (ko) 2019-05-09

Family

ID=66545300

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170143093A KR20190048279A (ko) 2017-10-31 2017-10-31 합성곱 신경망 기반의 영상 처리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20190048279A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111258839A (zh) * 2020-02-16 2020-06-09 苏州浪潮智能科技有限公司 一种基于ResNet50网络的AI加速卡仿真测试***及其工作方法
KR20210054614A (ko) * 2019-11-05 2021-05-14 가천대학교 산학협력단 한식 인식 시스템, 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
WO2022086257A1 (ko) 2020-10-22 2022-04-28 주식회사 파이안바이오테크놀로지 항암제를 포함한 미토콘드리아 및 이의 용도
KR20230127577A (ko) * 2022-02-25 2023-09-01 성균관대학교산학협력단 합성곱 신경망을 이용한 심실성 부정맥 예측 방법 및 장치
US11823056B2 (en) 2019-10-28 2023-11-21 Lunit Inc. Method for training neural network and device thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101563569B1 (ko) 2014-05-28 2015-10-28 한국과학기술원 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101563569B1 (ko) 2014-05-28 2015-10-28 한국과학기술원 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11823056B2 (en) 2019-10-28 2023-11-21 Lunit Inc. Method for training neural network and device thereof
KR20210054614A (ko) * 2019-11-05 2021-05-14 가천대학교 산학협력단 한식 인식 시스템, 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
CN111258839A (zh) * 2020-02-16 2020-06-09 苏州浪潮智能科技有限公司 一种基于ResNet50网络的AI加速卡仿真测试***及其工作方法
CN111258839B (zh) * 2020-02-16 2022-11-29 苏州浪潮智能科技有限公司 一种基于ResNet50网络的AI加速卡仿真测试***及其工作方法
WO2022086257A1 (ko) 2020-10-22 2022-04-28 주식회사 파이안바이오테크놀로지 항암제를 포함한 미토콘드리아 및 이의 용도
KR20230127577A (ko) * 2022-02-25 2023-09-01 성균관대학교산학협력단 합성곱 신경망을 이용한 심실성 부정맥 예측 방법 및 장치

Similar Documents

Publication Publication Date Title
KR20190048279A (ko) 합성곱 신경망 기반의 영상 처리 방법 및 장치
JP7289918B2 (ja) 物体認識方法及び装置
US20210365717A1 (en) Method and apparatus for segmenting a medical image, and storage medium
KR20200087780A (ko) 뉴럴 네트워크들에 대한 멀티-태스크 학습을 위한 메타-학습
CN110074813B (zh) 一种超声图像重建方法及***
Stewart et al. Region growing with pulse-coupled neural networks: an alternative to seeded region growing
US10691971B2 (en) Method and apparatus for recognizing object
KR100347622B1 (ko) 최적화조정방법및최적화조정장치
KR20200078531A (ko) 딥 멀티태스크 네트워크들에서 적응적 손실 밸런싱을 위한 그라디언트 정규화 시스템들 및 방법들
CN109754402A (zh) 图像处理方法、图像处理装置以及存储介质
CN110070107A (zh) 物体识别方法及装置
CN111401517B (zh) 一种感知网络结构搜索方法及其装置
CN111317468A (zh) 脑电信号分类方法、装置、计算机设备和存储介质
CN112163601B (zh) 图像分类方法、***、计算机设备及存储介质
CN113256529B (zh) 图像处理方法、装置、计算机设备及存储介质
Mohmmad et al. A survey machine learning based object detections in an image
KR102160390B1 (ko) 인공지능 기반의 사용자 의료정보 분석 방법 및 시스템
CN115311186B (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN112084934A (zh) 基于骨骼数据双通道深度可分离卷积的行为识别方法
KR20200132305A (ko) 전자 장치가 뉴럴 네트워크 내의 소정 레이어에서 컨볼루션 연산을 수행하는 방법 및 그 방법을 수행하는 전자 장치
CN113712573A (zh) 脑电信号分类方法、装置、设备及存储介质
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN112597986A (zh) 生理电信号分类处理方法、装置、计算机设备和存储介质
CN115115724A (zh) 图像处理方法、装置、计算机设备及存储介质
CN113158970B (zh) 一种基于快慢双流图卷积神经网络的动作识别方法与***

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application