KR101563569B1 - 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법 - Google Patents

학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법 Download PDF

Info

Publication number
KR101563569B1
KR101563569B1 KR1020140064272A KR20140064272A KR101563569B1 KR 101563569 B1 KR101563569 B1 KR 101563569B1 KR 1020140064272 A KR1020140064272 A KR 1020140064272A KR 20140064272 A KR20140064272 A KR 20140064272A KR 101563569 B1 KR101563569 B1 KR 101563569B1
Authority
KR
South Korea
Prior art keywords
subnetwork
sub
layer
image
network
Prior art date
Application number
KR1020140064272A
Other languages
English (en)
Inventor
타니 준
정민주
황중식
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020140064272A priority Critical patent/KR101563569B1/ko
Application granted granted Critical
Publication of KR101563569B1 publication Critical patent/KR101563569B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

MSTNN(Multiple Spatio-Temporal Scales Neural Network)를 이용한 본 발명의 실시예에 따른 시스템은, 일례의 패턴 세트의 사전 훈련을 통해 다이내믹 시각 이미지 패턴을 인식할 수 있다. 이 시스템에서는, 픽셀 패턴 또는 시각적 특징의 시퀀스에 대한 다이내믹 시각 이미지 패턴이 MSTNN에 입력되고, 다이내믹 시각 이미지 패턴의 입력에 대한 인식 결과가 지연 응답 방식으로 출력 단위로 획득된다.

Description

학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법{Learnable Dynamic Visual Image Pattern Recognition System and Method}
본 발명은 시각 이미지 패턴 인식을 위한 정보 처리 방법에 관한 것으로, 더욱 상세하게는 뉴럴 네트워크를 이용하여 비디오 카메라 스트림에서 시각 이미지 패턴 인식 방법에 관한 것이다.
최근 들어, 학습 모델은 인간의 행동 인식을 포함한 많은 비전 애플리케이션 에 적용되기 시작하였다. 기존의 비전 방식은 HOG, SIFT, SURF 등과 같은 핸드크래프티드 특징들을 사용하는 반면, 학습 모델은 데이터로부터 자동으로 특징들을 학습할 수 있기 때문이다.
가장 많이 활용되고 있는 학습 모델 중 하나는 CNN(Convolutional Neural Network)이다. 하지만, CNN은 정적인 비전만을 취급할 수 있으며, CNN 자체는 다이내믹 비전을 취급할 수 없다. 3D CNN과 같이 CNN을 확장한 몇몇 모델들은 짧은 시간 동안의 다이내믹 비전을 처리할 수 있지만 여전히 긴 시간 동안의 다이내믹 비전 처리에는 어려움이 있다.
이에, CNN의 한계를 보완할 수 있는 기법에 대한 모색이 요청된다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, CNN의 한계를 보완한 우수한 성능을 가진 다이내믹 시각 인식 방법 및 시스템을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 다이내믹 이미지 패턴 인식 방법은, 제1 서브 네트워크가, 이미지를 입력받는 단계; 적어도 하나의 제2 서브 네트워크가, 입력된 이미지를 순차적으로 컨볼루션하는 단계; 및 제3 서브 네트워크가, 컨볼루션을 통한 이미지 인식 결과를 출력하는 단계;를 포함하고, 상기 적어도 하나의 제2 서브 네트워크는, 각기 다른 타임 스케일의 다이내믹을 갖는다. 여기서, 각 레벨의 서브 네트워크의 각 뉴럴 유닛은, 한 레벨이 다른 서브 네트워크에서 레티노픽적으로 가까운 로컬 뉴럴 유닛들과 한 레벨 위(top-down) 또는 한 레벨 아래(Bottom-up)로 연결되어 있고, 동일한 서브 네트워크 내에서 로컬 뉴럴 유닛들 간의 측면 연결이 있다. 또한, 상기 적어도 하나의 제3 서브 네트워크는, 단일 레이어는 물론 여러 레이어로 구성될 수 있다.
그리고, 상기 제1 서브 네트워크에 인접한 제2 서브 네트워크의 타임 스케일은 빠르고, 상기 제3 서브 네트워크에 인접한 제2 서브 네트워크의 타임 스케일은 느릴 수 있다.
또한, 제2 서브 네트워크는 다수의 특징 맵들을 포함할 수 있다.
그리고, 상기 서브 네트워크에서 뉴럴 유닛들은 2 차원 레티노토픽 기법으로 배치될 수 있다.
또한, 상기 서브 네트워크들은, 레벨이 증가할수록 뉴럴 유닛의 개수가 감소하고 해상도가 감소하지만, 뉴럴 유닛의 수용 필드(receptive field)는 더 넓어진다(즉, 보는 범위가 넓어진다).
그리고, 특정 레벨의 서브 네트워크에서 각 뉴럴 유닛은, 한 레벨이 다른 서브 네트워크에서 레티노픽적으로 가까운 로컬 뉴럴 유닛들과 한 레벨 위(top-down) 또는 한 레벨 아래(Bottom-up)로 연결될 수 있다.
또한, 동일한 서브 네트워크 내에서는, 로컬 뉴럴 유닛들이 측면으로 연결(Bilateral connection)될 수 있다.
그리고, 상기 서브 네트워크들에 의한 훈련과 인식은, 지연 응답 방식으로 수행될 수 있다.
또한, 상기 서브 네트워크들에 의한 훈련은, 에러 역 전파(error back-propagation scheme) 방식을 사용할 수 있다.
한편, 본 발명의 다른 실시예에 따른, 다이내믹 이미지 패턴 인식 시스템은, 이미지를 입력받는 입력부; 상기 입력부를 통해 입력된 이미지를 순차적으로 컨볼루션하는 인식부; 및 컨볼루션을 통한 이미지 인식 결과를 출력하는 출력부;를 포함하고, 상기 인식부는, 각기 다른 타임 스케일의 다이내믹을 갖는 상기 적어도 하나의 서브 네트워크로 입력된 이미지를 순차적으로 컨볼루션한다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, MSTNN의 자기-조직화된 시공간 계층 구조를 이용한 정보 처리를 통해, 복잡한 다이내믹 화상 이미지 패턴에 대해 상황에 맞고 강건하며 효율적인 인식이 가능하다.
도 1은 MSTNN 아키텍처를 도시한 도면,
도 2는 MSTNN의 포워드 다이내믹의 설명에 제공되는 도면,
도 3은 MSTNN을 이용한 학습형 다이내믹 시각 이미지 패턴 인식 과정의 개념 설명에 제공되는 도면,
도 4는 MSTNN을 이용한 학습 과정의 설명에 제공되는 도면,
도 5는 다수의 비디오 시퀀스 패턴 훈련 과정을 나타낸 흐름도,
도 6은 비디오 시퀀스 인식 과정을 나타낸 흐름도, 그리고,
도 7은 학습형 다이내믹 시각 이미지 패턴 인식 시스템의 블럭도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
1. MSTNN 아키텍처
MSTNN(Multiple Spatio-Temporal Scales Neural Network) 아키텍처를 도 1에 도시하였다. 도 1에 도시된 바와 같이, MSTNN 아키텍처는 1개의 입력 레이어(Layer 1), 3개의 컨볼루션 레이어(Layer 2-4) 및 1개의 전체-연결 레이어(Layer 5)로 구성되어, 총 5개의 레이어들로 구성된다.
한편, 전체-연결 레이어(Layer 5)는 1개가 아닌 여러 개로 구현 가능하며, 개수에 대한 제한은 없다.
표준 CNN(Convolutional Neural Network)은 작은 왜곡과 변화에 불변하는 특징을 추출하는 컨볼루션 레이어들 사이에 서브 샘플링 레이어가 있어, 계산의 복잡성을 상당히 줄였다. 하지만, 서브 샘플링 동작은 시간 경과에 따른 서브 샘플링 과정에서 뉴런 값의 불연속성을 유발한다.
MSTNN에서는, 컨볼루션과 서브 샘플링 동작을 컨볼루션 레이어에서 수행되는 하나의 동작으로 결합하여, 서브 샘플링 동작을 제거하였다.
레이어 1은 입력 이미지를 포함하는 48x54 특징 맵을 1개 갖고 있는 입력 레이어이다.
레이어 2는 단계 크기(또는, stride)가 2(이는 다음 컨볼루션을 위한 커널이 얼마나 시프트 되어야 하는지를 나타낸다.)이고, 시정수가 2인 22x22 특징 맵을 6개 갖고 있는 컨볼루션 레이어이다. 시정수는 타임 스케일 특성을 나타내는 파라미터이다. 작은 시정수는 짧은 타임 스케일을 나타내고, 큰 시정수는 긴 타임 스케일을 나타낸다. 본 발명의 실시예에 따른 모델에서, 컨볼루션 레이어와 전체-연결 레이어는 특정 시정수 값을 갖는다. 즉, 본 발명의 실시예에서 컨볼루션 레이어만이 타임 스케일을 가지며, 일반화시킬 경우 컨볼루션 레이어 뿐만 아니라 전체-연결 레이어도 타임 스케일을 가질 수도 있다. 레이어 2의 각 특징 맵은 6x12 커널로 레이어 1의 특징 맵에 연결된다.
레이어 3은 단계 크기가 2이고, 시정수가 5인 8x8 특징 맵을 50개 갖고 있는 컨볼루션 레이어이다. 레이어 3의 각 특징 맵은 8x8 커널로 레이어 2의 특징 맵에 연결된다.
레이어 4는 단계 크기가 1이고, 시정수가 100인 1x1 특징 맵을 100개 갖고 있는 컨볼루션 레이어이다. 레이어 4의 각 특징 맵은 8x8 커널로 레이어 3의 특징 맵에 연결된다.
레이어 5는 분류(classification)를 위해 소프트 맥스(softmax)를 활성화 함수로 사용하는 전체-연결(fully-connected) 레이어이다. 한편, 레이어 5는 소프트 맥스 함수 이외의 다른 함수(예를 들면, tanh)를 사용하는 것도 가능하다. 레이어 5의 뉴런 개수는 데이터 세트에서 클래스의 개수와 동일하다. 레이어 5의 각 뉴런은 레이어 4의 100개 특징 맵의 모든 뉴런들에 모두 연결된다. 레이어 5에 있는 활성화된 뉴런은 분류 결과이다.
2. 포워드 다이내믹( Forward Dynamics )
시간 단계 t에서 l 번째 레이어의 m 번째 특징 맵의 위치 (x,y)에서 뉴런의 내부 상태는
Figure 112014050482468-pat00001
로 표기하며, 다음과 같이 계산된다.
Figure 112014050482468-pat00002
Figure 112014050482468-pat00003
여기서, IC는 컨볼루션 레이어 인덱스 세트이고, IF는 전체-연결 레이어 인덱스 세트이며, τl은 l 번째 레이어의 시정수이고, N(l-1)은 (l-1) 번째 레이어의 특징 맵의 개수이며, Pl과 Ql은 l 번째 레이어에서 커널의 높이와 폭이고, Sl은 l 번째 레이어의 단계 크기이며,
Figure 112014050482468-pat00004
은 (l-1) 번째 레이어의 n 번째 특징 맵으로부터 현재 특징 맵까지 연결된 커널의 (p, q)에서의 값이고,
Figure 112014050482468-pat00005
는 시간 단계 t에서 (l-1) 번째 레이어의 n 번째 특징 맵의 (x,y)에서 뉴런의 활성화 값이며,
Figure 112014050482468-pat00006
은 현재 특징 맵에 대한 바이어스이다.
커널은 컨볼루션에 앞서 수평 및 수직 방향 모두에서 Sl 픽셀 만큼 시프트 된다. 전체-연결 레이어의 뉴런 및 웨이트를 각각 1x1 특징 맵과 1x1 커널로 정의하고, Sl을 1로 설정하여, 컨볼루션 및 전체-연결 레이어 모두에 대한 수학식을 같은 방법으로 표현할 수 있다.
각 뉴런의 활성화가 현재 입력에 의해서만 결정되는 컨볼루션 파이어링 레이트 모델을 이용하지 않고, 한 레벨 위(top-down), 한 레벨 아래(Bottom-up) 또는 동일 레벨(bilateral) 레이어들의 특징 맵들과 컨볼루션하고 감소된 이전 내부 상태를 전파하여 각 뉴런의 활성화가 계산되는 통합 및 발사 모델(integrate-and-fire model)이 사용된다.
시정수 τ는 지난 입력의 히스토리가 현재 내부 상태에 영향을 미치는 정도를 나타낸다. τ가 크면 뉴런의 활성화는 천천히 변화하는데, 내부 상태가 현재 입력 대비 과거 입력의 히스토리에 의해 크게 영향받기 때문이다.
반면, τ가 작으면 뉴런의 활성화는 빠르게 변화하는데, 도 2에 도시된 바와 같이, 현재 입력이 내부 상태에 보다 강하게 영향을 주기 때문이다.
뉴런의 활성화 값
Figure 112014050482468-pat00007
은 다음과 같이 계산된다.
Figure 112014050482468-pat00008
여기서, L은 모델의 레이어 개수이다.
3. 훈련 방법( Training Method )
오차 함수 E는 Kullback-Leibler 다이버전스를 이용하여 다음과 같이 결정된다:
Figure 112014050482468-pat00009
Figure 112014050482468-pat00010
여기서, T는 시퀀스의 길이이고, d는 라벨 시퀀스의 길이이며,
Figure 112014050482468-pat00011
은 표기법을 단순화하기 위해 시간 단계 t에서 시퀀스 주어진 경우 클래스 m 의 신뢰도를 나타내는
Figure 112014050482468-pat00012
로부터 재정의한 것이며,
Figure 112014050482468-pat00013
는 라벨 값이다.
입력 시퀀스가 클래스 c에 속하면,
Figure 112014050482468-pat00014
는 1로 설정되고,
Figure 112014050482468-pat00015
인 나머지는 0으로 설정된다. 모델이 지연된 교육을 따르기 때문에, 시퀀스의 마지막 d 시간 단계에서만 에러가 발생한다. 시간 단계 t에서 생성된 에러 때문에 Et가 이전 시간 단계로 전파되지 않으므로, CNN과 같은 피드 포워드 뉴럴 네트워크 모델은 지연된 교육을 사용할 수 없다.
반복적 뉴럴 네트워크 모델은 이전 시간 단계로 에러 전파할 수 있지만, 이 시간을 통해 빠르게 에러가 감쇠된다. 그러나, 제안된 모델은 전파된 에러의 감쇠를 줄이는 상위 레이어에서 큰 시정수를 갖아, 시퀀스의 마지막에서 발생된 에러의 적정량을 처음 시간 단계로 역 전파할 수 있도록 한다. 예를 들어, 시퀀스가 100개의 프레임을 갖아, 상위 레이어의 시정수가 100으로 설정되었다고 가정한다. 이 경우, 시간 단계 100에서 발생한 에러 E100은 시간 단계 1에서
Figure 112014050482468-pat00016
로 전파된다.
훈련 단계에서, 단계 n에서의 모델에 대한 모든 학습 파라미터들은 다음의 수학식으로 갱신된다.
Figure 112014050482468-pat00017
여기서, α는 학습 속도이다. 기존의 역-전파(back-propagation)에 의해 풀이되는 학습 파라미터에 대한 편미분
Figure 112014050482468-pat00018
은 다음과 같이 주어진다.
Figure 112014050482468-pat00019
Figure 112014050482468-pat00020
Figure 112014050482468-pat00021
여기서,
Figure 112014050482468-pat00022
이고,
Figure 112014050482468-pat00023
이며, Xl 및 Yl은 l 번째 레이어에서 특징 맵의 높이와 폭이다.
훈련 과정에서, 학습 속도 α가
Figure 112014050482468-pat00024
를 만족하는 파라미터
Figure 112014050482468-pat00025
에 의해 조정된다. 델타 에러 스케일은 출력 뉴런의 개수 NL 및 라벨 시퀀스의 길이 d에 의존 하기 때문이다.
파라미터
Figure 112014050482468-pat00026
은 0.1로 설정된다. 훈련을 가속화하기 위해, 단계 n에서 평균 제곱 오차가 단계 n-1에서 평균 제곱 오차 보다 작은 경우,
Figure 112014050482468-pat00027
에 1.05를 곱하고, 그렇지 않으면
Figure 112014050482468-pat00028
를 2로 나눈다.
모든 커널 웨이트와 바이어스들은 표준 편차가 0.05인 가우시안 분포에서 무작위로 선택된 값으로 초기화된다. 컨볼루션 레이어에서 뉴런의 초기 상태
Figure 112014050482468-pat00029
는 0으로 설정된다.
레이어의 개수, 특징 맵의 개수, 특징 맵 크기, 커널 크기, 단계 크기 및 시정수를 포함한 나머지 파라미터에 대해서는 모델 아키텍쳐 부분에서 이미 정의한 바 있다.
4. 학습형 다이내믹 시각 이미지 패턴 인식( Learnable Dynamic Visual Image Pattern Recognition )
MSTNN은, 계층 구조를 이용하여 하위 레벨에서는 시간적으로 빠르게 변화하는 정보를 공간적으로는 높은 해상도를 가지지만 좁은 수용 필드(receptive field)에서 오는 정보를 처리하고, 상위 레벨에서는 시간적으로 느리게 변화하는 정보를 공간적으로는 낮은 해상도를 가지지만 넓은 수용 필드(receptive field)를 가지는 정보를 처리한다. 때문에 하위에서 상위 레벨로 정보가 처리되면서 데이터에 내재되어 있는 여러 스케일의 시공간 정보들이 성공적으로 추출 혹은 처리될 수 있다.
도 3에 도시된 바와 같이, MSTNN은 뉴럴 활동이 각기 다른 타임 스케일의 다이내믹에 의해 제어되는 여러 레벨의 서브 네트워크들로 구성된다. l 번째 레벨의 타임 스케일은, 해당 레벨에서의 뉴럴 유닛들에 대해 설정된 시정수 파라미터 τl에 의해 결정된다. 각 뉴럴 유닛의 활성화 다이내믹은 시정수 파라미터 τl를 이용한 다음의 다음 미분 방정식을 따른다.
Figure 112014050482468-pat00030
여기서, ui는 i 번째 유닛의 포텐셜이고, wij는 j 번째 유닛부터 i 번째 유닛까지의 연결 웨이트이며, ai는 i 번째 유닛의 활성화 값이고, Ik는 k 번째 외부 입력 값이고, f()는 시그모이드(sigmoid) 함수와 같은 비선형 함수이다.
최하위 레벨은 비디오 프레임 입력 시퀀스를 수신한다.
최하위 레벨 이후, 가장 작은 시정수를 갖는 가장 빠른 다이내믹 서브 네트워크 부터 가장 큰 시정수를 갖는 가장 느린 다이내믹 서브 네트워크 까지, 여러 레벨의 서브 네트워크들이 배치된다.
각 서브 네트워크는 여러 특징 맵들로 구성되어 있다. 가장 느린 다이내믹 서브 네트워크의 상단에는, 출력 레이어가 위치하여, 비디오 프레임 입력 시퀀스에 대한 인식 결과를 출력한다. 출력 레이어(출력부)는, 단일 레이어 뿐만 아니라 여러 레이어를 포함하는 멀티 레이어일 수 있다.
전술한 여러 타임 스케일의 제약 조건 외에도, 각 레벨에 대한 특정 연결과 레티노토픽(retinotopic) 해상도의 할당에 의해, 모든 네트워크에 적용되는 여러 공간 스케일의 제약 조건이 있다.
각 레벨의 서브 네트워크에서 뉴럴 유닛들은 2차원 레티노토픽 기법으로 배치된다. 특정 레벨의 서브 네트워크에서 각 뉴럴 유닛은, 한 레벨이 다른 서브 네트워크에서 레티노픽적으로 가까운 로컬 뉴럴 유닛들과 한 레벨 위(top-down) 또는 한 레벨 아래(Bottom-up)로 연결되어 있다. 또한, 동일한 서브 네트워크 내에서 로컬 뉴럴 유닛들 간의 측면 연결이 있다.
즉, 한 레벨 위(top-down) 연결 외에도, 한 레벨 아래(Bottom-up) 연결 및 동일 레이어 안에서의 측면 연결(Bilateral)으로 확장가능하다.
레벨이 증가함에 따라 뉴럴 유닛들의 개수는 감소하기 때문에, 뉴럴 유닛의 수용 필드(receptive field)는 더 넓어지고, 해상도는 그에 따라 낮아진다.
모델 아키텍처는, 느린 다이내믹은 더 높은 레벨의 글로벌 연결을 유지하도록 하고, 빠른 다이내믹은 낮은 레벨의 수용 필드에서 국소적 주변 연결을 유지하도록 하여, 여러 시공간적 스케일들의 아이디어를 적용함으로써, 구성한다.
이 구성은 여러 단계의 추상화를 통한 처리에 의해 복잡한 다이내믹 시각 패턴 인식을 가능하게 한다.
5. 학습 및 인식 처리( Learning and recognition processes )
도 4에 도시된 바와 같이, MSTNN은 교육 출력 시퀀스에 연관된 비디오 시퀀스 세트에 대해 훈련된다. 교육 행 이미지 시퀀스에는 종단 표시(예를 들면, 블랭크 이미지)가 추가된다.
교육 출력 시퀀스는 지연 응답의 형태로 제공된다. 종단 표시가 오기 전에, 교육 출력이 모든 출력 유닛들에 대해 중간값을 가질 수 있음을 의미한다. 종단 표시 이후, 정확한 인식 결과를 나타내는 교육 출력 유닛이 활성화된다.
이는, 성공적인 훈련 이후, 동일한 카테고리의 시각 이미지 시퀀스를 인식하여 종단 표시 이후에는 동일한 출력 유닛이 활성화될 것을 기대할 수 있다.
도 5는 다수의 비디오 시퀀스 패턴 훈련 과정을 나타낸 흐름도이다. 도 5에 도시된 바와 같이, 입력 시퀀스에 대한 훈련 시퀀스를 획득하고(S110), 훈련 시퀀스의 종단에 종단 표시를 부가하여(S120), BPTT(Back-Propagation Through Time) 훈련이 수행된다(S130). 이후, 다음 시퀀스 추가하여(S140), S110단계부터 재수행한다.
네트워크 훈련 이후에는, 도 6에 도시된 바에 따라 비디오 시퀀스 인식이 수행된다. 도 6은 비디오 시퀀스 인식 과정을 나타낸 흐름도이다. 도 6에 도시된 바와 같이, 타겟 시퀀스를 획득하여(S210), 타겟 시퀀스의 종단에 종단 표시를 부가하고(S220), 타겟 시퀀스 인식을 위해, 출력 시퀀스 획득을 위한 다이내믹 연산을 수행한다(S230).
도 7은 학습형 다이내믹 시각 이미지 패턴 인식 시스템의 블럭도이다. 도 7에 도시된 바와 같이, 본 발명의 실시예에 따른 시스템은, 입력부(310), 학습부(320), 인식부(330) 및 출력부(340)를 포함한다.
입력부(310)는 비디오 시퀀스를 입력 받고, 학습부(320)는 도 5에 도시된 알고리즘에 따라 학습을 수행한다. 인식부(330)는 도 6에 도시된 알고리즘에 따라 인식을 수행하며, 출력부(340)는 학습 결과 및 인식 결과를 출력한다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
Layer 1 : 입력 레이어
Layer 2-4 : 컨볼루션 레이어
Layer 5 : 전체-연결 레이어

Claims (9)

  1. 제1 서브 네트워크가, 이미지를 입력받는 단계;
    적어도 하나의 제2 서브 네트워크가, 입력된 이미지를 한 레벨 위(top-down), 한 레벨 아래(Bottom-up) 및 동일 레벨(bilateral) 레이어들의 특징 맵들과 컨볼루션하는 단계; 및
    제3 서브 네트워크가, 컨볼루션을 통한 이미지 인식 결과를 출력하는 단계;를 포함하고,
    상기 적어도 하나의 제2 서브 네트워크는,
    각기 다른 타임 스케일의 다이내믹을 갖으며,
    서브 네트워크들에서 뉴럴 유닛들은,
    2 차원 레티노토픽 기법으로 배치되는 것을 특징으로 하는 다이내믹 이미지 패턴 인식 방법.
  2. 제 1항에 있어서,
    상기 제1 서브 네트워크에 인접한 제2 서브 네트워크의 타임 스케일은 빠르고,
    상기 제3 서브 네트워크에 인접한 제2 서브 네트워크의 타임 스케일은 느린 것을 특징으로 하는 다이내믹 이미지 패턴 인식 방법.
  3. 제 1항에 있어서,
    제2 서브 네트워크는 다수의 특징 맵들을 포함하는 것을 특징으로 하는 다이내믹 이미지 패턴 인식 방법.
  4. 삭제
  5. 제 1항에 있어서,
    상기 서브 네트워크들은,
    레벨이 증가할수록 뉴럴 유닛의 개수가 감소하고 해상도가 감소하지만, 수용 필드(receptive field)는 넓어지는 것을 특징으로 하는 다이내믹 이미지 패턴 인식 방법.
  6. 제 5항에 있어서,
    특정 레벨의 서브 네트워크에서 각 뉴럴 유닛은, 한 레벨이 다른 서브 네트워크에서 레티노픽적으로 가까운 로컬 뉴럴 유닛들과 한 레벨 위(top-down) 또는 한 레벨 아래(Bottom-up) 연결되는 것을 특징으로 하는 다이내믹 이미지 패턴 인식 방법.
  7. 제 6항에 있어서,
    동일한 서브 네트워크 내에서는, 로컬 뉴럴 유닛들이 측면으로 연결되는 것을 특징으로 하는 다이내믹 이미지 패턴 인식 방법.
  8. 제 7항에 있어서,
    상기 서브 네트워크들에 의한 훈련과 인식은, 지연 응답 방식으로 수행되는 것을 특징으로 하는 다이내믹 이미지 패턴 인식 방법.
  9. 이미지를 입력받는 입력부;
    상기 입력부를 통해 입력된 이미지를 한 레벨 위(top-down), 한 레벨 아래(Bottom-up) 및 동일 레벨(bilateral) 레이어들의 특징 맵들과 컨볼루션하는 인식부; 및
    컨볼루션을 통한 이미지 인식 결과를 출력하는 출력부;를 포함하고,
    상기 인식부는,
    각기 다른 타임 스케일의 다이내믹을 갖는 적어도 하나의 서브 네트워크로 입력된 이미지를 순차적으로 컨볼루션하며,
    서브 네트워크들에서 뉴럴 유닛들은,
    2 차원 레티노토픽 기법으로 배치되는 것을 특징으로 하는 다이내믹 이미지 패턴 인식 시스템.
KR1020140064272A 2014-05-28 2014-05-28 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법 KR101563569B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140064272A KR101563569B1 (ko) 2014-05-28 2014-05-28 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140064272A KR101563569B1 (ko) 2014-05-28 2014-05-28 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR101563569B1 true KR101563569B1 (ko) 2015-10-28

Family

ID=54429044

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140064272A KR101563569B1 (ko) 2014-05-28 2014-05-28 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101563569B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180037436A (ko) 2016-10-04 2018-04-12 한화테크윈 주식회사 다중 크기 컨볼루션 블록 층을 이용한 얼굴 인식 장치
WO2018106005A1 (ko) * 2016-12-11 2018-06-14 딥바이오 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 그 방법
WO2019074195A1 (ko) * 2017-10-13 2019-04-18 주식회사 수아랩 딥러닝 기반 이미지 비교 장치, 방법 및 컴퓨터 판독가능매체에 저장된 컴퓨터 프로그램
KR20190048279A (ko) 2017-10-31 2019-05-09 세종대학교산학협력단 합성곱 신경망 기반의 영상 처리 방법 및 장치
US11915119B2 (en) 2016-12-22 2024-02-27 Samsung Electronics Co., Ltd. Convolutional neural network (CNN) processing method and apparatus performing high speed and precision convolution operations

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008536211A (ja) * 2005-03-31 2008-09-04 フランス テレコム ニューラルネットワークを実現するオブジェクトイメージにおいて興味のあるポイントを位置決めするシステム及び方法
JP2012208597A (ja) 2011-03-29 2012-10-25 Canon Inc パターン識別装置、パターン識別方法及びプログラム
JP2015052832A (ja) 2013-09-05 2015-03-19 国立大学法人 東京大学 重み設定装置および方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008536211A (ja) * 2005-03-31 2008-09-04 フランス テレコム ニューラルネットワークを実現するオブジェクトイメージにおいて興味のあるポイントを位置決めするシステム及び方法
JP2012208597A (ja) 2011-03-29 2012-10-25 Canon Inc パターン識別装置、パターン識別方法及びプログラム
JP2015052832A (ja) 2013-09-05 2015-03-19 国立大学法人 東京大学 重み設定装置および方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Y. Yamashita, et al. Emergence of Functional Hierarchy in a Multiple Timescale Neural Network Model: A Humanoid Robot Experiment. PLoS Computational Biology. Nov. 2008, pp.1-18*

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180037436A (ko) 2016-10-04 2018-04-12 한화테크윈 주식회사 다중 크기 컨볼루션 블록 층을 이용한 얼굴 인식 장치
WO2018106005A1 (ko) * 2016-12-11 2018-06-14 딥바이오 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 그 방법
KR20180066983A (ko) * 2016-12-11 2018-06-20 주식회사 딥바이오 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 그 방법
KR101944536B1 (ko) 2016-12-11 2019-02-01 주식회사 딥바이오 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 그 방법
US11074686B2 (en) 2016-12-11 2021-07-27 Deep Bio, Inc. System for diagnosing disease using neural network and method therefor
US11915119B2 (en) 2016-12-22 2024-02-27 Samsung Electronics Co., Ltd. Convolutional neural network (CNN) processing method and apparatus performing high speed and precision convolution operations
WO2019074195A1 (ko) * 2017-10-13 2019-04-18 주식회사 수아랩 딥러닝 기반 이미지 비교 장치, 방법 및 컴퓨터 판독가능매체에 저장된 컴퓨터 프로그램
US10937141B2 (en) 2017-10-13 2021-03-02 Sualab Co., Ltd. Deep learning based image comparison device, method and computer program stored in computer readable medium
KR20190048279A (ko) 2017-10-31 2019-05-09 세종대학교산학협력단 합성곱 신경망 기반의 영상 처리 방법 및 장치

Similar Documents

Publication Publication Date Title
US9704257B1 (en) System and method for semantic segmentation using Gaussian random field network
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN107704857B (zh) 一种端到端的轻量级车牌识别方法及装置
KR102235745B1 (ko) 컨볼루션 순환 신경망을 훈련시키는 방법 및 훈련된 컨볼루션 순환 신경망을 사용하는 입력된 비디오의 의미적 세그먼트화 방법
KR101563569B1 (ko) 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법
US9798972B2 (en) Feature extraction using a neurosynaptic system for object classification
CN110826596A (zh) 一种基于多尺度可变形卷积的语义分割方法
CN107480726A (zh) 一种基于全卷积和长短期记忆单元的场景语义分割方法
CN109858487B (zh) 基于分水岭算法和图像类别标签的弱监督语义分割方法
CN107103285B (zh) 基于卷积神经网络的人脸深度预测方法
CN110674704A (zh) 一种基于多尺度扩张卷积网络的人群密度估计方法及装置
CN109583340A (zh) 一种基于深度学习的视频目标检测方法
CN112101207B (zh) 一种目标跟踪方法、装置、电子设备及可读存储介质
US20210217178A1 (en) Systems and Methods for Trainable Deep Active Contours for Image Segmentation
CN111931686B (zh) 一种基于背景知识增强的视频卫星目标跟踪方法
CN115605878A (zh) 使用基于自注意力的神经网络处理图像
Ma et al. Fusioncount: Efficient crowd counting via multiscale feature fusion
CN112464930A (zh) 目标检测网络构建方法、目标检测方法、装置和存储介质
CN113841162A (zh) 深度神经网络中的深度优先卷积
KR20200003444A (ko) 영상 모델 구축 장치 및 방법
CN112861718A (zh) 一种轻量级特征融合人群计数方法及***
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN114638408A (zh) 一种基于时空信息的行人轨迹预测方法
CN116863194A (zh) 一种足溃疡图像分类方法、***、设备及介质
US10643092B2 (en) Segmenting irregular shapes in images using deep region growing with an image pyramid

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181002

Year of fee payment: 4