KR101298393B1

KR101298393B1 - 그래픽 처리 유닛 상에서 콘볼루션 신경망을 트레이닝하는방법

Info

Publication number: KR101298393B1
Application number: KR1020087003564A
Authority: KR
Inventors: 시드하타 푸리
Original assignee: 마이크로소프트 코포레이션
Priority date: 2005-08-31
Filing date: 2006-08-17
Publication date: 2013-08-20
Also published as: CN101253493B; AU2006285161A1; EP1922637A4; RU2008107746A; US20070047802A1; IL189124A0; KR20080042083A; CA2619973A1; CN101253493A; RU2424561C2; WO2007027452A1; US7747070B2; EP1922637A1; BRPI0615219A2

Abstract

콘볼루션 신경망은 그래픽 처리 유닛 상에 구현된다. 상기 망은 오차 함수의 기울기에 따라 각 역방향 패스 상에서 수정된 콘볼루션 커널 및 바이어스 행렬과 함께 일련의 순방향 패스 및 역방향 패스을 통하여 트레이닝된다. 이것은 GPU 상의 픽셀 쉐이더 유닛의 병렬 처리 능력을 이용하여 구현되고, 픽셀 쉐이더 상에 연산을 프로그램하기 위하여 시작에서 종료까지의 일련의 공식이 이용된다. 텍스처를 통하여 프로그램에 대한 입력 및 출력이 이루어지고, 픽셀 쉐이더 유닛 레지스터에 걸쳐 합산이 요구되는 경우 다중 패스 합산 처리가 사용된다.

그래픽 처리 유닛, 신경망, 신경망 트레이닝, 콘볼루션 신경망, 콘볼루션

Description

그래픽 처리 유닛 상에서 콘볼루션 신경망을 트레이닝하는 방법{TRAINING CONVOLUTIONAL NEURAL NETWORKS ON GRAPHICS PROCESSING UNITS}

본 발명은 신경망을 트레이닝하는 방법에 관한 것이며, 상세하게는 그래픽 처리 유닛 상에서 콘볼루션 신경망을 트레이닝하는 방법에 관한 것이다.

신경망( Neural Networks )

문자 인식 및 이미지 인식과 같은, 컴퓨터에 관한 특정한 문제는 기계-학습 기술(machine-learning techniques)에 의하여 잘 처리될 수 있음이 알려져 있다. 이러한 기술 중에서 가장 주된 것은 신경망을 사용하는 것이다. 신경망은 상호접속된 뉴런(interconnected "neurons")이란 발상에 기반한 알고리즘의 한 분류이다. 일반적인 신경망에서 뉴런은 데이터 값을 포함하는데, 접속별로 사전 정의된 강도(pre-defiend strength) 및, 각 특정 뉴런에 대한 접속들의 합산이 사전 정의된 문턱값을 넘는지 여부와 같이 접속에 따라 각 데이터 값이 접속된 뉴런의 값에 영향을 미친다. 적절한 접속 강도 및 문턱값을 결정("트레이닝"이라고도 부르는 절차)함으로써, 신경망은 효과적으로 이미지 및 문자를 인식할 수 있다. 그룹 사이의 접속을 보다 명확히 하고, 값의 각 연산에 대한 것으로 만들기 위하여, 뉴런은 주로 "층(layer)"으로 그룹화된다.

도 1은 수기 문자 샘플(handwriting character sample) "m"(100)을 해석하는 신경망의 간략화된 블록도를 도시한다. 도시된 예시에서, 도시된 뉴런의 값은 0 또는 1 중 하나이다. 이것은 설명을 간략화하기 위한 것이며, 신경망의 뉴런에 존재할 수 있는 값의 유형 또는 범위를 한정하지 않는다. 도시된 예시에서, 입력 계층(110) 또는 "제0 계층"을 위한 값의 집합을 생성하기 위하여, 수기 샘플의 전자 이미지가 사용된다. 몇몇 구현례에서, 이것은 픽셀이 켜져 있는지 꺼져 있는지 여부에 따라 각 뉴런이 1 또는 0을 표시하도록 샘플(100)의 각 픽셀을 제0 계층의 특정 뉴런에 직접 맵핑(mapping)함으로써 이루어질 수 있다. 뉴런에 값을 할당하는 또 다른 예시 방법은 콘볼루션 신경망을 참조하여 이하에 논의된다. 신경망의 예측 불가능성 및 신경망으로 해결하려 하는 문제에 따라, 망의 각 계층은 상이한 수의 뉴런들을 가질 수 있는데, 이것들은 입력 데이터의 특정 품질에 연관될 수도 있고, 아닐 수도 있다.

도 1에 도시된 바와 같이, 제0 계층의 다양한 뉴런이 다음 계층인 제1 계층(120)의 뉴런과 접속된다. 완전 접속 신경망(fully-connected neural network)이라고 부르는 일 구현례에서, 특정 계층의 뉴런 각각이 다음 계층의 뉴런과 접속된다. 이것은, 도 1의 예시에서, 2개의 뉴런이 제1 계층의 모든 뉴런에 접속된 것을 도시함으로써 부분적으로 설명된다. 이어서, 제1 계층의 각 뉴런은 제0 계층의 각각의 뉴런으로부터 입력 값을 수신한다. 그리고 나서, 이 입력 값들이 합산되어 그 합산이 바이어스 또는 문턱값과 비교된다. 그 값이 특정 뉴런에 대한 문턱값을 초과하는 경우, 그 뉴런은 다음 뉴런 층에서 뉴런에 대한 입력으로 사용될 수 있는 양의 값을 갖는다. 이 연산은 신경망의 다양한 계층을 통하여 최종 계층(130) - 본 문서에서 '제n 계층'로 지칭됨 - 에 도달할 때까지 계속된다. 이 시점에서, 신경망 루틴의 출력이 제 n계층의 값으로부터 판독될 수 있다. 문자 인식에 사용된 망의 일 구현례에서, 특정 문자에 제n 계층의 각 값이 할당된다. 이 구현례에서, 망은 하나의 뉴런에 하나의 큰 양의 값만을 가지는 출력 계층으로 끝나도록 구성되고, 그 값은 망이 수기 입력 문자가 어떤 문자일 가능성이 가장 높다고 연산했는지를 표시한다.

그러나, 도 2에 도시된 바와 같이, 접속에 대한 연산이 복잡할 수 있다. 도 2는 이전 계층에 존재하는 값에 기반하여 뉴런 값을 연산하는 방법의 블록도이다. 도 2는 다양한 행렬을 도시하며, 행렬의 지수가 (또는 크기가) 계층별로, 망별로 변화할 것이고, 다양한 구현에 따라 행렬이 컴퓨터 메모리에 다르게 맵핑 또는 배향될 수 있음에 유의하여야 한다. 도 2에 도시된 바와 같이, 신경망을 구현하는 하나의 방법은 제0 계층 행렬(210)에 의해 도시된 것처럼, 각 수준을 뉴런 값의 행렬로 취급하는 것이다. 그러면, 접속 강도가 제0 계층 행렬(210)에 곱해지는 변환 행렬(220)로 구현될 수 있다. 이 곱셈은 정규 행렬 곱셈만을 통하여, 이전 계층의 각 값이 접속 강도에 따라 크기 조절된 후 합산될 수 있도록 할 수 있다. 곱셈이 수행된 후, 다음 수준의 각 뉴런의 문턱값을 제공하기 위하여 바이어스 행렬(230)이 곱 행렬에 더해진다. 그리고 나서, 시그모이드 함수(sigmoid function)(한 실시예에서는 tanh())가 각 결과값에 적용되어 문턱값을 넘었는지 여부를 판정하고, 결과값은 다음 계층을 위한 행렬에 위치된다. 이것을 "스쿼싱 함수(squashing function)"라고 부를 수 있다. 따라서, 도 2에 도시된 것처럼, 각 계층 사이의 접속 및 전체 망은 일련의 행렬로 표현될 수 있다. 이 행렬에 대해 적절한 값을 찾는 것이 신경망 트레이닝의 문제이다.

도 2는 신경망이 행렬로 구현될 수 있음을 도시하는데, 신경망의 연산 및 트레이닝은 이하에 기술된 것처럼 다수의 수학적인 연산들과 관련된다. 또한, 불완전 접속 신경망(non-fully-connected neural network)은 보다 고도로 복잡한 연산을 요구할 수 있다.

요 약

픽셀 쉐이더 프로그램은 그래픽 처리 유닛 상에서 콘볼루션 신경망을 효율적으로 트레이닝할 수 있게 한다. 예컨대, 콘볼루션 신경망은 그래픽 처리 유닛 상에서 일련의 텍스처로 구현된다. 망은 일련의 순방향 및 역방향 패스를 통하여 트레이닝되며, 오차 함수(error function)의 기울기에 따른 기울기 하강법(gradient descent method)에 의하여 각 역방향 패스 중에 수정된 바이어스 행렬 및 콘볼루션 커널을 포함한다.

구현은 GPU 상의 픽셀 쉐이더 유닛의 병렬 처리 능력을 이용하여, 순방향 및 역방향 패스를 효과적으로 동시에 연산한다. 또한, 픽셀 쉐이더 유닛 상에서 연산을 수행하기 위하여 모든 공식들의 예시적인 집합을 이용한다. 한 예시에서, 텍스처를 통하여 프로그램에 대한 입력 및 출력이 행해지고, 이는 연산 중에도 동작된다. 또 다른 예시에서, 픽셀 쉐이더 유닛의 레지스터 전체에 걸쳐 합산이 요구되는 경우 다중 패스 합산 처리(multi-pass summation process)가 사용된다. 다양한 기술 및 시스템은 조합되거나 독립적으로 사용될 수 있다.

본 요약은 이하의 실시예에 자세히 기술된 기술적 사상의 선택을 간략화된 형태로 소개하기 위하여 제공된다. 본 요약은 청구된 기술적 사상의 중요한 특징 또는 필수적인 특징을 식별하는 것으로 의도된 것이 아니며, 청구된 기술적 사상의 범위를 판정하는데 보조로 사용되는 것으로 의도된 것도 아니다.

부가적인 특징 및 이점은 첨부된 도면을 참조하여 진행될 이하의 실시예의 상세한 설명으로부터 명백해질 것이다.

도 1은 종래의 완전 접속 신경망의 블록도.

도 2는 완전 접속 신경망의 2개 계층 사이의 접속에 대한 행렬 구현의 블록도.

도 3은 그래픽 처리 유닛 아키텍처의 블록도.

도 4a 및 4b는 수기 샘플에 대한 콘볼루션 커널의 동작의 두 가지 예시의 블록도.

도 5는 그래픽 처리 유닛 상의 콘볼루션 신경망을 위한 대표적인 트레이닝 프로세스의 흐름도.

도 6은 그래픽 처리 유닛 상의 연산을 위하여 신경망 데이터를 준비하기 위한 하위 프로세스의 흐름도.

도 7은 다중 패스 합산의 한 예시의 블록도.

도 8은 도 6의 콘볼루션 신경망 기술을 구현하기 위하여 적합한 연산 환경의 블록도.

이하의 설명은 그래픽 처리 유닛 아키텍쳐("GPU" architecture) 상에서 콘볼루션 신경망을 트레이닝하는 것에 관한 것이며, 상세하게는 수기 인식에 관한 것이다. GPU는 입력 데이터에 대해 순방향 패스 및 역방향 패스를 반복하여 수행하면서, 각 패스 중에 신경망을 포함하는 행렬을 수정 및 개량한다. 여기에 설명된 기술들 중의 다수가 GPU의 효율성을 이용하도록, 그리고 GPU 상에서 효율적으로 실행될 수 있게 설계된 픽셀 쉐이더 프로그램들을 이용하도록 설계되었다.

1. GPU 아키텍처

본 문서에 설명된 기술들은 그래픽 처리 유닛 상에서 구현된다. 그래픽 처리 유닛의 한 예가 도 1에 도시되어 있고, 그것은 종래의 GPU 아키텍쳐(300)의 간략화된 개관을 도시한다. 한 구현에서, GPU 아키텍처는 도 8에 도시된 GPU(815)에 대응한다. 렌더링된 이미지의 기하형상(geometry)을 기술하는 디스플레이 데이터(305)는 버텍스 쉐이더 유닛(310)으로 입력되고, 유닛(310)에서 기하학적인 형상이 폴리곤으로 표현(polygonal representation)된다. 이 기하학적 형상은 래스터라이저로 입력되고, 래스터라이저는 폴리곤들을 내삽 및 샘플링하여 이미지 공간에 점들의 샘플 집합을 만들며, 그러면 그 점들은 쉐이딩될 수 있고, 그것들에 부가된 텍스처를 가질 수 있다. 이 점들은 일련의 프로그램 가능한 픽셀 쉐이더 유닛(330)으로 전달되고, 유닛은 병렬 연산 기술을 이용하여 점들의 쉐이딩뿐만 아니라 텍스처의 추가 및 조작을 수행한다. 병렬 연산을 수행하는 능력과 더불어 텍스처를 조작하는 능력 때문에 GPU, 특히 픽셀 쉐이더 유닛은 신경망 연산을 위한 플랫폼으로 유용하다. 픽셀 쉐이더 유닛 연산은 픽셀 쉐이더 유닛을 이용하기 위하여 작성된 GPU 실행가능 프로그램인 픽셀 쉐이더 프로그램의 제어 아래 빈번하게 수행된다.

컴퓨터 CPU에 의하여 트레이닝 전에 그래픽 메모리(350)로 미리 로드될 수 있는 텍스처는 텍스처 캐시(340)에 캐싱(caching)된다. 처리가 끝나면, 이미지 점들은 그래픽 메모리(350)로 전송되기에 앞서 프레임 버퍼(360)에 위치될 수 있다. 그러나, 본 발명의 다양한 구현에서, 신경망으로의 입력 데이터뿐만 아니라 출력 데이터도 텍스처에 보존될 것이다. 따라서, 다양한 구현에서 프레임 버퍼로 출력된 이미지 점들은 무시되거나, 전혀 생성되지 않는다.

2. 콘볼루션 신경망

적절히 트레이닝된 경우, 상기 기술된 완전 접속 신경망은 수기 문자를 인식할 수 있지만, 입력에 대해 동작하는 경우 주로 형태 및 근접성을 이용하는데 실패한다. 그 이유 중 하나는 모든 픽셀들이 인접 셀들을 무시하고 독립적으로 동작하기 때문이다. 이러한 이유로, 단일한 값 대신에 값들의 배열을 각 뉴런과 연관시킴으로써 동작하는 콘볼루션 신경망이 사용된다. 개념적으로, 이 배열을 작은 이 미지 패치로 생각할 수 있다. 후속 계층을 위한 뉴런 값의 변환은 곱셉으로부터 콘볼루션으로 일반화될 수 있다. 이는 접속 강도(230)가 스칼라 값이 아니고 콘볼루션 커널이라는 것을 의미한다. 도 4a 및 4b는 문자 샘플 "m"(400)에 대해 동작하는 콘볼루션 커널의 두 가지 예를 도시한다. 도 4a에서, 샘플은 수직선을 표현하는 콘볼루션 커널(410)과 조합된다. 그 결과인 픽셀 패치(420)는 샘플에 존재하는 3개의 수직선을 포함한다. 유사하게, 도 4b에서, 수기 샘플(450)은 우상단 방향의 대각선을 표현하는 콘볼루션 커널(460)과 조합된다. 이것은 입력 문자의 2개의 수직선들을 포함하는 픽셀 패치(460)로 귀착된다. 도 4a 및 4b에 도시된 바처럼, 2개의 결과 패치는 픽셀 근접성을 유지하면서 문자에 대한 상이한 정보를 표시한다. 이는 보다 효과적인 문자 인식을 가능하게 할 수 있다.

그러나, 이렇게 보다 복잡한 변환들은 보다 복잡한 신경망 행렬과 관련된다. 따라서, 완전 접속 망에서 행렬은 숫자 값의 배열을 포함하는 반면, 콘볼루션 신경망에서는 각 행렬 요소가 직사각형 (또는 정사각형) 픽셀 패치이며, 유사하게, 바이어스 행렬은 패치를 포함하고, 각 패치의 각 요소에 대하여 시그모이드 함수가 수행된다. 또한, 간단한 행렬 곱셈에 비하여, 콘볼루션 신경망에서의 연산들은 보다 복잡한 수학을 포함하고, 향상된 병렬 연산도 요구된다. 콘볼루션 신경망의 구현의 기초를 이루는 연산의 한 예가 이하에(4절) 기술된다. 콘볼루션 망에 대한 부가적인 정보는 P.Y.Simard, D.Steinkaus 및 J.C. Platt, "Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis," Proc.International Conference on Document Analysis and Recognition, pp. 958- 962, 2003에서 찾을 수 있고, 이것은 본 명세서에 참조문헌으로 편입된다.

3. 트레이닝 프로시저

도 5는 콘볼루션 신경망을 트레이닝하기 위한 예시 프로세스(500)를 도시한다. 프로세스(500)의 다양한 구현에서, 동작은 제거 또는 조합되거나, 하위 동작으로 분할될 수 있다. 트레이닝할 신경망뿐만 아니라 트레이닝 샘플들도 수신하는 동작(510)에서 절차가 시작된다. 일반적인 구현례에서, 망은 샘플 콘볼루션 커널 및 샘플 바이어스로 미리 설정될 수 있지만, 일관되고 효과적인 결과를 제공하도록 각각 개량될 필요가 있다. 트레이닝 샘플은 일반적으로 (수만 개 단위의) 다수의 수기 문자 샘플과 관련되고, 또한, 각 샘플이 해석되어야 할 정확한 글자를 표시한다. 그리고, 동작(520)에서 샘플 및 신경망 행렬과 같은 신경망 데이터는 GPU(300)의 픽셀 쉐이더 유닛(330)에 의하여 그래픽 데이터로서 다루어질 수 있도록 준비된다. 이 동작에 대한 예시 프로세스가 도 6을 참조하여 이하에 상세히 기술된다. 한 실시예에서, 두 동작(510 및 520) 모두가 GPU(815)와 연관된 CPU에 의하여 수행된다. 또 다른 실시예에서, 모든 준비는 GPU(815)에 의하여 수행된다.

도 5가 도시한 바와 같이, 각 샘플은 콘볼루션 신경망으로 입력될 것이고, 출력이 계산되어 망이 문자 인식을 얼마나 적절하게 하는지를 판정한다. 이것을 "순방향 패스"라고 부른다. 나아가, "역방향 패스"라고 부르는 것을 통하여 망을 구성하는 각 행렬에 관한 오차의 정도가 결정되고, 행렬을 수정하여 오차를 조정한다. 범용 GPU 프로그래밍의 일반적인 관례에 따라, 본 문서에 기술된 구현례는 일 련의 픽셀 쉐이더 프로그램로 작성될 수 있다.

이리하여, 동작(530)에서 GPU는 각 샘플 입력에 대하여 루프에 들어간다. 동작(540)에서 순방향 패스가 신경망으로 전파되어 주어진 샘플에 대한 출력을 결정한다. 다음으로, 동작(550)에서, 신경망이 기대 출력으로부터 얼마나 멀리 떨어져 있는지를 계산하기 위하여 오차 함수가 사용된다. 이어서, 동작(560)에서, 오차 함수에 대한 기울기 함수가 결정된다. GPU는 각 신경망 행렬의 각 요소에 대한 오차의 편도함수를 포함하는 기울기 함수를 연산함으로써, 기울기 하강법에 따라 각 행렬을 얼마나 조정해야 하는지를 계산할 수 있다. 그리고, 동작(570)에서, 콘볼루션 커널 및 바이어스를 포함하는 행렬이 기울기 함수에 따라 수정된다. 동작들(550, 560 및 570)은 집합적으로 "역방향 패스"로 알려져 있는데, 출력 오차 정보를 획득하여 그것을 각 신경망 행렬을 위해 요구되는 수정을 결정하는데 사용하기 때문이다. 순방향 패스 및 역방향 패스에서 사용된 공식의 한 실시예의 예시가 4절에서 기술된다. 마지막으로, 동작(580)에서, 샘플 입력이 남아 있는 한, 방법(500)의 순방향 패스/역방향 패스 단계가 반복된다. 샘플 입력이 끝나면, 망은 입력을 통하여 트레이닝되어 있고, 프로세스가 종료된다.

도 6은 프로세스(500)의 동작(520)에서 신경망 데이터를 그래픽 데이타로 준비하기 위한 예시 프로세스(600)를 도시한다. 프로세스(600)의 다양한 구현들에서, 동작은 제거 또는 조합되거나, 하위 동작으로 분할될 수 있다. 동작(610)에서 프로세스가 시작되어, 전체 뷰포트를 커버하는 하나의 삼각형으로 구성된 장면을 생성한다. 프로세스는 이를 통해 래스터라이저 및 GPU의 다른 단(stage)들이 연 산 결과에 영향을 주는 것을 막아서, 픽셀 쉐이더 연산에 집중할 수 있게 된다.

바람직한 실시예에서, 각각의 데이터 병렬 변수는 2차원 텍스처로 저장된다. 그러나, 일부 변수들은 2차원 이상이기 때문에, 그것들은 동작(620)에서 2차원 텍스처로 임베디드된다. 예컨대, 변수

는 이하의 공식들에 따라

로 "평평해질" 수 있다(표시법에 관한 설명은 4절 참조).

(3.1)

(3.2)

다음으로, 동작(630)에서, 텍스처에 대하여 좌표계가 결정된다. 이것은 픽셀 쉐이터 유닛이 "픽셀"에 대하여 동작하도록 설계되기 때문에 필수적인 것이며, 각 "픽셀"(이 경우에는 콘볼루션 망 행렬의 한 요소)의 위치가 결정되어야 한다. 주로 사용되는 하나의 방법은 버텍스 쉐이더에게 제공된 삼각형의 버텍스를 "텍스처 좌표" 정보와 연관시키는 것이다. 그러면 GPU는 각 출력 픽셀에서 텍스처 좌표의 값을 내삽할 수 있고, 그 내삽된 값을 픽셀 쉐이더 유닛 레지스터 중 하나에 공급할 수 있다. 이것은 픽셀의 독자성을 확립하기 위해서 사용될 뿐만 아니라, 픽셀 쉐이더 프로그램을 실행하는 동안 요구되는 값을 미리 연산하기 위해서도 사용될 수 있다.

그러나, 래스터라이저의 내삽 함수를 의미 있는 사용하는 경우, 프로그램들이 버텍스 데이터를 각 전달 전에 적절히 설정할 필요가 있게 된다. 데이터를 설 정하기 위한 오버헤드(overhead)는 미리 연산된 값으로부터 얻을 수 있는 임의의 이득을 능가할 수 있다. 대안적인 구현은 마이크로소프트사(Microsoft Corporation)의 ShaderModel 3.0 및 그것의 vPos 레지스터를 이용하는 것이다. 이 레지스터는 그것의 x 성분 및 y 성분에 출력 텍스처의 좌상단으로부터의 정수 오프셋을 포함한다. 그래서, 입력 텍스처로부터 값을 검색하기 위하여 요구되는 주소는 vPos의 간단한 선형 조합이 된다. 결정된 좌표계를 이용하여, 프로세스는 동작(630)에서 텍스처를 생성할 수 있다. 마지막으로, 단계(640)에서, 프로세스가 시작되기 전에 텍스처가 GPU로 로딩된다. 한 실시예에서, GPU가 시스템 메모리를 액세스하여 연산 시간이 길어지는 것을 방지하기 위하여, 가능한 한 다수의 텍스처가 그래픽 메모리로 로딩된다. 이 시점에서 프로세스가 종료된다.

4. 구현 및 도출( Derivation )

다른 구현례에서는 다른 시스템이 사용될 수 있지만, 여기에서 모든 예제들은 ShaderModel 3.0 픽셀 쉐이더 시스템을 이용한 것이다. 상기에 논의된 바와 같이, 신경망은 임의의 숫자 N개의 뉴런 계층을 포함하고, 각 뉴런은 숫자 값을 갖는다. 이 절에서, 제v 계층을 l ^v 로 지칭한다. l ^v 는 벡터로서, 그 길이를 n ^v 로, i번째 요소를 l _i ^v 로 표시한다. 각 계층 l ^v ⁺ ¹ 는 "학습 파라미터들(learned parameters)"인 K ^v 및 b ^v 를 사용하여 이전 계층 l ^v 로부터 연산된다. 트레이닝 프로세스의 목표 는 이 파라미터를 위한 양호한 값을 찾는 것이고, 이 기술은 기울기 하강법에 의하여 이를 수행한다. 표기상의 편의를 위하여, 조건부 연산자 I _{c} 를 사용하며, 이것은 조건 c가 참인 경우 1과 같고, 그렇지 않으면 0과 같다. 여기에 기술된 도출에 의해 신경망 트레이닝을 위한 공식이 제공되고, 트레이닝 기술의 수행에 있어 픽셀 쉐이더 프로그램의 발동 회수를 줄이기 위하여, 공식은 간략화되고 대수적으로 결합된다.

4.1 완전 접속 망 - 순방향 패스

콘볼루션 신경망의 경우를 이해하기 위하여, 비교적 간단한 경우로서, 계층 개수 N이 2인 완전 접속 망과 비교하는 것이 도움이 될 것이다. 이 경우, 각 계층이 이전 계층으로부터 연산되는 순방향 패스 중에, l ^v ⁺ ¹ 는 다음과 같이 연산된다.

(4.1)

0≤v<N 인 경우이다. 여기에서, σ는 tanh의 요소 단위(element-wise) 적용을 표현하는 "스쿼싱 함수"이고, K ^v 는 2개 계층 사이의 접속 강도를 표현하는 n ^v ⁺¹ × n ^v 행렬이며, b ^v 는 바이어스를 표현하는 길이 n ^v ⁺¹ 의 벡터이다.

4.2 완전 접속 망 - 오차 함수

문자에 대한 분류자로서 출력 계층 l ^N 을 사용하기 위하여, n ^N 개의 분류를 구 별하고, 입력이 분류 i에 소속될 확률

의 척도로서 l ₁ ^N 을 가진다. 이를 유효한 확률로 바꾸기 위하여, "소프트맥스(softmax)" 함수를 사용하여 이를 표준화한다.

(4.2)

주어진 현재 입력의 올바른 분류가 t인 경우, 이상적인 계산 결과는

이어야 한다. 이 원리로부터의 전체 도출 E는 "크로스 엔트로피(cross-entropy)" 공식을 사용하여 측정될 수 있다.

(4.3)

4.3 완전 접속 망 - 역방향 패스

상기 기술된 바처럼, 신경망의 다양한 파라미터를 트레이닝하기 위하여, 기울기 하강법이 사용된다. 이것은 파라미터 K _v 및 b _v 각각에 대한, 오차 함수 E의 편도함수를 찾는 것과 관련된 것이다. 간단히 표기하기 위하여, 이하를 도입한다.

(4.4)

여기에서 □는 요소 단위 곱셈을 표시하고, σ'은 tanh의 요소 단위 적용이다. 등식 (4.4)에 E의 정의를 대입하여 이하의 등식을 얻을 수 있다.

(4.5)

(4.6)

이것으로부터, 0≤v<N 인 경우 이하와 같은 결론을 내릴 수 있다.

(4.7)

(4.8)

여기에서

는 외적을 표시한다. 또한, 0≤v<N 인 경우 이하와 같은 결론을 내릴 수 있다.

(4.9)

여기에서 ( K ^v ) ^T 는 K ^v 의 전치 행렬을 표현한다.

전술한 등식은 이하와 같이 구현되어 파라미터를 갱신함으로써 신경망 파라미터를 수정할 수 있다.

(4.10)

(4.11)

0≤v<N 인 경우이며, γ는 학습율(learning rate)을 표현한다. 한 실시예에 서, 이 학습율은 10^-3으로 설정된다.

4.4 콘볼루션 신경망 - 순방향 패스

완전 접속 신경망과는 대조적으로, 콘볼루션 망에서는 계층의 각 요소 l_i ^v는 스칼라가 아니고, p ^v × p ^v 정사각형 숫자 패치이다. 유사하게, K^v _i _,j는 s ^v × s ^v 크기의 콘볼루션 커널을 표시하는 것으로 사용될 것이고, b _i ^v 는 p ^v ⁺¹ × p ^v ⁺¹ 바이어스 패치를 표시하는 것으로 사용될 것이다. 계층, 바이어스 및 커널의 개별 요소는 각각 I ^v _<i><x,y> , K ^v _<i,j><x,y> 및 b ^v _<i><x,y> 로 기술될 것이다.

l ^v ⁺¹ 을 연산하기 위한 공식은 완전 접속된 경우에 대해 알려진 공식과 유사하다.

(4.12)

그런데, 여기에서 * 기호는 다소 드문 연산을 표시하는 것으로 사용되었다. 그것은 직관적으로 행렬 벡터 곱셈과 유사하지만, 최내측 연산(innermost operation)이 스칼라의 곱셈이 아니라 패치의 콘볼루션 및 서브샘플링이다. 더 정확하게는, l ^v 가 p ^v × p ^v 패치의 길이 n ^v 인 벡터이고 K ^v 는 s ^v × s ^v 커널의 n ^v ⁺¹ × n ^v 행렬 인 경우, w= K ^v * l ^v 는 w가 p ^v ⁺¹ × p ^v ⁺¹ 패치의 길이 n ^v +1인 벡터이고 이하의 등식이 성립함을 의미한다.

(4.13)

(4.14)

p ^v , s ^v =1인 경우, 등식 (4.12), (4.13) 및 (4.14)가 완전 접속 망을 위한 등식으로 정리된다는 점에서, 상기의 등식이 완전 접속된 경우를 위한 일반화된 등식임을 보일 수 있다.

4.5 콘볼루션 신경망 - 오차 함수

완전 접속 망에서의 오차 함수에 대하여 상기 기술된 등식은 콘볼루션 망에도 적용된다.

4.6 콘볼루션 신경망 - 역방향 패스

상기에 언급된 바와 같이, 역방향 패스 중에는, 네트워크에서의 각 변수에 대한 E의 편도함수를 이용하여 E의 기울기가 얻어진다. 이하의 식으로부터 시작한다.

(4.15)

여기에서 □는 요소 단위 곱셈을 표시하고, σ'은 상기 기술된 바처럼 "스쿼싱 함수"로서 사용된, tanh의 요소 단위 적용이다. 등식 (4.15)로부터, 도함수들은 다음과 같이 요약된다.

(4.16)

(4.17)

(4.18)

여기에서 ( K ^v ) ^T 는 K ^v 의 전치 행렬을 표현한다.

이 응용예에서 사용된 연산자 *' 및

는 표준이 아님에 유의하여야 한다.

연산자는 외적과 유사하지만, 최내측 곱셈이 콘볼루션 및 서브샘플링으로 대체된 것이다.

는 p ^v ⁺¹ × p ^v ⁺¹ 패치의 길이 n ^v ⁺¹ 인 벡터이고, l ^v ⁺¹ 은 p ^v × p ^v 패치의 길이 n ^v 인 벡터인 경우, M=

l ^v 는 M이 s ^v × s ^v 패치의 n ^v ⁺¹ × n ^v 행렬이며 이하의 등식이 성립함을 의미한다.

(4.19)

및

(4.20)

*' 연산자는 콘볼루션 인수(convolution argument)를 줄이는 것이 아니라 확장하므로, * 연산자의 반대에 가깝다. M은 s ^v × s ^v 커널의 n ^v × n ^v ⁺¹ 배열이고,

은 p ^v+1 × p ^v ⁺¹ 패치의 길이 n ^v ⁺¹ 인 벡터인 경우, u=M*'

는 u가 p ^v × p ^v 패치의 길이 벡터이고 이하의 등식이 성립함을 의미한다.

(4.21)

(4.22)

여기에서 "*' cond"는 이하의 4개의 조건 모두를 충족시키는 것과 동등한 것이다.

(4.23)

(4.24)

(4.25)

및

(4.26)

상기와 같이, p ^v , s ^v =1인 경우, 위의 등식들은 완전 접속 망을 위한 등식으로 정리된다.

4.7 다른 계층의 모델링

실제로는, 콘볼루션 신경망은 콘볼루션 계층 및 완전 접속 계층, 즉 p ^v , s ^v >1인 일부 계층 및 p ^v , s ^v =1인 일부 계층을 모두 포함한다. 각 계층은 (그것이 완전 접속된 경우의 일반화이므로) 콘볼루션 계층으로서 수학적으로 모델링될 수 있고, 완전 접속 계층을 특별한 경우로 감지하여 더 간단한 공식을 사용하는 경우 좀더 효과적인 연산이 가능해진다.

또한, "과도" 계층("transitional" layer)으로 부를 수 있는 또 다른 특별한 경우가 있다. 이것은 p ^v , s ^v >1이지만 p ^v ⁺¹ =1인 경우이다. 이 경우에, 순방향 패스는 다음과 같이 간략화된다.

(4.27)

유사하게, 역방향 패스는 다음과 같이 간략화된다.

(4.28)

및

(4.29)

4.8 다중 패스 합산

픽셀 쉐이더 유닛의 데이터 병렬 특성은 합산 수행을 어렵게 만든다. 각 픽셀에서의 결과는 다른 픽셀에서의 결과에 의존하지 않기 때문에, 효율성을 회복하기 위해서 각 패스가 수평으로 인접한 어떤 고정된 개수의 패치끼리 합산하도록 몇 개의 패스에서 합산할 수 있다. A는 p×p 패치의 n×m 배열인 경우, 함수 S _r 은 다음과 같이 정의될 수 있다.

(4.30)

이 다중 패스 합산의 한 예시가 도 7에 도시된다. 도 7에서, 행렬(710)은 각 행별로 합산될 것이 요구된다. 하나의 행이 예시 행으로서 도시된다. 도 7의 예시에서, 첫 번째 4개의 요소가 합산되어 과도 합산 행렬(transitional sum matrix; 720)에서의 그 행의 제1 요소가 되도록, 행렬은 4개씩 짝지어져 합산된다. 유사하게, 두 번째 4개 요소가 합산되어 그 행의 제2 요소가 되는 등이다. 그리고 나서, 제2 패스에서는, 4개의 과도 합산 행렬 요소가 합산되어 그 행의 최종 합산이 산출된다.

4.9 조건문들의 구현

GPU의 단일 명령 복수 데이터(SIMD: Single-Instruction, Multiple Data) 특성으로 인하여, 조건문 수행은 상당한 부담일 수 있다. 다수의 픽셀 쉐이더 프로그램 코딩 방안에, 이러한 조건문들을 인코딩하기 위한 몇 가지 다양한 방법들이 존재한다. 그러나, 테스트롤 통해 if 명령, cmp 명령 및 (p0) 술어(predicate) 각각은 느리다는 것이 판명되었다.

이를 피하기 위해서, 조건문이 경계 조건(edge condition)들을 조사하는 경우, 그 조건문을 완전히 제거하고, GPU의 입력단을 "경계 색 샘플링( border color sampling)"으로 설정하는 것이 효과적인 해결책임이 판명되었다. 이것은 텍스처의 규정된 영역 바깥으로의 모든 액세스에 대해 0을 반환하도록 하는 것이다. 경계 조건문이 아닌 경우에는 그 조건이 참인 경우에 한해서 0보다 큰 부동소수점 숫자로 조건을 인코딩하는 것이 가장 효율적임이 판명되었다. 이 숫자는 충분히 큰 인자를 가진 mul_sat 명령을 사용함으로써 정확하게 0 또는 1이 되도록 정규화될 수 있다. 이것은 공식들에서 사용된 것처럼, I _{c} 를 재생성할 것이다.

4.10 기타 구현 세부사항들

GPU 상의 각 패스는 연산 수행에 필요한 시간 외에도, 고정된 성능 오버헤드를 그 자체로 내포한다. 또한, GPU 드라이버에 포함되는 컴파일러는 픽셀 쉐이더 프로그램 전체를 최적화하기 위한 방법을 거의 가지고 있지 않다. 이러한 모든 요 인으로 인하여, 각 픽셀 쉐이더 프로그램이 가능한 한 많은 연산을 하도록 합동하는 것이 좋은 성능을 달성하는데 중요해진다.

CPU를 위해 설계된, 콘볼루션 신경망의 현존하는 구현은 각각의 개념적인 연산 구성 요소를 개별적인 함수, 예컨대 콘볼루션, 서브샘플링 및 그것들의 도함수로 취급한다. 모든 공식에 대한 전술한 분석적인 도출은 오버헤드를 줄이기 위한, GPU에 특화된 최적화를 제공한다.

또한, GPU 상의 할당 및 할당 취소(deallocation)는 비용이 많이 드는 동작이므로, 비용을 최소화하기 위하여, 바람직한 구현례에서는 프로세스가 시작하면서 모든 픽셀 쉐이더 프로그램이 정의되고, 모든 텍스처가 할당되어서 완료될 때까지 재사용된다. CPU에서 GPU로의 데이터 전송은 보통 비용이 많이 드는 것으로 생각되지만, 데이터량이 상대적으로 적기 때문에 최적화 없이도 대량의 시간을 희생하지 않고 행해질 수 있다. 예컨대, 한 실시예에서, 입력(주로 29×29 픽셀) 및 정확한 분류에 대응하는 픽셀 패치만이 각 트레이닝 샘플에 대하여 전송될 필요가 있을 뿐이다.

5. 연산 환경( Computing Environment )

상기 기술된 신경망 트레이닝 기술은 디지털 매체 신호 처리가 수행되는 임의의 다양한 장치 상에서 수행될 수 있으며, 상기 장치는 다른 예들 중에서 컴퓨터, 이미지 및 비디오의 기록, 전송 및 수신 장치, 휴대용 비디오 재생기, 화상 회의 장치 등을 포함할 수 있다. 기술은 하드웨어 회로에서 구현될 수 있을 뿐만 아 니라, 도 8에 도시된 것처럼, 컴퓨터 또는 다른 연산 환경 내에서 실행되는 디지털 매체 처리 소프트웨어에서도 구현될 수 있다.

도 8은 기술된 실시예가 구현될 수 있는 적합한 연산 환경(800)의 일반화된 예를 도시한다. 연산 환경(800)은 본 발명의 기능 또는 용도의 범위에 대해 임의의 한정을 제안하기 위한 것으로 의도된 것이 아니며, 본 발명은 다양한 범용 또는 특수 목적 연산 환경에서 구현될 수 있다.

도 8을 참조하면, 연산 환경(800)은 적어도 하나의 처리 유닛(810), GPU(815) 및 메모리(820)를 포함한다. 도 8에서, 이러한 가장 기본적인 구성(830)은 파선 내에 포함된다. 처리 유닛(810)은 컴퓨터 실행가능 명령어를 실행하며, 현실 프로세서 또는 가상 프로세서일 수 있다. 다중 처리 시스템에서, 다수의 처리 유닛이 컴퓨터 실행가능 명령어를 실행하여 처리 능력을 향상시킨다. 메모리(820)는 휘발성 메모리(예컨대, 레지스터, 캐시, RAM), 비휘발성 메모리(예컨대, ROM, EEPROM, 플래시 메모리 등) 또는 두 가지 메모리의 어떤 조합이 될 수 있다. 메모리(820)는 기술된 인코더/디코더 및 효율적인 변환 계수 인코딩/디코딩 기술을 구현하는 소프트웨어(880)를 저장한다. GPU(815)는 하나의 보드 상에서 처리 유닛(810)과 통합되거나, 또는 별개로 포함될 수 있다. 한 구현에서, GPU(815)는 도 3에 도시된 것과 같은 아키텍처를 갖는다.

연산 환경은 부가적인 특징을 가질 수 있다. 예컨대, 연산 환경(800)은 저장소(840), 하나 이상의 입력 장치(850) 및 하나 이상의 출력 장치(860) 및 하나 이상의 통신 접속(870)을 포함한다. 버스, 제어기와 같은 (도시되지 않은) 상호접 속 메카니즘 또는 네트워크는 연산 환경(800)의 구성 요소들을 상호접속시킨다. 일반적으로 (도시되지 않은) 운영 체제 소프트웨어는 연산 환경(800)에서 실행되는 다른 소프트웨어를 위한 동작 환경을 제공하고, 연산 환경(800)의 구성 요소의 동작을 조정한다.

저장소(840)는 착탈식 또는 비착탈식일 수 있고, 자기 디스크, 자기 테이프 또는 카세트, CD-ROM, CD-RW, DVD 또는, 정보를 저장하는데 사용될 수 있고 연산 환경(800) 내에서 액세스될 수 있는 임의의 다른 매체를 포함한다. 저장소(840)는 기술된 신경망 트레이닝 기술을 구현하는 소프트웨어(880)를 위한 명령어를 저장한다.

입력 장치(850)는 키보드, 마우스, 펜 또는 트랙볼과 같은 접촉 입력 장치, 음성 입력 장치, 스캐닝 장치 또는 연산 환경(800)에 입력을 제공할 수 있는 또 다른 장치일 수 있다. 오디오의 경우, 입력 장치(850)는 아날로그 또는 디지털 형태로 오디오 입력을 받아들이는 유사한 장치 또는 사운드 카드이거나, 연산 환경에 오디오 샘플을 제공하는 CD-ROM 기록기일 수 있다. 출력 장치(860)는 디스플레이, 프린터, 스피커, CD-기록기 또는 연산 환경(800)으로부터 출력을 제공받는 또 다른 장치일 수 있다.

통신 접속(870)은 통신 매체를 통하여 또 다른 연산 장치(computing entity)와의 통신을 가능하게 한다. 통신 매체는 변조된 데이터 신호로 컴퓨터 실행가능 명령어, 압축된 오디오 또는 비디오 정보 또는 다른 데이터와 같은 정보를 운반한다. 변조된 데이터 신호는 신호에 정보를 인코딩하는 것과 같은 방식으로 설정 또 는 변경되는 하나 이상의 그것의 특징을 갖는 신호이다. 예컨대, 한정은 아니지만, 통신 매체는 유선 기술 또는 전기, 광학, RF, 적외선, 음향 또는 다른 반송파로 구현되는 무선 기술을 포함한다.

본 문서에서의 디지털 매체 처리 기술은 컴퓨터 판독가능 매체에 대한 일반적인 문맥에서 기술될 수 있다. 컴퓨터 판독가능 매체는 연산 환경 내에서 액세스될 수 있는 임의의 이용가능한 매체이다. 예컨대, 한정은 아니지만, 연산 환경(800)과 함께, 컴퓨터 판독가능 매체는 메모리(820), 저장소(840), 통신 매체 및 상기 중 임의의 하나의 조합을 포함한다.

본 문서에서의 신경망 트레이닝 기술은 컴퓨터 실행가능 명령어에 대한 일반적인 문맥에서 기술될 수 있고, 상기 명령어는 타겟 현실 프로세서 또는 타겟 가상 프로세서 상의 연산 환경에서 실행되는 프로그램 모듈에 포함된다. 일반적으로, 프로그램 모듈로서, 특정 작업을 수행하거나 특정한 추상 데이터 유형을 구현하는 루틴, 프로그램, 라이브러리, 객체, 클래스, 구성 요소, 데이터 구조 등이 포함된다. 프로그램 모듈의 기능성은 다양한 실시예에서 원하는 대로 프로그램 모듈 사이에서 조합되거나 분리될 수 있다. 프로그램 모듈을 위한 컴퓨터 실행가능 명령어는 지역 연산 환경 또는 분산 연산 환경 내에서 실행될 수 있다.

표현을 위하여, 상세한 설명에서는 "판정한다", "결정한다", "발생시킨다", "조정한다" 및 "적용한다"와 같은 용어를 사용하여 연산 환경에서의 컴퓨터 동작들을 기술하였다. 이 용어는 컴퓨터가 수행하는 동작을 위한 높은 수준의 추상적 개념이며, 인간이 수행하는 행동과 혼동되어서는 안된다. 이 용어에 대응하는 실제 컴퓨터 동작은 구현에 따라 다르다.

본 명세서에 기술된 기술적 사상의 가능한 다수의 변화를 고려하여, 이하의 청구항 및 그것의 균등물의 범위 내에 속할 수 있는 모든 실시예가 본 발명에 속함을 청구한다.

Claims

그래픽 처리 유닛("GPU")에 의하여 판독가능한 그래픽 데이터 및 하나 이상의 GPU 실행가능 프로그램(GPU-executable program)를 사용해 이미지를 식별하기 위해 콘볼루션 신경망(convolutional neural network)을 트레이닝(tranining)하는, 컴퓨터로 구현되는 방법으로서,

상기 콘볼루션 신경망의 상태를 나타내고 하나 이상의 신경망 변수를 나타내는 하나 이상의 텍스처(textures)를 포함하는 상기 그래픽 데이터를 수신하는 단계- 상기 하나 이상의 텍스처는 2차원 주소(two-dimensional addressing)를 갖는 텍스처를 포함하고, 상기 텍스처 중 적어도 하나 이상은 2차원 주소로 평평해진(flattened) 2차원보다 높은 차원의 주소를 갖는 신경망 변수를 나타내고, 상기 콘볼루션 신경망은 복수의 패치를 포함하는 적어도 하나의 계층을 포함함 -와,

상기 콘볼루션 신경망에서 순방향 패스를 수행하기 위하여 상기 GPU 상에서 상기 GPU 실행가능 프로그램 중 하나 이상을 실행하는 단계- 이 실행 단계는 상기 패치에 대해 콘볼루션 연산을 수행하는 단계를 포함함 -와,

상기 콘볼루션 신경망에서 역방향 패스를 수행하기 위하여 상기 GPU 상에서 상기 GPU 실행가능 프로그램 중 하나 이상을 실행하는 단계- 이 실행 단계는 상기 패치에 대해 콘볼루션 연산을 수행하는 단계를 포함함 -와,

상기 역방향 패스의 결과에 기초하여 상기 그래픽 데이터를 변경함으로써 상기 콘볼루션 신경망 내의 상기 패치를 수정하기 위해 상기 GPU 상에서 상기 GPU 실행가능 프로그램 중 하나 이상을 실행하는 단계와,

상기 콘볼루션 신경망이 트레이닝될 때까지, 순방향 패스 및 역방향 패스를 수행하고 상기 그래픽 데이터를 수정하기 위해 상기 GPU 실행가능 프로그램 중 하나 이상을 실행하는 단계를 반복하는 단계

를 포함하는 컴퓨터로 구현되는 방법.
제1항에 있어서,

2차원 주소를 갖는 텍스처에 나타나는 값의 주소는 출력 텍스처의 좌상단으로부터의 x 오프셋 좌표 및 y 오프셋 좌표의 선형 조합을 통하여 결정되는

컴퓨터로 구현되는 방법.
제1항에 있어서,

상기 GPU 실행가능 프로그램은 하나 이상의 픽셀 쉐이더 프로그램(pixel shader programs)의 형태로 작성되는

컴퓨터로 구현되는 방법.
제1항에 있어서,

상기 그래픽 데이터는 기울기 하강법(gradient descent)을 사용하여 조정되는

컴퓨터로 구현되는 방법.
제4항에 있어서,

상기 하나 이상의 프로그램은 기울기(gradient)를 결정하기 위해 편도함수(deriatives)를 연산하는 공식들을 이용하고, 상기 공식들은 픽셀 쉐이더 프로그램 발동(invocations)을 감소시키기 위하여 조합되고 대수적으로 간략화되는

컴퓨터로 구현되는 방법.
제1항에 있어서,

상기 신경망은 하나 이상의 완전 접속 계층을 포함하고,

상기 하나 이상의 GPU 실행가능 프로그램은 상기 하나 이상의 완전 접속 계층에 특화된 하나 이상의 GPU 실행가능 프로그램을 포함하고, 상기 특화된 GPU 실행가능 프로그램은 완전 접속 계층에 대해 별개의 공식을 이용하는

컴퓨터로 구현되는 방법.
제1항에 있어서,

상기 신경망은 하나 이상의 과도 계층(transitional layer)을 포함하고,

상기 하나 이상의 GPU 실행가능 프로그램은 상기 하나 이상의 과도 계층에 특화된 하나 이상의 GPU 실행가능 프로그램을 포함하고, 상기 특화된 GPU 실행가능 프로그램은 과도 계층에 대해 별개의 공식을 이용하는

컴퓨터로 구현되는 방법.
제1항에 있어서,

상기 그래픽 데이터는 뷰포트(viewport)를 커버하는 단일 삼각형을 기술하는

컴퓨터로 구현되는 방법.
제1항에 있어서,

상기 하나 이상의 GPU 실행가능 프로그램은 하나 이상의 합산(summations)을 포함하고,

상기 하나 이상의 합산 각각은 다수의 패스로 이루어지는

컴퓨터로 구현되는 방법.
제1항에 있어서,

상기 콘볼루션 신경망은 수기 인식(handwriting recognition)을 수행하는

컴퓨터로 구현되는 방법.
제1항에 있어서,

상기 단계들에 의해 트레이닝된 콘볼루션 망을 기술하는 데이터를 포함하는 하나 이상의 컴퓨터 판독가능 매체를 생성하는 단계를 더 포함하는

컴퓨터로 구현되는 방법.
그래픽 카드 상에서 실행되는 경우 상기 그래픽 카드로 하여금 콘볼루션 신경망을 트레이닝하기 위한 방법을 수행하게 하는 명령어를 저장하는 하나 이상의 컴퓨터 판독가능 저장 매체로서, 상기 방법은

상기 신경망에 대한 정사각형 콘볼루션 커널(square convolutional kernels)을 적어도 부분적으로 나타내는 복수의 텍스처를 수신하는 단계- 상기 텍스처의 적어도 일부는 2차원 주소를 가지며, 또한 2차원 주소로 평평해진 2차원보다 높은 차원의 주소를 갖는 정사각형 콘볼루션 커널을 나타냄 -와,

복수의 입력 데이터에 대해 상기 신경망의 복수의 순방향 패스를 연산하는 단계- 상기 연산하는 단계는 상기 정사각형 콘볼루션 커널을 콘볼루팅(convoluting) 및 서브샘플링(subsampling)하는 단계를 포함함 -와,

상기 복수의 순방향 패스 각각에 대하여, 기울기 함수를 사용하여 상기 신경망의 역방향 패스를 연산하는 단계와,

각각의 역방향 패스에 대하여, 상기 기울기 함수의 결과에 기초하여, 상기 신경망의 트레이닝에 영향을 미치기 위하여 상기 복수의 텍스처로부터 상기 정사각형 콘볼루션 커널에 포함된 정보를 변경하는 단계

를 포함하는 컴퓨터 판독가능 저장 매체.
제12항에 있어서,

상기 신경망은 수기 문자를 인식하도록 트레이닝되고,

상기 복수의 텍스처는 적어도 부분적으로 콘볼루션 커널을 나타내며,

상기 콘볼루션 커널은 수기 문자를 나타내는 입력 데이터에 대하여 동작하는

컴퓨터 판독가능 저장 매체.
제12항에 있어서,

상기 복수의 텍스처는 적어도 부분적으로 완전 접속 신경망 수준 및 과도 수준(transitional level)을 나타내는,

컴퓨터 판독가능 저장 매체.
수기 인식 콘볼루션 신경망을 트레이닝하기 위한 방법을 수행하도록 구성된 그래픽 처리 유닛으로서,

상기 콘볼루션 신경망은 하나 이상의 계층을 포함하고, 상기 계층의 적어도 일부는 각각 복수의 정사각형 콘볼루션 커널 패치를 포함하고,

상기 그래픽 처리 유닛은,

상기 수기 인식 콘볼루션 신경망의 상기 정사각형 콘볼루션 커널 패치를 기술하는 하나 이상의 그래픽 텍스처를 저장하도록 구성된 데이터 저장소- 상기 그래픽 텍스처 중 적어도 일부는 2차원 주소를 가지며, 2차원 주소로 평평해진(flattened) 2차원보다 높은 차원의 주소를 갖는 정사각형 콘볼루션 커널 패치를 나타냄 -와,

수기 입력 데이터에 대하여 상기 신경망의 순방향 패스 및 역방향 패스를 반복하여 수행- 상기 패스는 상기 정사각형 콘볼루션 커널 패치에 대해 콘볼루션 연산을 수행하는 것을 포함 -하고, 상기 복수의 그래픽 텍스처에 결과를 저장하며, 상기 신경망을 트레이닝하기 위하여 상기 순방향 및 역방향 패스의 결과에 기초하여 상기 복수의 텍스처의 상기 정사각형 콘볼루션 커널 패치를 수정하도록 픽셀 쉐이더 프로그래밍을 통하여 구성된 복수의 픽셀 쉐이더 유닛

을 포함하는 그래픽 처리 유닛.
제15항에 있어서,

상기 수기 인식 신경망은 적어도 부분적으로는 하나의 콘볼루션 수준 및 하나의 완전 접속 수준을 포함하는

그래픽 처리 유닛.
제15항에 있어서,

상기 그래픽 처리 유닛이 수행하는 모든 처리가 상기 픽셀 쉐이더 유닛 중 일부에 대해서만 연산을 요구하도록, 상기 하나 이상의 그래픽 텍스처는 간략화된 삼각형 이미지를 기술하도록 구성되는

그래픽 처리 유닛.
제15항에 있어서,

상기 픽셀 쉐이더 유닛은 상기 신경망의 상기 순방향 패스 및 역방향 패스에서의 합산이 다수의 보다 작은 합산으로 이루어지도록 구성되는

그래픽 처리 유닛.
삭제
삭제