KR102163561B1

KR102163561B1 - 스파스 연결용 인공 신경망 계산 장치와 방법

Info

Publication number: KR102163561B1
Application number: KR1020187018866A
Authority: KR
Inventors: 스진 장; 치 궈; 윈지 천; 티엔스 천
Original assignee: 캠브리콘 테크놀로지스 코퍼레이션 리미티드
Priority date: 2016-01-20
Filing date: 2016-04-06
Publication date: 2020-10-08
Also published as: CN107609642B; CN107563497B; CN107506828A; KR102166775B1; KR20180093969A; KR20180093970A; KR102142889B1; EP3407266A4; US20180260711A1; CN107609642A; KR20180101334A; CN107563497A; EP3407266B1; EP3407266A1; CN105512723B; CN107545303B; CN107545303A; WO2017124646A1; CN107578099B; US20180260709A1

Abstract

스파스 연결용 인공 신경망 계산 장치는 매핑 유닛(5), 저장 장치(1), 및 연산 유닛(7)이 포함되되, 매핑 유닛(5)은 입력 데이터를 입력 뉴런과 가중치가 일대일 대응하는 저장 포맷으로 전환하는데 사용되고; 저장 장치(1)는 데이터와 명령을 저장하는 데 사용되고; 연산 유닛(7)은 명령에 의거하여 상응하는 연산을 실행하는 데에 사용되며; 상기 연산 유닛은 주로 3단계 연산을 실행하고, 제1단계는 입력된 뉴런과 가중치 데이터를 곱하고; 제2단계는 덧셈 트리 연산을 실행하고, 제1단계 처리한 가중치 출력 뉴런을 덧셈 트리를 통하여 단계적으로 더하거나, 또는 출력 뉴런에 오프셋을 더하여 오프셋 추가 출력 뉴런을 얻는 데 사용되고; 제3단계는 활성 함수 연산을 실행하여 최종 출력 뉴런을 얻는다. 본 발명의 부족한 CPU와 GPU 연산 성능, 높은 전단 디코딩 비용의 문제를 해결하였으며, 다층 인공 신경망 연산 알고리즘에 대한 지원을 효과적으로 향상시켰으며, 메모리 대역폭이 다층 인공 신경망 연산 및 그 트레이닝 알고리즘 성능 병목이 되는 현상을 방지하였다.

Description

스파스 연결용 인공 신경망 계산 장치와 방법 {ARTIFICIAL NEURAL NETWORK CALCULATING DEVICE AND METHOD FOR SPARSE CONNECTION}

본 발명은 데이터 처리 기술 분야에 관한 것으로서, 더욱 상세하게는 스파스(sparse) 연결용 인공 신경망 계산 장치와 방법에 관한 것이다.

인공 신경망(Artificial Neural Networks, ANNs)은 줄여서 신경망(NNs)라고 부른다. 이는 일종의 동물 신경망 행위 특성을 모방하여 분산형 병렬 정보 처리를 진행하는 알고리즘 수학 모델이다. 이러한 망은 시스템의 복잡도에 의존하며 내부 대량 노드 간의 상호 연결성을 조절함으로써 정보 처리의 목적을 달성한다. 신경망에 사용하는 알고리즘은 바로 벡터 곱하기이며 부호 함수 및 그 각종 근사가 광범위하게 채택된다.

대뇌 속의 신경망과 마찬가지로 신경망은 일부 상호 연결된 노드로 구성된다. 도 1에서 도시하는 바와 같이, 각각의 동그라미는 하나의 뉴런을 나타내며, 각각의 화살표는 2개 뉴런 사이의 연결을 나타내는데 가중치라고 부르기도 한다.

뉴런의 계산 공식은 간단하게 설명하면

이다. 여기에서 x는 모든 출력 뉴런과 연결되는 입력 뉴런을 나타내고, w는 x와 출력 뉴런 사이에 대응하는 가중치를 나타낸다. f(x)는 하나의 비선형 함수이며 통상적으로 활성 함수라고 불리고, 통상적으로 사용하는 함수는

,

등과 같다.

신경망은 컴퓨터 비전, 음성 인식과 자연어 처리 등과 같은 각종 응용 장면에 광범위하게 응용된다. 최근 몇 년 동안 신경망의 규모는 지속 성장세에 있다. 1998년 Lecun이 수기 문자부호 식별에 사용한 신경망의 규모는 1M개 가중치보다 작았음, 2012년 krizhevsky가 ImageNet 대회 참여에 사용한 규모는 60M개 가중치였다.

신경망은 높은 계산량과 높은 메모리의 응용으로서 가중치가 많을수록 계산량과 메모리량도 증대된다. 계산량과 가중치 수량을 줄여 메모리량을 감소시키기 위하여 스파스 연결 신경망이 등장하였다. 도 2는 스파스의 신경망을 도시한 것이다.

신경망 계산량과 메모리량이 급증함에 따라 종래 기술에서는 통상적으로 범용 프로세서를 채택하여 스파스의 인공 신경망을 계산한다. 범용 프로세서에 있어서, 입력 뉴런, 출력 뉴런 및 가증치를 각각 3개 배열 내에 저장하고, 동시에 하나의 색인 배열이 더 있고, 색인 배열은 각 출력과 입력 연결의 연결 관계를 저장한다. 계산 시, 주요한 연산은 뉴런과 가중치의 곱이다. 가중치와 뉴런은 일대일 대응하는 관계가 아니기 때문에, 매번 연산에서 색인 배열을 통해 뉴런에 대응하는 가중치를 찾아야 한다. 범용 프로세서 계산 능력과 메모리 능력이 모두 아주 약하기 때문에 신경망의 수요를 충족시킬 수 없다. 복수개의 범용 프로세서를 병렬 실행할 경우 범용 프로세서 간 상호 통신 역시 성능 병목 현상을 초래한다. 프루닝(pruning)한 신경망 계산 시, 매번 곱하기 연산에 색인 배열 내에서 다시 가중치에 대응하는 위치를 찾아야 하기 때문에 추가적인 계산량과 메모리 비용을 추가된다. 따라서 신경망 계산에 소요되는 시간이 길고 출력이 높다. 범용 프로세서는 다층 인공 신경망 연산을 하나의 긴 열 연산 및 메모리 명령 시퀀스로 디코딩해야 하므로, 프로세스 전단 디코딩에 비교적 큰 전력 소모가 초래된다.

스파스 연결 인공 신경망 연산 및 그 트레이닝 알고리즘을 지원하는 공지된 또 다른 방법은 그래픽 처리 장치(GPU)를 사용하는 것이다. 상기 방법은 범용 레지스터 파일과 범용 스트림 프로세서를 통하여 범용 SIMD 명령을 실행함으로써 상기 알고리즘을 지원한다. 그러나 GPU는 그래픽 이미지 연산 및 과학 계산을 전문적으로 실행하는 설비이기 때문에, 스파스의 인공 신경망 연산을 전문적으로 지원하지 않으므로, 여전히 대량의 전단 디코딩 작업이 있어야만 스파스의 인공 신경망 연산을 실행할 수 있어 대량의 추가적 비용이 발생한다. 그 외 GPU는 비교적 작은 온칩(on-chip) 캐시만 있기 때문에 다층 인공 신경망의 모델 데이터(가중치)를 반복적으로 칩 외부에서 운반해야 하므로 오프칩(off-chip) 대역폭이 주요 성능의 병목 현상을 일으키며, 동시에 엄청난 전력이 소모된다.

본 발명의 목적은 스파스 연결용 인공 신경망 계산 장치와 방법을 제공하는 데에 있다.

상기 목적을 구현하기 위하여, 본 발명의 일측면에서 본 발명은 스파스 연결용 인공 신경망 계산 장치를 제공하며, 여기에는 매핑 유닛, 저장 장치, 및 연산 유닛이 포함되되,

상기 매핑 유닛은 입력 데이터를 입력 뉴런과 가중치가 일대일 대응하는 저장 포맷으로 전환하고, 저장 장치 및/또는 캐시 내에 저장하는 데 사용되고;

상기 저장 장치는 데이터와 명령을 저장하는 데 사용되고;

상기 연산 유닛은 상기 저장 장치에 저장된 명령에 의거하여 상기 데이터에 대하여 상응하는 연산을 실행하는 데에 사용되며; 상기 연산 유닛은 주로 3단계 연산을 실행하고, 제1단계는 상기 입력 뉴런과 가중치 데이터를 곱하고; 제2단계는 덧셈 트리 연산을 실행하고, 제1단계 처리한 가중치 출력 뉴런을 덧셈 트리를 통하여 단계적으로 더하거나, 또는 가중치 출력 뉴런에 오프셋을 더하여 오프셋 추가 출력 뉴런을 얻는 데 사용되고; 제3단계는 활성 함수 연산을 실행하여 최종 출력 뉴런을 얻는다.

여기에서, 상기 매핑 유닛 중의 일대일 대응 관계는 이하의 상황으로 표시된다.

제1종 상황:

1은 연결되었음을 나타내고, 0은 연결되지 않았음을 나타내며, 각 출력 뉴런과 모든 입력 뉴런의 연결 상태는 하나의 0과 1의 문자열을 구성하여 상기 출력 뉴런의 연결 관계를 나타내거나; 또는

1은 연결되었음을 나타내고, 0은 연결되지 않았음을 나타내며, 각 입력 뉴런과 모든 출력 뉴런의 연결 상태는 하나의 0과 1의 문자열을 구성하여 상기 입력 뉴런의 연결 관계를 나타낸다.

제2종 상황:

하나의 출력 뉴런의 제1 연결이 소재한 입력 뉴런의 위치에서 제1 입력 뉴런까지의 거리, 상기 출력 뉴런의 제2 입력 뉴런에서 이전 입력 뉴런까지의 거리, 상기 출력 뉴런의 제3 입력 뉴런에서 이전 입력 뉴런까지의 거리, ……, 순서대로 유추하여, 상기 출력 뉴런의 모든 입력 뉴런까지 무작위 대위하여, 상기 출력 뉴런의 연결 관계를 나타낸다.

본 발명의 다른 일측면에서, 본 발명은 스파스 연결용 인공 신경망의 계산 방법을 더 제공하며, 여기에는 이하의 단계가 포함된다.

단계 1: 입력 데이터를 입력 뉴런과 가중치가 일대일 대응하는 저장 포맷으로 전환하며, 여기에서 상기 대응 관계는 이하를 포함한다.

제1종 상황:

제2종 상황:

단계 2: 입력한 뉴런과 가중치 데이터를 곱한다.

단계 3: 덧셈 트리 연산을 실행하고, 제1단계 처리한 가중치 출력 뉴런을 덧셈 트리를 통하여 단계적으로 더하거나, 또는 가중치 출력 뉴런에 오프셋을 더하여 오프셋 추가 출력 뉴런을 얻는다.

단계 4: 활성 함수 연산을 실행하여 최종 출력 뉴런을 얻고; 여기에서 상기 활성 함수는 sigmoid 함수, tanh 함수 또는 ReLU 함수를 포함한다.

상기 기술방안에서 알 수 있듯이, 본 발명의 인공 신경망 계산 장치와 방법은 이하의 유익한 효과를 가진다.

(1) 스파스의 다층 인공 신경망 연산에 대한 전용 SIMD 명령과 맞춤제작한 연산 유닛을 채택함으로써, 부족한 CPU와 GPU 연산 성능, 높은 전단 디코딩 비용의 문제를 해결하였으며, 다층 인공 신경망 연산 알고리즘에 대한 지원을 효과적으로 향상시켰다.

(2) 다층 인공 신경망 연산 알고리즘에 대한 전용 칩온 캐시를 채택하여, 입력 뉴런과 가중치 데이터의 재사용성을 충분히 발굴하였으며, 반복적으로 메모리가 이러한 데이터를 판독하는 것을 방지하고 메모리 엑세스 대역폭을 낮추며 메모리 대역폭이 다층 인공 신경망 연산 및 그 트레이닝 알고리즘 성능 병목이 되는 현상을 방지하였다.

도 1은 신경망의 노드 구조도이고;
도 2는 스파스 연결 신경망의 노드 구조도이고;
도 3은 본 발명 일실시예 전체 구조의 블록 다이어그램이고;
도 4는 본 발명 일실시예에 있어서 스파스 연결 신경망의 노드 구조도이고;
도 5는 도 4에 있어서 신경망의 연결 관계도이고;
도 6은 본 발명의 또 하나의 일실시예에 있어서 스파스 연결 신경망의 연결 관계도이고;
도 7은 본 발명의 일실시예에 있어서 컨볼루션(convolution) 연산의 설명도이고;
도 8은 컨볼루션 신경망의 스파스 변경 시 입력, 출력 및 가중치의 변화도이고;
도 9는 본 발명의 일실시예에 있어서 스파스 연결의 인공 신경망 연산 장치의 구조도이고;
도 10은 본 발명의 일실시예에 있어서 매핑 유닛의 구조도이고;
도 11은 본 발명의 일실시예에 있어서 스파스 연결의 인공 신경망 연산 과정의 흐름도이고;
도 12는 본 발명의 다른 일실시예에 있어서 스파스 연결의 인공 신경망 연산 장치의 구조도이고;
도 13은 본 발명의 다른 일실시예에 있어서 매핑 유닛의 구조도이고;
도 14는 본 발명의 또 다른 일실시예에 있어서 스파스 연결의 인공 신경망 연산 장치의 구조도이고;
도 15는 본 발명의 또 다른 일실시예에 있어서 매핑 유닛의 구조도이고;
도 16은 본 발명의 또 다른 일실시예에 있어서 스파스 연결의 인공 신경망 연산 장치의 구조도이고; 및
도 17은 본 발명의 또 다른 일실시예에 있어서 매핑 유닛의 구조도이다.

이하에서는, 본 발명의 예시적인 실시형태들을 도면을 통해 보다 본 발명의 목적, 기술방안 및 장점을 상세히 설명한다.

본 발명은 스파스 연결용 인공 신경망 계산 장치에 관한 것으로서, 매핑 유닛, 저장 장치, 및 연산 유닛을 포함한다.

매핑 유닛은 입력 데이터를 입력 뉴런과 가중치가 일대일 대응하는 저장 포맷으로 전환하고, 저장 장치 및/또는 캐시 내에 저장하는 데 사용된다.

저장 장치는 데이터와 명령을 저장하는 데 사용된다.

연산 유닛은 상기 저장 장치에 저장된 명령에 의거하여 상기 데이터에 대하여 상응하는 연산을 실행하는 데에 사용되며, 상기 연산 유닛은 주로 3단계 연산을 실행한다. 제1단계는 입력한 뉴런과 가중치 데이터를 곱한다. 제2단계는 덧셈 트리 연산을 실행하고, 제1단계 처리한 가중치 출력 뉴런을 덧셈 트리를 통하여 단계적으로 더하거나, 또는 가중치 출력 뉴런에 오프셋을 더하여 오프셋 추가 출력 뉴런을 얻는 데 사용된다. 제3단계는 활성 함수 연산을 실행하여 최종 출력 뉴런을 얻는다.

여기에서 상기 매핑 유닛 중의 일대일 대응 관계는 이하의 상황으로 표시된다.

제1종 상황:

제2종 상황:

바람직하게는, 상기 인공 신경망 계산 장치에는 직접 메모리 엑세스(direct memory access, DMA)가 더 포함되며, 상기 저장 장치와 캐시 중 데이터를 진행하거나 명령을 판독 입력하는 데 사용된다.

바람직하게는, 상기 인공 신경망 계산 장치는

전용 명령을 저장하는 명령 캐시; 및

상기 명령 캐시에서 전용 명령을 판독하고 이를 각 연산 유닛 명령으로 디코딩하는 제어 유닛을 더 포함한다.

바람직하게는, 상기 인공 신경망 계산 장치는

상기 연산 유닛의 입력 뉴런 데이터를 캐시 입력하는 입력 뉴런 캐시; 및

가중치 데이터를 캐싱하는 가중치 캐시를 더 포함한다.

바람직하게는, 상기 인공 신경망 계산 장치는

상기 연산 유닛이 출력하는 출력 뉴런을 캐싱하는 출력 뉴런 캐시를 더 포함한다.

바람직하게는, 상기 매핑 유닛은 입력 데이터를 입력 뉴런과 가중치가 일대일 대응하는 저장 포맷으로 전환하는 데 사용되며, 저장 장치에 저장하는 것이 아니라 상기 연산 유닛에 출력한다.

바람직하게는, 상기 인공 신경망 계산 장치는 입력 뉴런 캐시 및/또는 가중치 캐시를 더 포함하고, 상기 입력 뉴런 캐시는 상기 연산 유닛에 입력한 입력 뉴런 데이터를 캐싱하는 데 사용되고, 상기 가중치 캐시는 가중치 데이터를 캐싱하는 데 사용되고, 상기 매핑 유닛은 입력 데이터를 입력 뉴런과 가중치가 일대일 대응되는 저장 포맷으로 전환하는 데 사용되며, 상기 입력 뉴런 캐시 및/또는 가중치 캐시에 출력한다.

바람직하게는, 상기 연산 유닛이 제3단계에서 실행하는 활성 함수는 sigmoid 함수, tanh 함수 또는 ReLU 함수를 포함한다.

본 발명은 스파스 연결용 인공 신경망의 계산 방법을 더 공개하며, 여기에는 이하의 단계가 포함된다.

단계 1: 입력 데이터를 입력 뉴런과 가중치가 일대일 대응하는 저장 포맷으로 전환하고; 여기에서 상기 대응 관계는 이하를 포함한다.

제1종 상황:

제2종 상황:

하나의 출력 뉴런의 제1 연결이 소재한 입력 뉴런의 위치에서 제1 입력 뉴런까지의 거리, 상기 출력 뉴런의 제2 입력 뉴런에서 이전 입력 뉴런까지의 거리, 상기 출력 뉴런의 제3 입력 뉴런에서 이전 입력 뉴런까지의 거리, ......, 순서대로 유추하여, 상기 출력 뉴런의 모든 입력 뉴런까지 무작위 대위하여, 상기 출력 뉴런의 연결 관계를 나타낸다.

단계 2: 입력한 뉴런과 가중치 데이터를 곱한다.

단계 4: 가중치 출력 뉴런 또는 오프셋 추가 출력 뉴런에 대하여 활성 함수 연산을 실행하고, 최종 출력 뉴런을 얻고; 여기에서 상기 활성 함수는 sigmoid 함수, tanh 함수 또는 ReLU 함수를 포함한다.

이하에서는 첨부 도면과 구체적인 실시예를 통하여 본 발명의 기술방안을 더욱 상세하게 설명한다.

도 3은 본 발명 일실시예 전체 구조의 블록 다이어그램을 도시한 것이다.

I/O 인터페이스(1)은 I/O 데이터가 CPU3를 거쳐 스파스의 다층 인공 신경망 연산 장치로 발송되는 데 사용되며, 그 후 스파스의 다층 인공 신경망 연산 장치(4)에서 저장 장치에 기록하고, 스파스의 다층 인공 신경망 연산 장치(4)에 필요한 전용 프로그램도 CPU3에서 스파스의 다층 인공 신경망 연산 장치(4)로 전송한다.

저장 장치(2)는 스파스의 다층 인공 신경망 모델과 뉴런 데이터를 임시 저장하는 데 사용되는데, 특히 모든 모델이 스파스의 다층 인공 신경망 연산 장치(4)의 캐시에 놓을 수 없을 때 사용된다.

중앙 처리 장치(CPU3)는 데이터 운반 및 스파스의 다층 인공 신경망 연산 장치(4) 가동 정지 등 기본 제어에 사용되며, 스파스의 다층 인공 신경망 연산 장치(4)와 외부 제어의 인터페이스가 된다.

스파스의 인공 신경망 연산 장치(4)는 스파스의 다층 인공 신경망 연산 유닛에 사용되며, CPU3에서 유래한 데이터와 프로그램을 수신하고, 상기 스파스의 다층 인공 신경망 연산 알고리즘을 실행하고, 스파스의 인공 신경망 연산 장치(4)의 실행 결과를 CPU3에 전송한다.

범용 시스템 구조: 스파스의 인공 신경망 연산 장치(4)를 CPU3 또는 GPU의 보조 프로세서로 삼아 스파스의 다층 인공 신경망 연산 알고리즘을 실행한다.

복수개 스파스의 인공 신경망 연산 장치 상호접속 시스템 구조: 복수개 스파스의 인공 신경망 연산 장치(4)는 PCIE 버스를 통하여 상호접속되어 더 큰 규모의 스파스 다층 인공 신경망 연산을 지원할 수 있으며, 동일 호스트 CPU를 함께 사용하거나 각각 자신의 호스트 CPU를 가질 수 있고, 메모리를 공유할 수 있고 각 가속기에 각자의 메모리가 있을 수도 있다. 또한 상호연결 방식은 임의 상호접속 토폴로지(interconnection topology)일 수 있다.

스파스 연결의 신경망은 도 4에서 도시하는 바와 같이, 4개의 입력 뉴런 i₁, i₂, i₃, i₄, 2개의 출력 뉴런 o₁, o₂가 있다. 여기에서, o₁과 i₁, i₃, i₄는 연결되고, 연결된 가중치는 각각 w₁₁, w₃₁, w₄₁로 표시되고, o₂는 i₂, i₃과 연결되고, 연결된 가중치는 각각 w₂₂, w₃₂로 표시된다.

상기 스파스 신경망의 연결 관계를 표시할 수 있는 2가지 방법이 있는데, 하나는 각 입력과 출력 뉴런 사이에 모두 하나의 비트를 사용해 연결 여부를 표시하는 것이며, 다른 하나는 연결 사이의 거리를 이용해 각 연결의 위치를 표시하는 것이다.

제1종 연결 표시:

도 4의 신경망에 있어서, 도 5에서 도시하는 바와 같이, 출력 뉴런 o₁의 연결 관계는 1011이며, 각 비트는 입력 뉴런이 연결됐는지 여부를 표시한다. 1은 연결되었음을, 0은 연결되지 않았음을 표시하고, 출력 뉴런 o₂의 연결 관계는 0110이다. 연산 시 연결 관계 0에 대응하는 입력 뉴런은 연산을 진행하지 않는다.

연결 관계 저장 시, 우선 입력 뉴런 또는 출력 뉴런의 순서에 따라 연결 관계를 저장한다. 구체적인 저장 포맷에는 이하의 몇 가지가 있다.

포맷 1: 각 출력 뉴런의 모든 입력 뉴런을 순서대로 놓고, 상기 예시에서 놓은 순서는 10110110이다.

포맷 2: 각 입력 뉴런의 모든 출력 뉴런을 순서대로 놓고, 상기 예시에서 놓은 순서는 10011110이다.

제2종 연결 표시:

예를 들어, 도 6의 신경망에 있어서, 출력 뉴런 o₁과 입력 뉴런 i₁, i₃, i₄가 연결되면, 연결 관계는 0, 2, 1이다. 0은 제1 연결이 소재한 위치에서 제1 입력 뉴런의 거리가 0, 즉 제1 입력 뉴런을 나타내고, 2는 제2 입력 뉴런에서 이전 입력 뉴런의 거리가 2, 즉 제3 입력 뉴런을 나타내고, 1은 제3 입력 뉴런에서 이전 입력 뉴런의 거리가 1, 즉 제4 입력 뉴런을 나타낸다. 같은 원리로, o₂의 연결 관계는 1, 1이다.

본 발명의 매핑 유닛은 이하의 연결 관계를 포함하나 이에 국한되지 않는다.

컨볼루션 신경망은 인공 신경망의 일종이며, 컨볼루션층에는 복수개의 필터가 포함되는데 바로 컨볼루션 커널이다. 상기 컨볼루션 커널은 반복적으로 모든 입력 이미지에 작용하여 국부적 특징을 추출한다. 다른 컨볼루션 커널은 다른 종류의 국부적 특징을 추출하며, 하나의 입력 이미지는 컨볼루션층을 거친 후 일부 더욱 잘 이해될 수 있는 추상적 특징으로 바뀐다.

자연 이미지는 고유의 특성이 있다. 다시 말해 이미지 일부분의 통계적 특성은 기타 부분과 같다. 이는 상기 부분에서 학습한 특징을 다른 부분에 사용할 수도 있다는 것을 의미한다. 따라서 상기 이미지 상의 모든 위치는 동일한 학습 특징을 사용할 수 있다. 하나의 큰 사이즈 이미지 중 무작위로 작은 블록을 선택하는 경우, 예를 들어 8*8을 샘플로 삼고 이 작은 블록 샘플본에서 일부 특징을 학습한다. 이때 상기 8*8 샘플본에서 학습한 특징을 검출기로 삼고 상기 이미지의 임의 지점에 응용할 수 있다. 특히, 8*8 샘플본에서 학습한 특징을 이용하여 원본의 큰 사이즈 이미지와 컨볼루션을 진행할 수 있기 때문에, 상기 큰 사이즈 이미지의 임의 위치에 대하여 하나의 다른 특징의 활성값을 얻을 수 있다. 상기 8*8 샘플본 특징을 컨볼루션 커널로 삼는다.

도 7은 컨볼루션 연산의 예시를 도시한 것이다. 컨볼루션 커널은 하나의 2*2 행렬이고, 컨볼루션 커널은 입력 이미지에서 슬라이딩한다.

매회 하나의 픽셀 포인트가 슬라이딩한다고 가정하면, 총 4회의 컨볼루션 연산이 있을 수 있다. 매회 컨볼루션 연산에 있어서, 컨볼루션 커널 행렬과 대응하는 입력 이미지 데이터에 대하여 곱셈 덧셈 연산을 진행한다.

컨볼루션 커널의 가중치가 스파스로 변경되고, 이전의 2*2에서 2개의 파라미터만 있도록 변경된다고 가정하며, 이는 도 8에서 도시하는 바와 같다. 출력 o₀에 있어서, 필요한 입력 뉴런은 i₀, i₁, i₃, i₄이고, 입력 가중치는 w₀, w₃이고, 연결 관계는 1001 또는 0, 2이다.

출력 o₃에 있어서, 필요한 입력 뉴런은 i₄, i₅, i₇, i₈이고, 입력 가중치는 w₀, w₃이고, 연결 관계는 1001 또는 0, 2이다.

여기에서 알 수 있듯이, 같은 출력 특징도 상의 다른 출력 뉴런에 있어서, 필요한 입력 뉴런은 다르나, 가중치와 연결 관계는 같다.

실행 가능한 스파스 연결의 인공 신경망 연산 장치는 각종 스파스 연결 표시의 스파스 연결의 인공 신경망을 처리할 수 있으며, 실행 가능한 스파스 연결의 인공 신경망 연산 장치 중에는 하나의 스파스 연결 처리 전용 유닛이 있는데, 여기에서 매핑 유닛이라 부르며, 다른 스파스 연결 관계와 처리 방법에 있어서 스파스 연결의 인공 신경망 연산 장치 구조는 약간 다를 수 있는데, 이하에서는 다른 구조와 방법을 설명한다.

구조와 방법 1

도 9에서 도시하는 바와 같이, 매핑 유닛(1)은 입력 데이터를 입력 뉴런과 가중치가 일대일 대응하는 저장 포맷으로 전환하는 데 사용된다.

저장 장치(2)는 데이터와 명령을 저장하는 데 사용되며, 특히 신경망 규모가 아주 큰 경우 명령 캐시(4), 입력 뉴런 캐시(6), 출력 뉴런 캐시(9), 가중치 캐시(8)는 이렇게 많은 데이터를 거치할 수 없기 때문에, 데이터를 저장 장치(2)에 임시 저장할 수만 있다.

DMA3은 저장 장치 중의 데이터 또는 명령을 각 캐시로 운반하는 데 사용된다.

명령 캐시(4)는 전용 명령을 저장하는 데 사용된다.

제어 유닛(5)은 명령 캐시(4)에서 전용 명령을 판독하고 이를 각 연산 유닛 명령으로 디코딩한다.

입력 뉴런 캐시(6)는 연산의 입력 뉴런 데이터를 저장하는 데 사용된다.

연산 유닛(7)은 구체적인 연산을 실행하는 데 사용된다. 연산 유닛은 주로 3단계로 나뉜다. 제1단계는 곱하기 연산을 실행하며, 입력한 뉴런과 가중치 데이터를 곱하는 데 사용된다. 제2단계는 덧셈 트리 연산을 실행하고, 제1, 2단계를 합하여 벡터 내적 연산을 완료한다. 제3단계는 활성 함수 연산을 실행하며, 활성 함수는 sigmoid 함수, tanh 함수 등일 수 있다. 제3단계는 출력 뉴런을 얻어 출력 뉴런 캐시에 기록한다.

가중치 캐시(8)는 가중치 데이터를 저장하는 데 사용된다.

출력 뉴런 캐시(9)는 연산한 출력 뉴런을 저장하는 데 사용된다.

매핑 유닛의 구조는 도 10에서 도시하는 바와 같다.

상기 스파스 연결의 신경망을 예로 들면, 연결 관계는 상기의 2가지 스파스 표시 중 하나일 수 있으며, 매핑 유닛은 연결 관계에 의거하여 입력 뉴런과 입력 가중치를 연결 관계에 따라 매핑한 후의 뉴런과 가중치를 출력하고, 매핑한 후의 뉴런과 가중치는 연산 시 연결 관계를 고려할 필요 없이 곧바로 사용할 수 있으며, 출력 뉴런 o₁ 매핑의 구체적인 과정은 이하와 같다.

입력 뉴런은 i₁, i₂, i₃, i₄이고, 입력 가중치는 w₁₁, w₃₁, w₄₁이고, 연결 관계는 1011 또는 0, 2, 1일 수 있다. 매핑 유닛은 연결 관계에 의거하여 입력 뉴런과 가중치를 서로 대응하는 관계로 변경하며, 출력에는 2가지 상황이 있는데, 하나는 연결되지 않은 입력 뉴런을 제거하는 것으로, 매핑한 후의 뉴런은 i₁, i₃, i₄이고, 매핑한 후의 가중치는 w₁₁, w₃₁, w₄₁이고; 다른 하나는 가중치에서 연결되지 않은 부분에 0을 보완하는 것으로, 매핑한 후의 뉴런은 i₁, i₂, i₃, i₄이고, 매핑한 후의 가중치는 w₁₁, 0, w₃₁, w₄₁이다.

연산 유닛은 제1부분 곱셈기, 제2부분 덧셈 트리, 제3부분 선형 함수 유닛의 3개 부분을 포함하나 이에 국한되지 않는다. 제1부분은 입력 뉴런(in1)에 가중치(w)를 곱하여 가중치 출력 뉴런(out1)을 얻고, 과정은 out1=w*in1이다. 제2부분은 가중치 출력 뉴런에 덧셈 트리를 이용하여 단계적으로 더하여 out2를 얻고, 그 외 출력 뉴런(out2)에 오프셋(b)을 더하여 오프셋 추가 출력 뉴런(out3)을 얻고, 과정은 out3=out2+b이다. 제3부분은 가중치 출력 뉴런(out2 또는 out3)에 활성 함수(active)로 연산하여 활성 출력 뉴런(out4)을 얻고, 과정은 out4=active(out2 or out3)이고, 활성 함수 active는 sigmoid, tanh, relu, softmax 등일 수 있다. 활성 연산 이외에 제3부분은 기타의 비선형 함수를 구현할 수 있으며, out4를 새로운 입력 뉴런으로 연산(f)을 통하여 출력 뉴런(out5)을 얻을 수 있고, 과정은 out5=f(out4)이다.

연산 과정은 도 11에서 도시하는 바와 같다.

구조와 방법 2

도 12에서 도시하는 바와 같이, 저장 장치(1)는 데이터와 명령을 저장하는 데 사용되며, 특히 신경망 규모가 아주 큰 경우 명령 캐시(3), 입력 뉴런 캐시(6), 출력 뉴런 캐시(9), 가중치 캐시(8)는 이렇게 많은 데이터를 거치할 수 없기 때문에, 데이터를 저장 장치(1)에 임시 저장할 수만 있다.

DMA2는 저장 장치 중의 데이터 또는 명령을 각 캐시로 운반하는 데 사용된다.

명령 캐시(3)는 전용 명령을 저장하는 데 사용된다.

제어 유닛(4)은 명령 캐시(3)에서 전용 명령을 판독하고 이를 각 연산 유닛 명령으로 디코딩한다.

매핑 유닛(5)은 입력 데이터를 입력 뉴런과 가중치가 일대일 대응하는 저장 포맷으로 전환하는 데 사용된다.

가중치 캐시(8)는 가중치 데이터를 저장하는 데 사용된다.

매핑 유닛의 구조는 도 13에서 도시하는 바와 같다.

상기 스파스 연결의 신경망을 예로 들면, 연결 관계는 상기의 2가지 스파스 표시 중 하나일 수 있으며, 매핑 유닛은 연결 관계에 의거하여 입력 뉴런과 입력 가중치를 연결 관계에 따라 매핑한 후의 뉴런과 가중치를 출력한다. 매핑한 후의 뉴런과 가중치는 연산 시 연결 관계를 고려할 필요 없이 곧바로 사용할 수 있으며, 출력 뉴런 o₁ 매핑의 구체적인 과정은 이하와 같다.

입력 뉴런은 i₁, i₂, i₃, i₄이고, 입력 가중치는 w₁₁, w₃₁, w₄₁이고, 연결 관계는 1011 또는 0, 2, 1일 수 있다. 매핑 유닛은 연결 관계에 의거하여 입력 뉴런과 가중치를 서로 대응하는 관계로 변경하며, 출력에는 2가지 상황이 있다. 하나는 연결되지 않은 입력 뉴런을 제거하는 것으로, 매핑한 후의 뉴런은 i₁, i₃, i₄이고, 매핑한 후의 가중치는 w₁₁, w₃₁, w₄₁이고; 다른 하나는 가중치에서 연결되지 않은 부분에 0을 보완하는 것으로, 매핑한 후의 뉴런은 i₁, i₂, i₃, i₄이고, 매핑한 후의 가중치는 w₁₁, 0, w₃₁, w₄₁이다.

구조와 방법 1과 구조와 방법 2에서 매핑 유닛의 중 차이점은, 구조와 방법 1의 매핑 유닛은 계산 전에 미리 입력 뉴런과 가중치를 매핑시킨 후 저장 장치에 저장하나, 구조와 방법 2는 계산 중에 매핑을 진행하며 매핑한 데이터를 곧바로 연산 유닛에 연결하여 연산을 진행한다는 것이다.

구조와 방법 3:

구조와 방법 2를 기반으로 약간의 수정을 가하여 도 14에서 도시하는 구조로 변경할 수 있으며, 매핑 유닛은 입력 뉴런에 대해서만 매핑을 진행할 수 있다.

여기에서 매핑 유닛의 구조도는 도 15에서 도시하는 바와 같다.

출력 뉴런 o₁ 매핑의 구체적인 과정은 이하와 같다.

입력 뉴런은 i₁, i₂, i₃, i₄이고, 연결 관계는 1011 또는 0, 2, 1일 수 있다. 매핑 유닛은 연결 관계에 의거하여 입력 뉴런과 가중치를 서로 대응하는 관계로 변경하고, 연결되지 않은 입력 뉴런을 제거하며, 매핑한 후의 뉴런은 i₁, i₃, i₄이다.

구조와 방법 4:

구조와 방법 2를 기반으로 약간의 수정을 가하여 도 16에서 도시하는 구조로 변경할 수 있으며, 매핑 유닛은 입력 가중치에 대해서만 매핑을 진행할 수 있다.

여기에서 매핑 유닛의 구조도는 도 17에서 도시하는 바와 같다.

출력 뉴런 o₁ 매핑의 구체적인 과정은 이하와 같다.

입력 가중치는 w₁₁, w₃₁, w₄₁이고, 연결 관계는 1011 또는 0, 2, 1일 수 있다. 매핑 유닛은 연결 관계에 의거하여 입력 뉴런과 가중치를 서로 대응하는 관계로 변경하며, 매핑한 후의 가중치는 w₁₁, 0, w₃₁, w₄₁이다.

상기의 구체적인 실시예는 본 발명의 목적, 기술방안 및 유익한 효과를 더욱 상세하게 설명하기 위한 것이다. 상기 내용은 본 발명의 구체적인 실시예에 불과하므로 본 발명을 제한하지 않는다. 본 발명의 정신과 원칙 내에서 진행한 모든 수정, 동등한 치환, 개선 등은 모두 본 발명의 보호범위 내에 속한다.

Claims

한 개 이상의 입력 뉴런 데이터를 수신하고, 상기 한 개 이상의 입력 뉴런 데이터에 기초하여 한 개 이상의 출력 뉴런 데이터를 계산하기 위한 한 개 이상의 가중치를 수신하고, 각각이 상기 한 개 이상의 출력 뉴런 데이터 중의 하나와 상기 한 개 이상의 입력 뉴런 데이터 중의 하나가 서로 연결되어 있는지 여부를 나타내는 한 개 이상의 연결 관계 비트를 포함하는 연결 관계 데이터를 수신하고, 상기 연결 관계 데이터에 기초하여 상기 한 개 이상의 입력 뉴런 데이터 및 상기 한 개 이상의 가중치를 변경하여 변경된 입력 뉴런 데이터 및 변경된 가중치들을 생성하는 매핑 유닛; 및
상기 매핑 유닛으로부터 상기 변경된 입력 뉴런 데이터 및 상기 변경된 가중치들을 수신하고, 상기 변경된 입력 뉴런 데이터 및 상기 변경된 가중치들에 기초하여 상기 한 개 이상의 출력 뉴런 데이터를 계산하는 연산 유닛을 포함하고,
상기 매핑 유닛은,
상기 한 개 이상의 입력 뉴런 데이터 중에서 상기 한 개 이상의 출력 뉴런 데이터 중의 하나와 상기 한 개 이상의 입력 뉴런 데이터 중의 하나가 서로 연결되지 아니한 한 개 이상의 입력 뉴런 데이터 및 가중치를 제거하여 변경된 입력 뉴런 데이터 및 변경된 가중치를 생성하고,
상기 연산 유닛은
상기 한 개 이상의 출력 뉴런 데이터 중의 하나와 상기 한 개 이상의 입력 뉴런 데이터 중의 하나가 서로 연결되지 아니한 상기 한 개 이상의 입력 뉴런 데이터 및 가중치에 대해 출력 뉴런 데이터를 연산하지 아니하도록 하는 인공 신경망 계산 장치.
제1항에 있어서, 상기 한 개 이상의 가중치 중에서 0의 값을 갖는 상기 연결 관계 비트에 상응하는 입력 뉴런 데이터와 출력 뉴런 데이터 사이의 가중치는 0에 상응하는 인공 신경망 계산 장치.
삭제
제1항에 있어서, 상기 매핑 유닛은 상기 한 개 이상의 가중치 중에서 0의 값을 갖는 상기 연결 관계 비트에 상응하는 적어도 하나의 가중치에 0을 입력하여 상기 변경된 가중치들을 생성하는 인공 신경망 계산 장치.
삭제
제1항에 있어서, 상기 매핑 유닛은 상기 한 개 이상의 입력 뉴런 데이터 중에서 0의 값을 갖는 상기 연결 관계 비트에 상응하는 적어도 하나의 입력 뉴런 데이터에 0을 입력하여 상기 변경된 입력 뉴런 데이터를 생성하는 인공 신경망 계산 장치.
제1항에 있어서, 상기 연산 유닛은 상기 변경된 입력 뉴런 데이터와 상기 변경된 가중치들을 곱하여 한 개 이상의 가중 입력 뉴런 데이터를 생성하는 적어도 하나의 곱셈기; 및
상기 한 개 이상의 가중 입력 뉴런 데이터를 합하여 총 가중값을 생성하는 적어도 하나의 덧셈기를 포함하고,
상기 하나의 덧셈기는
상기 총 가중값에 오프셋을 더하여 오프셋 추가 총 가중값을 생성하는 인공 신경망 계산 장치.
삭제
삭제
제7항에 있어서, 상기 연산 유닛은
상기 오프셋 추가 총 가중값에 활성 함수 연산을 실행하여 상기 한 개 이상의 출력 뉴런 데이터를 생성하는 활성 함수 유닛을 더 포함하는 인공 신경망 계산 장치.
제1항에 있어서,
상기 한 개 이상의 입력 뉴런 데이터, 상기 변경된 입력 뉴런 데이터, 상기 연결 관계 데이터, 상기 한 개 이상의 가중치, 상기 변경된 가중치들, 명령들, 및 상기 한 개 이상의 출력 뉴런 데이터를 저장하는 저장 장치를 더 포함하는 인공 신경망 계산 장치.
제1항에 있어서,
전용 명령을 저장하는 명령 캐시;
상기 명령 캐시로부터 상기 전용 명령을 독출하고, 상기 전용 명령을 디코드하는 제어 유닛;
상기 변경된 입력 뉴런 데이터를 저장하는 입력 뉴런 캐시;
상기 변경된 가중치들을 저장하는 가중치 캐시;
상기 한 개 이상의 출력 뉴런 데이터를 저장하는 출력 뉴런 캐시; 및
저장 장치와 상기 명령 캐시, 상기 제어 유닛, 상기 입력 뉴런 캐시, 상기 가중치 캐시, 및 상기 출력 뉴런 캐시 사이에 데이터를 송수신하는 직접 메모리 엑세스 모듈을 더 포함하는 인공 신경망 계산 장치.
컴퓨터로 구현되는 인공 신경망 계산 장치에 의해 수행되는 인공 신경망 계산 방법에 있어서
한 개 이상의 입력 뉴런 데이터를 수신하는 단계;
상기 한 개 이상의 입력 뉴런 데이터에 기초하여 한 개 이상의 출력 뉴런 데이터를 계산하기 위한 한 개 이상의 가중치를 수신하는 단계;
각각이 상기 한 개 이상의 출력 뉴런 데이터 중의 하나와 상기 한 개 이상의 입력 뉴런 데이터 중의 하나가 서로 연결되어 있는지 여부를 나타내는 한 개 이상의 연결 관계 비트를 포함하는 연결 관계 데이터를 수신하는 단계;
상기 연결 관계 데이터에 기초하여 상기 한 개 이상의 입력 뉴런 데이터 및 상기 한 개 이상의 가중치를 변경하여 변경된 입력 뉴런 데이터 및 변경된 가중치들을 생성하는 단계; 및
상기 변경된 입력 뉴런 데이터 및 상기 변경된 가중치들에 기초하여 상기 한 개 이상의 출력 뉴런 데이터를 계산하는 단계를 포함하고,
상기 변경된 입력 뉴런 데이터 및 변경된 가중치를 생성하는 단계는
상기 한 개 이상의 입력 뉴런 데이터 중에서 상기 한 개 이상의 출력 뉴런 데이터 중의 하나와 상기 한 개 이상의 입력 뉴런 데이터 중의 하나가 서로 연결되지 아니한 한 개 이상의 입력 뉴런 데이터 및 가중치를 제거하여 변경된 입력 뉴런 데이터 및 변경된 가중치를 생성하고,
상기 한 개 이상의 출력 뉴런 데이터를 계산하는 단계는
상기 한 개 이상의 출력 뉴런 데이터 중의 하나와 상기 한 개 이상의 입력 뉴런 데이터 중의 하나가 서로 연결되지 아니한 입력 뉴런 데이터 및 가중치에 대해 상기 출력 뉴런 데이터를 연산하지 아니하도록 하는 인공 신경망 계산 방법.
삭제
제13항에 있어서, 상기 변경된 입력 뉴런 데이터 및 상기 변경된 가중치들을 생성하는 단계는, 상기 한 개 이상의 가중치 중에서 0의 값을 갖는 상기 연결 관계 비트에 상응하는 적어도 하나의 가중치에 0을 입력하여 상기 변경된 가중치들을 생성하는 단계를 포함하는 인공 신경망 계산 방법.
삭제
제13항에 있어서, 상기 변경된 입력 뉴런 데이터 및 상기 변경된 가중치들을 생성하는 단계는, 상기 한 개 이상의 입력 뉴런 데이터 중에서 0의 값을 갖는 상기 연결 관계 비트에 상응하는 적어도 하나의 입력 뉴런 데이터에 0을 입력하여 상기 변경된 입력 뉴런 데이터를 생성하는 단계를 포함하는 인공 신경망 계산 방법.
제13항에 있어서, 상기 한 개 이상의 출력 뉴런 데이터를 계산하는 단계는,
상기 변경된 입력 뉴런 데이터와 상기 변경된 가중치들을 곱하여 한 개 이상의 가중 입력 뉴런 데이터를 생성하는 단계;
상기 한 개 이상의 가중 입력 뉴런 데이터를 합하여 총 가중값을 생성하는 단계;
상기 총 가중값에 오프셋을 더하여 오프셋 추가 총 가중값을 생성하는 단계; 및
상기 오프셋 추가 총 가중값에 활성 함수 연산을 실행하여 상기 한 개 이상의 출력 뉴런 데이터를 생성하는 단계를 포함하는 인공 신경망 계산 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제