KR20200057475A

KR20200057475A - 연산 회로를 포함하는 메모리 장치 및 그것을 포함하는 뉴럴 네트워크 시스템

Info

Publication number: KR20200057475A
Application number: KR1020180141950A
Authority: KR
Inventors: 김찬경; 김순영; 김진민; 민재홍; 이상길; 황영남
Original assignee: 삼성전자주식회사
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2020-05-26
Also published as: CN111199278A; US11651201B2; US20200160157A1

Abstract

본 개시에 따르면, 메모리 장치는, 복수의 워드 라인들 및 복수의 비트 라인들이 교차하는 영역에 배치되는 복수의 메모리 셀들을 포함하는 메모리 뱅크, 메모리 뱅크와 복수의 비트 라인들을 통해 연결되고, 복수의 비트 라인들 중 선택된 비트 라인들을 통해 전달되는 신호를 증폭하도록 구성되는 센스 앰플리파이어 및 메모리 장치의 내부에서 생성되는 내부 연산 제어 신호에 기초하여, 센스 앰플리파이어로부터 제1 피연산자를 수신하고, 메모리 장치의 외부로부터 제2 피연산자를 수신하고, 제1 피연산자 및 제2 피연산자를 이용해 연산을 수행하도록 구성되는 연산 회로를 포함할 수 있다.

Description

연산 회로를 포함하는 메모리 장치 및 그것을 포함하는 뉴럴 네트워크 시스템 {MEMORY DEVICE INCLUDING ARITHMETIC CIRCUIT AND NEURAL NETWORK SYSTEM INCLUDING THE SAME}

본 개시의 기술적 사상은 메모리 장치 및 뉴럴 네트워크 시스템에 관한 것으로서, 자세하게는 연산 회로를 포함하는 메모리 장치 및 상기 메모리 장치를 포함하는 뉴럴 네트워크 시스템에 관한 것이다.

반도체 메모리 장치는 전원 공급 중단 시 저장된 데이터를 상실하는 휘발성 메모리 장치(volatile memory device)와 저장된 데이터를 상실하지 않는 비휘발성 메모리 장치(non-volatile memory device)로 구분될 수 있다. 휘발성 메모리 장치는 읽고 쓰는 속도가 빠르지만 외부 전원 공급이 끊기면 저장된 내용이 사라져 버린다. 반면, 비휘발성 메모리 장치는 읽고 쓰는 속도가 휘발성 메모리 장치에 비해 느리지만 외부 전원 공급이 중단되더라도 그 내용을 보존한다.

한편, 뉴럴 네트워크(neural network)는 생물학적 뇌를 모델링한 컴퓨터 과학적 아키텍쳐(computational architecture)를 참조한다. 최근 뉴럴 네트워크(neural network) 기술이 발전함에 따라, 다양한 종류의 전자 시스템에서 하나 이상의 뉴럴 네트워크 모델을 이용한 뉴럴 네트워크 장치를 사용하여 입력 데이터를 분석하고 유효한 정보를 추출하는 연구가 활발히 진행되고 있다.

본 개시의 기술적 사상은 메모리 장치 및 메모리 장치를 포함하는 뉴럴 네트워크 시스템에 있어서, 데이터 전송에 소요되는 시간을 줄이고, 시스템의 전력 효율을 증가시키기 위한 방법 및 장치를 제공한다.

상기와 같은 목적을 달성하기 위하여, 본 개시의 기술적 사상의 일측면에 따른 메모리 장치는, 복수의 워드 라인들 및 복수의 비트 라인들이 교차하는 영역에 배치되는 복수의 메모리 셀들을 포함하는 메모리 뱅크, 메모리 뱅크와 복수의 비트 라인들을 통해 연결되고, 복수의 비트 라인들 중 선택된 비트 라인들을 통해 전달되는 신호를 증폭하도록 구성되는 센스 앰플리파이어 및 메모리 장치의 내부에서 생성되는 내부 연산 제어 신호에 기초하여, 센스 앰플리파이어로부터 제1 피연산자를 수신하고, 메모리 장치의 외부로부터 제2 피연산자를 수신하고, 제1 피연산자 및 제2 피연산자를 이용해 연산을 수행하도록 구성되는 연산 회로를 포함할 수 있다.

본 개시의 기술적 사상의 일측면에 따른 메모리 장치는, 복수의 메모리 셀들을 포함하는 적어도 하나의 메모리 뱅크, 외부로부터 수신되는 연산 제어 신호에 기초하여, 내부 독출 신호를 포함하고, 메모리 장치의 연산 동작을 제어하는 내부 연산 제어 신호를 생성하도록 구성되는 제어 로직 및 제어 로직에 의해 제공되는 연산 제어 신호에 기초하여, 입력 피처 데이터 및 커널 데이터에 대한 컨볼루션 연산의 전부 또는 일부를 수행하도록 구성되는 연산 회로를 포함할 수 있고, 입력 피처 데이터 및 커널 데이터 중 적어도 하나는 제어 로직에 의해 생성된 내부 독출 신호에 기초하여, 적어도 하나의 메모리 뱅크로부터 센스 앰플리파이어를 포함하는 전기적 경로를 거쳐 연산 회로에 입력될 수 있다.

본 개시의 기술적 사상의 일측면에 따른 뉴럴 네트워크 연산을 수행하기 위한 뉴럴 네트워크 시스템은, 메모리 장치의 연산 동작을 제어하기 위한 연산 제어 신호를 생성하는 뉴럴 네트워크 프로세서 및 뉴럴 네트워크 프로세서로부터 제공되는 연산 제어 신호에 기초하여, 내부 독출 신호를 포함하는 내부 연산 제어 신호를 생성하고, 내부 독출 신호가 생성됨에 따라, 입력 피처 데이터 및 커널 데이터 중 적어도 하나를 메모리 뱅크로부터 내부적으로 독촐해내고, 입력 피처 데이터 및 커널 데이터를 이용해 컨볼루션 연산의 전부 또는 일부를 수행함으로써 연산된 데이터를 생성하고, 연산된 데이터를 뉴럴 네트워크 프로세서에 제공하도록 구성되는 메모리 장치를 포함할 수 있다.

본 개시의 예시적 실시 예에 따른 메모리 장치 및 뉴럴 네트워크 시스템에 의하면, 메모리 장치에 포함된 연산 회로가 컨볼루션 연산의 전부 또는 일부를 수행함으로써 뉴럴 네트워크 프로세서와 메모리 장치 사이에서 송수신 되는 데이터의 양을 감소시킬 수 있다.

이에 따라, 메모리 장치에서 뉴럴 네트워크 프로세서로 데이터가 전송되는 시간 또한 감소하여, 결과적으로 뉴럴 네트워크 시스템의 데이터 전송상 오버헤드가 개선될 수 있다.

또한, 뉴럴 네트워크 프로세서와 메모리 장치 사이에서 송수신 되는 데이터의 양이 감소함에 따라, 뉴럴 네트워크 시스템의 전력 효율이 증가할 수 있다.

도 1은 본 개시의 예시적 실시 예에 따른 데이터 처리 시스템을 나타낸다.
도 2는 본 개시의 예시적 실시 예에 따른 뉴럴 네트워크 시스템을 나타낸다.
도 3은 뉴럴 네트워크 구조의 일 예로서, 컨볼루션 뉴럴 네트워크의 구조를 나타낸다.
도 4a 및 도 4b는 뉴럴 네트워크의 컨볼루션 연산을 설명하기 위한 도면이다.
도 5는 본 개시의 예시적 실시 예에 따른 메모리 장치를 나타낸다.
도 6은 본 개시의 예시적 실시 예에 따른 메모리 장치를 나타낸다.
도 7은 본 개시의 예시적 실시 예에 따른 연산 회로를 나타낸다.
도 8은 본 개시의 예시적 실시 예에 따른 곱셈 및 누적 회로를 나타낸다.
도 9는 본 개시의 예시적 실시 예에 따른 연산 회로를 나타낸다.
도 10은 본 개시의 예시적 실시 예에 따른 연산 회로를 나타낸다.
도 11은 본 개시의 예시적 실시 예에 따른 연산 회로 및 내부 연산 제어 신호를 나타낸다.
도 12는 본 개시의 예시적 실시 예에 따른 내부 독출 동작을 설명하기 위한 메모리 장치의 구성들을 나타낸다.
도 13은 본 개시의 예시적 실시 예에 따른 내부 기입 동작을 설명하기 위한 메모리 장치의 구성들을 나타낸다.
도 14는 본 개시의 예시적 실시 예에 따른 내부 연산 제어 신호를 나타낸다.
도 15는 본 개시의 예시적 실시 예에 따른 메모리 장치를 나타낸다.
도 16은 본 개시의 예시적 실시 예에 따른 메모리 장치의 구조를 나타낸다.
도 17은 본 개시의 예시적 실시 예에 따른 전자 시스템을 나타낸다.

이하, 첨부한 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다.

도 1은 본 개시의 예시적 실시 예에 따른 데이터 처리 시스템(10)을 나타낸다. 데이터 처리 시스템(10)은 호스트(100), 메모리 컨트롤러(200) 및 메모리 장치(300)를 포함할 수 있다. 데이터 처리 시스템(10)은 각종 서버(Server), 데스크톱, 노트북, 스마트 폰, 태블릿 PC, 프린터, 스캐너, 모니터, 디지털 카메라, 디지털 음악 플레이어, 디지털 미디어 레코드, 휴대형 게임 콘솔 등 메모리를 필요로 하는 각종 전자 장치에 적용될 수 있으며, 개시된 예시에 한정되는 것은 아니다.

호스트(100)는 메모리 컨트롤러(200)에 데이터(DATA) 및 요청(REQ)을 제공할 수 있다. 예를 들어, 호스트(100)는 메모리 컨트롤러(200)에 데이터(DATA)에 대한 독출(read) 요청 또는 기록(write) 요청과 같은 요청(REQ)을 제공할 수 있다. 이외에도, 호스트(100)는 메모리 컨트롤러(200)에 명령, 어드레스 및 우선순위 정보 등을 제공할 수 있으며, 이에 제한되지는 않는다. 호스트(100)와 메모리 컨트롤러(200)는 USB(Universal Serial Bus) 프로토콜, MMC(Multimedia Card) 프로토콜, Serial-ATA 프로토콜, Parallel-ATA 프로토콜, SCSI(Small Computer Small Interface) 프로토콜, ESDI(Enhanced Small Disk Interface) 프로토콜, 그리고 IDE(Integrated Drive Electronics) 프로토콜 등과 같은 다양한 인터페이스 프로토콜들 중 적어도 하나에 기반하여 데이터 및 신호들을 교환할 수 있다. 호스트(100)는 메모리 컨트롤러(200)와 함께 CPU(Central Processing Unit) 및/또는 GPU(Graphic Processing Unit) 등을 포함하는 SoC(System on Chip) 또는 어플리케이션 프로세서(application processor)로 구현될 수 있다.

메모리 컨트롤러(200)는 호스트(100)의 요청(REQ)에 응답하여 메모리 장치(300)를 제어할 수 있다. 예를 들어, 메모리 컨트롤러(200)는 호스트(100)로부터 수신된 기입 요청에 응답하여 메모리 장치(300)가 데이터(DATA)를 기입하거나, 호스트(100)로부터 수신된 독출 요청에 응답하여 메모리 장치(300)가 데이터(DATA)를 독출하도록 메모리 장치(300)를 제어할 수 있다. 이를 위해, 메모리 컨트롤러(200)는 메모리 장치(300)에 커맨드(CMD) 및 어드레스(ADDR)를 제공할 수 있으며, 기록될 데이터(DQ)와 독출된 데이터(DQ)는 메모리 컨트롤러(200)와 메모리 장치(300) 사이에서 송수신 될 수 있다. 일 실시 예에서, 메모리 컨트롤러(200)는 메모리 장치(300)가 연산 동작을 수행하도록 메모리 장치(300)에 연산 제어 신호(CTRL_Ari)를 제공할 수 있다. 일 실시 예에서, 메모리 컨트롤러(200)는 메모리 장치(300)의 기입 동작 및/또는 독출 동작을 제어하는 제어 신호를 제공할 수 있는데, 메모리 컨트롤러(200)는 제어 신호가 전달되는 라인을 통해 상기 연산 제어 신호(CTRL_Ari)를 메모리 장치(300)에 제공할 수 있다.

메모리 장치(300)는 적어도 하나의 메모리 뱅크(310) 및 연산 회로(370)를 포함할 수 있다. 적어도 하나의 메모리 뱅크(310)는 메모리 셀 어레이를 포함할 수 있으며, 복수의 메모리 셀들을 포함할 수 있다. 예를 들어, 적어도 하나의 메모리 뱅크(310)는 복수의 워드 라인들과 복수의 비트 라인들이 교차하는 영역에 배치되는 복수의 메모리 셀들을 포함할 수 있다. 메모리 뱅크(310)에 포함된 복수의 메모리 셀들을 어드레스(ADDR)에 의해 지시(addressing)될 수 있으며, 어드레스(ADDR)는 복수의 메모리 셀들을 지시하기 위한 다수의 비트들을 포함할 수 있다.

일 실시 예에서, 메모리 장치(300)는 휘발성 메모리 장치로 구현될 수 있다. 휘발성 메모리 장치는 RAM(Random Access Memory), DRAM(Dynamic RAM), 또는 SRAM(Static RAM)으로 구현될 수 있으나, 이에 한정되는 것은 아니다. 예시적으로, 메모리 장치(300)는 DDR SDRAM(Double Data Rate Synchronous Dynamic Random Access Memory), LPDDR(Low Power Double Data Rate) SDRAM, GDDR(Graphics Double Data Rate) SDRAM, RDRAM(Rambus Dynamic Random Access Memory) 등에 해당할 수 있다. 또는, 메모리 장치(300)는 고대역폭 메모리(high bandwidth memory; HBM)로 구현될 수도 있다. 한편, 일 실시 예에서, 메모리 장치(300)는 비휘발성 메모리 장치로 구현될 수도 있을 것이다. 일 예로서, 메모리 장치(300)는 PRAM(Phase change RAM), MRAM(Magnetic RAM) 및 RRAM(Resistive RAM) 등의 저항성 메모리로 구현될 수도 있을 것이다.

본 개시의 예시적 실시 예에 따르면, 메모리 장치(300)는 연산 회로(370)를 포함할 수 있다. 연산 회로(370)는 복수의 피연산자(operand)들을 이용해 연산 동작을 수행할 수 있다. 일 실시 예에서, 연산 회로(370)는, 메모리 장치(300)의 내부에서 생성되는 내부 연산 제어 신호(iCTRL_Ari)에 기초해, 연산 동작을 수행할 수 있다. 일 실시 예에서, 복수의 피연산자들 중 적어도 일부는 적어도 하나의 메모리 뱅크(310)에 저장된 데이터일 수 있다. 예를 들어, 연산 회로(370)는 제1 피연산자 및 제2 피연산자를 이용해 연산 동작을 수행할 수 있고, 제1 피연산자 및 제2 피연산자 중 적어도 하나는 메모리 뱅크(310)에 저장된 데이터일 수 있다. 연산 회로(370)는 복수의 피연산자들을 이용해 연산 동작을 수행함으로써 연산된 데이터를 생성할 수 있다. 연산 회로(370)에 의해 생성된 연산된 데이터는 데이터 입출력 버퍼를 포함한 경로를 거쳐 메모리 컨트롤러(200)에 제공될 수 있다.

일 실시 예에서, 내부 연산 제어 신호(iCTRL_Ari)는 내부 독출 신호 및 내부 기입 신호를 포함할 수 있다. 메모리 장치(300)는, 내부 독출 신호가 생성됨에 따라, 피연산자를 메모리 뱅크(310)로부터 센스 앰플리파이어를 포함하는 경로를 거쳐 연산 회로(370)로 전달할 수 있다. 이와 같이, 메모리 뱅크(310)로부터 연산 회로(370)까지 피연산자를 전달하는 일련의 과정은 내부 독출 동작이라 칭해질 수 있다. 메모리 장치(300)는, 내부 기입 신호가 생성됨에 따라, 메모리 장치(300)의 외부(예를 들어, 메모리 컨트롤러(200))로부터 제공되는 피연산자를 데이터 입출력 버퍼를 포함하는 경로를 거쳐 연산 회로(370)로 전달할 수 있다. 이와 같이, 메모리 장치(3000의 외부로부터 연산 회로(370)까지 피연산자를 전달하는 일련의 과정은 내부 기입 동작이라 칭해질 수 있다. 또한 일 실시 예에서, 내부 연산 제어 신호(iCTRL_Ari)는 연산 회로(370)의 연산 동작을 개시하는 연산 동작 개시 신호, 연산 회로(370)를 초기화 하는 연산 초기화 신호 및 연산된 데이터를 출력하도록 제어하는 출력 신호 중 적어도 하나를 더 포함할 수 있다. 내부 연산 제어 신호(iCTRL_Ari)에 관해서는 도 11을 참조해 보다 자세히 설명된다.

일 실시 예에서, 연산 회로(370)는 컨볼루션(convolution) 연산의 전부 또는 일부를 수행할 수 있다. 도 2 내지 도 4b를 참조해 설명되듯이, 뉴럴 네트워크 시스템은, 컨볼루션 연산을 수행할 수 있는데, 메모리 장치(300)에 포함된 연산 회로(370)가 상기 컨볼루션 연산의 전부 또는 일부를 수행할 수 있는 것이다. 이를 위해, 연산 회로(370)는 곱셈 연산 및 덧셈 연산을 수행하는 곱셈 및 누적 회로를 포함할 수 있으며, 이는 도 7 및 도 8을 참조해 보다 자세히 설명된다. 또한 일 실시 예에서, 연산 회로(370)는 링 형태로 연결된 곱셈 및 누적 회로들을 포함할 수 있으며, 이는 도 9를 참조해 보다 자세히 설명된다. 또한 일 실시 예에서, 연산 회로(370)는 비선형 함수 프로세서 및 퀀타이저를 더 포함할 수 있으며, 이는 도 10을 참조해 보다 자세히 설명된다.

일 실시 예에서, 연산 회로(370)는 입출력 센스 앰플리파이어가 배치되는 영역에 배치될 수 있다. 다시 말해, 연산 회로(370)는, 입출력 센스 앰플리파이어에 의해 증폭된 신호를 입출력 센스 앰플리파이어로부터 피연산자로서 수신할 수 있다. 연산 회로(370)가 입출력 센스 앰플리파이어가 배치되는 영역에 배치된 실시 예는 도 6을 참조해 보다 자세히 설명된다. 하지만, 이에 제한되는 것은 아니며, 연산 회로(370)는 비트 라인 센스 앰플리파이어가 배치되는 영역에 배치될 수 있다. 다시 말해, 연산 회로(370)는, 비트 라인 센스 앰플리파이어에 의해 증폭된 신호를 비트 라인 센스 앰플리파이어로부터 피연산자로서 수신할 수 있다. 연산 회로(370)가 비트 라인 센스 앰플리파이어가 위치하는 영역에 배치된 실시 예는 도 16을 참조해 보다 자세히 설명된다.

본 개시의 예시적 실시 예에 따른 데이터 처리 시스템(10)에 따르면, 메모리 장치(300)의 내부에서 생성된 내부 연산 제어 신호(iCTRL_Ari)에 기초해 메모리 장치(300)의 연산 회로(370)가 피연산자들에 대한 연산 동작을 수행하고, 연산된 데이터를 메모리 컨트롤러(200)로 송신함으로써, 메모리 컨트롤러(200)와 메모리 장치(300) 사이에서 송수신되는 데이터의 양이 감소할 수 있다. 이에 따라, 메모리 장치(300)에서 메모리 컨트롤러(200)로 데이터가 전송되는 시간 또한 감소하여, 결과적으로 데이터 처리 시스템(10)의 데이터 전송상 오버헤드가 개선될 수 있다. 또한, 메모리 컨트롤러(200)와 메모리 장치(300) 사이에서 송수신 되는 데이터의 양이 감소함에 따라, 데이터 처리 시스템(10)의 전력 효율이 개선될 수 있다.

도 2는 본 개시의 예시적 실시 예에 따른 뉴럴 네트워크 시스템(20)을 나타낸다. 뉴럴 네트워크 시스템(20)은 뉴럴 네트워크 프로세서(400) 및 메모리 장치(300)를 포함할 수 있으며, 뉴럴 네트워크 프로세서(400)는 프로세서(100) 및 메모리 컨트롤러(200)를 포함할 수 있다. 도 2를 도 1과 비교하면, 도 2의 프로세서(100)는 도 1의 호스트(100)에 대응될 수 있고, 도 2의 메모리 컨트롤러(200) 및 메모리 장치(300)는 도 1의 메모리 컨트롤러(200) 및 메모리 장치(300)에 대응될 수 있다. 도 2에 관해 도 1과 중복되는 설명은 생략한다.

뉴럴 네트워크 프로세서(400)는 뉴럴 네트워크를 생성하거나, 뉴럴 네트워크를 훈련(train, 또는 학습(learn))하거나, 수신되는 입력 데이터를 기초로 연산을 수행하고, 수행 결과를 기초로 정보 신호(information signal)를 생성하거나, 뉴럴 네트워크를 재훈련(retrain)할 수 있다. 뉴럴 네트워크의 모델들은 GoogleNet, AlexNet, VGG Network 등과 같은 CNN(Convolution Neural Network), R-CNN(Region with Convolution Neural Network), RPN(Region Proposal Network), RNN(Recurrent Neural Network), S-DNN(Stacking-based deep Neural Network), S-SDNN(State-Space Dynamic Neural Network), Deconvolution Network, DBN(Deep Belief Network), RBM(Restricted Boltzmann Machine), Fully Convolutional Network, LSTM(Long Short-Term Memory) Network, Classification Network 등 다양한 종류의 모델들을 포함할 수 있으나 이에 제한되지는 않는다. 프로세서(100)는 뉴럴 네트워크의 모델들에 따른 연산을 수행할 수 있다. 또한, 뉴럴 네트워크 프로세서(400)는 뉴럴 네트워크의 모델들에 대응되는 프로그램들을 저장하기 위한 별도의 메모리를 포함할 수도 있다. 뉴럴 네트워크 프로세서(400)는 뉴럴 네트워크 처리 장치(neural network processing device) 또는 뉴럴 네트워크 처리 유닛(Neural network Processing Unit; NPU) 등으로 달리 호칭될 수 있다.

뉴럴 네트워크 프로세서(400)는, 도 3 내지 도 4b를 참조해 설명되는 바와 같이, 입력 피처 맵 및 커널을 이용해 컨볼루션 연산을 수행할 수 있다. 입력 피처 맵에 포함된 데이터들을 입력 피처 데이터라고 칭하기로 하고, 커널에 포함된 데이터들을 커널 데이터라고 칭하기로 한다.

일반적인 뉴럴 네트워크 시스템은, 컨볼루션 연산을 수행할 때, 메모리 장치로부터 입력 피처 데이터들 및 커널 데이터들을 모두 수신해야 한다. 이와 같이, 일반적인 뉴럴 네트워크 시스템에서는, 컨볼루션 연산 회수 및/또는 데이터들의 양이 증가함에 따라, 뉴럴 네트워크 프로세서와 메모리 장치 사이에서 송수신되는 데이터의 양 또한 증가할 수 있다. 이에 따라, 일반적인 뉴럴 네트워크 시스템은, 데이터 전송상 오버헤드가 증가하고, 전력 소모가 증가하는 문제점을 갖는다.

본 개시의 예시적 실시 예에 따른 뉴럴 네트워크 시스템(20)에 따르면, 메모리 장치(300)의 내부에서 생성된 내부 연산 제어 신호(iCTRL_Ari)에 기초해 메모리 장치(300)의 연산 회로(370)가 입력 피처 데이터 및 커널 데이터를 이용해 컨볼루션 연산의 전부 또는 일부를 수행하고, 연산된 데이터를 메모리 컨트롤러(200)로 송신함으로써, 메모리 컨트롤러(200)와 메모리 장치(300) 사이에서 송수신되는 데이터의 양이 감소할 수 있다. 이에 따라, 메모리 장치(300)에서 메모리 컨트롤러(200)로 데이터가 전송되는 시간 또한 감소하여, 결과적으로 뉴럴 네트워크 시스템(20)의 데이터 전송상 오버헤드가 개선될 수 있다. 또한, 뉴럴 네트워크 프로세서(400)와 메모리 장치(300) 사이에서 송수신 되는 데이터의 양이 감소함에 따라, 뉴럴 네트워크 시스템(20)의 전력 효율이 개선될 수 있다.

도 3은 뉴럴 네트워크 구조의 일 예로서, 컨볼루션 뉴럴 네트워크의 구조를 나타낸다. 뉴럴 네트워크(NN)는 복수의 레이어들(L1 내지 Ln)을 포함할 수 있다. 복수의 레이어들(L1 내지 Ln) 각각은 선형 레이어 또는 비선형 레이어일 수 있으며, 일 실시 예에 있어서, 적어도 하나의 선형 레이어 및 적어도 하나의 비선형 레이어가 결합되어 하나의 레이어로 지칭될 수도 있다. 예시적으로, 선형 레이어는 컨볼루션 레이어(convolution layer) 및 풀리 커넥티드 레이어(fully-connected layer)를 포함할 수 있으며, 비선형 레이어는 풀링(pooling layer) 및 활성 레이어(activation layer)를 포함할 수 있다.

예시적으로, 제1 레이어(L1)는 컨볼루션 레이어이고, 제2 레이어(L2)는 풀링 레이어이고, 제n 레이어(Ln)는 출력 레이어로서 풀리 커넥티드 레이어일 수 있다. 뉴럴 네트워크(NN)는 활성 레이어를 더 포함할 수 있으며, 다른 종류의 연산을 수행하는 레이어를 더 포함할 수 있다.

복수의 레이어들(L1 내지 Ln) 각각은 입력되는 데이터(예컨대, 이미지 프레임) 또는 이전 레이어에서 생성된 피처 맵을 입력 피처 맵으로서 수신하고, 입력 피처 맵을 연산함으로써 출력 피처 맵 또는 인식 신호(REC)를 생성할 수 있다. 이 때, 피처 맵은 입력 데이터의 다양한 특징이 표현된 데이터를 의미한다. 피처 맵들(FM1, FM2, FMn)은 예컨대 2차원 매트릭스 또는 3차원 매트릭스(또는 텐서(tensor)) 형태를 가질 수 있다. 피처 맵들(FM1, FM2, FMn)은 너비(W)(또는 칼럼), 높이(H)(또는 로우) 및 깊이(D)를 가지며, 이는 좌표상의 x축, y축 및 z축에 각각 대응될 수 있다. 이 때, 깊이(D)는 채널 수로 지칭될 수 있다.

제1 레이어(L1)는 제1 피처 맵(FM1)을 웨이트 맵(WM)과 컨볼루션함으로써 제2 피처 맵(FM2)을 생성할 수 있다. 웨이트 맵(WM)은 제1 피처 맵(FM1)을 필터링할 수 있으며, 필터 또는 커널로도 지칭될 수 있다. 웨이트 맵(WM)의 깊이, 즉 채널 개수는 제1 피처 맵(FM1)의 깊이, 즉 채널 개수와 동일하며, 웨이트 맵(WM)과 제1 피처 맵(FM1)의 동일한 채널끼리 컨볼루션 될 수 있다. 웨이트 맵(WM)이 제1 피처 맵(FM1)을 슬라이딩 윈도우로 하여 횡단하는 방식으로 시프트 될 수 있다. 시프트되는 양은 "스트라이드(stride) 길이" 또는 "스트라이드"로 지칭될 수 있다. 각 시프트 동안, 웨이트 맵(WM)에 포함되는 웨이트 값들 각각이 제1 피처 맵(FM1)과 중첩되는 영역에서의 모든 피처 데이터들과 곱해지고 더해질 수 있다. 웨이트 맵(WM)에 포함되는 웨이트 값들 각각이 제1 피처 맵(FM1)과 중첩되는 영역에서의 제1 피처 맵(FM1)의 데이터들을 추출 데이터라 칭할 수 있다. 제1 피처 맵(FM1)과 웨이트 맵(WM)이 컨볼루션 됨에 따라, 제2 피처 맵(FM2)의 하나의 채널이 생성될 수 있다. 도 3에는 하나의 웨이트 맵(WM)이 표시되었으나, 실질적으로는 복수의 웨이트 맵들이 제1 피처 맵(FM1)과 컨볼루션 되어, 제2 피처 맵(FM2)의 복수의 채널들이 생성될 수 있다. 다시 말해, 제2 피처 맵(FM2)의 채널의 수는 웨이트 맵의 개수에 대응될 수 있다.

제2 레이어(L2)는 풀링을 통해 제2 피처 맵(FM2)의 공간적 크기(spatial size)를 변경함으로써, 제3 피처 맵(FM3)을 생성할 수 있다. 풀링은 샘플링 또는 다운-샘플링으로 지칭될 수 있다. 2차원의 풀링 윈도우(PW)가 풀링 윈도우(PW)의 사이즈 단위로 제2 피처 맵(FM2) 상에서 시프트 되고, 풀링 윈도우(PW)와 중첩되는 영역의 피처 데이터들 중 최대값(또는 피처 데이터들의 평균값)이 선택될 수 있다. 이에 따라, 제2 피처 맵(FM2)으로부터 공간적 사이즈가 변경된 제3 피처 맵(FM3)이 생성될 수 있다. 제3 피처 맵(FM3)의 채널과 제2 피처 맵(FM2)의 채널 개수는 동일하다.

제n 레이어(Ln)는 제n 피처 맵(FMn)의 피처들을 조합함으로써 입력 데이터의 클래스(class)(CL)를 분류할 수 있다. 또한, 제n 레이어(Ln)는 클래스(CL)에 대응되는 인식 신호(REC)를 생성할 수 있다. 실시 예에 있어서, 입력 데이터는 비디오 스트림(video stream)에 포함되는 프레임 데이터에 대응될 수 있으며, 제n 레이어(Ln)는 이전 레이어로부터 제공되는 제n 피처 맵(FMn)을 기초로 프레임 데이터가 나타내는 이미지에 포함되는 사물에 해당하는 클래스(CL)를 추출함으로써, 사물을 인식하고, 인식된 사물에 상응하는 인식 신호(REC)를 생성할 수 있다.

도 4a 및 도 4b는 뉴럴 네트워크의 컨볼루션 연산을 설명하기 위한 도면이다.

도 4a를 참조하면, 입력 피처 맵들(401)은 D개의 채널들을 포함하고, 각 채널의 입력 피처 맵은 H행 W열의 크기를 가질 수 있다(D, H, W는 자연수). 커널들(402) 각각은 R행 S열의 크기를 갖고, 커널들(402)은 입력 피처 맵들(401)의 채널 수(또는 깊이)(D) 에 대응되는 개수의 채널들을 포함할 수 있다(R, S는 자연수). 출력 피처 맵들(403)은 입력 피처 맵들(401)과 커널들(402) 간의 3차원 컨볼루션 연산을 통해 생성될 수 있고, 컨볼루션 연산에 따라 Y개의 채널들을 포함할 수 있다.

하나의 입력 피처 맵과 하나의 커널 간의 컨볼루션 연산을 통해 출력 피처 맵이 생성되는 과정은 도 4b를 참조해 설명될 수 있으며, 도 4b에서 설명되는 2차원 컨볼루션 연산이 전체 채널들의 입력 피처 맵들(401)과 전체 채널들의 커널들(402) 간에 수행됨으로써, 전체 채널들의 출력 피처 맵들(403)이 생성될 수 있다.

도 4b를 참조하면, 설명의 편의를 위해, 입력 피처 맵(410)은 6x6 크기(size)를 가지고, 원본 커널(420)은 3x3 크기를 가지고, 출력 피처 맵(430)은 4x4 크기인 것으로 가정하나, 이에 제한되지 않으며 뉴럴 네트워크는 다양한 크기의 피처 맵들 및 커널들로 구현될 수 있다. 또한, 입력 피처 맵(410), 원본 커널(420) 및 출력 피처 맵(430)에 정의된 값들은 모두 예시적인 값들일 뿐이고, 본 개시에 따른 실시 예들이 이에 제한되지 않는다.

원본 커널(420)은 입력 피처 맵(410)에서 3x3 크기의 윈도우 단위로 슬라이딩하면서 컨볼루션 연산을 수행할 수 있다. 컨볼루션 연산은 입력 피처 맵(410)의 어느 윈도우의 각 피처 데이터 및 원본 커널(420)에서 대응되는 위치의 각 웨이트 값들 간의 곱셈을 함으로써 획득된 값들을 모두 합산함에 따라 출력 피처 맵(430)의 각 피처 데이터를 구하는 연산을 나타낼 수 있다. 웨이트 값들과 곱해지는 상기 입력 피처 맵(410)의 윈도우에 포함된 데이터들을 입력 피처 맵(410)으로부터 추출된 추출 데이터라 칭할 수 있다. 구체적으로, 원본 커널(420)은 먼저 입력 피처 맵(410)의 제1 추출 데이터(411)와 컨볼루션 연산을 수행할 수 있다. 즉, 제1 추출 데이터(411)의 각 피처 데이터 1, 2, 3, 4, 5, 6, 7, 8, 9는 각각 대응되는 원본 커널(420)의 웨이트 값인 -1, -3, 4, 7, -2, -1, -5, 3, 1과 곱해지고, 그 결과로서 -1, -6, 12, 28, -10, -6, -35, 24, 9가 획득될 수 있다. 다음으로, 획득된 값들 -1, -6, 12, 28, -10, -6, -35, 24, 9를 모두 더한 결과인 15가 계산되고, 출력 피처 맵(430)의 1행 1열의 피처 데이터(431)는 15로 결정될 수 있다. 여기서 출력 피처 맵(430)의 1행 1열의 피처 데이터(431)는 제1 추출 데이터(411)에 대응된다. 마찬가지 방식으로, 입력 피처 맵(410)의 제2 추출 데이터(412)와 원본 커널(420) 간의 컨볼루션 연산이 수행됨으로써 출력 피처 맵(430)의 1행 2열의 피처 데이터(432)인 4가 결정될 수 있다. 최종적으로, 입력 피처 맵(410)의 마지막 추출 데이터인 제16 추출 데이터(413)와 원본 커널(420) 간의 컨볼루션 연산이 수행됨으로써 출력 피처 맵(430)의 4행 4열의 피처 데이터(433)인 11이 결정될 수 있다.

다시 말해, 하나의 입력 피처 맵(410)과 하나의 원본 커널(420) 간의 컨볼루션 연산은 입력 피처 맵(410)의 추출 데이터 및 원본 커널(420)의 대응되는 웨이트 값들의 곱셈 및 곱셈 결과들의 합산을 반복적으로 수행함으로써 처리될 수 있고, 컨볼루션 연산의 결과로서 출력 피처 맵(430)이 생성될 수 있다.

도 5는 본 개시의 예시적 실시 예에 따른 메모리 장치(300)를 나타낸다. 메모리 장치(300)는 메모리 뱅크(310), 로우 디코더(320), 컬럼 디코더(330) 및 주변 회로(peripheral circuit; 340)를 포함할 수 있고, 주변 회로(340)는 입출력 센스 앰플리파이어(350), 제어 로직(360) 및 연산 회로(370)를 포함할 수 있다. 도 5는, 설명의 편의를 위해, 메모리 장치(300)가 하나의 메모리 뱅크(310)를 포함한 경우를 도시하지만, 메모리 뱅크의 개수는 이에 제한되지 않는다. 예를 들어, 메모리 장치(300)는 복수의 메모리 뱅크들을 포함할 수도 있다. 도 5에 관한 도 1의 메모리 장치(300)와 중복되는 설명은 생략한다.

메모리 뱅크(310)는 복수의 워드 라인들(WLs) 및 복수의 비트 라인들(BLs)이 교차하는 영역에 배치되는 복수의 메모리 셀들을 포함할 수 있다. 일 실시 예에서, 복수의 메모리 셀들 각각은 하나의 트랜지스터(transistor)와 하나의 커패시터(capacitor)를 포함하는 DRAM 셀일 수 있다. 메모리 뱅크(310)는 로우 디코더(320) 및 컬럼 디코더(330)에 의해 구동될 수 있다.

로우 디코더(320)는 주변 회로(340)의 제어에 의해 워드 라인들(WLs) 중 적어도 하나의 워드 라인을 선택할 수 있다. 로우 디코더(320)는 주변 회로(340)로부터 로우 디코더 제어 신호(ROW_CTRL) 및 로우 어드레스(ROW_ADDR)를 입력 받을 수 있다. 로우 디코더 제어 신호(ROW_CTRL) 및 로우 어드레스(ROW_ADDR)는 메모리 장치(300) 외부의 메모리 컨트롤러(도 1의 200)에 의해 제공되는 커맨드(CMD) 및 어드레스(ADDR)를 기초로 주변 회로(340)에 의해 생성될 수 있다. 예를 들어, 메모리 장치(300)에 액티브 명령과 활성화하고자 하는 워드 라인 어드레스들이 입력되면, 주변 회로(340)는 로우 어드레스 제어 신호(ROW_CTRL)를 활성화하고, 로우 어드레스(ROW_ADDR)를 생성할 수 있다. 로우 디코더(320)는 로우 디코더 제어 신호(ROW_CTRL) 및 로우 어드레스(ROW_ADDR)를 기초로 적어도 하나의 워드 라인을 선택할 수 있다. 선택된 워드 라인에 연결된 메모리 셀들의 집합을 하나의 선택된 페이지(page)로 볼 수 있다.

컬럼 디코더(330)는 주변 회로(340)의 제어에 의해 비트 라인들(BLs) 중 적어도 하나의 비트 라인을 선택할 수 있다. 컬럼 디코더(330)에 의해 선택된 비트 라인들은 글로벌 입출력 라인들(GIOs)과 연결될 수 있다. 컬럼 디코더(330)는 주변 회로(340)로부터 컬럼 디코더 제어 신호(COL_CTRL) 및 컬럼 어드레스(COL_ADDR)를 입력 받을 수 있다. 예를 들면, 액티브 명령 이후 선택된 페이지에 데이터가 저장되거나 선택된 페이지로부터 데이터가 읽혀지기 위해, 메모리 장치(300)에 기입 명령 또는 독출 명령이 입력될 수 있다. 주변 회로(340)는 컬럼 디코더 제어 신호(COL_CTRL)를 활성화하고 컬럼 어드레스(COL_ADDR)를 생성할 수 있다.

주변 회로(340)는 메모리 장치(300) 외부의 메모리 컨트롤러(200)로부터 커맨드(CMD) 및 어드레스(ADDR)를 입력 받을 수 있다. 주변 회로(340)는, 커맨드(CMD) 및 어드레스(ADDR)를 기초로, 로우 디코더 제어 신호(ROW_CTRL), 로우 어드레스(ROW_ADDR), 컬럼 디코더 제어 신호(COL_CTRL) 컬럼 어드레스(COL_ADDR)를 생성할 수 있다. 주변 회로(340)는 로우 디코더 제어 신호(ROW_CTRL) 및 로우 어드레스(ROW_ADDR)를 로우 디코더(320)에 제공할 수 있고, 컬럼 디코더 제어 신호(COL_CTRL) 및 컬럼 어드레스(COL_ADDR)를 컬럼 디코더(330)에 제공할 수 있다. 주변 회로(340)는 메모리 장치(300)의 외부와 데이터(DQ)를 주고 받을 수 있다. 예를 들어, 주변 회로(340)는 메모리 장치(300)의 데이터 입출력 패드를 통해 데이터(DQ)를 주고 받을 수 있다.

주변 회로(340)는 입출력 센스 앰플리파이어(350), 제어 로직(360) 및 연산 회로(370)를 포함할 수 있다.

입출력 센스 앰플리파이어(350)는 컬럼 디코더(330)에 의해 선택된 비트 라인들과 연결되는 글로벌 입출력 라인들(GIOs)에 연결될 수 있다. 입출력 센스 앰플리파이어(350)는 메모리 뱅크(310)로부터 글로벌 입출력 라인들(GIOs)을 통해 전달되는 신호를 증폭할 수 있다.

제어 로직(360)은 메모리 장치(300)의 전반적인 동작을 제어할 수 있다. 일 실시 예에서, 제어 로직(360)은 커맨드 디코더를 포함할 수 있으며, 커맨드(CMD) 관련 신호들, 예컨대, 칩 선택 신호(chip select; /CS), 로우 어드레스 스트로브 신호(Row Address Strobe; /RAS), 컬럼 어드레스 스트로브 신호(Column Address strobe; /CAS), 라이트 인에이블 신호(Write enable; /WE) 및 클록 인에이블 신호(Clock enable; CKE) 등을 디코딩하여, 디코딩된 명령 신호를 내부적으로 발생할 수 있다. 일 실시 예에서, 제어 로직(360)은 메모리 장치(300) 외부의 메모리 컨트롤러(200)에 의해 제공되는 연산 제어 신호(CTRL_Ari)에 기초해 내부 연산 제어 신호(iCTRL_Ari)를 생성할 수 있다. 제어 로직(360)은 내부 연산 제어 신호(iCTRL_Ari)를 연산 회로(370)에 제공할 수 있다.

또한, 제어 로직(360)은 제1 피연산자(OP1) 및/또는 제2 피연산자(OP2)가 메모리 뱅크(310)에 저장되는 단계에서 메모리 장치(300)를 제어할 수 있다. 예를 들어, 제1 피연산자(OP1)가 메모리 뱅크(310)에 저장되는 경우를 가정한다. 제어 로직(360)은, 제1 피연산자(OP1)가 순차적으로 상기 연산 회로(370)로 입력되도록, 제1 피연산자(OP1)가 저장될 메모리 뱅크(310)의 어드레스를 구성함으로써 상기 제1 피연산자(OP1)가 메모리 뱅크(310)에 저장되도록 제어할 수 있다.

연산 회로(370)는, 제어 로직(360)에 의해 제공된 내부 연산 제어 신호(iCTRL_Ari)에 기초하여, 제1 피연산자(OP1) 및 제2 피연산자(OP2)를 이용해 연산 동작을 수행할 수 있다. 제1 피연산자(OP1) 및 제2 피연산자(OP2) 중 적어도 하나는 메모리 뱅크(310)로부터 입출력 센스 앰플리파이어(350)를 포함하는 경로를 거쳐 얻어질 수 있다. 예를 들어, 연산 회로(370)는 제1 피연산자(OP1) 및 제2 피연산자(OP2)는 모두 메모리 뱅크(310)로부터 얻을 수 있다. 또한 예를 들어, 연산 회로(370)는 제1 피연산자(OP1) 및 제2 피연산자(OP2) 중 어느 하나를 메모리 뱅크(310)로부터 얻고, 제1 피연산자(OP1) 및 제2 피연산자(OP2) 중 나머지 하나를 메모리 장치(300)의 외부로부터 얻을 수 있다. 연산 회로(370)는 제1 피연산자(OP1) 및 제2 피연산자(OP2)를 이용해 연산 동작을 수행함으로써 연산된 데이터(Data_cal)를 생성할 수 있고, 연산된 데이터(Data_cal)를 메모리 장치(300) 외부로 출력할 수 있다. 일 실시 예에서, 연산 동작은 컨볼루션 연산의 전부 또는 일부를 포함할 수 있으며, 제1 피연산자(OP1)는 입력 피처 맵에 포함된 입력 피처 데이터이고, 제2 피연산자(OP2)는 커널에 포함된 커널 데이터일 수 있다.

연산 회로(370)는 메모리 장치(300) 내에서 다양한 형태로 구현될 수 있으며, 실시 예에 따라 연산 회로(370)는 하드웨어 형태로 구현되거나 소프트웨어 형태로 구현될 수 있다. 예를 들어, 연산 회로(370)가 하드웨어의 형태로 구현되는 경우, 연산 회로(370)는 연산 동작을 수행하기 위한 회로들을 포함할 수 있다. 또한 예를 들어, 연산 회로(370)가 소프트웨어의 형태로 구현되는 경우, 메모리 장치(300) 내에 저장된 프로그램(또는 인스트럭션들) 및/또는 랜덤 입출력 코드가 제어 로직(360) 또는 메모리 장치(300) 내부 적어도 하나의 프로세서에 의해 실행됨으로써 연산 동작을 수행할 수 있다. 하지만 상기 실시 예들에만 한정되는 것도 아니며, 연산 회로(370)는 펌웨어와 같이 소프트웨어와 하드웨어가 결합된 형태로 구현될 수도 있다.

도 6은 본 개시의 예시적 실시 예에 따른 메모리 장치(300)를 나타낸다. 도 6의 메모리 장치(300)에 관해 도 5와 중복되는 설명은 생략한다.

메모리 장치(300)는 메모리 뱅크(310), 로우 디코더(320), 컬럼 디코더(330), 입출력 센스 앰플리파이어(350) 및 연산 회로(370)를 포함할 수 있다.

메모리 뱅크(310)는 복수의 워드 라인들(WLs) 및 복수의 비트 라인들(BLs)의 방향을 따라 매트릭스 형태로 배치된 복수의 서브 메모리 셀 어레이들을 포함할 수 있다. 서브 메모리 셀 어레이 각각은 복수의 메모리 셀들을 포함할 수 있으며, 복수의 워드 라인들(WLs) 중 어느 서브 메모리 셀 어레이와 연결된 워드 라인을 서브 워드 라인(SWL)이라 칭하고, 복수의 비트 라인들(BLs) 중 어느 서브 메모리 셀 어레이와 연결된 비트 라인을 서브 비트 라인(SBL)이라 칭하기로 한다. 메모리 뱅크(310)는 워드 라인 방향으로 N개(단, N은 자연수)의 서브 메모리 셀 어레이들을 포함할 수 있고, 비트 라인 방향으로 M개(단, M은 자연수)의 서브 메모리 셀 어레이들을 포함할 수 있다.

메모리 뱅크(310)는 복수의 비트 라인 센스 앰플리파이어들, 복수의 서브 워드라인 드라이버들 및 복수의 접합부들을 포함할 수 있다. 복수의 서브 워드라인 드라이버들 각각은 서브 워드라인 드라이버에 연결된 서브 워드 라인들을 구동할 수 있다. 복수의 비트 라인 센스 앰플리파이어들 각각은 서브 비트 라인(SBL)과 상보적 서브 비트 라인(SBLB) 사이의 전압 차이를 증폭할 수 있다. 다시 말해, 비트 라인 센스 앰플리파이어는 서브 비트 라인(SBL)을 통해 전달되는 신호를 증폭할 수 있다. 복수의 서브 워드라인 드라이버들 및 복수의 비트 라인 센스 앰플리파이어들은 복수의 서브 메모리 셀 어레이들 사이에 반복하여 배치될 수 있다.

메모리 뱅크(310)의 메모리 셀에 저장된 데이터는 비트 라인들(BLs) 및 글로벌 입출력 라인들(GIOs)을 통해 입출력 센스 앰플리파이어(350)에 전달될 수 있다.

일 실시 예에서, 연산 회로(370)는 입출력 센스 앰플리파이어(350)가 배치된 영역에 배치될 수 있다. 또한, 연산 회로(370)는 메모리 뱅크(310)로부터 입출력 센스 앰플리파이어(350)를 포함하는 경로를 거쳐 제1 피연산자 및 제2 피연산자 중 적어도 하나를 얻어낼 수 있다. 도 6에서는, 설명의 편의상, 연산 회로(370)의 연산 동작이 컨볼루션 연산의 전부 또는 일부이고, 제1 피연산자는 입력 피처 데이터(IFD)이고, 제2 피연산자는 커널 데이터(KND)인 실시 예가 도시된다. 다시 말해, 연산 회로(370)는, 메모리 장치(300) 내부에서 생성된 내부 연산 제어 신호(iCTRL_Ari)에 포함된 내부 독출 신호에 기초하여, 메모리 뱅크(310)로부터 입출력 센스 앰플리파이어(350)를 포함하는 경로를 거쳐 입력 피처 데이터(IFD) 및 커널 데이터(KND) 중 적어도 하나를 얻어낼 수 있다. 연산 회로(370)는 입력 피처 데이터(IFD) 및 커널 데이터(KND)를 이용해 컨볼루션 연산의 전부 또는 일부를 수행함으로써 연산된 데이터(Data_cal)를 생성해낼 수 있다. 연산 회로(370)는 연산된 데이터(Data_cal)를 출력할 수 있다.

도 7은 본 개시의 예시적 실시 예에 따른 연산 회로(370)를 나타낸다. 도 7의 연산 회로(370)에 관한 도 1, 도 2, 도 5 및 도 6과 중복되는 설명은 생략한다. 도 7은 도 6을 함께 참조해 설명된다.

도 7은, 입력 피처 데이터(IFD)가 메모리 장치(300)의 외부로부터 입력되고, 커널 데이터(KND)가 메모리 뱅크(310)로부터 얻어지는 경우를 도시한다. 하지만, 이는 설명의 편의일 뿐이며, 입력 피처 데이터(IFD) 또한 메모리 뱅크(310)로부터 얻어질 수 있다.

연산 회로(370)는 복수의 곱셈 및 누적 회로들을 포함할 수 있다. 예를 들어, 연산 회로(370)는 제1 곱셈 및 누적 회로(372_1) 내지 제N 곱셈 및 누적 회로(372_N)를 포함할 수 있다. N은, 도 6의 메모리 뱅크(310)에서 워드 라인 방향의 서브 메모리 셀 어레이들의 개수와 동일할 수 있다. 입력 피처 데이터(IFD)는 제1 입력 피처 데이터(IFD_1) 내지 제N 입력 피처 데이터(IFD_N)를 포함할 수 있고, 커널 데이터(KND)는 제1 커널 데이터(KND_1) 내지 제N 커널 데이터(KND_N)를 포함할 수 있다. 제1 입력 피처 데이터(IFD_1) 내지 제N 입력 피처 데이터(IFD_N) 각각은 n-bit(단, n은 자연수)의 데이터일 수 있고, 제1 커널 데이터(KND_1) 내지 제N 커널 데이터(KND_N)는 n-bit의 데이터일 수 있다. 비제한적인 예시로서, 제1 입력 피처 데이터(IFD_1) 내지 제N 입력 피처 데이터(IFD_N) 및 제1 커널 데이터(KND_1) 내지 제N 커널 데이터(KND_N)는 8-bit의 데이터일 수 있다.

제1 곱셈 및 누적 회로(372_1)는 제1 입력 피처 데이터(IFD_1) 및 제1 커널 데이터(KND_1)를 이용해 곱셈 연산 및 덧셈 연산을 수행함으로써 제1 연산된 데이터(Data_cal_1)를 생성할 수 있고, 제1 연산된 데이터(Data_cal_1)를 출력할 수 있다. 예를 들어, 제1 곱셈 및 누적 회로(372_1)는 내부 연산 제어 신호(iCTRL_Ari)에 포함된 출력 신호에 응답하여, 제1 연산된 데이터(Data_cal_1)를 출력할 수 있다. 비제한적인 예시로서, 제1 연산된 데이터(Data_cal_1)는 2n-bit의 데이터이거나, (2n+1)-bit의 데이터일 수 있다. 도 4a 및 도 4b를 참조해 설명 되었듯이, 컨볼루션 연산의 경우, 입력 피처 데이터들과 커널 데이터들을 곱한 뒤 합산하는 과정을 복수 회 포함한다. 이를 위해, 제1 곱셈 및 누적 회로(372_1)는 곱셈 연산 및 덧셈 연산을 수행할 수 있다.

마찬가지로, 제2 곱셈 및 누적 회로(372_2)는 제2 입력 피처 데이터(IFD_2) 및 제2 커널 데이터(KND_2)를 이용해 곱셈 연산 및 덧셈 연산을 수행함으로써 제2 연산된 데이터(Data_cal_2)를 생성할 수 있고, 제2 연산된 데이터(Data_cal_2)를 출력할 수 있다. 예를 들어, 제2 곱셈 및 누적 회로(372_2)는 내부 연산 제어 신호(iCTRL_Ari)에 포함된 출력 신호에 응답하여, 제2 연산된 데이터(Data_cal_2)를 출력할 수 있다.

마찬가지로, 제N 곱셈 및 누적 회로(372_N)는 제N 입력 피처 데이터(IFD_N_) 및 제N 커널 데이터(KND_N)를 이용해 곱셈 연산 및 덧셈 연산을 수행함으로써 제N 연산된 데이터(Data_cal_N)를 생성할 수 있고, 제N 연산된 데이터(Data_cal_N)를 출력할 수 있다. 예를 들어, 제N 곱셈 및 누적 회로(372_N)는 내부 연산 제어 신호(iCTRL_Ari)에 포함된 출력 신호에 응답하여, 제N 연산된 데이터(Data_cal_N)를 출력할 수 있다.

연산된 데이터(Data_cal)는 제1 연산된 데이터(Data_cal_1) 내지 제N 연산된 데이터(Data_cal_N) 중 적어도 하나를 포함할 수 있다.

도 8은 본 개시의 예시적 실시 예에 따른 곱셈 및 누적 회로를 나타낸다. 설명의 편의를 위해, 도 8은 도 7의 제1 곱셈 및 누적 회로(372_1)를 도시한다. 도 7의 제2 곱셈 및 누적 회로(372_2) 내지 제N 곱셈 및 누적 회로(372_N) 또한 도 8과 같은 구성을 포함할 수 있다. 제1 곱셈 및 누적 회로(372_1)에 관한 도 7과 중복되는 설명은 생략된다.

제1 곱셈 및 누적 회로(372_1)는 곱셈기(373), 덧셈기(374) 및 레지스터(375)를 포함할 수 있다.

곱셈기(373)는 제1 입력 피처 데이터(IFD_1)에 제1 커널 데이터(KND_1)를 곱셈함으로써 곱셈 데이터(Data_mul)를 생성해낼 수 있으며, 곱셈 데이터(Data_mul)를 덧셈기(374)에 제공할 수 있다.

레지스터(375)는 연산된 데이터를 일시적으로 저장할 수 있다. 레지스터(375)는 저장하고 있는 연산된 데이터를 누적 데이터(Data_acc)로서 덧셈기(374)에 제공할 수 있다.

덧셈기(374)는 레지스터(375)로부터 제공된 누적 데이터(Data_acc)에 곱셈 데이터(Data_mul)를 합산함으로써 업데이트 된 데이터(Data_upd)를 생성할 수 있다. 다시 말해, 덧셈기(374)는 레지스터(375)에 의해 제공되는 연산된 데이터에 곱셈 데이터(Data_mul)를 합산함으로써 연산된 데이터를 업데이트 할 수 있다. 레지스터(375)는 특정 시점에 연산된 데이터를 제1 연산된 데이터(Data_cal_1)로서 출력할 수 있다. 예를 들어, 연산 회로(370)에 출력 신호가 입력된 경우, 레지스터(375)는 제1 연산된 데이터(Data_cal_1)를 출력할 수 있다.

이와 같이, 제1 곱셈 및 누적 회로(372_1)는, 곱셈기(373)에 의해 곱셈 연산을 수행할 수 있고, 덧셈기(374) 및 레지스터(375)에 의해 데이터를 누적할 수 있다.

도 9는 본 개시의 예시적 실시 예에 따른 연산 회로(370)를 나타낸다. 도 9는, 도 7과 비교할 때, 복수의 곱셈 및 누적 회로들이 링(ring) 형태로 연결된 실시 예를 도시한다. 일 실시 예에서, 도 9에 도시되지는 않았지만, 제1 곱셈 및 누적 회로(372_1)의 덧셈기(374_1) 또한 제N 곱셈 및 누적 회로(373_N)의 레지스터(375_N)로부터 데이터를 제공받을 수 있다.

제1 곱셈 및 누적 회로(372_1)의 곱셈기(373_1)는, 제1 입력 피처 데이터(IFD_1)에 제1 커널 데이터(KND_1)를 곱할 수 있고, 제1 곱셈 및 누적 회로(372_1)의 덧셈기(374_1)는 주어진 초기 값 또는 제N 곱셈 및 누적 회로(372_N)의 레지스터(375_N)로부터 제공되는 데이터에 곱셈 데이터를 더할 수 있고, 레지스터(375_1)는 결과 값을 일시적으로 저장한 뒤, 제2 곱셈 및 누적 회로(372_2)의 덧셈기(374_2)에 제공할 수 있다.

제2 곱셈 및 누적 회로(372_2)의 곱셈기(373_2)는, 제2 입력 피처 데이터(IFD_2)에 제2 커널 데이터(KND_2)를 곱할 수 있고, 제2 곱셈 및 누적 회로(372_2)의 덧셈기(374_2)는 제1 곱셈 및 누적 회로(372_1)의 레지스터(375_2)로부터 제공되는 데이터에 곱셈 데이터를 더할 수 있고, 레지스터(375_2)는 결과 값을 일시적으로 저장한 뒤, 제3 곱셈 및 누적 회로의 덧셈기에 제공할 수 있다.

컨볼루션 연산의 경우, 복수의 입력 피처 데이터들과 복수의 커널 데이터들과 곱셈한 뒤 이들을 합산하는 단계를 포함할 수 있다. 이에 따라, 연산 회로(370)가 복수의 곱셈 및 누적 회로들이 링 형태로 연결된 구조를 가짐으로써, 제1 곱셈 및 누적 회로(372_1)에 의해 연산된 결과를 제2 곱셈 및 누적 회로(372_2)가 이용하고, 제2 곱셈 및 누적 회로(372_2)에 의해 연산된 결과를 제3 곱셈 및 누적 회로가 이용하는 방식으로 연산이 수행될 수 있다.

레지스터들(375_1~375_N)은 특정 시점에 연산된 데이터(Data_cal)를 출력할 수 있다. 예를 들어, 연산 회로(370)에 출력 신호가 입력된 경우, 레지스터들(375_1~375_N)은 연산된 데이터(Data_cal)를 출력할 수 있다. 연산된 데이터(Data_cal)는 제1 연산된 데이터(Data_cal_1) 내지 제N 연산된 데이터(Data_cal_N) 중 적어도 하나를 포함할 수 있다.

도 10은 본 개시의 예시적 실시 예에 따른 연산 회로(370)를 나타낸다. 도 10은, 도 7과 비교할 때, 연산 회로(370)가 복수의 비선형 함수 프로세서들(376_1~376_N), 복수의 퀀타이저들(377_1~377_N) 및 복수의 버퍼 메모리들(378_1~378_N)을 더 포함하는 실시 예를 도시한다.

제1 비선형 함수 프로세서(376_1)는 제1 곱셈 및 누적 회로(372_1)에 의해 곱셈 연산 및 누적이 된 데이터에 비선형 함수를 처리할 수 있다. 예를 들어, 비선형 함수는 시그모이드 함수(sigmoid function), 하이퍼볼릭 탄젠트 함수(hyperbolic tangent function) 및 정류 함수(rectified linear unit function; ReLU) 등의 함수를 포함할 수 있다. 제1 비선형 함수 프로세서(376_1)는 제1 곱셈 및 누적 회로(372_1)에 의 해 제공된 데이터에 비선형 함수를 처리함으로써 비선형 함수 처리 된 데이터를 제1 퀀타이저(377_1)에 제공할 수 있다.

제1 퀀타이저(377_1)에 입력되는 데이터는, 2n-bit의 데이터이거나 (2n+1)-bit의 데이터일 수 있다. 제1 퀀타이저(377_1)는, 2n-bit의 비트 수를 가지는 데이터를 n-bit의 비트 수를 갖는 데이터들로 퀀타이즈 할 수 있다.

제1 퀀타이저(377_1)에 의해 퀀타이즈 된 데이터들은 제1 버퍼 메모리(378_1)에 일시적으로 저장되었다가, 제1 연산된 데이터(Data_cal_1)로서 순차적으로 출력될 수 있다.

제2 비선형 함수 프로세서(376_2) 내지 제N 비선형 함수 프로세서(376_N)는 제1 비선형 함수 프로세서(376_1)와 비슷하게 동작한다고 이해될 수 있으며, 제2 퀀타이저(377_2) 내지 제N 퀀타이저(377_N)는 제1 퀀타이저(377_1)와 비슷하게 동작한다고 이해될 수 있으며, 제2 버퍼 메모리(378_2) 내지 제N 버퍼 메모리(378_N)는 제1 버퍼 메모리(378_1)와 비슷하게 동작한다고 이해될 수 있을 것이다.

연산 회로(370)가 출력하는 연산된 데이터(Data_cal)는 제1 연산된 데이터(Data_cal_1) 내지 제N 연산된 데이터(Data_cal_N) 중 적어도 하나를 포함할 수 있다.

도 11은 본 개시의 예시적 실시 예에 따른 연산 회로(370) 및 내부 연산 제어 신호(iCTRL_Ari)를 나타낸다. 도 11은 도 5를 함께 참조하여 설명된다.

내부 연산 제어 신호(iCTRL_Ari)는 메모리 장치(300) 내부에서 생성될 수 있다. 예를 들어, 내부 연산 제어 신호(iCTRL_Ari)는 메모리 장치(300)의 제어 로직(360)에 의해 생성될 수 있다. 일 실시 예에서, 제어 로직(360)은 메모리 장치(300) 외부의 메모리 컨트롤러로부터 제공되는 연산 제어 신호(CTRL_Ari)에 기초해 내부 연산 제어 신호(iCTRL_Ari)를 생성할 수 있다.

내부 연산 제어 신호(iCTRL_Ari)는 내부 독출 신호(iRD) 및 내부 기입 신호(iWR)를 포함할 수 있으며, 일 실시 예에서, 연산 동작 개시 신호(iOP), 연산 초기화 신호(iRST) 및 출력 신호(OUT)를 포함할 수 있다.

연산 회로(370)에 의해 내부 독출 신호(iRD)가 수신됨에 따라, 메모리 장치(300)는 연산 회로(370)의 연산 동작에 이용되는 피연산자를 메모리 뱅크(310)로부터 입출력 센스 앰플리파이어(350)를 포함하는 경로를 거쳐 연산 회로(370)로 전달할 수 있다. 다시 말해, 메모리 장치(300)는, 내부 독출 신호(iRD)에 기초하여, 피연산자를 메모리 뱅크(310)로부터 연산 회로(370)까지 독출해낼 수 있다. 메모리 셀에 저장된 데이터가 데이터 입출력 버퍼를 통해 메모리 장치(300)의 외부까지 전달되는 일반적인 독출 동작과는 달리, 내부 독출 동작에서는, 메모리 셀에 저장된 데이터가 연산 회로(370)까지만 독출되는 것이 특징이다.

연산 회로(370)에 의해 내부 기입 신호(iWR)가 수신됨에 따라, 메모리 장치(300)는 연산 회로(370)의 연산 동작에 이용되는 피연산자를 메모리 장치(300)의 외부로부터 데이터 입출력 버퍼를 포함하는 경로를 거쳐 연산 회로(370)로 전달할 수 있다. 다시 말해, 메모리 장치(300)는, 내부 기입 신호(iWR)에 기초하여, 피연산자를 메모리 장치(300)의 외부로부터 연산 회로(370)까지 기입할 수 있다. 외부의 데이터가 메모리 셀까지 전달되는 일반적인 기입 동작과는 달리, 내부 기입 동작에서는, 외부의 데이터가 연산 회로(370)까지만 기입되는 것이 특징이다.

연산 회로(370)에 의해 연산 동작 개시 신호(iOP)가 수신됨에 따라, 연산 회로(370)는 복수의 피연산자들을 이용해 연산 동작의 수행을 개시할 수 있다. 예를 들어, 연산 회로(370)는, 연산 동작 개시 신호(iOP)에 기초하여, 입력 피처 데이터 및 커널 데이터에 대한 컨볼루션 연산의 전부 또는 일부를 수행할 수 있다.

연산 회로(370)에 의해 연산 초기화 신호(iRST)가 수신됨에 따라, 연산 회로(370)는 초기화 될 수 있다. 예를 들어, 연산 초기화 신호(iRST)에 기초하여, 연산 회로(370)에 포함된 레지스터들에 저장된 일시적인 데이터들이 소거될 수 있다.

연산 회로(370)에 의해 출력 신호(OUT)가 수신됨에 따라, 연산 회로(370)는 연산된 데이터(Data_cal)를 출력할 수 있다. 다시 말해, 출력 신호(OUT)는 연산 회로(370)가 연산된 데이터(Data_cal)를 출력하도록 제어할 수 있다.

상기 설명된 바와 같이, 연산 회로(370)가 피연산자들을 이용해 연산 동작들을 수행하도록 하기 위해, 메모리 장치(300)는 내부 연산 제어 신호(iCTRL_Ari)를 생성할 수 있다.

도 12는 본 개시의 예시적 실시 예에 따른 내부 독출 동작을 설명하기 위한 메모리 장치(300)의 구성들을 나타낸다. 메모리 장치(300)는 메모리 뱅크(310), 컬럼 디코더(330), 입출력 센스 앰플리파이어(350) 및 연산 회로(370)를 포함할 수 있다. 메모리 장치(300)에 관해 도 1 내지 도 12를 참조한 설명과 중복되는 내용은 생략한다. 도 12는 도 5를 함께 참조해 설명된다.

제어 로직(360)은, 외부로부터 수신되는 연산 제어 신호(CTRL_Ari)에 기초해 내부 독출 신호(iRD)를 생성할 수 있다.

연산 회로(370)가 내부 독출 신호(iRD)를 수신함에 따라, 메모리 장치(300)는 피연산자(OP)를 메모리 뱅크(310)로부터 입출력 센스 앰플리파이어(350)를 포함하는 경로를 거쳐 연산 회로(370)로 독출해낼 수 있다. 다시 말해, 피연산자(OP)의 전달 경로는 제1 경로(301)와 같을 수 있다. 다시 말해, 내부 독출 동작에 따라 데이터가 메모리 장치(300)의 외부로 전달되지는 않을 수 있다.

도 13은 본 개시의 예시적 실시 예에 따른 내부 기입 동작을 설명하기 위한 메모리 장치(300)의 구성들을 나타낸다. 메모리 장치(300)는 연산 회로(370), 데이터 입출력 버퍼(380) 및 데이터 입출력 패드(390)를 포함할 수 있다. 메모리 장치(300)에 관해 도 1 내지 도 12를 참조한 설명과 중복되는 내용은 생략한다. 도 13은 도 5를 함께 참조해 설명된다.

제어 로직(360)은, 외부로부터 수신되는 연산 제어 신호(CTRL_Ari)에 기초해 내부 기입 신호(iWR)를 생성할 수 있다.

연산 회로(370)가 내부 기입 신호(iWR)를 수신함에 따라, 메모리 장치(300)는 피연산자(OP)를 메모리 장치(300)의 외부로부터 데이터 입출력 패드(390) 및 데이터 입출력 버퍼(380)를 포함하는 경로를 거쳐 연산 회로(370)로 전달할 수 있다. 다시 말해, 피연산자(OP)의 전달 경로는 제2 경로(302)와 같을 수 있다. 다시 말해, 내부 기입 동작에 따라 데이터가 메모리 장치(300)의 메모리 셀로 전달되지는 않을 수 있다.

도 14는 본 개시의 예시적 실시 예에 따른 내부 연산 제어 신호(iCTRL_Ari)를 나타낸다. 내부 연산 제어 신호(iCTRL_Ari)는 내부 독출 신호(iRD), 내부 기입 신호(iWR) 및 연산 동작 개시 신호(iOP)를 포함할 수 있다.

일 실시 예에서, 내부 독출 신호(iRD), 내부 기입 신호(iWR) 및 연산 동작 개시 신호(iOP) 중 2개 이상은 동시에 생성될 수 있다.

도 12의 내부 독출 신호(iRD)에 따른 내부 독출 동작에서 데이터의 이동 경로인 제1 경로(301) 및 도 13의 내부 기입 신호(iWR)에 따른 내부 기입 동작에서 데이터의 이동 경로인 제2 경로(302)가 중복되지 않기 때문에, 일반적인 독출 명령 및 기입 명령과 달리, 내부 독출 신호(iRD)와 내부 기입 신호(iWR)는 동시에 생성되는 것이 가능하다.

일 실시 예에서, 도 12와 같이, 내부 독출 신호(iRD), 내부 기입 신호(iWR) 및 연산 동작 개시 신호(iOP)가 동시에 활성화 됨에 따라, 연산 회로가 연산 동작을 보다 빠른 시간 내에 수행해낼 수 있다.

도 15는 본 개시의 예시적 실시 예에 따른 메모리 장치(300)를 나타낸다. 도 15의 메모리 장치(300)에 관해 도 1, 도 2 및 도 5와 중복되는 설명은 생략한다. 도 15는 도 6과의 차이점을 중심으로 설명된다.

연산 회로는 비트 라인 센스 앰플리파이어가 배치된 영역에 배치될 수 있다. 다시 말해, 메모리 장치(300)는 복수의 연산 회로들을 포함할 수 있고, 복수의 연산 회로들은 메모리 뱅크(310)에 포함될 수 있으며, 복수의 서브 메모리 셀 어레이들 사이에 반복하여 배치될 수 있다. 복수의 연산 회로들은 비트 라인 센스 앰플리파이어들에 의해 증폭된 신호를 피연산자로서 수신할 수 있고, 피연산자를 이용해 연산 동작을 수행할 수 있다.

비트 라인 센스 앰플리파이어가 배치된 영역에 연산 회로들이 배치되어, 연산 회로들이 연산 동작을 수행함에 따라 메모리 장치(300)의 연산 속도가 더욱 증가하는 효과가 발생할 수 있다.

도 16은 본 개시의 예시적 실시 예에 따른 메모리 장치(300)의 구조를 나타낸다. 일 실시 예에서, 도 16은 MRAM으로 구현된 메모리 장치(300)의 구조를 나타낼 수 있다. 메모리 장치(300)는 제1 메모리 뱅크(310_1) 내지 제4 메모리 뱅크(310_4), 제1 로우 디코더(320_1) 내지 제4 로우 디코더(320_4), 제1 컬럼 디코더(330_1) 내지 제4 컬럼 디코더(330_4) 및 연산 회로(370)를 포함할 수 있다. 또한 메모리 장치(300)는 주변 회로들이 배치되는 페리 영역 및 데이터 입출력 버퍼가 위치하는 데이터 입출력 버퍼 영역을 포함할 수 있다. 메모리 뱅크의 개수, 로우 디코더의 개수 및 컬럼 디코더의 개수와 세부적인 배치 구성은 예시적인 것일 뿐 도 16의 구조에 한정되지 않는다.

제1 메모리 뱅크(310_1) 내지 제4 메모리 뱅크(310_4)에 포함된 메모리 셀들 중 적어도 일부는 MRAM으로 구현될 수 있다.

연산 회로(370)는 데이터 입출력 버퍼 영역에 배치될 수 있다. 연산 회로(370)는 제1 컬럼 디코더(330_1) 내지 제4 컬럼 디코더(330_4)와 전기적으로 연결되어, 제1 메모리 뱅크(310_1) 내지 제4 메모리 뱅크(310_4)로부터 연산에 필요한 피연산자를 얻어낼 수 있고, 피연산자를 이용해 연산 동작을 수행할 수 있다. 예를 들어, 연산 회로(370)는 입력 피처 데이터 및 커널 데이터를 이용해 컨볼루션 연산의 전부 또는 일부를 수행할 수 있다. 이를 위해, 연산 회로(370)는 복수의 곱셈 및 누적 회로들을 포함할 수 있다. 또한 일 실시 예에서, 연산 회로(370)에 포함된 복수의 곱셈 및 누적 회로들은 매트릭스 형태로 배치될 수 있다.

연산 회로(370)가 컨볼루션 연산의 전부 또는 일부를 수행함으로써 메모리 장치(300)가 송수신하는 데이터의 양이 감소할 수 있다.

도 17은 본 개시의 예시적 실시 예에 따른 전자 시스템(1000)을 나타낸다. 전자 시스템(1000)은 뉴럴 네트워크 프로세싱 유닛(1100), RAM(Random Access Memory; 1200), 프로세서(1300), 메모리(1400) 및 센서 모듈(1500)을 포함할 수 있다. 뉴럴 네트워크 프로세싱 유닛(1100)은 도 2의 뉴럴 네트워크 프로세서(400)에 대응되는 구성이고, RAM(1200)은 도 2의 메모리 장치(300)에 대응되는 구성일 수 있다.

전자 시스템(1000)은 드론(drone), 첨단 운전자 보조 시스템(Advanced Drivers Assistance System; ADAS) 등과 같은 로봇 장치, 스마트 TV, 스마트 폰, 의료 장치, 모바일 장치, 영상 표시 장치, 계측 장치, IoT(Internet of Things) 장치 등에 적용될 수 있으며, 이외에도 다양한 종류의 전자 장치 중 하나에 탑재될 수 있다.

전자 시스템(1000)에 포함된 구성들을 연결하기 위한 기술에는 시스템 버스(System Bus)를 기반으로 한 연결 방식이 있다. 예를 들어, 표준 버스 규격으로서, ARM(Advanced RISC Machine) 사의 AMBA(Advanced Microcontroller Bus Architecture) 프로토콜이 적용될 수 있다. AMBA 프로토콜의 버스 타입에는 AHB(Advanced High-Performance Bus), APB(Advanced Peripheral Bus), AXI(Advanced eXtensible Interface), AXI4, ACE(AXI Coherency Extensions) 등이 포함될 수 있다. 전술된 버스 타입들 중 AXI는 IP들 사이의 인터페이스 프로토콜로서, 다중 아웃스탠딩 어드레스(multiple outstanding address) 기능과 데이터 인터리빙(data interleaving) 기능 등을 제공할 수 있다. 이외에도, 소닉사(SONICs Inc.)의 uNetwork 나 IBM사의 CoreConnect, OCP-IP의 오픈 코어 프로토콜(Open Core Protocol) 등 다른 타입의 프로토콜이 시스템 버스에 적용되어도 무방할 것이다.

RAM(1200)은 프로그램들, 데이터, 또는 명령들(instructions)을 일시적으로 저장할 수 있다. 예컨대, 메모리(1400)에 저장된 프로그램들 및/또는 데이터는 프로세서(1300)의 제어 또는 부팅 코드에 따라 RAM(1200)에 일시적으로 로딩될 수 있다. RAM(1200)은 DRAM(Dynamic RAM) 또는 SRAM(Static RAM) 등의 메모리를 이용해 구현될 수 있다.

프로세서(1300)는 전자 시스템(1000)의 전반적인 동작을 제어할 수 있으며, 일 예로서 프로세서(1300)는 중앙 프로세싱 유닛(Central Processing Unit; CPU)일 수 있다. 프로세서(1300)는 하나의 프로세서 코어(Single Core)를 포함하거나, 복수의 프로세서 코어들(Multi-Core)을 포함할 수 있다. 프로세서(1300)는 RAM(1200) 및 메모리(1400)에 저장된 프로그램들 및/또는 데이터를 처리 또는 실행할 수 있다. 예를 들어, 프로세서(1300)는 메모리(1400)에 저장된 프로그램들을 실행함으로써 전자 시스템(1000)의 기능들을 제어할 수 있다.

메모리(1400)는 데이터를 저장하기 위한 저장 장소로서, 예를 들어, OS(Operating System), 각종 프로그램들 및 각종 데이터를 저장할 수 있다. 메모리(1400)는 DRAM일 수 있으나, 이에 한정되는 것은 아니다. 메모리(1400)는 휘발성 메모리(volatile memory) 또는 비휘발성 메모리(non-volatile memory) 중 적어도 하나를 포함할 수 있다. 비휘발성 메모리는 ROM(Read Only Memory), PROM(Programmable ROM), EPROM(Electrically Programmable ROM), EEPROM(Electrically Erasable and Programmable ROM), 플래시 메모리, PRAM(Phase-change RAM), MRAM(Magnetic RAM), RRAM(Resistive RAM), FRAM(Ferroelectric RAM) 등을 포함할 수 있다. 휘발성 메모리는 DRAM(Dynamic RAM), SRAM(Static RAM), SDRAM(Synchronous DRAM), PRAM(Phase-change RAM), MRAM(Magnetic RAM), RRAM(Resistive RAM), FeRAM(Ferroelectric RAM) 등을 포함할 수 있다. 또한 일 실시 예에 있어서, 메모리(1400)는 HDD(Hard Disk Drive), SSD(Solid State Drive), CF(Compact Flash), SD(Secure Digital), Micro-SD(Micro Secure Digital), Mini-SD(Mini Secure Digital), xD(extreme digital) 또는 Memory Stick 중 적어도 하나를 포함할 수도 있다.

센서 모듈(1500)은 전자 시스템(1000) 주변의 정보를 수집할 수 있다. 센서 모듈(1500)은 전자 시스템(1000) 외부로부터 이미지 신호를 센싱 또는 수신할 수 있고, 센싱 또는 수신된 이미지 신호를 이미지 데이터, 즉 이미지 프레임으로 변환할 수 있다. 이를 위해, 센서 모듈(1500)은 센싱 장치, 예컨대 촬상 장치, 이미지 센서, 라이더(LIDAR; light detection and ranging) 센서, 초음파 센서, 적외선 센서 등 다양한 종류의 센싱 장치들 중 적어도 하나를 포함하거나, 또는 상기 장치로부터 센싱 신호를 수신할 수 있다. 일 실시 예에서, 센서 모듈(1500)은 이미지 프레임을 뉴럴 네트워크 프로세싱 유닛(1100)에 제공할 수 있다. 예를 들어, 센서 모듈(1500)은 이미지 센서를 포함할 수 있으며, 전자 시스템(1000)의 외부 환경을 촬영함으로써 비디오 스트림을 생성하고, 비디오 스트림의 연속되는 이미지 프레임들을 뉴럴 네트워크 프로세싱 유닛(1100)에 순차적으로 제공할 수 있다.

본 개시의 예시적 실시 예에 따르면, RAM(1200)은 연산 회로(1270)를 포함할 수 있다. 연산 회로(1270)는, RAM(1200) 내부에서 생성되는 내부 연산 제어 신호에 기초하여 피연산자들에 대한 연산 동작을 수행할 수 있다. 예를 들어, 연산 회로(1270)는 피연산자들에 대한 컨볼루션 연산의 전부 또는 일부를 수행함으로써 연산된 데이터(Data_cal)를 뉴럴 네트워크 프로세싱 유닛(1100)으로 출력할 수 있다. 연산 회로(1270)에 관한 구체적인 동작에는, 도 1 내지 도 16을 참조해 설명된 특징들이 적용될 수 있다.

이상에서와 같이 도면과 명세서에서 예시적인 실시 예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시 예들을 설명되었으나, 이는 단지 본 개시의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 개시의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 개시의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

메모리 장치에 있어서,
복수의 워드 라인들 및 복수의 비트 라인들이 교차하는 영역에 배치되는 복수의 메모리 셀들을 포함하는 메모리 뱅크;
상기 메모리 뱅크와 상기 복수의 비트 라인들을 통해 연결되고, 상기 복수의 비트 라인들 중 선택된 비트 라인들을 통해 전달되는 신호를 증폭하도록 구성되는 센스 앰플리파이어; 및
상기 메모리 장치의 내부에서 생성되는 내부 연산 제어 신호에 기초하여, 상기 센스 앰플리파이어로부터 제1 피연산자(operand)를 수신하고, 상기 메모리 장치의 외부로부터 제2 피연산자를 수신하고, 상기 제1 피연산자 및 상기 제2 피연산자를 이용해 연산을 수행하도록 구성되는 연산 회로를 포함하는 메모리 장치.
제1항에 있어서,
상기 내부 연산 제어 신호는,
내부 독출 신호 및 내부 기입 신호를 포함하는 것을 특징으로 하는 메모리 장치.
제2항에 있어서,
상기 메모리 장치는,
상기 연산 회로가 상기 내부 독출 신호를 수신함에 따라, 상기 제1 피연산자를 상기 메모리 뱅크로부터 상기 센스 앰플리파이어를 포함하는 경로를 거쳐 상기 연산 회로까지 독출해내는 것을 특징으로 하는 메모리 장치.
제2항에 있어서,
상기 메모리 장치는,
상기 연산 회로가 상기 내부 기입 신호를 수신함에 따라, 상기 제2 피연산자를 상기 메모리 장치의 외부로부터 상기 메모리 장치의 데이터 입출력 버퍼를 포함하는 경로를 거쳐 상기 연산 회로까지 기입하는 것을 특징으로 하는 메모리 장치.
제2항에 있어서,
상기 내부 연산 제어 신호는,
상기 연산 회로의 연산 동작을 개시하는 연산 동작 개시 신호, 상기 연산 회로를 초기화 하는 연산 초기화 신호 및 상기 연산 회로가 연산된 데이터를 출력하도록 제어하는 출력 신호 중 적어도 하나를 더 포함하는 것을 특징으로 하는 메모리 장치.
제5항에 있어서,
상기 메모리 장치는,
상기 내부 독출 신호, 상기 내부 기입 신호 및 상기 내부 연산 동작 개시 신호 중 2개 이상을 동시에 생성하는 것을 특징으로 하는 메모리 장치.
제1항에 있어서,
상기 연산 회로는,
상기 제1 피연산자 및 상기 제2 피연산자를 이용해 곱셈 연산 및 누적을 수행하도록 구성되는 곱셈 및 누적 회로(multiplication and accumulation circuit)를 포함하는 것을 특징으로 하는 메모리 장치.
제7항에 있어서,
상기 곱셈 및 누적 회로는,
상기 제1 피연산자에 상기 제2 피연산자를 곱함으로써 곱셈 데이터를 생성하도록 구성되는 곱셈기(multiplier);
연산 데이터를 일시적으로 저장하는 레지스터; 및
상기 레지스터에 저장된 상기 연산 데이터에 상기 곱셈 데이터를 합산함으로써 상기 연산 데이터를 업데이트 하도록 구성되는 덧셈기를 포함하는 것을 특징으로 하는 메모리 장치.
제1항에 있어서,
상기 메모리 장치는,
상기 메모리 뱅크와 복수의 비트 라인들을 통해 연결되고, 컬럼 방향의 디코딩 동작을 수행하도록 구성되는 컬럼 디코더를 더 포함하고,
상기 센스 앰플리파이어는,
상기 컬럼 디코더와 글로벌 입출력 라인들을 통해 연결되고, 상기 글로벌 입출력 라인들을 통해 전달되는 신호를 증폭하도록 구성되는 입출력 센스 앰플리파이어를 포함하고,
상기 연산 회로는,
상기 입출력 센스 앰플리파이어로부터 상기 제1 피연산자를 수신하도록 구성되는 것을 특징으로 하는 메모리 장치.
메모리 장치에 있어서,
복수의 메모리 셀들을 포함하는 적어도 하나의 메모리 뱅크;
외부로부터 수신되는 연산 제어 신호에 기초하여, 내부 독출 신호를 포함하며, 상기 메모리 장치의 연산 동작을 제어하는 내부 연산 제어 신호를 생성하도록 구성되는 제어 로직; 및
상기 제어 로직에 의해 제공되는 상기 연산 제어 신호에 기초하여, 입력 피처 데이터 및 커널 데이터에 대한 컨볼루션 연산의 전부 또는 일부를 수행하도록 구성되는 연산 회로를 포함하고,
상기 입력 피처 데이터 및 상기 커널 데이터 중 적어도 하나는, 상기 제어 로직에 의해 생성된 상기 내부 독출 신호에 기초하여, 상기 적어도 하나의 메모리 뱅크로부터 센스 앰플리파이어를 포함하는 전기적 경로를 거쳐 상기 연산 회로에 입력되는 것을 특징으로 하는 메모리 장치.