KR102467544B1

KR102467544B1 - 연산 장치 및 그 조작 방법

Info

Publication number: KR102467544B1
Application number: KR1020187034254A
Authority: KR
Inventors: 윈지 천; 샤오리 리우; 티엔스 천
Original assignee: 캠브리콘 테크놀로지스 코퍼레이션 리미티드
Priority date: 2016-08-05
Filing date: 2017-07-17
Publication date: 2022-11-16
Also published as: KR20190032282A; US20190235871A1; CN111857822A; CN107688466A; EP3495947A1; CN107688466B; TW201805802A; WO2018024094A1; CN112214244A; CN111857822B; EP3495947B1; TWI752068B; EP3495947A4

Abstract

본 발명은 연산 장치 및 그 조작 방법에 관한 것이다. 상기 장치는 명령 모듈(10), 데이터 모듈(20)과 연산 모듈(30)을 포함하되, 명령 모듈(10)은 명령을 조작하는 데 사용되고 명령 캐시, 명령 처리, 종속성 판단 등을 포함하며; 데이터 모듈(20)은 데이터를 조작하는 데 사용되고, 메모리로부터 데이터를 판독 또는 기록하는 동시에 연산 모듈에 연산 데이터를 입력하는 등을 포함하며; 연산 모듈(30)은 명령에 의거하여 데이터에 대해 관련 연산을 진행하는 데 사용한다. 상기 장치와 방법은 명령을 실행할 때 연산 대기 데이터의 길이와 연산 모듈의 규모에 의거하여 대응되게 조정하고 대량 벡텨 계산 태스크의 실행 성능을 향상시켜 간소화된 명령 구조, 원활하고 효율 높은 데이터 연산 등 장점을 가지고 있다.

Description

연산 장치 및 그 조작 방법

본 발명은 컴퓨터 분야에 관한 것으로, 보다 상세하게는 연산 장치 및 그 조작 방법에 관한 것으로서, 명령에 의거하여 같은 규모 또는 다른 규모 데이터의 연산을 효율 높고 원활하게 실행하는 데 사용된다. 현재 점점 많은 알고리즘에 대량의 같은 규모 또는 다른 규모 데이터가 포함된 연산 문제를 원활히 해결하고 연산 유닛 규모의 제한을 줄이며 벡터 연산의 원활성과 유효성을 향상시킨다.

빅데이터 시대가 다가옴에 따라 벡터 연산과 관련된 응용 또한 나날이 늘어나고 있다. 연산에 참여하는 데이터 양이 점점 많아 지고 데이터 규격과 차원이 지속적으로 확대되며 연산 형식도 점차적으로 많아 지고 있다. 한편으로, 연산 유닛의 규모는 데이터 양이 대량 증가됨에 따라 대폭 확대되기 어려우므로 연산할 때 연산 데이터를 어떻게 조정할 것인가 하는 데 대해 요구를 제출하게 된다. 다른 한편으로, 상기 연산은 통일된 규격의 데이터 사이에서만 진행되지 않고 대부분 연산은 규격이 다르거나 또는 차원이 다른 데이터 사이에서 진행되므로 연산 장치의 원활성에 대해 보다 높은 요구를 제출하게 된다.

종래기술에 있어서, 벡터 연산을 진행하는 공지된 방안은 범용 프로세서(CPU) 또는 그래픽 처리 장치(GPU)를 사용하는 것이다. 하지만 상기 방법은 그 구조가 스칼라 연산에 더 적합할 수 있으므로 벡터 연산의 효율이 비교적 낮으며; 또는 그 온칩(on-chip) 캐시가 너무 작아 대규모 벡터 연산의 고효율 완료에 대한 요구를 만족시킬 수 없다. 또 다른 종래기술에 있어서, 전문적으로 맞춤제작된 벡터 연산 장치로 벡터를 계산하는 것은 맞춤제작된 저장 유닛과 처리 유닛으로 벡터를 연산하는 것이다. 하지만 현재 존재하고 있는 전용 벡터 연산 장치는 레지스터 파일에만 한정되어 길이가 같은 벡터 연산만 지원할 수 있으므로 원활성이 부족하다.

또한, 상기 장치와 대응되는 명령 집합은 길이가 같은 데이터의 연산만 실행할 수 있고 기억 장치와 연산 유닛의 규모에 한정된다. 길이가 다른 데이터와 연산 유닛의 규모를 만족시키지 않는 데이터에 있어서, 한 가지 방식은 복수개 명령을 사용해 데이터를 차례대로 호출하는 것이고, 또 다른 방식은 순환 명령 방식으로 반복 호출하는 것이다. 따라서, 명령 집합의 구조가 복잡하고 명령 큐가 길어지며, 실행 효율이 낮고 작동할 때 제약이 많이 따를 뿐만 아니라 원할성이 취약하고 대규모적인 벡터 연산을 위해 편리성을 제공할 수 없다.

본 발명의 목적은 연산 장치 및 그 조작 방법을 제공해 명령에 의거하여 같은 규모 또는 다른 규모 데이터에 대한 연산을 효율 높게 원활히 실행하는 데 사용함으로써 현재 점점 많은 알고리즘에 대량의 같은 규모 또는 다른 규모 데이터가 포함된 연산 문제를 해결하고 연산 유닛의 규모를 줄이는 데 있다.

본 발명은 연산 장치에 관한 것으로서, 장치는 명령 모듈, 데이터 모듈과 연산 모듈을 포함하되, 여기에서,

명령 모듈은 명령을 캐시해 데이터 모듈과 연산 모듈에게 명령을 제공하는 데 사용하고;

데이터 모듈은 명령 모듈 중의 명령에 의거하여 연산 모듈에게 연산 데이터를 제공하는 데 사용하며;

연산 모듈은 명령 모듈 중의 명령 및 데이터 모듈이 제공하는 연산 데이터에 의거하여 연산을 진행하는 데에 사용한다.

보다 상세하게, 명령 모듈은 명령 캐시 유닛, 명령 처리 유닛, 종속성 처리 유닛, 저장 큐 유닛을 포함하되, 여기에서,

명령 캐시 유닛은 실행 대기 명령을 저장하는 데 사용하고, 명령 처리 유닛은 명령 캐시 유닛으로부터 명령을 획득해 상기 명령을 처리하는 데 사용하며, 종속성 처리 유닛은 상기 명령과 이전의 실행 중 명령이 같은 데이터를 엑세스하는 여부를 판단하는 데 사용하고;

종속성 처리 유닛은 종속성 관계가 존재하면, 상기 명령을 상기 저장 큐 유닛에 저장하고 이전의 실행 중 명령이 실행 완료한 후 다시 상기 명령을 연산 모듈에게 제공하며;

종속성 관계가 존재하지 않으면, 직접 상기 명령을 연산 모듈에게 제공한다.

보다 상세하게, 명령 처리 유닛은,

명령 캐시 유닛에서 명령을 획득하는 데 사용하는 호출 섹션과;

획득한 명령을 디코딩하는 데 사용하는 디코딩 섹션과;

디코딩한 명령을 순서별로 저장하는 데 사용하는 명령 큐 섹션을 포함한다.

보다 상세하게, 데이터 모듈은 데이터 I/O 유닛과 데이터 임시 저장 유닛을 포함하는데, 여기에서, 데이터 I/O 유닛은 직접 메모리에서 연산 데이터를 판독하는 데 사용하고; 데이터 임시 저장 유닛은 연산 데이터를 저장하고 상기 연산 데이터를 조정한 후 연산 모듈에게 제공하는 데 사용한다.

보다 상세하게, 데이터 임시 저장 유닛은 연산 데이터를 조정한 후 연산 모듈에 전송하는 데 사용되되, 그 과정은,

연산에 참여하는 2개 연산 데이터의 길이가 모두 연산 모듈의 연산 규모보다 작거나 또는 그와 같은 경우, 데이터 임시 저장 유닛은 직접 상기 2개 연산 데이터를 연산 모듈에게 제공하는 단계;

연산에 참여하는 2개 연산 데이터의 길이가 모두 연산 모듈의 연산 규모보다 큰 경우, 각 연산 데이터를 복수개의 길이가 모두 상기 연산 규모보다 작거나 또는 그와 같은 서브 연산 데이터로 분해하고 상기 서브 연산 데이터를 여러 번으로 나누어 상기 연산 모듈에게 제공하는 단계;

연산에 참여하는 2개 연산 데이터에 있어서, 1 개 연산 데이터의 길이가 연산 모듈의 연산 규모보다 크고 또 다른 연산 데이터의 길이가 연산 모듈의 연산 규모보다 작거나 또는 그와 같은 경우, 길이가 연산 규모보다 큰 연산 데이터를 복수개의 길이가 모두 연산 규모보다 작거나 또는 그와 같은 서브 연산 데이터로 분해하고 상기 복수개의 데이터와 길이가 연산 규모보다 작거나 또는 그와 같은 연산 데이터를 여러 번으로 나누어 상기 연산 모듈에게 제공하는 단계를 포함한다.

보다 상세하게, 연산 데이터는 벡터며, 연산 모듈은 벡터 논리 연산 또는 벡터 사칙 연산을 실행하는 데 사용한다.

본 발명은 연산 장치의 조작 방법을 더 제공하는데, 방법은,

명령을 명령 모듈에 캐싱하는 S1;

명령 모듈 중의 명령을 데이터 모듈에게 제공하고, 데이터 모듈은 상기 명령에 의거하여 연산 모듈에게 연산 데이터를 제공하는 S2;

명령 모듈 중의 명령을 연산 모듈에게 제공하고 연산 모듈은 상기 명령 및 데이터 모듈이 제공한 연산 데이터에 의거하여 연산을 진행하는 S3을 포함한다.

보다 상세하게, 명령 모듈은 명령 캐시 유닛, 명령 처링 유닛, 종속성 처리 유닛, 저장 큐 유닛을 포함하며, 상기 단계 S1은,

명령 캐시 유닛에 실행 대기 명령을 저장하는 S11;

명령 처리 유닛은 명령 캐시 유닛에서 명령을 획득하고 상기 명령을 처리하는 S12;

종속성 처리 유닛은 상기 명령과 이전의 실행 중 명령이 동등한 데이터를 엑세스하는 여부를 판단하되, 엑세스하면 종속성 처리 유닛은 상기 명령을 상기 저장 큐 유닛에 조정하고 이전의 실행 중 명령이 실행 완료한 후 다시 상기 명령을 연산 모듈에게 제공하고, 엑세스하지 않으면 직접 상기 명령을 연산 모듈에게 제공하는 S13을 포함한다.

보다 상세하게, 명령 처리 유닛은 호출 섹션, 디코딩 섹션과 명령 큐 섹션을 포함하며, 여기에서 단계 S12는,

호출 섹션은 명령 캐시 유닛에서 명령을 획득하는 S121;

디코딩 섹션은 획득한 명령을 디코딩하는 S122;

명령 큐 섹션이 디코딩한 명령을 순서별로 저장하는 S123을 포함한다.

보다 상세하게, 데이터 모듈은 데이터 I/O 유닛과 데이터 임시 저장 유닛을 포함하며, 여기에서, 단계 S2는,

데이터 I/O 유닛이 직접 메모리에서 연산 데이터를 판독하고 데이터 임시 저장 유닛에 저장하는 S21;

데이터 임시 저장 유닛이 저장한 연산 데이터를 조정한 후, 연산 모듈에게 제공하는 S22를 포함한다.

보다 상세하게, 단계 S22는,

연산에 참여하는 2개 연산 데이터에 있어서, 1 개 연산 데이터의 길이가 연산 모듈의 연산 규모보다 크고, 또 다른 연산 데이터의 길이가 연산 모듈의 연산 규모보다 작거나 또는 그와 같은 경우, 길이가 연산 규모보다 큰 연산 데이터를 복수개의 길이가 모두 연산 규모보다 작거나 또는 그와 같은 서브 연산 데이터로 분해하고 상기 복수개의 서브 연산 데이터와 길이가 연산 규모보다 작거나 또는 그와 같은 연산 데이터를 여러 번으로 나누어 상기 연산 모듈에게 제공하는 단계를 포함한다.

본 발명이 제공하는 연산 장치 및 그 조작 방법은 1 개 명령만 발송하는 상황에서 연산 데이터를 메모리에서 판독한 후, 데이터 임시 저장 유닛에 저장하고, 데이터 임시 저장 유닛은 연산 데이터의 길이에 의거하여 연산 데이터를 조정한 후 연산 모듈에게 제공함으로써 길이가 다른 데이터의 연산을 지원해 연산 유닛의 규모를 줄일 수 있다. 또한 본 발명은 종속성 처리 유닛을 이용해 데이터 저장 중의 관련성 문제를 해결해 대량의 계산 태스크를 포함한 실행 성능을 향상시킨다. 또한, 본 발명이 사용하는 명령은 간소화된 포맷을 가져 명령 집합 구조가 간단하고, 사용이 편리하며 원할한 데이터 길이와 연산 규모를 지원한다.

본 발명은 데이터 처리, 로봇, 컴퓨터, 프린터, 스캐너, 전화, 태블릿 PC, 스마트 단말기, 휴대폰, 주행기록기, 네비게이터， 센서, 웹캠, 클라우드 서버, 사진기, 촬영기, 프로젝터, 손목시계, 이어폰, 휴대용 저장장치, 웨어러블 설비 등 각종 전자제품; 비행기, 선박, 차량 등 각종 교통수단; 텔레비전, 에어컨, 전자레인지, 냉장고, 전기밥솥, 가습기, 세탁기, 전등, 가스레인지, 주방환풍기 등 각종 가정용 전기기구와 자기공명영상촬영기，B형 초음파, 심전도기 등이 포함된 각종 의료설비를 포함하지만 이에 한정되지 않는 분야에 응용할 수 있다.

도 1은 본 발명이 제공하는 연산 장치의 구조도다.
도 2는 본 발명 중 명령 모듈의 구조도다.
도 3은 본 발명 중 데이터 모듈의 구조도다.
도 4는 본 발명 중 연산 모듈의 구조도다.
도 5는 본 발명 중 길이가 다른 연산 데이터의 명령을 지원하는 방법에 대한 흐름도다.
도 6은 본 발명 실시예가 제공하는 길이가 다른 연산 벡터를 연산할 때 비교적 짧은 벡터를 순환 판독해 연산을 진행하는 연산 관계를 도시한 것이다.

이하에서는, 본 발명의 목적, 기술방안과 장점을 보다 확실히 알도록 하기 위하여 본 발명의 예시적인 실시형태들을 도면과 결합해 보다 상세히 설명한다.

도 1은 본 발명이 제공하는 연산 장치의 구조도다. 도 1에서 도시하는 바와 같이, 장치는 명령 모듈(10), 데이터 모듈(20)과 연산 모듈(30)을 포함한다. 명령 모듈(10)은 명령을 캐시하고 데이터 모듈(20)과 연산 모듈(30)에게 명령을 제공하는 데 사용한다. 명령 모듈(10) 중의 명령은 데이터 모듈(20)의 데이터 흐름 방향을 제어하고 데이터 모듈(20)의 데이터는 명령 모듈(10) 중 종속성에 대한 처리에 영향을 미친다. 또한, 명령 모듈(10) 중의 명령은 연산 모듈(30)의 구체 연산을 제어하고, 연산 모듈(30)의 연산 완료 여부는 명령 모듈(10)의 새 명령 판독 여부를 제어하며; 데이터 모듈(20)은 연산 모듈(30)에게 구체적인 연산 데이터를 제공하고 연산 모듈(30)은 연산 결과를 데이터 모듈(20)로 반환해 저장한다.

도 2는 본 발명이 제공하는 장치의 명령 모듈을 도시한 것이다. 도 2에서 도시하는 바와 같이, 명령 모듈(10)은 명령 캐시 유닛(11), 명령 처리 유닛(12), 종속성 처리 유닛(13)과 저장 큐 유닛(14)을 포함한다. 여기에서, 명령 처리 유닛(12)은 또한 호출 섹션(121), 디코딩 섹션(122)과 명령 큐 섹션(123) 3개 부분으로 나눈다. 명령 캐시 유닛(11)은 명령을 실행하는 과정에서 상기 명령을 캐싱하는 데 사용되고, 하나의 명령이 실행 완료된 후 상기 명령 또한 동시에 명령 캐시 유닛(11) 중 제출하지 않은 명령 가운데서 가장 이른 하나의 명령을 가리키는 경우 상기 명령은 제출되며, 제출만 되면, 상기 명령이 진행한 장치 상태에 대한 변경은 철회할 수 없다. 호출 섹션(121)은 명령 캐시 유닛(11)에서 다음에 실행하게 될 명령을 추출해 상기 명령을 디코딩 섹션(122)에게 발송하는데 사용하고; 디코딩 섹션(122)은 명령을 디코딩해 디코딩한 명령을 명령 큐(123)에게 발송하는 데 사용하며; 명령 큐 섹션(123)은 디코딩 한 후의 명령을 순서별로 저장하는 데 사용한다. 종속성 처리 유닛(13)은 현재 명령과 이전 명령이 존재할 가능성이 있는 데이터 종속성을 처리하는 데 사용하는데, 예를 들어, 데이터 모듈(20)에서 데이터를 엑세스하는 경우 이전 명령과 다음 명령은 같은 저장 공간 중의 데이터를 엑세스 할 가능성이 있고, 이전 명령을 실행 완료하지 않은 상태에서 상기 데이터를 연산하는 경우에는 상기 데이터의 일치성으로 나타되는 연산 결과의 정확성에 영향을 미친다. 따라서, 현재 명령이 종속성 처리 유닛(13)에 의해 이전 명령의 데이터와 종속성이 존재한다는 것이 검사된 경우, 상기 명령은 저장 큐 유닛(14) 내에서 종속성이 사라질 때까지 대기해야 하는데, 여기에서, 저장 큐 유닛(14)은 하나의 정렬된 큐로서, 이전 명령과 데이터 면에서 종속성이 존재하는 명령은 종속성이 사라질 때가지 상기 큐내에 저정된다.

도 3은 본 발명 중 데이터 모듈의 구조도다. 도 3에서 도시하는 바와 같이, 데이터 모듈(20)은 데이터 I/O 유닛(21)과 데이터 임시 저장 유닛(22) 두 부분으로 구성된다. 데이터 I/O 유닛(21)은 메모리와 연동하는 데 사용되어 직접 메모리에서 데이터를 판독하거나 또는 직접 데이터를 메모리에 기록한다. 데이터 임시 저장 유닛(22)은 스크래치패드 메모리(Scratchpad Memory)로 구성되는데, 여기에서 상기 기억 장치는 각종 다른 저장 소자(SRAM, eDRAM, DRAM, 멤리스터, 3D-DRAM 또는 비휘발성 저장 장치 등)를 통해 구현한다. 데이터 임시 저장 유닛(22)은 각종 규모의 벡터 데이터와 같이 크기가 다른 연산 데이터를 저장할 수 있다. 데이터 I/O 유닛(21)은 명령에 의거하여 필요한 연산 데이터를 판독해 데이터 임시 저장 유닛(22)에 임시 저장하고, 스크래치패드 메모리(Scratchpad Memory)를 사용하므로 길이가 다른 연산 데이터를 저장할 수 있도록 하는 동시에, 연산 과정에서 데이터 임시 저장 유닛(22)은 연산 유닛(30)의 규모와 연산 데이터의 길이에 의거하여 연산 데이터를 조정한 후 연산 모듈(30)에게 제공한다.

보다 상세하게, 연산에 참여하는 2개 연산 데이터의 길이가 모두 연산 모듈의 연산 규모보다 작거나 또는 그와 같은 경우, 데이터 임시 저장 유닛(22)은 직접 상기 2개 연산 데이터를 연산 모듈(30)에게 제공한다. 예를 들어 연산 유닛(30)의 연산 규모가 2개 그룹 벡터의 연산을 일회성으로 처리하는 경우, 각 그룹의 벡터는 4 개 성분을 포함하는데, 이 경우 (A1, A2, A3, A4)와 (B1, B2, B3, B4) 사이의 연산은 상기 연간 유닛(30)의 연산 규모이며; 2개 연산 데이터가 모두 4개 성분보다 적은 벡터이고, 예를 들어 (A1, A2, A3)과 (B1, B2)인 경우에는 직접 (A1, A2, A3)과 (B1, B2)를 연산 모듈(30)에게 제공해 연산을 진행한다.

연산에 참여하는 2개 연산 데이터의 길이가 연산 모듈이 연산 규모보다 큰 경우 데이터 임시 저장 유닛(22)은 각 연산 데이터를 복수개의 길이가 모두 연산 규모보다 작거나 또는 그보다 큰 서브 연산 데이터로 분해하고 상기 서브 연산 데이터를 여러 번으로 나누어 연산 모듈에게 제공한다. 예를 들어, 연산 유닛(30)의 연산 규모는 2개 그룹의 벡터 연산을 일회성으로 처리할 수 있는 연산 규모인 경우, 여기에서 각 그룹 벡터는 4 개 성분을 포함하는데, 이 경우 (A1, A2, A3, A4)와 (B1, B2, B3, B4) 사이의 연산은 상기 연간 유닛(30)의 연산 규모이며; 2개 연산 데이터가 모두 연산 규모보다 크다면, 이 경우(A1, A2, A3, A4, A5)와 (B1, B2, B3, B4, B5) 사이의 연산은 상기 연산 유닛(30)의 연산 규모이며; 2개 연산 데이터가 모두 연산 규모보다 커 (A1, A2, A3, A4, A5)와 (B1, B2, B3, B4, B5)인 경우, (A1, A2, A3, A4, A5)를 D1(A1, A2, A3, A4)와 D2(A5)로 분해하고, (B1, B2, B3, B4, B5)를 d1(B1, B2, B3, B4)과 d2(B5)로 분해한 다음, 이어서 2 번으로 나누어 연산 유닛(30) 내로 제공하는데, 여기에서 처음에는 D1(A1, A2, A3, A4)과 d1(B1, B2, B3, B4)를 제공해 연산을 진행하고, 두번째는 D2(A5)과 d2(B5)를 제공한다. 상기 실례에서는 연산 규모보다 큰 연산 데이터를 모두 2개 시그먼트로 분해하고 번마다 대응 시그먼트의 서브 연산 데이터를 제공한다. 2개 연산 데이터의 분해 시그먼트 수량이 일치하지 않은 경우, 예를 들어, 첫번째 연산 데이터를 3 개 시그먼트로 분해해 D1, D2, D3으로 표시하고, 두번째 연산 데이터를 2개 시그먼트로 분해해 d1과 d2로 표시하면 3 번으로 나누어 연산 유닛에게 첫번째 연산 데이터 D1, D2, D3을 제공하고 상기 3번은 두번째 연산 데이터 d1과 d2를 순환 제공하는데, 즉, 첫번째는 D1과 d1을 제공하고, 두번째는 D2와 d2를 제공하며, 세번째는 D3과 d1을 제공한다. 또 예를 들어, 첫번째 연산 데이터를 5 개 시그먼트로 분해해 D1, D2, D3, D4, D5로 표시하고, 두번째 연산 데이터를 3 개 시그먼트로 분해해 d1, d2와 d3으로 표시하면 5 번으로 나누어 연산유닛에게 연산 데이터를 제공하는데, 즉, 첫번째는 D1과 d1을, 두번째는 D2와 d2를, 세번째는 D3과 d3을, 네번째는 D4와 d1을, 다섯번째는 D5과 d2를 제공한다.

연산에 참여하는 2개 연산 데이터에 있어서, 1개 연산 데이터의 길이가 연산 모듈의 연산 규모보다 크고, 다른 연산 데이터의 길이가 연산 모듈의 연산 규모보다 작거나 또는 그와 같은 경우에는 길이가 연산 규모보다 큰 연산 데이터를 복수개의 길이가 모두 연산규모보다 작거나 또는 그와 같은 서브 연산 데이터로 분해하고 상기 복수개의 서브 연산 데이터와 길이가 연산 규모보다 작거나 또는 그와 같은 연산 데이터를 여러 번으로 나누어 상기 연산 모듈에게 제공한다. 간단히 예를 들어, 첫번째 연산 데이터는 길이가 연산 규모보다 크면 3 개 시그먼트인 D1, D2와 D3으로 분해하고, 두번째 연산 데이터는 연산 규모보다 작거나 또는 같아 분해할 필요가 없으므로 d로 표시하며, 3 번으로 나누어 연산 유닛에게 제1, 제2 연산 데이터를 제공하는데, 즉, 첫번째는 D1과 d를 제공하고, 두번째는 D2와 d를 제공하며 세번째는 D3과 d를 제공한다.

전체적으로, 데이터 임시 저장 유닛(22)이 연산 데이터에 대해 조정한다는 것은 연산 데이터의 길이가 연산 유닛의 연산 규모보다 크면 상기 기억 장치를 통해 직접 연산 대기 데이터를 연산 유닛(30) 내에 전송하고; 크지 않으면 연산할 때 마다 연산 유닛(30)의 연산 규모를 만족시키는 데이터를 연산 유닛(30) 내에 전송함으로써 연산이 완료되거나 또는 상기 데이터들이 다음 단계 연산 라인에 전송된 후 상기 기억 장치가 연산 유닛(30) 내에 연산 유닛(30) 연산 규모를 만족시키는 새로운 데이터를 전송해 연산을 진행한다는 것을 가리킨다. 또한, 2개의 연산 대기 데이터는 길이가 같으면 직접 또는 분해후 연산 유닛(30) 내에 전송해 연산을 진행하며; 길이가 다르면 길이가 비교적 큰 데이터를 시그먼트로 나눈 후 순서별로 판독하며, 길이가 비교적 작은 데이터는 시그먼트로 분해한 후, 연산이 종료할 때까지 순환 판독한다.

도 4는 본 발명이 제공하는 장치 중 연산 모듈의 구조도다. 도 4에서 도시하는 바와 같이, 연산 모듈은 베터 더하기 유닛, 벡터 감하기 유닛, 벡터 논리 유닛, 벡터 내적 유닛 등과 같이 다양하게 다른 연산 유닛으로 구성된다. 각 유닛은 복수개를 가진다. 상기 연산 유닛을 이용하면 연산 모듈은 다양한 벡터 연산을 지원할 수 있다.

도 5는 본 발명 중 길이가 다른 연산 데이터의 명령을 지원하는 방법에 대한 흐름도다. 상기 명령을 실행하는 과정은,

명령 처리 유닛(12) 중의 호출 섹션(121)이 명령 캐시 유닛(11)에서 하나의 벡터 연산 명령을 호출하고 상기 명령을 명령 처리 유닛 중의 디코딩 섹션(122)으로 전송하는 S1;

디코딩 섹션(122)이 명령을 디코딩하고 명령을 자체 정의 명령 규칙에 의거하여 조작 코드와 각각 다른 조작 도메인으로 분해하는데, 여기에서 사용하는 자체 정의 명령 규칙은 명령에 조작 코드와 최소한 하나의 조작 도메인을 포함한다는 것을 가리키고, 조작 코드는 벡터 연산의 유형을 정의하며, 조작 도메인 내에 연산 대기 데이터 수치, 데이터 저장 주소, 데이터 길이 또는 연산 결과 저장 주소 등을 저장하고, 구체적인 조작 도메인의 의미는 조작 코드가 다름에 따라 달라 지며, 이어서 상기 연산 명령을 명령 큐 섹션(123)에게 전송하는 S2;

명령 큐 섹션(123)에 있어서, 상기 명령의 조작 코드와 조작 도메인에 의거하여 연산 대기 데이터를 획득해 종속성 처리 유닛(13)으로 전송해 데이터의 종속성을 분석, 판단하는 S3;

종속성 처리 유닛(14)에 있어서, 상기 명령과 이전에 실행 완료하지 않은 명령이 데이터 면에서 종속성이 존재하는 여부를 분석함으로써, 종속성이 존재하면 대기할 필요가 없고, 종속성이 존재하지 않으면 상기 명령을 저장 큐 유닛 내에 저장하고 그와 이전에 실행 완료하지 않은 데이터 사이에 다시 종속성이 존재하지 않을 때까지 대기하며, 명령을 연산 유닛(30)에게 전송하는 S4;

명령을 연산 유닛(30)에게 전송해 연산을 준비하는 경우, 데이터 모듈(20) 중의 데이터 임시 저장 유닛(22)은 데이터 길이와 연산 유닛(30) 규모에 의거하여 데이터를 조정하는데, 즉, 벡터 길이가 연산 유닛(30)의 연산 규모보다 길면 직접 연산 대기 벡터를 연산 유닛(30) 내에 전송하고, 아니면 연산할 때 마다 연산 유닛(30)의 연산 규모를 만족시키는 데이터를 연산 유닛(30) 내에 전송해 연산을 완료한 후, 연산이 종료될 때까지 연산 유닛(30) 내에 연산 규모를 만족시키는 새로운 데이터를 전송해 연산을 진행하며; 2개 연산 대기 벡터의 길이가 같으면 직접 연산 유닛 내에 전송해 연산을 진행하되, 아니면 연산이 종료될 때까지 길이가 비교적 긴 벡터는 순서별로 판독하고, 길이가 비교적 짧은 벡터는 순환 판독하며; 연산 대기 벡터가 연산 유닛 규모에 의거하여 조정해야 하는 동시에 길이도 조정해야 한다면, 길이가 비교적 긴 벡터는 순서별로 판독하고 길이가 비교적 짧은 벡터는 순환 판독하는 순서를 보장하며, 차례대로 연산 규모를 만족시키는 데이터를 판독하는 S5;

연산이 완료된 후 결과를 데이터 임시 저장 유닛(22) 중의 지정 주소에 기록하는 동시에, 명령 캐시 유닛(11) 중의 상기 명령을 제출하는 S6을 포함한다.

이하에서는, 상기 과정을 보다 확실히 알도록 하기 위하여 구체 실시형태들을 제공하고 도면과 결합해 본 흐름을 보다 상세히 설명한다.

실시예1

본 실시예는 연산 장치를 이용해 진행하는 벡터 간과 연산의 구체 과정을 서술한다. 먼저, 본 실시예에 따른 벡터 간여 연산 명령 포맷을 정의하면 아래와 같다.

레지스터의 각 주소에 16자리 데이터를 저장할 수 있다고 가정하는 경우, 연산 유닛 내에 4 개 간여 연산 장치를 포함하되, 각 연산 장치는 16자리 데이터의 간여 연산을 동시에 진행할 수 있다. 연산 명령 VAV 00001 01000 01001 01000 10001를 예로 들어, 상기 명령은 벡터 0과 벡터 1이 VAV 연산, 즉, 벡터 간여 연산을 진행하는 것을 가리킨다. 보다 상세하게, 벡터 간여 연산 과정은,

명령 처리 유닛(11) 중의 호출 섹션(121)이 명령 캐시 유닛(11)에서 하나의 벡터 연산 명령, 즉, VAV 00001 01000 01001 01000 10001를 호출하고 상기 명령을 명령 처리 유닛(12) 중의 디코딩 섹션(122)으로 전송하는 S1;

디코딩 섹션(122)이 명령을 디코딩하고 상기 명령의 조작 코드 VAV를 획득하는 것은 벡터 간여 연산을 실행한다는 것을 가리키는데, 5 개 조작 도메인을 가지고 각각 연산 대기 벡터 vin0의 초기 주소와 길이, 벡터 vin1의 초기 주소와 길이, 연산 결과의 저장 주소를 가리키며, 상기 연산 명령을 명령 큐 섹션(123)에게 전송하는 S2;

명령 큐 섹션(123)에 있어서, 상기 명령의 조작 코드와 조작 도메인에 의거하여 연산 대기 데이터를 획득하되, 상기 명령의 조작 코드는 VAV로서 즉시 벡터 간여 논리 연산을 실행하고, 조작 도메인 1, 2, 3, 4에서 연산을 대기하는 데이터 주소와 데이터 길이, 즉, 벡터 vin0의 초기 주소 00001, 벡터 vin0의 길이 01000, 벡터 vin1의 초기 주소 01001, 벡터 vin1의 길이 01000를 획득하며; 즉, 벡터 vin0은 주소가 00001인 곳으로부터 시작해 길이가 8 개 주소 길이인 데이터, 즉, 주소가 00001~01000인 데이터를 판독하며; 벡터 vin1은 주소가 01001인 곳으로부터 시작해 길이가 8 개 주소 길이인 데이터를 판독하며; 이어서, 종속성 처리 유닛(13)에 전송해 데이터의 종속성을 분석, 판단하는 S3;

종속성 처리 유닛(123)에 있어서, 상기 명령과 이전에 실행 완료하지 않은 명령이 데이터 면에서 종속성이 존재하는 여부를 분석함으로써, 종속성이 존재하면 대기할 필요가 없고, 종속성이 존재하지 않으면 상기 명령을 저장 큐 유닛 내(14)에 저장하고 그와 이전에 실행 완료하지 않은 데이터 사이에 다시 종속성이 존재하지 않을 때까지 대기하며, 명령을 연산 유닛(30)에게 전송하는 S4;

데이터 모듈(20) 중 데이터 I/O유닛(21)은 사전에 외부의 메모리에서 데이터를 획득하고, 획득한 데이터를 데이터 임시 저장 유닛(22)에 저정하며,명령을 연산 유닛(30)에 전송해 연산을 하려 할 때 데이터 임시 저장 유닛(22)은 명령이 가리키는 데이터 주소에 의거하여 대응되는 데이터를 찾아 연산 유닛(30)에게 제공하고, 제공하기 전에 데이터 임시 저장 유닛(22)은 데이터의 길이와 연산 유닛(30)의 연산 규모에 의거하여 데이터를 조정하는데, 여기에서, 연산 유닛(30)은 일회적으로 4 그룹 16자리 벡터의 간여 연산만 처리할 수 있기 때문에 첫번째로 연산 유닛(30)에 전송된 데이터는 vin0이 가리키는 앞 4 개 주소 길이의 데이터와 vin1이 가리키는 앞 4 개 주소 길이의 데이터, 즉, 주소가 00001~00100과 01001~01100인 데이터에 대해 연산을 진행하고, 연산이 완료된 후 vin0과 vin1 각자의 뒤 4 개 주소 길이의 데이터를 로딩해 연산을 진행하는데, 즉, 주소가 00101~01000와 01101~10000인 데이터에 대해 간여 연산을 진행하는 S5;와

연산이 완료된 후 결과를 데이터 임시 저장 유닛(22) 중의 지정 주소인 10001에 기록하는 동시에, 명령 캐시 유닛 중의 상기 벡터 간여 논리 명령을 제출하는 S6을 포함한다.

실시예2

본 실시예는 연산 장치를 이용해 진행하는 벡터 더하기 연산의 구체 과정을 서술한다. 먼저, 본 실시예에 따른 벡터 더하기 연산 명령 포맷을 정의하면 아래와 같다.

레지스터의 각 주소에 16자리 데이터를 저장할 수 있다고 가정하는 경우, 연산 유닛 내에 4 개 더하기 연산 장치를 포함하되, 각 연산 장치는 16자리 데이터의 더하기 연산을 동시에 진행할 수 있다. 연산 명령 VA 00001 01000 01001 00010 10001를 예로 들어, 상기 명령은 벡터 0과 벡터 1이 VA 연산, 즉, 벡터 더하기 연산을 진행하는 것을 가리킨다. 연산 장치가 상기 벡터 더하기 명령을 실행하는 과정은,

명령 처리 유닛(12) 중의 호출 섹션(121)이 명령 캐시 유닛(11)에서 하나의 벡터 연산 명령, 즉, VA 00001 01000 01001 00010 10001를 호출하고 상기 명령을 명령 처리 유닛 중의 디코딩 섹션(12)으로 전송하는 S1;

디코딩 섹션(12)이 명령을 디코딩하고 상기 명령의 조작 코드 VA를 획득하는 것은 벡터 더하기 연산을 실행한다는 것을 가리키는데, 5 개 조작 도메인을 가지고 각각 연산 대기 벡터 vin0의 초기 주소와 길이, 벡터 vin1의 초기 주소와 길이, 연산 결과의 저장 주소를 가리키며, 상기 연산 명령을 명령 큐 섹션(123)에게 전송하는 S2;

명령 큐 섹션(123)에 있어서, 상기 명령의 조작 코드와 조작 도메인에 의거하여 연산 대기 데이터를 획득하되, 상기 명령의 조작 코드는 VA로서 즉시 벡터 더하기 논리 연산을 실행하고, 조작 도메인 1, 2, 3, 4에서 연산을 대기하는 데이터 주소와 데이터 길이, 즉, 벡터 vin0의 초기 주소 00001, 벡터 vin0의 길이 01000, 벡터 vin1의 초기 주소 01001, 벡터 vin1의 길이 00010를 획득하며; 즉, 벡터 vin0은 주소가 00001인 곳으로부터 시작해 길이가 8 개 주소 길이인 데이터, 즉, 주소가 00001~01000인 데이터를 판독하며; 벡터 vin1은 주소가 01001인 곳으로부터 시작해 길이가 8 개 주소 길이인 데이터를 판독하며; 이어서, 종속성 처리 유닛(13)에 전송해 데이터의 종속성을 분석, 판단하는 S3;

종속성 처리 유닛(13)에 있어서, 상기 명령과 이전에 실행 완료하지 않은 명령이 데이터 면에서 종속성이 존재하는 여부를 분석함으로써, 종속성이 존재하면 대기할 필요가 없고, 종속성이 존재하지 않으면 상기 명령을 저장 큐 유닛 내에 저장하고 그와 이전에 실행 완료하지 않은 데이터 사이에 다시 종속성이 존재하지 않을 때까지 대기하며, 명령을 연산 유닛에게 전송하는 S4;

종속성이 존재하지 않은 후, 상기 벡터 더하기 명령은 연산 유닛(30)에게 전송되고, 연산 유닛(30)은 필요한 데이터의 주소와 길이에 의거하여 데이터 임시 저장 유닛(22)에서 필요한 벡터를 호출하며, 이어서 연산 유닛에서 더하기 연산을 완료하는데, 여기에서, 연산 유닛(30)은 일회적으로 4 그룹 16자리 벡터의 더하기 연산만 처리할 수 있기 때문에 일회성으로 모든 데이터를 전부 연산 유닛에 발송해 연산을 진행할 수 없어 여러번으로 나누어 진행해야 하고, vin0과 vin1은 길이가 다르고 vin1의 길이가 비교적 짧으므로 vin1의 데이터를 순환 판독해야 하며, 도 6에서 도시하는 바와 같이, 첫번째로 연산 유닛(30)에 전송된 데이터는 vin0이 가리키는 앞 4 개 주소 길이의 데이터와 vin1이 가리키는 2개 주소 길이의 데이터로서, 즉, 발송한 데이터는 주소가 00001~00100과 01001~01010인 데이터인데, 여기에서 연산을 진행하는 데이터의 대응 관계는 주소가 00001인 데이터와 주소가 01001인 데이터에 대한 더하기 연산, 주소가 00010인 데이터와 주소가 01010인 데이터에 대한 더하기 연산, 주소가 00011인 데이터와 주소가 01001인 데이터에 대한 더하기 연산, 주소가 00100인 데이터와 주소가 01010인 데이터에 대한 더하기 연산이고, 연산이 완료된 후 두번째로 연산 유닛(30)에 전송된 데이터는 vin0이 가리키는 뒤 4 개 주소 길이의 데이터와 vin1이 가리키는 2개 주소 길이의 데이터로서, 즉, 주소가 00101~01000와 01001~01010인 데이터에 대해 더하기 연산을 실행하고 연산할 때의 대응 관계는 주소가 00101인 데이터와 주소가 01001인 데이터에 대한 더하기 연산, 주소가 00110인 데이터와 주소가 01010인 데이터에 대한 더하기 연산, 주소가 00111 내인 데이터와 주소가 01001인 데이터에 대한 더하기 연산, 주소가 01000인 데이터와 주소가 01010인 데이터에 대한 더하기 연산인 S5;

연산이 완료된 후 결과를 데이터 임시 저장 유닛(22) 중의 지정 주소인 10001에 기록하는 동시에, 명령 캐시 유닛(11) 중의 상기 벡터 더하기 명령을 제출하는 S6을 포함한다.

상기의 구체적인 실시예는 본 발명의 목적, 기술방안 및 유익한 효과를 더욱 상세하게 설명하기 위한 것이다. 상기 내용은 본 발명의 구체적인 실시예에 불과하므로 본 발명을 제한하지 않는다. 본 발명의 정신과 원칙 내에서 진행한 모든 수정, 동등한 치환, 개선 등은 모두 본 발명의 보호범위 내에 속한다.

Claims

명령 모듈, 데이터 모듈과 연산 모듈을 포함하는 연산 장치에 있어서,
상기 명령 모듈은 명령을 캐시하고 데이터 모듈과 연산 모듈에게 명령을 제공하는데 사용하고;
상기 데이터 모듈은 명령 모듈 중의 명령에 의거하여 연산 모듈에게 연산 데이터를 제공하는 데 사용하며;
상기 연산 모듈은 명령 모듈 중의 명령 및 데이터 모듈이 제공하는 연산 데이터에 의거하여 관련 연산을 진행하는데 사용하도록 구비되고,
상기 명령 모듈은 명령 캐시 유닛, 명령 처리 유닛, 종속성 처리 유닛, 저장 큐 유닛을 포함하되, 여기에서,
명령 캐시 유닛은 실행 대기 명령을 저장하는 데 사용하고,
명령 처리 유닛은 명령 캐시 유닛으로부터 명령을 획득해 상기 명령을 처리하는 데 사용하며,
종속성 처리 유닛은 상기 명령과 이전의 실행 중 명령이 같은 데이터를 엑세스하는 여부를 판단하는 데 사용하고;
종속성 처리 유닛은 종속성 관계가 존재하면 상기 명령을 상기 저장 큐 유닛에 저장하고 이전의 실행 중 명령이 실행 완료한 후 다시 상기 명령을 연산 모듈에게 제공하며, 종속성 관계가 존재하지 않으면 직접 상기 명령을 연산 모듈에게 제공하는 것을 특징으로 하는 연산 장치.
삭제
제1항에 있어서,
상기 명령 처리 유닛은,
명령 캐시 유닛에서 명령을 획득하는 데 사용하는 호출 섹션과;
획득한 명령을 디코딩하는 데 사용하는 디코딩 섹션과;
디코딩한 명령을 순서별로 저장하는 데 사용하는 명령 큐 섹션을 포함하는 것을 특징으로 하는 연산 장치.
제1항에 있어서,
상기 데이터 모듈은 데이터 I/O 유닛과 데이터 임시 저장 유닛을 포함하되, 여기에서 데이터 I/O 유닛은 직접 메모리에서 연산 데이터를 판독하는 데 사용하고, 데이터 임시 저장 유닛은 연산 데이터를 저장해 상기 연산 데이터를 조정한 후 연산 모듈로 제공하는 데 사용하는 것을 특징으로 하는 연산 장치.
제4항에 있어서,
데이터 임시 저장 유닛은 연산 데이터를 조정한 후 연산 모듈에 제공하는 데 사용되되,
연산에 참여하는 2개 연산 데이터의 길이가 모두 연산 모듈의 연산 규모보다 작거나 또는 그와 같은 경우, 데이터 임시 저장 유닛은 직접 상기 2개 연산 데이터를 연산 모듈에게 제공하고;
연산에 참여하는 2개 연산 데이터의 길이가 모두 연산 모듈의 연산 규모보다 큰 경우, 각 연산 데이터를 복수개의 길이가 모두 상기 연산 규모보다 작거나 또는 그와 같은 서브 연산 데이터로 분해하고 상기 서브 연산 데이터를 여러 번으로 나누어 상기 연산 모듈에게 제공하며;
연산에 참여하는 2개 연산 데이터에 있어서, 1 개 연산 데이터의 길이가 연산 모듈의 연산 규모보다 크고 또 다른 연산 데이터의 길이가 연산 모듈의 연산 규모보다 작거나 또는 그와 같은 경우, 길이가 연산 규모보다 큰 연산 데이터를 복수개의 길이가 모두 연산 규모보다 작거나 또는 그와 같은 서브 연산 데이터로 분해하고 상기 복수개의 서브 연산 데이터와 길이가 연산 규모보다 작거나 또는 그와 같은 연산 데이터를 여러 번으로 나누어 상기 연산 모듈에게 제공하는 것을 포함하는 것을 특징으로 하는 연산 장치.
제1항에 있어서,
상기 연산 데이터는 벡터이며, 상기 연산 모듈은 벡터 논리 연산 또는 벡터 사칙 연산을 실행하는 데 사용하는 것을 특징으로 하는 연산 장치.
제1항, 제3항 내지 제6항 중의 어느 한 항의 연산 장치의 조작 방법은
명령을 명령 모듈 내에 캐시하는 S1;
명령 모듈 중의 명령을 데이터 모듈에게 제공하고, 데이터 모듈은 상기 명령에 의거하여 연산 모듈에게 연산 데이터를 제공하는 S2;
명령 모듈 중의 명령을 연산 모듈에게 제공하고 연산 모듈은 상기 명령과 데이터 모듈이 제공한 연산 데이터에 의거하여 연산을 실행하는 S3;
을 포함하는 것을 특징으로 하는 연산장치의 조작 방법.
제7항에 있어서,
상기 명령 모듈은 명령 캐시 유닛, 명령 처리 유닛, 종속성 처리 유닛, 저장 큐 유닛을 포함하고, 상기 단계 S1은,
명령 캐시 유닛에 실행 대기 명령을 저장하는 S11;
명령 처리 유닛은 명령 캐시 유닛에서 명령을 획득하고 상기 명령을 처리하는 S12;
종속성 처리 유닛은 상기 명령과 이전의 실행 중 명령이 동등한 데이터를 엑세스하는 여부를 판단하되, 엑세스하면 종속성 처리 유닛은 상기 명령을 상기 저장 큐 유닛에 조정하고 이전의 실행 중 명령이 실행 완료한 후 다시 상기 명령을 연산 모듈에게 제공하고, 엑세스하지 않으면 직접 상기 명령을 연산 모듈에게 제공하는 S13;
을 포함하는 것을 특징으로 하는 연산 장치의 조작 방법.
제8항에 있어서,
상기 명령 처리 유닛은 호출 섹션, 디코딩 섹션과 명령 큐 섹션을 포함하되, 여기에서, 상기 단계 S12는,
호출 섹션은 명령 캐시 유닛에서 명령을 획득하는 S121;
디코딩 섹션은 획득한 명령을 디코딩하는 S122;
명령 큐 섹션이 디코딩한 명령을 순서별로 저장하는 S123을 포함하는 것을 특징으로 하는 연산 장치의 조작 방법.
제7항에 있어서,
상기 데이터 모듈은 데이터 I/O 유닛과 데이터 임시 저장 유닛을 포함하며, 여기에서, 상기 단계 S2는,
데이터 I/O 유닛이 직접 메모리에서 연산 데이터를 판독하고 데이터 임시 저장 유닛에 저장하는 S21;
데이터 임시 저장 유닛이 저장한 연산 데이터를 조정한 후, 연산 모듈에게 제공하는 S22를 포함하는 것을 특징으로 하는 연산 장치의 조작 방법.
제10항에 있어서,
상기 단계 S22는,
연산에 참여하는 2개 연산 데이터의 길이가 모두 연산 모듈의 연산 규모보다 작거나 또는 그와 같은 경우, 데이터 임시 저장 유닛은 직접 상기 2개 연산 데이터를 연산 모듈에게 제공하는 단계;
연산에 참여하는 2개 연산 데이터의 길이가 모두 연산 모듈의 연산 규모보다 큰 경우, 각 연산 데이터를 복수개의 길이가 모두 상기 연산 규모보다 작거나 또는 그와 같은 서브 연산 데이터로 분해하고 상기 서브 연산 데이터를 여러 번으로 나누어 상기 연산 모듈에게 제공하는 단계;
연산에 참여하는 2개 연산 데이터에 있어서, 1 개 연산 데이터의 길이가 연산 모듈의 연산 규모보다 크고, 또 다른 연산 데이터의 길이가 연산 모듈의 연산 규모보다 작거나 또는 그와 같은 경우, 길이가 연산 규모보다 큰 연산 데이터를 복수개의 길이가 모두 연산 규모보다 작거나 또는 그와 같은 서브 연산 데이터로 분해하고 상기 복수개의 서브 연산 데이터와 길이가 연산 규모보다 작거나 또는 그와 같은 연산 데이터를 여러 번으로 나누어 상기 연산 모듈에게 제공하는 단계를 포함하는 것을 특징으로 하는 연산 장치의 조작 방법.
제7항에 있어서,
상기 연산 데이터는 벡터며, 상기 연산 모듈은 벡터 논리 연산 또는 벡터 사칙 연산을 실행하는 데 사용하는 것을 특징으로 하는 연산 장치의 조작 방법.