JP7132043B2 - リコンフィギュラブルプロセッサ - Google Patents

リコンフィギュラブルプロセッサ Download PDF

Info

Publication number
JP7132043B2
JP7132043B2 JP2018168697A JP2018168697A JP7132043B2 JP 7132043 B2 JP7132043 B2 JP 7132043B2 JP 2018168697 A JP2018168697 A JP 2018168697A JP 2018168697 A JP2018168697 A JP 2018168697A JP 7132043 B2 JP7132043 B2 JP 7132043B2
Authority
JP
Japan
Prior art keywords
circuit
matrix
processing
elements
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018168697A
Other languages
English (en)
Other versions
JP2020042479A (ja
Inventor
了 藤澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Keiki Inc
Original Assignee
Tokyo Keiki Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Keiki Inc filed Critical Tokyo Keiki Inc
Priority to JP2018168697A priority Critical patent/JP7132043B2/ja
Priority to CN201910783093.2A priority patent/CN110888832A/zh
Publication of JP2020042479A publication Critical patent/JP2020042479A/ja
Application granted granted Critical
Publication of JP7132043B2 publication Critical patent/JP7132043B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7867Architectures of general purpose stored program computers comprising a single central processing unit with reconfigurable architecture
    • G06F15/7871Reconfiguration support, e.g. configuration loading, configuration switching, or hardware OS
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Microcomputers (AREA)
  • Logic Circuits (AREA)
  • Complex Calculations (AREA)

Description

本発明の実施形態は、リコンフィギュラブルプロセッサに関する。
従来、設計者が独自の回路を再構成することができ、例えば、特定の処理に特化した専用ハードウェアまたはアプリケーション専用プロセッサとして機能させることができるチップとして、FPGA(Field Programmable Gate Array)やリコンフィギュラブルプロセッサが知られている。FPGAとリコンフィギュラブルプロセッサは、回路の再構成に係る基本構成要素の粒度において特に異なっており、FPGAの基本構成単位が1ビットの細粒度を有するLUT(Lookup table)であるのに対し、リコンフィギュラブルプロセッサの基本構成単位は少なくとも4ビット以上、例えば16ビット程度の粗粒度を有するプロサッサエレメントとなっている。
リコンフィギュラブルプロセッサにおいては、複数のプロセッシングエレメントが行列状に配置され、この複数のプロセッシングエレメントの配線の接続関係と各プロセッシングエレメントの機能定義とを含む構成情報が書き込まれるプロセスであるコンフィギュレーションによって、特定の機能がリコンフィギュラブルプロセッサにより実装される。FPGAにおいても、概ね同様のコンフィギュレーションによって特定の機能が実装される。リコンフィギュラブルプロセッサにおける構成データは、FPGAにおける構成情報と比較して、その基本構成単位の粒度が粗いことから、必要とするパラメータが少なく、データ量が小さくなっており、従って、構成情報のロードに掛かる時間も短くなっている。
このため、FPGAにおいて構成情報を格納するコンフィギュレーションメモリが現行の機能を実装するための構成情報を格納するための1つのバンクのみを有するのに対し、リコンフィギュラブルプロセッサにおけるコンフィギュレーションメモリは、現行の機能を実装するための構成情報を格納するフォアグラウンドバンクと、将来用いる機能を実装するための構成情報を格納するバックグラウンドバンクとを有する。リコンフィギュラブルプロセッサは、構成情報のロードに掛かる時間が短いために処理中に複数のバンクをデータの処理中に切り換えることができ、このような動作は、複数のプロセッシングエレメントを動的に再構成することから、ダイナミックリコンフィギュレーションと呼ばれる。
なお、このようなリコンフィギュラブルプロセッサに関する技術として、複数のプロセッシングエレメントのうち、第1のプロセッシングエレメントをデータの記憶に用いた後、第1のプロセッシングエレメントと第2のプロセッシングエレメントとを接続して、データを第1のプロセッシングエレメントから第2のプロセッシングエレメントに移動複写させると同時に、他のプロセッシングエレメントにおいて所定の機能を実現するリコンフィギュラブルプロセッサの制御方法、が知られている(特許文献1参照)。
特許第5882714号明細書
近年、その柔軟性の高さ、コスト及び消費電力の低減という観点から、ディープラーニングなどの機械学習に対して、並列処理性能に優れたFPGAやリコンフィギュラブルプロセッサを応用することが提案されている。機械学習を行う上では行列の乗算が必須であるが、特にリコンフィギュラブルプロセッサにおいて、行列の乗算に際して、より並列度を向上させることが要求されている。
本発明の実施形態は、上述した問題点を解決するためになされたものであり、行列の乗算に際して並列度を向上させることができるリコンフィギュラブルプロセッサを提供することを目的とする。
上述した課題を解決するため、本実施形態に係るリコンフィギュラブルプロセッサは、複数のプロセッシングエレメントを有し、該複数のプロセッシングエレメントによる回路構成を動的に再構成可能なリコンフィギュラブル回路と、該リコンフィギュラブル回路に構成される回路構成を示す複数の構成情報を記憶するコンフィギュレーションメモリと、前記リコンフィギュラブル回路と前記コンフィギュレーションメモリとを制御する制御回路とを備え、接続された外部メモリに記憶された行列の乗算を行うリコンフィギュラブルプロセッサであって、前記制御回路は、前記外部メモリに記憶された一方の行列における少なくとも1つの所定の行または少なくとも1つの所定の列に含まれる全要素をバッファメモリに保持する第1の回路を示す第1の構成情報と、前記外部メモリに記憶された他方の行列の全要素と前記バッファメモリに保持された全要素とに基づく積和処理を実行する第2の回路を示す第2の構成情報とを前記外部メモリから前記コンフィギュレーションメモリにロードするロード処理部と、前記コンフィギュレーションメモリにロードされた前記第1の構成情報に基づいて前記リコンフィギュラブル回路に構成された前記第1の回路による処理動作と、前記コンフィギュレーションメモリにロードされた前記第2の構成情報に基づいて前記第1の回路とは異なるタイミングにおいて前記リコンフィギュラブル回路に構成された前記第2の回路による処理動作とを、前記一方の行列の全要素と前記他方の行列の全要素との積和処理が終了するまで繰り返し実行する処理制御部とを備えることを特徴とする。
本発明の実施形態によれば、行列の乗算に際して並列度を向上させることができる。
実施形態に係るリコンフィギュラブルプロセッサのハードウェア構成を示すブロック図である。 リコンフィギュラブル回路のハードウェア構成を示すブロック図である。 演算対象とする行列を示す図である。 制御回路の機能構成を示すブロック図である。 行列の乗算に係る制御回路の全体動作を示すフローチャートである。 転置制御処理の動作を示すフローチャートである。 動作制御処理の動作を示すフローチャートである。 第1演算制御処理の動作を示すフローチャートである。 第1の回路を示すブロック図である。 第2の回路を示すブロック図である。 第2演算制御処理の動作を示すフローチャートである。 第3の回路を示すブロック図である。
以下、図面を参照しながら、本発明の実施形態について説明する。
(リコンフィギュラブルプロセッサのハードウェア構成)
本実施形態に係るリコンフィギュラブルプロセッサのハードウェア構成について説明する。図1は、リコンフィギュラブルプロセッサのハードウェア構成を示すブロック図である。図2は、リコンフィギュラブル回路のハードウェア構成を示すブロック図である。
図1に示すように、本実施形態に係るリコンフィギュラブルプロセッサ1は、リコンフィギュラブル回路10、コンフィギュレーションメモリ11、制御回路12、データバス13、外部メモリ2と接続された外部I/O14を備える。
外部メモリ2は、制御回路12により実行されるプログラム、リコンフィギュラブル回路10または制御回路12により処理されるデータ、リコンフィギュラブル回路10の回路構成を示す構成情報などを格納するRAM(Random Access Memory)である。
リコンフィギュラブル回路10は、図2に示すように、行列状に配置された複数のプロセッシングエレメントPEを有し、これらのプロセッシングエレメントPEによる回路の構成を、構成情報に基づいて動的に変更可能なダイナミックリコンフィギュラブルデバイスである。ここで、構成情報は、回路構成として、各プロセッシングエレメントPEの機能定義と複数のプロセッシングエレメントPE間の接続関係とを示す。
なお、図2においては、説明上、リコンフィギュラブル回路10に含まれるプロセッシングエレメントPEの一部のみが示されているものとし、後述する図9,10,11についても同様である。また、本実施形態に係るリコンフィギュラブル回路10は、同一種類のプロセッシングエレメントPEのみにより構成されるホモ型、または特定の機能に特化した複数種類のプロセッシングエレメントPEにより構成されるヘテロ型のいずれであっても良い。
コンフィギュレーションメモリ11は、外部メモリ2からロードされた構成情報が格納される記憶装置であり、本実施形態においては、それぞれ1つの構成情報を格納可能な3つのバンクを有する。これら3つのバンクのうち、所定の1バンクをフォアグラウンドバンクとすることができ、この際、残り2つのバンクはバックグラウンドバンクとして扱われる。ここで、フォアグラウンドバンクは、現行の回路構成を示す1つの構成情報を格納するバンクであり、バックグラウンドバンクは、動的に切り替えるべき回路構成を示す2つの構成情報を格納するバンクである。3つのバンクのうち、1つのバンクがフォアグラウンドバンクとして選択され、このフォアグラウンドバンクに格納された構成情報に基づいてリコンフィギュラブル回路10の回路が構成される。
制御回路12は、リコンフィギュラブル回路10及びコンフィギュレーションメモリ11を制御するCPU(Central Processing Unit)である。制御回路12は、基本的に、外部メモリ2に格納された構成情報のコンフィギュレーションメモリ11へのロード、コンフィギュレーションメモリ11におけるフォアグラウンドバンクの選択、リコンフィギュラブル回路10による処理の実行の開始及び停止を行う。また、後述する各機能を実現するため、外部メモリ2に格納されたプログラムを実行する。
(行列の乗算におけるメモリアクセス)
上述したハードウェア構成によるリコンフィギュラブルプロセッサは行列の乗算を行うものである。行列の乗算においては、後述するようにメモリアクセスがボトルネックとなる。ここで、行列の乗算におけるメモリアクセスについて説明する。図3は、演算対象とする行列を示す図である。
図3に示すように、行列Aと行列Bとの積を行列Cとして算出する場合、行列Cにおける要素C1の算出において、行列AにおけるA1~A4の4要素を含む行と、行列BにおけるB1~B4の要素を含む列との積和が、C1=A1×B1+A2×B2+A3×B3+A4×B4の式により算出される。つまり、行列Aの所定の行における各要素と、この所定の行に対応する行列Bの列において行の要素それぞれに対応する要素とが乗算され、全ての要素についての積を加算したものが行列Cの要素となる。
リコンフィギュラブル回路10が行列Cを算出する場合、行列A及び行列Bは処理すべきデータとして外部メモリ2に格納される。行列Aの1要素とこれに対応する行列Bの1要素との積を算出する度にこれらの要素を外部メモリ2から読み出す場合、行列Cの1要素、例えば要素C1の算出に際しては要素A1~A4、要素B1~B4の計8要素が外部メモリ2から読み出される必要があり、行列Cの全要素の算出には行列A及び行列Bにおける要素が外部メモリ2から128回読み出される必要がある。このように、行列の乗算においては、演算処理が容易であるのに比較して、外部メモリ2へのメモリアクセス量が大きいため、メモリアクセスが処理速度においてボトルネックとなり得る。このことは、演算対象とする行列の要素数が大きくなる程に顕著となる。
本実施形態において、リコンフィギュラブル回路10は、その内部にバッファメモリを複数構成し、これらのバッファメモリ内に行列Bの少なくとも1つ以上の列に含まれる全要素を保持して行列の乗算を行う。行列Bの1列の全要素がバッファメモリに保持されて行列の乗算がなされる場合、まず、行列Bの1列分の4要素(例えば、B1~B4)が外部メモリ2から読み出されてバッファメモリに保持され、行列Aの所定の1行における4要素(例えば、A1~A4)が外部メモリ2から読み出されて、この4要素(A1~A4)とバッファメモリに保持された4要素(B1~B4)との積和により行列Cの1要素(C1)が算出される。バッファメモリに保持された行列Bの1列分の4要素(B1~B4)は、行列Cの1列における全要素(C1,C5,C9,C13)の算出に用いることができるため、行列Cの1列の算出に際しては、行列Bの4要素(B1~B4)と行列Aの16要素(A1~A16)とを含む計20要素が外部メモリ2から読み出される。したがって、行列Cの全要素の算出に際して、行列A及び行列Bにおける要素が外部メモリ2から80回読み出されることとなる。このように、バッファメモリに要素を保持することによって、保持した要素を複数回用いることができ、行列の乗算に要するメモリアクセス量を低減することができ、延いては、処理時間を低減することができる。
また、行列Bの2列の全要素(例えば、B1~B8)がバッファメモリに保持されて行列の乗算がなされる場合、まず、行列Bの2列分の8要素(B1~B8)が外部メモリ2から読み出されてバッファメモリに保持され、行列Aの所定の1行における4要素(例えば、A1~A4)が外部メモリ2から読み出されて、この4要素(A1~A4)と、バッファメモリに保持された1列分の4要素(B1~B4)と他の1列分の4要素(B5~B8)のそれぞれとの積和により行列Cの1行に含まれる2要素(C1,C2)が算出される。バッファメモリに保持された行列Bの2列分の8要素(B1~B8)は、行列Cの2列における全要素(C1,C5,C9,C13,C2,C6,C10,C14)の算出に用いることができるため、行列Cの2列の算出に際しては、行列Bの8要素(B1~B8)と行列Aの16要素(A1~A16)とを含む計24要素が外部メモリ2から読み出されることとなり、したがって、行列Cの全要素の算出に際して、行列A及び行列Bにおける要素が外部メモリ2から48回読み出されることとなる。
このように、バッファメモリに保持する要素数が多い程、行列の乗算に係るメモリアクセスを低減させることができる。なお、以降の説明において、リコンフィギュラブルプロセッサ1は行列Bの1列分の要素をバッファメモリに保持して行列の乗算を行うものとするが、複数列文の要素をバッファメモリに保持するようにしても良く、また、行列Aの少なくとも1つの行以上に含まれる要素をバッファメモリに保持するようにしても良い。
(制御回路の機能構成)
制御回路の機能構成について説明する。図4は、制御回路の機能構成を示すブロック図である。
制御回路12は、機能として、サイズ判定部121、選択部122、パラメータ変更部123、ロード処理部124、回路構成部125、処理制御部126、演算部127、処理判定部128を備える。
サイズ判定部121は、演算対象とする行列のサイズが所定の閾値以上か否かを判定する。ここで、行列のサイズは、外部メモリ2に格納された行列Aまたは行列Bのデータサイズである。選択部122は、サイズ判定部121による判定に応じて外部メモリ2に格納された構成情報を選択する。パラメータ変更部123は、選択部122により選択された構成情報のパラメータを変更する。ここで構成情報のパラメータとは、構成情報に基づいてリコンフィギュラブル回路10において構成された回路により用いられる外部メモリ2上のデータを示すポインタであり、具体的には外部メモリ2に格納された行列の要素を示すポインタである。
ロード処理部124は、パラメータ変更部123によりパラメータを変更された構成情報をコンフィギュレーションメモリ11へロードする。回路構成部125は、コンフィギュレーションメモリ11における3つのバンクのうち、1つのバンクをフォアグラウンドバンクとして選択することによりリコンフィギュラブル回路10の回路構成を変更する。処理制御部126は、リコンフィギュラブル回路10による処理動作の開始及び停止を制御する。演算部127は、制御回路12により行列の乗算を行う。処理判定部128は、リコンフィギュラブル回路10による行列の乗算において、全ての行列要素による積和処理が終了したか否か、即ち行列の乗算が終了したか否かを判定する。
(制御回路の全体動作)
行列の乗算に係る制御回路の全体動作について説明する。図5は、行列の乗算に係る制御回路の全体動作を示すフローチャートである。
図5に示すように、まず、サイズ判定部121は、演算対象とする行列のサイズが所定の第1閾値以上か否かを判定する(S101)。
行列のサイズが第1閾値以上である場合(S101,YES)、後述する転置制御処理が実行され(S102)、その後、後述する第1演算制御処理が実行され(S103)、全体処理が終了する。
一方、行列のサイズが第1閾値未満である場合(S101,NO)、サイズ判定部121は、行列のサイズが、第1閾値より値が小さい第2閾値以上であるか否かを判定する(S104)。
行列のサイズが第2閾値以上である場合(S104,YES)、転置制御処理が実行され(S105)、その後、後述する第2演算制御処理が実行され(S106)、全体処理が終了する。
一方、行列のサイズが第2閾値未満である場合(S104,NO)、制御回路12が行列の積を演算する演算処理を実行し(S107)、全体処理が終了する。
このように、制御回路12は、演算対象とする行列のサイズに応じて、リコンフィギュラブル回路10により実行される第1演算制御処理、第2演算制御処理、演算処理を実行する。ここで、第1演算制御処理は、リコンフィギュラブル回路10において並列度が高い回路を構成して行列の乗算を行う処理である。また、第2演算制御処理は、第1演算制御処理と比較して、リコンフィギュラブル回路10において並列度は低いが構成情報のロード時間が短い回路を構成して行列の乗算を行う処理である。また、演算処理は、制御回路12において構成情報をロードする必要なく行列の乗算を行う処理である。
したがって、第1閾値は、第1の演算制御処理により行列の乗算を行う際に構成情報のロード時間がボトルネックとなるような小さい行列のサイズに設定されると良く、第2閾値は、第2の演算制御処理により行列の演算を行う際に構成情報のロード時間がボトルネックとなるような小さい行列のサイズに設定されると良い。
(転置制御処理の動作)
上述の全体動作におけるステップS102,S105において実行される転置制御処理について説明する。図6は、転置制御処理の動作を示すフローチャートである。
図6に示すように、まず、選択部122は、リコンフィギュラブル回路10により転置処理を行うための構成情報を選択する(S201)。ここで、転置処理は、行列Bの行と列を入れ替える処理であり、行列Aと行列Bとの乗算を容易に行うための処理である。なお、後に詳述する第1演算制御処理及び第2演算制御処理において、処理対象は転置された行列Bであるが、便宜上、以降の説明において、行列Bの列という表現は、転置された行列Bの行を示すものとする。
次に、パラメータ変更部123は、選択された構成情報に基づいて構成される回路により用いられるパラメータを変更する(S202)。ここで変更されるパラメータは、外部メモリ2に格納される行列Bの要素を示すポインタである。
パラメータの変更後、ロード処理部124は、選択部122により選択された構成情報、即ち、転置処理を行うための構成情報を外部メモリ2からコンフィギュレーションメモリ11におけるバンクへロードし(S203)、回路構成部125がこのバンクをフォアグラウンドバンクとして選択することによりリコンフィギュラブル回路10の回路構成を変更する(S204)。
回路構成の変更後、処理制御部126は、リコンフィギュラブル回路10により動作処理を制御する動作制御処理を実行する(S205)。この動作制御処理により、転置処理を行うための回路が構成されたリコンフィギュラブル回路10による処理動作が開始される。
(動作制御処理の動作)
上述の転置制御処理におけるステップS205において実行される動作制御処理の動作について説明する。図7は、動作制御処理の動作を示すフローチャートである。
図7に示すように、処理制御部126は、リコンフィギュラブル回路10による処理動作を開始し(S301)、リコンフィギュラブル回路10をポーリングし(S302)、予め与えられた停止条件が満たされたか否かを判定する(S303)。転置制御処理においては、行列Bの全ての要素について転置された場合に停止条件を満たしたものと判定されるものとする。
停止条件が満たされた場合(S303,YES)、処理制御部126は、リコンフィギュラブル回路10による処理動作を終了し(S304)、動作制御処理を終了する。
一方、停止条件が満たされない場合(S303,NO)、処理制御部126は、再度、リコンフィギュラブル回路10をポーリングする(S302)。
このような動作制御処理によって、所定の回路が構成されたリコンフィギュラブル回路10を予め与えられた停止条件を満たすまで動作させることができる。なお、この動作制御処理は、転置制御処理だけでなく、第1演算制御処理、第2演算制御処理においても異なる停止条件が与えられて実行される。
(第1演算制御処理)
第1演算制御処理について説明する。図8は、第1演算制御処理の動作を示すフローチャートである。図9は、第1の回路を示すブロック図である。図10は、第2の回路を示すブロック図である。
図8に示すように、まず、選択部122は、第1の構成情報及び第2の構成情報を選択する(S401)。ここで、第1の構成情報によれば、リコンフィギュラブル回路10が、その内部に構成したバッファメモリ内に行列Bの2列に含まれる全ての要素を保持させる第1の回路として構成される。また、第2の構成情報によれば、リコンフィギュラブル回路10が、行列Aにおける全ての要素を外部メモリ2からロードし、行列Aの行とバッファメモリ内に保持された列とに基づく積和を算出する第2の回路として構成される。
次に、パラメータ変更部123は、選択された第1の構成情報及び第2の構成情報のそれぞれについて、パラメータを変更する(S402)。ここで、第1の構成情報について変更されるパラメータは、外部メモリ2に格納された行列Bの所定の2列に含まれる全ての要素のデータサイズ、及びこれらの要素を示すポインタであり、第2の構成情報について変更されるパラメータは、外部メモリ2に格納された行列Aに含まれる全ての要素のデータサイズ、及びこれらの要素を示すポインタである。このパラメータが更新されることにより行列Bの所定の2列が順次選択される。
パラメータの変更後、ロード処理部124は、選択部122により選択された第1の構成情報を外部メモリ2からコンフィギュレーションメモリ11へロードし(S403)、同様に、第2の構成情報を外部メモリ2からコンフィギュレーションメモリ11へロードする(S404)。
構成情報のロード後、回路構成部125は、コンフィギュレーションメモリ11において第1の構成情報が格納されたバンクをフォアグラウンドバンクとして選択することにより、リコンフィギュラブル回路10において、第1の回路を構成する(S405)。
ここで、第1の回路について説明する。この第1の回路は、リコンフィギュラブル回路10において複数構成される。第1の回路のそれぞれは、図9に示すように、第1ロード回路101と、バッファメモリ102と、ライトポインタ103と、ライトデータ104とを含む。第1ロード回路101は、行列Bの所定の2列に含まれる要素を外部メモリ2からロードする。バッファメモリ102は、第1ロード回路101によりロードされたデータを保持する。ライトポインタ103は、バッファメモリ102におけるデータのライト位置を指定する。ライトデータ104は、第1ロード回路101によりロードされたデータをバッファメモリ102へ書き込む。
第1の回路への変更後、処理制御部126は、リコンフィギュラブル回路10に対して動作制御処理を実行する(S406)。ここで、動作制御処理は、行列Bの所定の2列に含まれる全ての要素がリコンフィギュラブル回路10におけるバッファメモリ102に書き込まれるとリコンフィギュラブル回路10の処理動作を停止する。
第1の回路に構成されたリコンフィギュラブル回路10の処理動作後、回路構成部125は、コンフィギュレーションメモリ11において第2の構成情報が格納されたバンクをフォアグラウンドバンクとして選択することにより、第1の回路が構成されたリコンフィギュラブル回路10において、第2の回路を再構成する(S407)。
ここで、第2の回路について説明する。この第2の回路は、リコンフィギュラブル回路10において複数の第1の回路に対応して複数構成される。第2の回路のそれぞれは、図10に示すように、第1の回路において行列Bの所定の2列における要素が書き込まれたバッファメモリ102と、リードポインタ105と、第2ロード回路106と、積和演算回路107とを含む。リードポインタ105は、バッファメモリ102に保持される行列Bの要素を読み出す。第2ロード回路106は、バッファメモリ102に保持される行列Bの要素に対応する行列Aに含まれる要素を外部メモリ2からロードする。積和演算回路107は、リードポインタ105によりバッファメモリ102から読み出された行列Bの要素と第2ロード回路106によりロードされた行列Aの要素とに基づく積和演算を行う。
第2の回路の構成後、処理制御部126は、リコンフィギュラブル回路10に対して動作制御処理を実行する(S408)。ここで、動作制御処理は、バッファメモリ102に保持される行列Bの所定の2列とロードされた行列Aの全ての行による積和演算を終えるとリコンフィギュラブル回路10の処理動作を停止する。なお、積和演算の結果は行列Cの要素として外部メモリ2にストアされるものとする。
第2の回路に構成されたリコンフィギュラブル回路10の処理動作後、処理判定部128は、行列Aと行列Bとの乗算を終了したか否か、即ち、行列Bの全ての列について行列Aにおける行との積和演算がなされたか否かを判定する(S409)。
行列の乗算が終了していない場合(S409,NO)、パラメータ変更部123は、第1の構成情報及び第2構成情報について、パラメータとしてのポインタを更新し(S410)、回路構成部125は、第2の回路が構成されたリコンフィギュラブル回路10において、第1の回路を再構成する(S405)。なお、ステップS410のパラメータの更新については、例えば、ポインタの更新を行うハードウェア機構をリコンフィギュラブル回路10に追加することによって省略することができる。
一方、行列の乗算が終了した場合(S409,YES)、第1演算制御処理が終了される。
このような第1演算制御処理によれば、行列Bの列をバッファメモリ102に保持する第1の回路がリコンフィギュラブル回路10上に構成された後、行列Aをロードするとともにバッファメモリ102に保持した行列Bの列との積和演算を行う第2の回路がリコンフィギュラブル回路10上に構成される。このように、行列の乗算を行う回路を第1の回路と第2の回路とに時間的に分割することによって、これらの回路を同時にリコンフィギュラブル回路10上に構成するのと比較して、より多くの回路をリコンフィギュラブル回路10上に構成し、並列度を向上させることができる。また、コンフィギュレーションメモリ11に事前にロードされた第1の構成情報と第2の構成情報とに基づいて第1の回路と第2の回路とを繰り返しリコンフィギュラブル回路10上に構成するため、第1の回路と第2の回路とをリコンフィギュラブル回路10上に構成する度に第1の構成情報と第2の構成情報をロードする必要がなく、したがって、構成情報のロードに掛かる時間を低減することができる。
(第2演算制御処理)
第2演算処理について説明する。図11は、第2演算制御処理の動作を示すフローチャートである。図12は、第3の回路構成を示すブロック図である。
図11に示すように、まず、選択部122は、第3の構成情報を選択する(S501)。ここで、第3の構成情報によれば、リコンフィギュラブル回路10において、第1の回路と第2の回路とを結合した第3の回路が構成される。
次に、パラメータ変更部123は、選択された第3の構成情報について、パラメータを変更する(S502)。ここで、第3の構成情報について変更されるパラメータは、外部メモリ2に格納された行列Bの所定の1列に含まれる全ての要素のデータサイズ及びこれらの要素を示すポインタと、外部メモリ2に格納された行列Aに含まれる全ての要素のデータサイズ及びこれらの要素を示すポインタである。
パラメータの変更後、ロード処理部124が、選択部122により選択された第3の構成情報を外部メモリ2からコンフィギュレーションメモリ11へロードし(S503)、回路構成部125が、コンフィギュレーションメモリ11において第3の構成情報が格納されたバンクをフォアグラウンドバンクとして選択することにより、リコンフィギュラブル回路10において、第3の回路が構成される(S504)。
ここで、第3の回路について説明する。この第3の回路は、リコンフィギュラブル回路10において複数構成される。第3の回路のそれぞれは、図12に示すように、第1ロード回路101と、バッファメモリ102と、ライトポインタ103と、ライトデータ104と、リードポインタ105と、第2ロード回路106と、積和演算回路107とを含み、上述したように、第1の回路と第2の回路を結合した構成となっている。
第3の回路の構成後、処理制御部126は、リコンフィギュラブル回路10に対して動作制御処理を実行する(S505)。ここで、動作制御処理は、バッファメモリ102に保持される行列Bの所定の1列とロードされた行列Aの全ての行による積和演算を終えるとリコンフィギュラブル回路10の処理動作を停止する。なお、積和演算の結果は行列Cの要素として外部メモリ2にストアされるものとする。
第3の回路に構成されたリコンフィギュラブル回路10の処理動作後、処理判定部128は、行列Aと行列Bとの乗算を終了したか否か、即ち、行列Bの全ての列について行列Aにおける行との積和演算がなされたか否かを判定する(S506)。
行列の乗算が終了していない場合(S506,NO)、パラメータ変更部123は、第3の構成情報について、パラメータとしてのポインタを更新し(S507)、処理制御部126は、再度、リコンフィギュラブル回路10に対して動作制御処理を実行する(S505)。
一方、行列の乗算が終了した場合(S506,YES)、第2演算制御処理が終了される。
このような第2演算制御処理によれば、第1の回路と第2の回路とに時間的に分割する場合と比較して、1つの第3の回路が必要とするプロセッシングエレメントPEの数が多くなるために並列度は低減するが、1つの構成情報のみをロードするために構成情報のロードの掛かる時間を低減することができる。
なお、バッファメモリ102に保持する行列Bの列数を、第1演算制御処理においては2列とし、第2演算制御処理において1列としたが、いずれの処理においても少なくとも1列以上とすれば良く、第1演算制御処理における列数を第2演算制御処理における列数より多くすることが望ましい。
本発明の実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 リコンフィギュラブルプロセッサ
2 外部メモリ
10 リコンフィギュラブル回路
12 制御回路
PE プロセッシングユニット
121 サイズ判定部
123 パラメータ変更部
125 回路構成部
126 処理制御部

Claims (4)

  1. 複数のプロセッシングエレメントを有し、該複数のプロセッシングエレメントによる回路構成を動的に再構成可能なリコンフィギュラブル回路と、該リコンフィギュラブル回路に構成される回路構成を示す複数の構成情報を記憶するコンフィギュレーションメモリと、前記リコンフィギュラブル回路と前記コンフィギュレーションメモリとを制御する制御回路とを備え、接続された外部メモリに記憶された行列の乗算を行うリコンフィギュラブルプロセッサであって、
    前記制御回路は、
    前記外部メモリに記憶された一方の行列における少なくとも1つの所定の行または少なくとも1つの所定の列に含まれる全要素をバッファメモリに保持する第1の回路を示す第1の構成情報と、前記外部メモリに記憶された他方の行列の全要素と前記バッファメモリに保持された全要素とに基づく積和処理を実行する第2の回路を示す第2の構成情報とを前記外部メモリから前記コンフィギュレーションメモリにロードするロード処理部と、
    前記コンフィギュレーションメモリにロードされた前記第1の構成情報に基づいて前記リコンフィギュラブル回路に構成された前記第1の回路による処理動作と、前記コンフィギュレーションメモリにロードされた前記第2の構成情報に基づいて前記第1の回路とは異なるタイミングにおいて前記リコンフィギュラブル回路に構成された前記第2の回路による処理動作とを、前記一方の行列の全要素と前記他方の行列の全要素との積和処理が終了するまで繰り返し実行する処理制御部とを備えることを特徴とするリコンフィギュラブルプロセッサ。
  2. 前記ロード処理部は、前記外部メモリに記憶された一方の行列における少なくとも1つの所定の行または少なくとも1つの所定の列に含まれる全要素をバッファメモリに保持するとともに、前記外部メモリに記憶された他方の行列の全要素と前記バッファメモリに保持された全要素とに基づく積和処理を実行する第3の回路を示す第3の構成情報を前記外部メモリから前記コンフィギュレーションメモリにロードすることを特徴とする請求項1に記載のリコンフィギュラブルプロセッサ。
  3. 前記制御回路は、該制御回路により前記一方の行列の全要素と前記他方の行列の全要素との積和処理を行う演算部を更に備えることを特徴とする請求項2に記載のリコンフィギュラブルプロセッサ。
  4. 記制御回路は、前記行列のデータサイズが第1の閾値以上であるか否かを判定するとともに、前記行列のデータサイズが前記第1の閾値より小さい第2の閾値以上であるか否かを判定するサイズ判定部を更に備え、
    前記処理制御部は、前記行列のデータサイズが前記第1の閾値以上である場合、前記第1の回路による処理動作と前記第2の回路による処理動作とを行い、前記行列のデータサイズが前記第1の閾値未満且つ前記第2の閾値以上である場合、前記コンフィギュレーションメモリにロードされた前記第3の構成情報に基づいて前記リコンフィギュラブル回路に構成された前記第3の回路による処理動作を行い、
    前記演算部は、前記行列のデータサイズが前記第2の閾値未満である場合、前記一方の行列の全要素と前記他方の行列の全要素との積和処理を行うことを特徴とする請求項に記載のリコンフィギュラブルプロセッサ。
JP2018168697A 2018-09-10 2018-09-10 リコンフィギュラブルプロセッサ Active JP7132043B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018168697A JP7132043B2 (ja) 2018-09-10 2018-09-10 リコンフィギュラブルプロセッサ
CN201910783093.2A CN110888832A (zh) 2018-09-10 2019-08-23 可重构处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018168697A JP7132043B2 (ja) 2018-09-10 2018-09-10 リコンフィギュラブルプロセッサ

Publications (2)

Publication Number Publication Date
JP2020042479A JP2020042479A (ja) 2020-03-19
JP7132043B2 true JP7132043B2 (ja) 2022-09-06

Family

ID=69745891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018168697A Active JP7132043B2 (ja) 2018-09-10 2018-09-10 リコンフィギュラブルプロセッサ

Country Status (2)

Country Link
JP (1) JP7132043B2 (ja)
CN (1) CN110888832A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507284B (zh) * 2020-12-18 2022-08-12 清华大学 稀疏矩阵乘法在可重构处理器阵列上的实现方法及装置
CN112286864B (zh) * 2020-12-24 2021-06-04 北京清微智能科技有限公司 加速可重构处理器运行的稀疏化数据处理方法及***
US11556337B2 (en) 2021-04-12 2023-01-17 Analog Devices International Unlimited Company Parallel matrix multiplication technique optimized for memory fetches
CN115221101B (zh) * 2021-04-16 2023-12-19 中科寒武纪科技股份有限公司 用于优化片上***的矩阵乘操作的方法和相关产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007524905A (ja) 2003-06-18 2007-08-30 エス・アール・シィ・コンピューターズ・インコーポレイテッド 再構成可能なハードウェアにおいてメモリバンド幅の効率および利用率を高めるシステムおよび方法
JP2009026308A (ja) 2007-07-19 2009-02-05 Itt Manufacturing Enterprises Inc 高速かつ効率的な行列乗算ハードウェアモジュール
JP2013125378A (ja) 2011-12-14 2013-06-24 Tokyo Keiki Inc リコンフィギュラブルプロセッサの制御方法及びリコンフィギュラブルプロセッサのコンフィギュレーション情報を生成する方法及びコンフィギュレーション情報生成ツール

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0446721B1 (en) * 1990-03-16 2000-12-20 Texas Instruments Incorporated Distributed processing memory

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007524905A (ja) 2003-06-18 2007-08-30 エス・アール・シィ・コンピューターズ・インコーポレイテッド 再構成可能なハードウェアにおいてメモリバンド幅の効率および利用率を高めるシステムおよび方法
JP2009026308A (ja) 2007-07-19 2009-02-05 Itt Manufacturing Enterprises Inc 高速かつ効率的な行列乗算ハードウェアモジュール
JP2013125378A (ja) 2011-12-14 2013-06-24 Tokyo Keiki Inc リコンフィギュラブルプロセッサの制御方法及びリコンフィギュラブルプロセッサのコンフィギュレーション情報を生成する方法及びコンフィギュレーション情報生成ツール

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林崎 弘成 他,Sakura-C:超並列計算機向けC言語と最適化,情報処理学会研究報告,社団法人情報処理学会,第2007巻 第80号,第7頁-第12頁

Also Published As

Publication number Publication date
JP2020042479A (ja) 2020-03-19
CN110888832A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
JP7132043B2 (ja) リコンフィギュラブルプロセッサ
CN105703765B (zh) 基于dram的可重构装置
US11386644B2 (en) Image preprocessing for generalized image processing
KR102380776B1 (ko) 가속기 컨트롤러 및 그것의 가속기 로직 로딩 방법
US10515135B1 (en) Data format suitable for fast massively parallel general matrix multiplication in a programmable IC
WO2018160773A1 (en) Matrix transfer accelerator system and method
US10114795B2 (en) Processor in non-volatile storage memory
US10289787B2 (en) Control program and control method for programmable logic device and information processing apparatus including the same
US11705207B2 (en) Processor in non-volatile storage memory
JP5007838B2 (ja) 情報処理装置および情報処理プログラム
CN112712457B (zh) 数据处理方法以及人工智能处理器
JP2006302132A (ja) 信号処理装置及び再構成可能論理回路装置及び再構成可能順序回路
JP2022074442A (ja) 演算装置および演算方法
JP2008293226A (ja) 半導体装置
GB2521029A (en) Data processing device and method for interleaved storage of data elements
US20210288650A1 (en) Semiconductor device and circuit layout method
WO2022230674A1 (ja) 演算処理装置
JP7346235B2 (ja) 半導体装置
JP6349995B2 (ja) データ処理装置
Pinhao et al. Sparse matrix multiplication on a reconfigurable many-core architecture
CN116721006A (zh) 特征图处理方法和装置
JP2008219728A (ja) 再構成可能な演算処理回路
JP2019061347A (ja) プロセッサエレメント、プログラマブルデバイス及びプロセッサエレメントの制御方法
JP2015091045A (ja) プログラマブルロジックデバイスおよびこれを用いたコンピュータ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220825

R150 Certificate of patent or registration of utility model

Ref document number: 7132043

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150