JP7201802B2

JP7201802B2 - ３次元画像処理におけるデータの読み書き方法とシステム、記憶媒体及び端末

Info

Publication number: JP7201802B2
Application number: JP2021520315A
Authority: JP
Inventors: 中浩崔; 文桀羅; 珂張; 慧明張
Original assignee: VeriSilicon Microelectronics Nanjing Co Ltd
Current assignee: VeriSilicon Microelectronics Nanjing Co Ltd
Priority date: 2018-10-10
Filing date: 2019-09-25
Publication date: 2023-01-10
Anticipated expiration: 2039-09-25
Also published as: CN111028360A; CN111028360B; EP3816867A4; KR20210070369A; WO2020073801A1; JP2022508028A; EP3816867A1; US11455781B2; US20210295607A1

Description

本発明は、バッファ応用の技術分野に関し、特に、３次元画像処理におけるデータの読み書き方法とシステム、記憶媒体及び端末に関する。

デジタル画像処理（ＤｉｇｉｔａｌＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ）とは、コンピュータによって画像のノイズ除去、強調、復元、分割、特徴抽出等の処理を行う方法及び技術のことである。３次元画像処理アルゴリズムでは、複数の層に分けて順番に処理を行うことが多い。各層には入力画像と出力画像が存在するため、３次元画像処理の具体的な実現過程では膨大なメモリ帯域幅を占有する必要がある。例えば、ニューラルネットワークＡｌｅｘｎｅｔでは、７２４ＭＭＡＣｓの演算量に対して３０００Ｍのデータアクセスが必要である。よって、メモリの全てにオフチップ（ｏｆｆ－ｃｈｉｐ）ＤＲＡＭを使用すると、膨大な帯域幅によって多大な消費電力や遅延が発生し、システム性能に深刻な影響が及ぶ。このことから、データの読み書きが３次元画像処理のネックとなっている。

従来技術では、ダブルデータレートメモリ（ＤｏｕｂｌｅＤａｔａＲａｔｅ、ＤＤＲ）と算術論理演算装置（ＡｒｉｔｈｍｅｔｉｃＬｏｇｉｃａｌＵｎｉｔ、ＡＬＵ）の間に多段ローカルメモリを増設し、可能な限りバッファリングするとともに、バッファの内容を再利用することがＤＤＲの帯域幅を効果的に減少させる方法とされている。例えば、ＤＲＡＭとＡＬＵの間のグローバルバッファ（ｇｌｏｂａｌｂｕｆｆｅｒ）によって、各ＡＬＵの間に互いにアクセス可能なローカル共有メモリを増設し、ＡＬＵの内部にレジスタファイル（Ｒｅｇｉｓｔｅｒｆｉｌｅ）を増設する。層を追うごとにバッファレベルを低下させることで、各レベルのメモリユニットがユニットデータを処理する際の消費電力とアクセス遅延も段階的に低下する。この場合には、往々にしてハードウェアがより複雑となり、複雑度に応じて面積も増大する。

このほか、データのビット幅を下げることで帯域幅は減少する。具体的には、量子化によって低いビット（ｂｉｔ）数でデータを表し、処理を要するデータ量を減らしたあと、出力結果を逆量子化する。当該方法によれば、ＡＬＵがよりシンプルとなるが、データのビット幅が低下するに伴って、自ずと演算精度が低下してしまう。また、ニューラルネットワークの場合には、データを再トレーニングする必要も生じる。

画像処理アルゴリズムによる画像処理は一定の順序で行われる。そのため、データストリームを分析及び制御し、バッファ（ｂｕｆｆｅｒ）を合理的に使用してバッファリングすることが可能である。また、画像を小さなタイル（ｔｉｌｅ）に分割して順に処理する。当該方法によれば、メモリの読み取り幅が小さくなる。バッファリングはタイル単位で行われるため、バッファリングの単位が小さくなり、より小さなメモリ管理ユニット（ＭｅｍｏｒｙＭａｎａｇｅｍｅｎｔＵｎｉｔ、ＭＭＵ）又はキャッシュ（ｃａｃｈｅ）ユニットを使用可能となる。しかし、隣接するタイル間には重畳データが存在する。そのため、タイルの境界に位置する点を処理したい場合には、隣接するタイルのデータに繰り返しアクセスせねばならない。タイル間における共通して処理せねばならないデータをオーバーラップ（ｏｖｅｒｌａｐ）データと称する。タイルをバッファリングする場合には、オーバーラップデータについてもバッファリングする必要がある。且つ、１つの層の操作が完了しなければ次の層を操作することができず、層間の結果をＤＤＲ内に記憶するために膨大な帯域幅が必要となるほか、バッファ内に記憶するために膨大なバッファ面積も必要となる。そのため、如何にしてバッファの利用率を提供するかが重要な技術研究の方向性となっている。

上述した従来技術の欠点に鑑みて、本発明の目的は、３次元垂直スライド（ｖｅｒｔｉｃａｌｓｌｉｄｉｎｇ）技術及びサーキュラーバッファ（ｃｉｒｃｕｌａｒｂｕｆｆｅｒ）によって、限られたバッファ状況で３次元画像処理におけるバッファ利用率を極めて大きく向上させ、重畳部分の処理を減少させることで、画像処理における帯域幅の消耗及び読み書き遅延の問題を全体的に低減させる３次元画像処理におけるデータの読み書き方法とシステム、記憶媒体及び端末を提供することである。

上記の目的及びその他関連の目的を実現するために、本発明は、３次元画像処理におけるデータの読み書き方法を提供する。当該方法は、垂直スライド技術によって３次元画像を水平方向に分割することで、前記３次元画像を少なくとも２つのサブ画像に分け、各サブ画像について、前記サブ画像の処理データをサーキュラーバッファに記憶し、前記サブ画像の処理が完了したあと、前記サーキュラーバッファ内には次のサブ画像が必要とする重畳部分のデータが保持されるステップと、画像処理アルゴリズムの多層ネットワークを少なくとも２つのセグメントに分割することで、各セグメントにおける隣接する層間のデータをバッファ経由でのみやり取りし、ＤＤＲ経由ではやり取りしないようにするステップとを含む。上記のセグメントは、多層ネットワークのうち隣接する層間でのデータのやり取りをサーキュラーバッファ経由でのみ行うことができるように、サーキュラーバッファのサイズに基づいて定められた層数から成る。

本発明の一実施例において、各サブ画像が占有するサーキュラーバッファのサイズは、サブ画像Ｘのサイズ＊（サブ画像Ｙのサイズ＋オーバーラップのサイズ）＊サブ画像Ｚのサイズである。このうち、サブ画像Ｘのサイズ、サブ画像Ｙのサイズ、サブ画像Ｚのサイズ及びオーバーラップのサイズとは、それぞれ、サブ画像のＸ方向のサイズ、Ｙ方向のサイズ、Ｚ方向のサイズ、及び重畳部分のサイズのことである。

本発明の一実施例において、各セグメントにおいて、最後の層以外の各層の出力データはバッファに書き込まれ、第１層以外の各層はいずれも前記バッファからデータを読み取る。

本発明の一実施例では、ニューラルネットワークの３次元画像処理に応用する。

然るべく、本発明は３次元画像処理におけるデータの読み書きシステムを提供する。当該システムは、サーキュラーバッファモジュールとセグメントバッファモジュールを含む。

前記サーキュラーバッファモジュールは、垂直スライド技術によって３次元画像を水平方向に分割することで、前記３次元画像を少なくとも２つのサブ画像に分ける。各サブ画像について、前記サブ画像の処理データをサーキュラーバッファに記憶する。前記サブ画像の処理が完了したあと、前記サーキュラーバッファ内には次のサブ画像が必要とする重畳部分のデータが保持される。

前記セグメントバッファモジュールは、画像処理アルゴリズムの多層ネットワークを少なくとも２つのセグメントに分割することで、各セグメントにおける隣接する層間のデータをバッファ経由でのみやり取りし、ＤＤＲ経由ではやり取りしないようにする。

本発明は、記憶媒体を提供する。当該記憶媒体にはコンピュータプログラムが記憶されている。当該プログラムは、プロセッサで実行される際に上記の３次元画像処理におけるデータの読み書き方法を実現する。

本発明は、端末を提供する。当該端末は、プロセッサ及びメモリを含む。前記メモリは、コンピュータプログラムを記憶するために用いられる。前記プロセッサは、前記メモリに記憶されているコンピュータプログラムを実行することで、前記端末に上記の３次元画像処理におけるデータの読み書き方法を実行させる。

上述したように、本発明で記載する３次元画像処理におけるデータの読み書き方法とシステム、記憶媒体及び端末は、以下の有益な効果を有する。

（１）３次元垂直スライド技術とサーキュラーバッファにより、重畳部分の処理を減少させることで、限りあるバッファ状況で３次元画像処理におけるバッファの利用率を極めて大きく向上させる。

（２）ネットワーク全体を分析することで、限りあるバッファ下において層間の結果を必ずしもＤＤＲ経由でやり取りする必要がなくなるため、ＤＤＲへのアクセスが減少する。これにより、画像処理アルゴリズムにおける帯域幅の需要が減少し、読み書きの遅延や消費電力が低減する。

（３）ハードウェア設計において、より小さなバッファ（ｂｕｆｆｅｒ）面積を使用可能となる。

図１は、本発明の３次元画像処理におけるデータの読み書き方法の一実施例のフローチャートを示す。図２は、画像処理アルゴリズムのデータ構造の概略図を示す。図３は、一実施例における３次元画像を垂直スライドによりサブ画像とする場合の概略図を示す。図４は、他の実施例における３次元画像を垂直スライドによりサブ画像とする場合の概略図を示す。図５は、一実施例におけるサブ画像の対応関係の概略図を示す。図６は、一実施例における３次元画像のサーキュラーバッファの概略図を示す。図７は、本発明の３次元画像処理におけるデータの読み書きシステムの一実施例の構造図を示す。図８は、本発明の端末の一実施例における構造図を示す。

以下に、特定の具体的実施例によって本発明の実施形態につき説明する。なお、当業者であれば、本明細書に開示の内容から本発明のその他の利点及び効果を容易に理解可能である。更に、本発明はその他の異なる具体的実施形態によっても実施又は応用可能である。また、本明細書の各詳細事項については、視点及び応用の違いに応じて、本発明の精神を逸脱しないことを前提に各種の補足又は変更が可能である。説明すべき点として、矛盾が生じない場合には、以下の実施例及び実施例の特徴を互いに組み合わせてもよい。

説明すべき点として、以下の実施例で提供する図面は本発明の基本思想を概略的に説明するものにすぎない。図中には本発明に関係するアセンブリのみを示しているが、実際に実施する際のアセンブリの数、形状及びサイズに基づき記載しているわけではない。実際に実施する際には、各アセンブリの形態、数及び比率に基づいて任意に変更してもよく、且つ、アセンブリのレイアウト及び形態がより複雑になる場合もある。

本発明の３次元画像処理におけるデータの読み書き方法とシステム、記憶媒体及び端末は、３次元垂直スライド技術とサーキュラーバッファにより、限られたバッファ状況で３次元画像処理におけるバッファ利用率を極めて大きく向上させ、重畳部分の処理及びＤＤＲへのアクセスを減少させる。これにより、画像処理における帯域幅の消耗及び読み書き遅延の問題を全体的に低減させて、３次元画像処理の速度を極めて大きく向上させる。

図１に示すように、一実施例において、本発明の３次元画像処理におけるデータの読み書き方法は、以下のステップを含む。

ステップＳ１において、垂直スライド技術によって３次元画像を水平方向に分割することで、前記３次元画像を少なくとも２つのサブ画像に分ける。次に、各サブ画像について、前記サブ画像の処理データをサーキュラーバッファに記憶する。前記サブ画像の処理が完了したあと、前記サーキュラーバッファ内には次のサブ画像が必要とする重畳部分のデータが保持される。

具体的に、３次元画像を分割する際には、一定の３次元ブロックサイズで垂直方向に上から下へと順にスライドする。この技術を垂直スライド技術と称する。垂直スライド技術では、元の３次元画像を上下複数の層に分割する。なお、各層に含まれるデータに重畳は存在しない。また、分割過程では、３次元スライドブロックのサイズを一定とする。よって、第１層又は最後の層については、３次元画像の実際のサイズ及び３次元スライドブロックのサイズに基づき調整を行う。図３に示す例では、３次元画像を４つのサブ画像に分割し、それぞれｓｕｂＩｍａｇｅ０、ｓｕｂＩｍａｇｅ１、ｓｕｂＩｍａｇｅ２、ｓｕｂＩｍａｇｅ３としている。

図２に示すように、ＡＬＵはバスを通じてＤＤＲにアクセスするほか、ＳＲＡＭバッファに直接アクセスすることが可能である。第１回要求としてＤＤＲにデータを要求する場合には、バッファリングを要するデータをＳＲＡＭにバッファリングする必要がある。また、ＡＬＵがデータを再度要求する場合には、データがＳＲＡＭバッファ内に位置していれば、ＳＲＡＭバッファから直接読み取りを行う。

タイル間におけるオーバーラップ（ｏｖｅｒｌａｐ）の繰り返し処理を減らすために、本発明では、垂直スライド（Ｖｅｒｔｉｃａｌｓｌｉｄｉｎｇ）技術を用いて３次元画像を水平方向に分割する。各分割ブロックはサブ画像（ｓｕｂｉｍａｇｅ）と称される。好ましくは、各サブ画像はできるだけ扁長となるようにする。各サブ画像の幅が元画像の幅と同じ場合には、使用可能なＳＲＡＭのサイズに基づいてサブ画像の最大高さを算出可能である。図３に代表的な分割を示す。サブ画像は、Ｘ及びＺ方向の深さについては元画像と同じであるが、Ｙ方向の高さは小さくなっている。また、算出されたサブ画像の値がマイナス値又は０であった場合には、３次元画像を左右に分ける必要がある。図４は、左右に分けて分割する場合を示しており、元の３次元画像を３×４個の３次元サブ画像に分割している。

具体的に、本発明では、サブ画像の処理過程にサーキュラーバッファ（ｃｉｒｃｕｌａｒｂｕｆｆｅｒ）を導入する。１つのサブ画像の処理が完了し、当該サブ画像の下方のサブ画像を引き続き処理する際には、一時的に前のサブ画像におけるオーバーラップ行のバッファを破棄しないことで、ＤＤＲからの重畳データの読み取りを減らす。実行するごとにサーキュラーバッファ内で上書きされるデータは、前のサブ画像におけるすでに消費されており、以降は使用されることのないデータである。こうすることで、空間の節約になるだけでなく、オーバーラップの読み書きの繰り返しが減少する。画像の畳み込み操作において、オーバーラップのサイズは畳み込みカーネル（ｋｅｒｎｅｌ）の高さに関係する。縦分割方向のサブ画像はサーキュラーバッファを共有し、横方向において隣接するサブ画像はオーバーラップのデータを処理する必要がある。具体的に、各スライディングウィンドウの高さをＮ、カーネルの高さをＭとすると、第２層の１行目は第１層のＭ－１行を再度使用する必要がある。サーキュラーバッファでは、第１層の処理が完了して当該層の下方の層を処理する場合、第１層の末尾から開始して第２層へと降り、サーキュラーバッファの末尾に到達したあとサーキュラーバッファの先頭へと戻る。第１層のうち上書きされないのは、第２層の１行目が必要とする第１層の末尾数行に相当するため、バッファを節約することができ、バッファの利用率が向上する。

サブ画像の分割にあたっては、異なる層間のサブ画像に対応関係が存在する。図５は、２つの層が合計３つのサブ画像に分割される場合を示している。なお、簡略化のために、Ｚ方向の図示は省略している。仮に、ＳｕｂＩｍａｇｅ００とＳｕｂＩｍａｇｅ２０の高さが２であり、その他のサブ画像の高さが４であるとする。畳み込み操作を実行するにあたり、２回の畳み込みカーネルを３×３とすると、ＳｕｂＩｍａｇｅ００とＳｕｂＩｍａｇｅ１０がＳｕｂＩｍａｇｅ１０の入力に対応し、ＳｕｂＩｍａｇｅ１０がＳｕｂＩｍａｇｅ２０の入力に対応する。その他の依存関係についてもこれと同様となる。具体的に、ＳｕｂＩｍａｇｅ１１を入力とする場合には、ＳｕｂＩｍａｇｅ１０の内容を使用する必要があり、必要とされる行がオーバーラップ行となる。サーキュラーバッファ技術を利用すれば、ＳＲＡＭ内にはオーバーラップ行と新たに生成された結果のみを記憶すればよく、元の３次元画像の出力全体を記憶する必要はない。

サーキュラーバッファは３次元画像全体を１つの循環単位として実現され、Ｚ面ごとにオーバーラップ行のための空間が予め保持される。仮に、１つの３次元画像が、Ｚ方向に２つの面としてＺ０及びＺ１を有しており、Ｙ方向にＲ０～Ｒ７の８行を有しているとする。このとき、３次元画像を２つのサブ画像に上下に分割して、ｓｕｂＩｍａｇｅ０及びｓｕｂＩｍａｇｅ１と称すると、ｓｕｂＩｍａｇｅ０がＲ０～Ｒ３を含み、ｓｕｂＩｍａｇｅ１がＲ４～Ｒ７を含む。仮に、畳み込みカーネルのサイズを３×３×２とすると、サブ画像間のオーバーラップは２行となる。サーキュラーバッファのサイズは、サブ画像Ｘのサイズ＊（サブ画像Ｙのサイズ＋オーバーラップのサイズ）＊サブ画像Ｚのサイズとなる。このうち、サブ画像Ｘのサイズ、サブ画像Ｙのサイズ、サブ画像Ｚのサイズ及びオーバーラップのサイズとは、それぞれ、サブ画像のＸ方向のサイズ、Ｙ方向のサイズ、Ｚ方向のサイズ、及び重畳部分のサイズのことである。

図６に示すように、ｓｕｂＩｍａｇｅ０をバッファリングする場合、サーキュラーバッファの設置にはオーバーラップ空間が予め保持される。当該実施例において、オーバーラップ空間は２行であり、「ｅｍｐｔｙ（空）」で表される。ＳｕｂＩｍａｇｅ０は、バッファリングされたあと次の層のネットワークに消費される。そして、次にｓｕｂＩｍａｇｅ１をバッファリングする際には、ｓｕｂＩｍａｇｅ１の各Ｚ面が、ｓｕｂＩｍａｇｅ０の各Ｚ面に対応するｅｍｐｔｙから、或いは、Ｚ面の最後に対応する位置から順に記憶されて行く。これにより上書きされる部分は、ＳｕｂＩｍａｇｅ０のうちすでに消費された部分に相当する。いずれかのＺ面がサーキュラーバッファの末尾に到達すると、バッファの先頭部が上書きされる。また、各Ｚ面における上書きされない行は、オーバーラップに必要な行に相当する。

説明すべき点として、同一の３次元画像から分割される複数のサブ画像の高さは完全に同一とは限らない。よって、１つのサブ画像を処理するごとに、３次元サブ画像の始点アドレス、幅、高さ、ストライド幅（ｓｔｒｉｄｅ）及び出力アドレスを情報として把握する必要がある。これらのパラメータは、サブ画像を分割したあと正しく配置せねばならない。

ステップＳ２において、画像処理アルゴリズムの多層ネットワークを少なくとも２つのセグメントに分割することで、各セグメントにおける隣接する層間のデータをバッファ経由でのみやり取りし、ＤＤＲ経由ではやり取りしないようにする。

具体的に、画像処理モデルでは複数の層を含むことが多く、層ごとに然るべきタスクを完了させる。また、隣接する層の間にはデータの依存関係が存在する。そのため、隣接する２つの層の間でＤＤＲを用いてデータのやり取りを完了させる場合には、大量のＤＤＲ帯域幅や遅延が発生する。また、中間結果を全てバッファ内にバッファリングしてしまうと、バッファを膨大に占有することになる。そこで、サブ画像に分割したあと、層間の中間結果についてサブ画像をバッファリングの単位とすれば、層全体の全ての中間結果をバッファリングする必要がなくなる。よって、本発明では、バッファのサイズに基づいて、どれだけの層がバッファを利用してやり取り可能であるかを判断する。これらの層の特性としては、第１層がＤＤＲからデータを読み取って出力をＳＲＡＭバッファ内にバッファリングし、中間層がバッファからデータを読み取ってバッファに書き込む。これを、最後の層のデータがＤＤＲに書き戻されるまで行う。また、上記の条件を満たす層がセグメント（ｓｅｇｍｅｎｔ）となる。即ち、セグメント内における最後の層以外の各層の結果はＳＲＡＭバッファに書き込まれ、第１層以外の層はいずれもＳＲＡＭからデータを読み取る。

分割されるサブ画像が小さいほど、サーキュラーバッファが占有するＳＲＡＭは小さくなる。つまり、サブ画像間のオーバーラップ部分が占める割合が大きいほど、有効データの占有率は小さくなる。よって、データをＤＤＲによりバッファリングするか、ＳＲＡＭによりバッファリングするかでコストが異なってくる。また、セグメントの分割の違いによって、コストパフォーマンスやＳＲＡＭの利用率に違いが出るため、性能の最適解を見つける必要がある。且つ、層の分割はサブ画像の分割にも関連する。

好ましくは、本発明の３次元画像処理におけるデータの読み書き方法をニューラルネットワークの３次元画像処理に応用する。

図７に示すように、一実施例において、本発明の３次元画像処理におけるデータの読み書きシステムは、サーキュラーバッファモジュール６１とセグメントバッファモジュール６２を含む。

前記サーキュラーバッファモジュール６１は、垂直スライド技術によって３次元画像を水平方向に分割することで、前記３次元画像を少なくとも２つのサブ画像に分ける。各サブ画像について、前記サブ画像の処理データをサーキュラーバッファに記憶する。前記サブ画像の処理が完了したあと、前記サーキュラーバッファ内には次のサブ画像が必要とする重畳部分のデータが保持される。

前記セグメントバッファモジュール６２は、画像処理アルゴリズムの多層ネットワークを少なくとも２つのセグメントに分割することで、各セグメントにおける隣接する層間のデータをバッファ経由でのみやり取りし、ＤＤＲ経由ではやり取りしないようにする。

説明すべき点として、前記サーキュラーバッファモジュール６１とセグメントバッファモジュール６２の構造及び原理は、上述した３次元画像処理におけるデータの読み書き方法のステップと一対一で対応しているため、ここでは改めて詳述しない。

説明すべき点として、上記の装置における各モジュールの区分は論理機能に基づく区分にすぎず、実際に実現する際には全部或いは一部を１つの物理的実体に集積してもよいし、物理的に切り離してもよい。且つ、これらのモジュールは、全てを処理デバイスでソフトウェアを呼び出す形式で実現してもよいし、全てをハードウェア形式で実現してもよいし、また、一部のモジュールを処理デバイスでソフトウェアを呼び出す形式で実現して一部のモジュールをハードウェア形式で実現してもよい。例えば、ｘモジュールを単独で設置される処理デバイスとしてもよいし、上記装置のいずれかのチップに集積して実現してもよい。また、ｘモジュールは、プログラムコードの形式で上記装置のメモリに記憶してもよいし、上記装置のいずれかの処理デバイスにより上記ｘモジュールの機能を呼び出して実行してもよい。その他のモジュールの実現についてもこれと同様である。また、これらモジュールの全部又は一部を一体的に集積してもよいし、個別に実現してもよい。ここでいう処理デバイスは、信号処理能力を有する集積回路とすればよい。実現過程において、上記方法の各ステップ又は上記の各モジュールは、処理デバイスにおけるハードウェアの集積論理回路又はソフトウェア形式の命令により完了してもよい。上記のモジュールは、上記の方法を実施する１又は複数の集積回路として配置可能である。例えば、１又は複数の特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣと略称）、１又は複数のマイクロプロセッサ（ＤｉｇｉｔａｌＳｉｎｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰと略称）、１又は複数のフィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡと略称）等とすればよい。上記いずれかのモジュールを処理デバイスによりプログラムコードを呼び出す形式で実現する場合、当該処理デバイスは、例えば中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵと略称）やその他のプログラムコードを呼び出し可能なプロセッサといった汎用のプロセッサとすればよい。これらのモジュールは一体的に集積し、システムオンチップ（ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐ、ＳＯＣと略称）の形式で実現してもよい。

本発明の記憶媒体にはコンピュータプログラムが記憶されている。当該プログラムは、プロセッサで実行される際に上記の３次元画像処理におけるデータの読み書き方法を実現する。

好ましくは、前記記憶媒体には、ＲＯＭ、ＲＡＭ、磁気ディスク、ＵＳＢ、メモリカード又は光ディスク等のプログラムコードを記憶可能な各種媒体が含まれる。

図８に示すように、一実施例において、本発明の端末はプロセッサ７１とメモリ７２を含む。

前記メモリ７２は、コンピュータプログラムを記憶するために用いられる。

前記メモリ７２には、ＲＯＭ、ＲＡＭ、磁気ディスク、ＵＳＢ、メモリカード又は光ディスク等のプログラムコードを記憶可能な各種媒体が含まれる。

前記プロセッサ７１は前記メモリ７２に接続されており、前記メモリ７２に記憶されているコンピュータプログラムを実行することで、前記端末に上記の３次元画像処理におけるデータの読み書き方法を実行させる。

好ましくは、前記プロセッサ７１は、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵと略称）やネットワークプロセッサ（ＮｅｔｗｏｒｋＰｒｏｃｅｓｓｏｒ、ＮＰと略称）等を含む汎用のプロセッサとしてもよいし、デジタルシグナルプロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰと略称）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣと略称）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡと略称）、又は、その他のプログラマブルロジックデバイス、ディスクリートゲート、又はトランジスタの論理デバイス、ディスクリートハードウェアアセンブリとしてもよい。

以上述べたように、本発明の３次元画像処理におけるデータの読み書き方法とシステム、記憶媒体及び端末は、３次元垂直スライド技術とサーキュラーバッファにより重畳部分の処理を減少させることで、限りあるバッファ状況で３次元画像処理におけるバッファの利用率を極めて大きく向上させる。また、ネットワーク全体を分析することで、限りあるバッファ下において層間の結果を必ずしもＤＤＲ経由でやり取りする必要がなくなるため、ＤＤＲへのアクセスが減少する。これにより、画像処理アルゴリズムにおける帯域幅の需要が減少し、読み書きの遅延や消費電力が低減する。また、ハードウェア設計において、より小さなバッファ面積を使用可能となる。従って、本発明は従来技術における様々な瑕疵を効果的に解消しており、高度な産業の利用価値を有している。

上記の実施例は本発明の原理と効果を例示的に説明するものにすぎず、本発明を制限するものではない。本技術を熟知する者であれば、本発明の精神及び範囲を逸脱しないことを前提に、上記の実施例を補足又は変形可能である。従って、当業者が本発明で開示した精神及び技術思想から逸脱することなく遂行するあらゆる等価の補足又は変形もまた本発明の特許請求の範囲に含まれる。

６１サーキュラーバッファモジュール
６２セグメントバッファモジュール
７１プロセッサ
７２メモリ

Claims

ダブルデータレートメモリ（ＤＤＲ）及びサーキュラーバッファ並びに多層ネットワークを用いた画像処理アルゴリズムを用いて行う３次元画像処理におけるデータの読み書き方法において、
垂直スライド技術によって３次元画像を水平方向に分割することで、前記３次元画像を少なくとも２つのサブ画像に分け、各サブ画像について、前記サブ画像の処理データを前記サーキュラーバッファに記憶し、前記サブ画像の処理が完了したあと、前記サーキュラーバッファ内には次のサブ画像が必要とする重畳部分のデータが保持されるステップと、
前記多層ネットワークのうち隣接する層間でデータのやり取りを前記サーキュラーバッファ経由でのみ行うことができる層数から成るセグメントを、前記サーキュラーバッファのサイズに基づいて定め、かつ、前記多層ネットワークを少なくとも２つの前記セグメントに分割することで、前記各セグメントにおける隣接する層間のデータを前記サーキュラーバッファ経由でのみやり取りし、前記ＤＤＲ経由ではやり取りしないようにするステップとを含むことを特徴とする３次元画像処理におけるデータの読み書き方法。
前記各サブ画像が占有する前記サーキュラーバッファのサイズは、サブ画像Ｘのサイズ＊（サブ画像Ｙのサイズ＋オーバーラップのサイズ）＊サブ画像Ｚのサイズであり、このうち、サブ画像Ｘのサイズ、サブ画像Ｙのサイズ、サブ画像Ｚのサイズ及びオーバーラップのサイズとは、それぞれ、サブ画像のＸ方向のサイズ、Ｙ方向のサイズ、Ｚ方向のサイズ、及び重畳部分のサイズのことであることを特徴とする請求項１に記載の３次元画像処理におけるデータの読み書き方法。
前記各セグメントにおいて、最後の層以外の各層の出力データは前記サーキュラーバッファに書き込まれ、第１層以外の各層はいずれも前記サーキュラーバッファからデータを読み取ることを特徴とする請求項１に記載の３次元画像処理におけるデータの読み書き方法。
ニューラルネットワークの３次元画像処理に応用されることを特徴とする請求項１に記載の３次元画像処理におけるデータの読み書き方法。
ダブルデータレートメモリ（ＤＤＲ）及びサーキュラーバッファ並びに多層ネットワークを用いた画像処理アルゴリズムを用いて行う３次元画像処理におけるデータの読み書きシステムにおいて、
サーキュラーバッファモジュールとセグメントバッファモジュールを含み、
前記サーキュラーバッファモジュールは、垂直スライド技術によって３次元画像を水平方向に分割することで、前記３次元画像を少なくとも２つのサブ画像に分け、各サブ画像について、前記サブ画像の処理データを前記サーキュラーバッファに記憶し、前記サブ画像の処理が完了したあと、前記サーキュラーバッファ内には次のサブ画像が必要とする重畳部分のデータが保持され、
前記セグメントバッファモジュールは、前記多層ネットワークのうち隣接する層間でデータのやり取りを前記サーキュラーバッファ経由でのみ行うことができる層数から成るセグメントを、前記サーキュラーバッファのサイズに基づいて定め、かつ、前記多層ネットワークを少なくとも２つの前記セグメントに分割することで、前記各セグメントにおける隣接する層間のデータを前記サーキュラーバッファ経由でのみやり取りし、前記ＤＤＲ経由ではやり取りしないようにすることを特徴とする３次元画像処理におけるデータの読み書きシステム。
前記各サブ画像が占有する前記サーキュラーバッファのサイズは、サブ画像Ｘのサイズ＊（サブ画像Ｙのサイズ＋オーバーラップのサイズ）＊サブ画像Ｚのサイズであり、このうち、サブ画像Ｘのサイズ、サブ画像Ｙのサイズ、サブ画像Ｚのサイズ及びオーバーラップのサイズとは、それぞれ、サブ画像のＸ方向のサイズ、Ｙ方向のサイズ、Ｚ方向のサイズ、及び重畳部分のサイズのことであることを特徴とする請求項５に記載の３次元画像処理におけるデータの読み書きシステム。
前記各セグメントにおいて、最後の層以外の各層の出力データは前記サーキュラーバッファに書き込まれ、第１層以外の各層はいずれも前記前記サーキュラーバッファからデータを読み取ることを特徴とする請求項５に記載の３次元画像処理におけるデータの読み書きシステム。
ニューラルネットワークの３次元画像処理に応用されることを特徴とする請求項５に記載の３次元画像処理におけるデータの読み書きシステム。
コンピュータプログラムが記憶されている記憶媒体であって、
当該プログラムは、プロセッサで実行される際に請求項１～４のいずれか１項に記載の３次元画像処理におけるデータの読み書き方法を実現することを特徴とする記憶媒体。
プロセッサ及びメモリを含み、
前記メモリはコンピュータプログラムを記憶するために用いられ、
前記プロセッサは、前記メモリに記憶されているコンピュータプログラムを実行することで、請求項１～４のいずれか１項に記載の３次元画像処理におけるデータの読み書き方法を実行することを特徴とする端末。