JP7410186B2

JP7410186B2 - Ｇｐｕにおける明示的な個別マスクレジスタのマスク操作方法

Info

Publication number: JP7410186B2
Application number: JP2021573736A
Authority: JP
Inventors: イン，チョンシン; ワン，レイ
Original assignee: フアシアジェネラルプロセッサーテクノロジーズインコーポレイテッド
Priority date: 2019-06-13
Filing date: 2020-06-11
Publication date: 2024-01-09
Anticipated expiration: 2040-06-11
Also published as: WO2020249052A1; CN112083954A; EP3985503A4; EP3985503A1; US20220236988A1; US11853754B2; JP2022535982A; KR20220016993A

Description

本開示はグラフィックス処理ユニットの技術分野に関し、具体的にはＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法に関する。

＜関連出願の相互参照＞
本開示は、２０１９年６月１３日に出願された、出願番号２０１９１０５１２３１７．６、発明の名称「ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法」の特許出願の優先権主張出願であり、その全部の内容が援用により本開示に組み込まれる。

高度なグラフィックスプロセッサはｓｈａｄｅｒコードを実行するための多くのプログラマブルプロセッサコア及びグラフィックス専用ハードウェアアクセラレータを含む。最初にこれらのプロセッサコアはグラフィックスアプリケーションにおけるｓｈａｄｅｒコードを実行するために用いられたが、後に非グラフィックス計算集約型のアプリケーションを良好に処理できることが発見され、汎用グラフィックスプロセッサに発展してきた。

グラフィックアプリケーションにおいてＧＰＵは数が膨大な頂点及びセグメントを処理しなければならず、これらのオブジェクトに対してそれぞれ単独でコードを作成することは不可能である。従ってＧＰＵプログラミングモデルにおいて頂点を処理するためのｓｈａｄｅｒ及びセグメントを処理するためのｓｈａｄｅｒを定義する。ユーザはｓｈａｄｅｒにおいて頂点及びセグメントを処理するアルゴリズムを記述することができる。ＧＰＧＰＵアプリケーションに対して類似の方法を使用して、プログラミングモデルにおいて数が膨大な処理オブジェクトを定義しており、これらのオブジェクトはワークアイテムと呼ばれ、ユーザはｋｅｒｎｅｌを指定することによりこれらのワークアイテムをどのように処理するかを記述する。

グラフィックスプロセッサは複数の頂点又はｋｅｒｎｅｌにおけるワークアイテムをスレッドに組み合わせ、シングルインストラクションマルチプルデータ（ＳＩＭＤ）に従って対応するｓｈａｄｅｒプログラム及びｋｅｒｎｅｌプログラムを実行し、プログラム内に条件制御コードが存在する場合、ＳＩＭＤ実現方式においてこの問題を解決する一つの方法は実行マスクにより実行結果の出力を制御し、マスクにおける対応ビットにおける値が０ｘ１である場合のみ、対応する目的オペランドを書き換えるものであり、ＧＰＵコマンドワードの符号化空間を節約するため、該方法は、グラフィックスプロセッサにおいては単一の隠しマスクレジスタの方式により実現することが多いが、図１に示すように、ｓｈａｄｅｒ又はｋｅｒｎｅｌコードにおける条件制御ステートメントが多いか又はネストが発生した場合、単一の隠しマスクレジスタ（＄ｅｘｅｃ）により現在のコマンドのマスクレジスタを変更することができず、隠しマスクレジスタと汎用レジスタとの間のデータが頻繁に移動することになってしまい、これにより、プログラムのコマンド数が増加するだけでなく、プログラムの実行遅延が増えて、同時にレジスタ間の読み書きが追加されて、プログラマブルプロセッサコアの消費電力が上昇する。

本開示の目的は、ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法を提供することにより、上記背景技術において提出された、グラフィックスプロセッサは複数の頂点又はｋｅｒｎｅｌにおけるワークアイテムをスレッドに組み合わせ、シングルインストラクションマルチプルデータ方式に従って対応するｓｈａｄｅｒプログラム及びｋｅｒｎｅｌプログラムを実行し、プログラム内に条件制御コードが存在する場合、この問題を解決するＳＩＭＤ実現方式による一つの方法は実行マスクにより実行結果の出力を制御し、マスクにおける対応ビットにおける値が０ｘ１である場合のみ、対応する目的オペランドを書き換えるものであり、ＧＰＵコマンドワードの符号化空間を節約するため、グラフィックスプロセッサにおいては単一の隠しマスクレジスタの方式により実現することが多いが、ｓｈａｄｅｒ又はｋｅｒｎｅｌコードにおける条件制御ステートメントが多いか又はネストが発生した場合、単一の隠しマスクレジスタ（＄ｅｘｅｃ）により現在のコマンドのマスクレジスタを変更することができず、隠しマスクレジスタと汎用レジスタとの間のデータが頻繁に移動することになってしまい、これにより、プログラムのコマンド数が増加するだけでなく、プログラムの実行遅延が増えて、同時にレジスタ間の読み書きが追加されて、プログラマブルプロセッサコアの消費電力が上昇する、という課題を解決することである。

上記目的を実現するために、本開示は以下の技術的解決手段を提供する。ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法は、
各ＧＰＵハードウェアスレッドはそれぞれの＄ｍ０～＄ｍ７と記す８つの１２８ビット幅の個別マスクレジスタにアクセスすることができるステップＳ１と、
前記＄ｍ０におけるデータはＧＰＵハードウェアスレッドコマンドの実行マスクをデフォルトとし、プログラムコードにおけるコマンドのマスクアドレスフィールドＭＳＡを変更することにより、現在のコマンドの実行マスクを指定することができるステップＳ２と、
コマンドによりそれぞれマスクレジスタに対するリダクション演算と、拡張演算と、論理演算及び汎用ベクトルレジスタとの間のデータ移動を実現し、対応するマスクレジスタを指定する必要があり、同時に最近の親要素のマスクレジスタを保持し、且つ二分木の方式で子要素と親要素のマスク関係を処理するステップＳ３と、
前記マスクレジスタの使用が８を超える場合、移動コマンドを介して、一時的に使用しないマスクオペランドを前記汎用ベクトルレジスタに記憶し、必要がある時に前記汎用ベクトルレジスタから再度取得するステップＳ４と、
ベクトル実行ユニットによりマスクリダクション操作を実現し、マスクリダクションの汎用及び明示的な読み取りを完了し、コマンド送信によるオーバーヘッドを防止し、ユーザはアプリケーションプログラムを解析した後、前記リダクション操作を追加するか否かを決定するステップＳ５と、
明示的な前記マスクレジスタは、処理条件を制御する時、後段の条件コードを前記マスクレジスタに記憶し、さらに真の分岐のコマンドシーケンスのマスク及び偽の分岐のコマンドシーケンスの条件コードを生成し、明示的なマスクにより、単一のマスクが上書きされ、上書き後にリセットされるという問題を防止し、前記ベクトル汎用レジスタと前記マスクレジスタとの間のデータ移動を減少させるステップＳ６と、を含む。

好ましくは、前記１２８ビットのマスク及びベクトル実行ユニットは、ＳＩＭＤ１６の並列方式で割り当てられ、１つの前記マスクレジスタはベクトルユニットの実行を８回確保することができることである。

好ましくは、前記ベクトルユニットのベクトルコマンドを送信する時、該コマンドのマスクレジスタが全てゼロであるか否かを判断し、全てゼロであれば該コマンドがいかなる有効な出力も発生させないことを示し、対応するコマンドの読み取り及び実行の操作をいずれも省略することができることである。

好ましくは、前記ＳＩＭＤ１６の幅をリダクションする必要があり、リダクション結果がゼロでない場合はオペランドを読み取り、コマンドを送信し、それによりＳＩＭＤ１６のマスク処理を完了させることができることである。

好ましくは、前記マスクリダクションコマンドはユーザが解析した後に、コマンドを送信する前の効率が低いリダクション操作をさらに防止することができ、それによりリダクションは前述した性能及び消費電力の最適化効果を必ず発揮することができることである。

従来技術に比べて、本開示の有益な効果は、該ＧＰＵにおける明示的な独立マスクレジスタ及びマスク操作コマンドは、グラフィックスプロセッサにおいて実現される明示的な独立マスクレジスタ及び操作マスクレジスタのコマンドを提供し、ＧＰＵにおける各ハードウェアスレッドはそれぞれの＄ｍ０～＄ｍ７と記す８つの１２８ビット幅の個別マスクレジスタにアクセスすることができる。ただし、＄ｍ０におけるデータはＧＰＵハードウェアスレッドコマンドの実行マスクをデフォルトとし、コマンドのマスクアドレスフィールドＭＳＡを変更することによって現在のコマンドの実行マスクを指定することもできる。ユーザが使用可能な４つのマスク操作コマンドを有し、それぞれマスクレジスタに対するリダクション演算と、拡張演算と、論理演算及び汎用ベクトルレジスタとの間のデータ移動を実現することができる。コマンドにより、条件制御における分岐マスクを生成し、同時にマスク値を求め、プログラマブルコアにおけるコマンド送信プロセスを最適化することができる。これにより、無効なオペランドの読み取り及びパイプライン操作の実行を防止し、プログラマブル消費電力を低減することができる。

図１は本開示の黙示的なユニットマスクレジスタの概略図である。図２は本開示の第１リダクションプログラマブルプロセッサコアの概略図である。図３は本開示の第２リダクションプログラマブルプロセッサコアの概略図である。図４は本開示の黙示的な送信プロセスの概略図である。

以下に本開示の実施例における図面を参照しながら、本開示の実施例における技術的解決手段を明確、且つ完全に説明するが、明らかな点として、説明される実施例は本開示の一部の実施例に過ぎず、全ての実施例ではない。本開示の実施例に基づき、当業者が創造的な労力を要することなく取得した全ての他の実施例は、いずれも本開示の保護範囲に属する。

本開示は以下の技術的解決手段を提供する。図２及び図３に示すように、ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法は、
各ＧＰＵハードウェアスレッドはそれぞれの＄ｍ０～＄ｍ７と記す８つの１２８ビット幅の個別マスクレジスタにアクセスすることができるステップＳ1と、
＄ｍ０におけるデータはＧＰＵハードウェアスレッドコマンドの実行マスクをデフォルトとし、プログラムコードにおけるコマンドのマスクアドレスフィールドＭＳＡを変更することにより、現在のコマンドの実行マスクを指定することができるステップＳ２と、
コマンドによりそれぞれマスクレジスタに対するリダクション演算と、拡張演算と、論理演算及び汎用ベクトルレジスタとの間のデータ移動を実現し、対応するマスクレジスタを指定する必要があり、同時に最近の親要素のマスクレジスタを保持し、且つ二分木の方式で子要素と親要素のマスク関係を処理するステップＳ３と、
マスクレジスタの使用が８を超える場合、移動コマンドを介して、一時的に使用しないマスクオペランドを汎用ベクトルレジスタに記憶し、必要がある時に汎用ベクトルレジスタから再度取得するステップＳ４と、
ベクトル実行ユニットによりマスクリダクション操作を実現し、マスクリダクションの汎用及び明示的な読み取りを完了し、コマンド送信によるオーバーヘッドを防止し、ユーザはアプリケーションプログラムを解析した後、リダクション操作を追加するか否かを決定するステップＳ５と、
明示的なマスクレジスタは、処理条件を制御する時、後段の条件コードをマスクレジスタに記憶し、さらに真の分岐のコマンドシーケンスのマスク及び偽の分岐のコマンドシーケンスの条件コードを生成し、明示的なマスクにより、単一のマスクが上書きされ、上書き後にリセットされるという問題を防止し、ベクトル汎用レジスタとマスクレジスタとの間のデータ移動を減少させるステップＳ６と、を含む。

ここで、１２８ビットのマスク及びベクトル実行ユニットは、ＳＩＭＤ１６の並列方式で割り当てられる。１つのマスクレジスタはベクトルユニットの実行を８回確保することができる。ベクトルユニットのベクトルコマンドを送信する時、該コマンドのマスクレジスタが全てゼロであるか否かを判断し、全てゼロであれば該コマンドがいかなる有効な出力も発生させないことを示し、対応するコマンドの読み取り及び実行の操作をいずれも省略することができる。ＳＩＭＤ１６の幅をリダクションする必要があり、リダクション結果がゼロでない場合はオペランドを読み取り、コマンドを送信し、それによりＳＩＭＤ１６のマスク処理を完了させることができる。マスクリダクションコマンドはユーザが解析した後に、コマンドを送信する前の効率が低いリダクション操作をさらに防止することができ、それによりリダクションは前記性能及び消費電力の最適化効果を必ず発揮することができる。

具体的な使用においては、図４に示すように、まず明示的なマスクレジスタは、処理条件を制御する時、後段の条件コードをマスクレジスタに記憶し、さらに論理積、クリア、論理操作に従い真の分岐のコマンドシーケンスのマスク及び偽の分岐のコマンドシーケンスの条件コードを生成し、本開示のプログラマブルプロセッサコアにおいて、個別マスクレジスタと比較し、個別マスクレジスタ及びマスクリダクションにより誘導されるコマンド送信ユニットを追加し、１２８ビットのマスク＄ｍ_ｃに対して、ベクトル実行ユニットはＳＩＭＤ１６の並列方式に従って割り当てられ、１つのマスクレジスタはベクトルユニットの実行を８回確保することができる。これにより、コマンドフェッチの負荷を低減させる。ベクトルコマンドを送信する時、該コマンドのマスクレジスタが全てゼロであるか否かを優先的に判断する。全てゼロである場合、該コマンドがいかなる有効な出力も発生させないことを示す。このようにしてコマンドに対応するソースオペランドの読み取り及び実行をいずれも省略することができる。データ依存の発生を防止するために、依存フラグをクリーンアップすべきである。マスクにおける一部が全てゼロである場合、リダクション操作の結果は表現できず、この場合マスクを１６ビットの幅に合わせてリダクションする必要があり、現在の１６ビットのリダクション結果がゼロでない場合、オペランドを読み取るとともにコマンド送信をする必要があり、そうでなければ通常なコマンド送信のフローに応じて処理し、このようにマスクがカバーする全てのＳＩＭＤ１６のマスク処理が完了するまで実行して、コマンド送信を終了する。

以上、実施例を参照して本開示を説明したが、本開示の範囲を逸脱することなく、種々の改良を行い、その構成要素を等価物に置換することができる。特に、本開示で示された実施例におけるそれぞれの特徴は、構造的矛盾がない限り、いずれも任意の方法で互いに組み合わせて使用されてもよく、本明細書においてそれらを組み合わせた状況を包括的に説明していないのは、単に文章の省略及び資源の節約を考慮したに過ぎない。したがって、本開示は、本明細書に開示された特定の実施例に限定されず、特許請求の範囲に含まれる全ての技術的解決手段を含む。

Claims

ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法であって、
各ＧＰＵハードウェアスレッドはそれぞれの＄ｍ０～＄ｍ７と記す８つの１２８ビット幅の個別マスクレジスタにアクセスすることができるステップＳ１と、
前記＄ｍ０におけるデータはＧＰＵハードウェアスレッドコマンドの実行マスクをデフォルトとし、プログラムコードにおけるコマンドのマスクアドレスフィールドＭＳＡを変更することにより、現在のコマンドの実行マスクを指定することができるステップＳ２と、
コマンドによりそれぞれマスクレジスタに対するリダクション演算と、拡張演算と、論理演算及び汎用ベクトルレジスタとの間のデータ移動を実現し、対応するマスクレジスタを指定する必要があり、同時に最近の親要素のマスクレジスタを保持し、且つ二分木の方式で子要素と親要素のマスク関係を処理するステップＳ３と、
前記マスクレジスタの使用が８を超える場合、移動コマンドを介して、一時的に使用しないマスクオペランドを前記汎用ベクトルレジスタに記憶し、必要がある時に前記汎用ベクトルレジスタから再度取得するステップＳ４と、
ベクトル実行ユニットによりマスクリダクション操作を実現し、マスクリダクションの汎用及び明示的な読み取りを完了し、コマンド送信によるオーバーヘッドを防止し、ユーザはアプリケーションプログラムを解析した後、前記リダクション操作を追加するか否かを決定するステップＳ５と、
明示的な前記マスクレジスタは、処理条件を制御する時、後段の条件コードを前記マスクレジスタに記憶し、さらに真の分岐のコマンドシーケンスのマスク及び偽の分岐のコマンドシーケンスの条件コードを生成し、明示的なマスクにより、単一のマスクが上書きされ、上書き後にリセットされるという問題を防止し、前記汎用ベクトルレジスタと前記マスクレジスタとの間のデータ移動を減少させるステップＳ６と、を含むことを特徴とする、ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法。
前記１２８ビットのマスク及びベクトル実行ユニットは、ＳＩＭＤ１６の並列方式で割り当てられ、１つの前記マスクレジスタはベクトルユニットの実行を８回確保することができる、ことを特徴とする、請求項１に記載のＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法。
前記ベクトルユニットのベクトルコマンドを送信する時、該コマンドのマスクレジスタが全てゼロであるか否かを判断し、全てゼロであれば該コマンドがいかなる有効な出力も発生させないことを示し、対応するコマンドの読み取り及び実行の操作をいずれも省略することができる、ことを特徴とする、請求項２に記載のＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法。
前記ＳＩＭＤ１６の幅をリダクションする必要があり、リダクション結果がゼロでない場合はオペランドを読み取り、コマンドを送信し、それによりＳＩＭＤ１６のマスク処理を完了させることができる、ことを特徴とする、請求項２に記載のＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法。