JP7245880B2

JP7245880B2 - 非同期動作による加速レイトレーシング及び光線変換のためのシステム及び方法

Info

Publication number: JP7245880B2
Application number: JP2021134276A
Authority: JP
Inventors: エヴァンサーニーマーク
Original assignee: Sony Interactive Entertainment LLC
Current assignee: Sony Interactive Entertainment LLC
Priority date: 2020-08-20
Filing date: 2021-08-19
Publication date: 2023-03-24
Anticipated expiration: 2041-08-19
Also published as: JP2023072019A; CN114170365A; US20220058855A1; US11494969B2; EP3958216A2; KR20230078646A; WO2022040481A1; US20240203031A1; JP2022036060A; EP3958216A3

Description

本出願は、概して、加速レイトレーシングのためのシステム及び方法に関する。

レイトレーシングを使用して、想像上の観察者の目（一般的に、カメラの位置）からグラフィックスの仮想オブジェクトまでの光の経路をトレースすることによって、コンピュータ生成３Ｄグラフィックスの光学的効果をシミュレートする。

レイトレーシングは、ラスター化等の他の手法よりもリアリズムの高い光学的効果が生じるが、算出コストは高くなる。これは、ビデオゲーム等のリアルタイムアプリケーションでは、レンダリング速度が重要であるため、レイトレーシングが課題になることが提起されることを意味する。

したがって、グラフィックス処理のための方法は、グラフィックス処理ユニット（ＧＰＵ）で、加速構造によって表される３Ｄ環境のレイトレーシングを行うシェーダープログラムを実行することを含む。本方法は、シェーダープログラムの要求に応じて加速構造をトラバースするＧＰＵ内のハードウェア実装レイトレーシングユニット（ＲＴＵ）を使用することと、シェーダープログラムで加速構造トラバースの結果を使用することとを含む。

例示的な実施形態では、ＲＴＵによる加速構造トラバースは、シェーダープログラムに対して非同期であり得る。いくつかの実施態様では、ＲＴＵによる加速構造トラバースの結果は、光線と加速構造内に含まれるバウンディングボリュームとの交差の検出を含む。いくつかの例では、ＲＴＵ処理は、加速構造トラバースで使用されるスタックのメンテナンスを含む。

加速構造は、複数のレベルを伴う階層であり得る。係る実施形態では、ＲＴＵによる加速構造トラバースの結果は、加速構造の複数のレベルの範囲内でより高レベルからより低レベルまでの移行の検出を含み得る。ＲＴＵによる加速構造トラバースの結果は、また、加速構造の複数のレベルの範囲内でより低レベルからより高レベルまでの移行の検出を含み得る。ＲＴＵによる加速構造トラバースは、加速構造の複数のレベル間の移行の処理を含み得る。

非限定的な実施態様では、ＲＴＵによる加速構造トラバースの結果は、光線と加速構造内に含まれるプリミティブとの交差の検出を含み得る。係る実施態様では、ＲＴＵによる加速構造トラバースの結果は、光線と加速構造内に含まれるプリミティブとの最初の交差の検出を含み得る。さらに、ＲＴＵによる加速構造トラバースの結果は、光線の原点からの交差の距離による、ＲＴＵによって検出された交差のＲＴＵによるソーティングを含み、ソーティングでは、ＲＴＵは、加速構造をトラバースするとき、光線とプリミティブとの第１の交差を検出し、ＲＴＵは、加速構造をトラバースするとき、光線とプリミティブとの間の第２の交差を検出し、ＲＴＵからの結果をシェーダープログラムに伝達するとき、第２の交差の結果は第１の交差の結果の前に伝達される。必要に応じて、光線と加速構造内に含まれるプリミティブとの交差をＲＴＵが検出し、この結果をシェーダープログラムに伝達すると、その後、シェーダープログラム及びＲＴＵは、光線とプリミティブとのシェーダープログラムのヒットテストの結果に関して伝達する。

光線と加速構造内に含まれるバウンディングボリュームとの交差がＲＴＵによって検出され、この結果がシェーダープログラムに伝達されると、その後、シェーダープログラム及びＲＴＵは、交差を無視するかどうかのシェーダープログラムの決定及び／または光線に沿った交差の位置のシェーダープログラムの決定に関して伝達できる。

別の態様では、グラフィックス処理ユニット（ＧＰＵ）は、ソフトウェア実装シェーダーを実行するように適応する少なくとも１つのプロセッサコアと、プロセッサコアから分離しており、加速構造をトラバースするように適応し、加速構造に表されるオブジェクトとの光線の交差を識別し、結果を生成し、交差に関連付けられるヒットのシェーダーによる識別のために、結果をシェーダーに戻す、少なくとも１つのハードウェア実装レイトレーシングユニット（ＲＴＵ）とを含む。

この第２の態様の例示的な実施態様では、ＲＴＵは交差を識別するためのハードウェア回路を含み得、シェーダーはソフトウェアを使用してヒットを識別するように適応できる。シェーダーは、プロセッサコアによって実行可能な命令によって、３Ｄコンピュータグラフィックスの画素をシェーディングするように構成され得る。

この第２の態様のいくつかの実施形態では、ＲＴＵは、加速構造をトラバースするためのトラバースロジックを実装するハードウェア回路を含み得る。ＲＴＵは、加速構造のトラバースで使用されるスタックのスタック管理を実施するためのハードウェア回路を含み得る。また、ＲＴＵは、原点からの距離によって交差をソートするためのハードウェア回路を含み得る。

いくつかの実施態様では、ＲＴＵは、ヒットを識別するシェーダーと非同期に交差を識別するように適応する。シェーダーは、ＲＴＵのステータスを読み取るためにプロセッサコアによって実行可能な命令を含み得る。

非限定的な実施形態では、ＲＴＵは、複数のレベルを伴うより高レベルの加速構造によって使用される座標空間から、より低レベルの加速構造によって使用される座標空間に光線を変換するためのハードウェア回路を含み得る。ＲＴＵは、また、複数のレベルを伴う加速構造のより低レベルによって使用される座標空間から、より高レベルの加速構造によって使用される座標空間に光線を変換するための及び／または光線属性をより高レベルの加速構造をトラバースするときに使用される光線属性に復元するためのハードウェア回路を含み得る。

いくつかの例では、ＲＴＵは、第１の光線と加速構造内に含まれる第１のバウンディングボリュームとの第１の交差を識別するためのハードウェア回路を含み得、シェーダーは、第１の交差を無視するかどうかを決定するために実行可能な命令を含み得、第１の交差を無視するかどうかの決定に応答して、第１の光線に沿った第１の交差の位置を識別する。

プロセッサコア及びＲＴＵは共通の半導体ダイでサポートできる。複数のプロセッサコア及び複数のＲＴＵは共通の半導体ダイにあり得る。

別の態様では、アセンブリは、グラフィックスの画素をシェーディングするために少なくとも１つのシェーダーを実行するように適応する少なくとも１つのプロセッサコアを含む。アセンブリは、また、少なくとも１つのプロセッサコアから分離しているレイトレーシングユニット（ＲＴＵ）を含む。ＲＴＵはハードウェア回路を含み、ハードウェア回路は、プロセッサコアによって交差に関連付けられるヒットを識別するために加速構造で表されるオブジェクトとの光線の交差を識別し、加速構造をトラバースするためのロジックを実装し、加速構造のトラバースで使用されるデータスタックの管理を実施する。

別の態様では、グラフィックス処理のための方法は、グラフィックス処理ユニット（ＧＰＵ）で、加速構造によって表される３Ｄ環境のレイトレーシングを行うシェーダープログラムを実行することを含む。また、本方法は、シェーダープログラムと非同期に、シェーダープログラムの要求に応じて加速構造をトラバースするＧＰＵ内のハードウェア実装レイトレーシングユニット（ＲＴＵ）を使用することと、シェーダープログラムで加速構造トラバースの結果を使用することとを含む。

別の態様では、グラフィックス処理のための方法は、グラフィックス処理ユニット（ＧＰＵ）で、加速構造によって表される３Ｄ環境のレイトレーシングを行うシェーダープログラムを実行することを含む。また、本方法は、シェーダープログラムの要求に応じて加速構造をトラバースするＧＰＵ内のハードウェア実装レイトレーシングユニット（ＲＴＵ）を使用することと、シェーダープログラムで加速構造トラバースの結果を使用することとを含む。加速構造は複数のレベルを伴う階層であり、ＲＴＵによる加速構造トラバースは、加速構造の複数のレベル間の座標移行の処理を含む。

別の態様では、グラフィックス処理ユニット（ＧＰＵ）は、ソフトウェア実装シェーダーを実行するように適応する少なくとも１つのプロセッサコアと、プロセッサコアから分離しており、シェーダー動作に対して非同期に、加速構造をトラバースするように適応し、加速構造に表されるオブジェクトとの光線の交差を識別し、結果を生成し、交差に関連付けられるヒットのシェーダーによる識別のために、結果をシェーダーに戻す、少なくとも１つのハードウェア実装レイトレーシングユニット（ＲＴＵ）とを含む。

別の態様では、グラフィックス処理ユニット（ＧＰＵ）は、ソフトウェア実装シェーダーを実行するように適応する少なくとも１つのプロセッサコアと、プロセッサコアから分離しており、加速構造をトラバースするように適応し、加速構造に表されるオブジェクトとの光線の交差を識別し、結果を生成し、交差に関連付けられるヒットのシェーダーによる識別のために、結果をシェーダーに戻す、少なくとも１つのハードウェア実装レイトレーシングユニット（ＲＴＵ）とを含む。ＲＴＵは、トラバース中の座標系の変化を考慮して少なくとも１つの光線を修正することを含む、加速構造をトラバースするトラバースロジックを実装するハードウェア回路を含む。

本出願の詳細は、その構造及び動作の両方について、添付の図面を参照すると最良に理解でき、図面では、類似の参照番号は類似の部分を指す。

加速構造を示す。マルチレベルの加速構造のさらなる詳細を示す。簡略化されたグラフィックス処理ユニット（ＧＰＵ）を示す。光線交差を識別するためのハードウェア回路、加速構造をトラバースするためのトラバースロジック、及びスタック管理回路を有するレイトレーシングユニット（ＲＴＵ）を伴うＧＰＵの例を、トラバース図と一緒に示す。例示的なフローチャート形式の図４と一致する例示的なロジックを示す。例示的なフローチャート形式の図４と一致する例示的なロジックを示す。例示的なフローチャート形式の図４と一致する例示的なロジックを示す。シェーダーとＲＴＵとの間で非同期処理を実行する２つのＧＰＵの例を示す。例示的なフローチャート形式の図５と一致する例示的なロジックを示す。ヒットテストが必要ではないときの協調処理を示すトラバース図を用いてＧＰＵを示す。マルチレベルの加速構造を含むさらなる例を示す。例示的なフローチャート形式の図７と一致する例示的なロジックを示す。シェーダーによって決定された交差を示すトラバース図を用いてＧＰＵを示す。

本開示は、概して、限定ではないが、コンピュータゲームネットワーク等の家電製品（ＣＥ）デバイスネットワークの態様を含むコンピュータエコシステムに関する。本明細書のシステムはネットワークを通じて接続され得るサーバコンポーネント及びクライアントコンポーネントを含み得、それにより、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得る。クライアントコンポーネントは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲーム機またはＭｉｃｒｏｓｏｆｔ（登録商標）もしくはＮｉｎｔｅｎｄｏ（登録商標）もしくは他の製造者によって作成されたゲーム機、仮想現実（ＶＲ）ヘッドセット、拡張現実（ＡＲ）ヘッドセット、ポータブルテレビ（例えば、スマートテレビ、インターネット対応テレビ）、ラップトップ及びタブレットコンピュータ等のポータブルコンピュータ、ならびにスマートフォン及び下記に説明される追加の例を含む他のモバイルデバイスを含む、１つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピュータの一部は、例として、Ｌｉｎｕｘ（登録商標）オペレーティングシステム、Ｍｉｃｒｏｓｏｆｔ（登録商標）のオペレーティングシステム、もしくはＵｎｉｘ（登録商標）オペレーティングシステム、またはＡｐｐｌｅ（登録商標）社もしくはＧｏｏｇｌｅ（登録商標）によって製造されたオペレーティングシステムを使用し得る。これらの動作環境を使用して、Ｍｉｃｒｏｓｏｆｔ（登録商標）もしくはＧｏｏｇｌｅ（登録商標）もしくはＭｏｚｉｌｌａ（登録商標）によって作成されたブラウザ、または下記に説明されるインターネットサーバによってホストされるウェブサイトにアクセスできる他のブラウザプログラム等の１つ以上の閲覧プログラムを実行し得る。また、本原理に従った動作環境を使用して、１つ以上のコンピュータゲームプログラムを実行し得る。

サーバ及び／またはゲートウェイは、インターネット等のネットワークを通じてデータを受信及び伝送するサーバを構成する命令を実行する１つ以上のプロセッサを含み得る。または、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを通じて接続できる。サーバまたはコントローラは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲーム機、パーソナルコンピュータ等によってインスタンス化され得る。

クライアントとサーバとの間でネットワークを通じて情報を交換し得る。この目的のために及びセキュリティのために、サーバ及び／またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。１つ以上のサーバは、ネットワークメンバーにオンラインソーシャルウェブサイト等のセキュアコミュニティを提供する方法を実施する装置を形成し得る。

プロセッサまたはプロセッサコアは、アドレスライン、データライン、及び制御ライン等の様々なライン、ならびにレジスタ及びシフトレジスタによってロジックを実行できるシングルチッププロセッサまたはマルチチッププロセッサであり得る。本発明の原理を制限することなく、フローチャートを含む様々な形式で、本明細書にロジックを表し得る。例えば、必要に応じて、状態ロジックを使用し得る。

他の実施形態では、一実施形態に含まれるコンポーネントは、いずれかの適切な組み合わせで使用できる。例えば、本明細書で説明される及び／または図で示される様々なコンポーネントのいずれかは、組み合わされ得る、交換され得る、または他の実施形態から排除され得る。

「Ａ、Ｂ、及びＣの少なくとも１つを有するシステム」（同様に「Ａ、Ｂ、またはＣの少なくとも１つを有するシステム」及び「Ａ、Ｂ、Ｃのうちの少なくとも１つを有するシステム」）は、Ａ単独、Ｂ単独、Ｃ単独、Ａ及びＢを一緒に、Ａ及びＣを一緒に、Ｂ及びＣを一緒に、ならびに／またはＡ、Ｂ、及びＣを一緒に有するシステム等を含む。

ここで、具体的には図１を参照すると、加速構造１０が示され、加速構造１０は、映画、コンピュータゲーム等のコンピュータシミュレーション等に使用され得るようなコンピュータ生成オブジェクトの３次元（３Ｄ）環境を表すデータ構造である。図１の例に示される加速構造１０のアーキテクチャは、バウンディングボリューム階層（ＢＶＨ）であり、加速構造１０は、ルートノード１２、内部ノード１４、及びリーフ１６を伴うツリー構造である。ルートノード１２及び内部ノード１４はいくつかのバウンディングボリュームを含み、ルートノード１２及び内部ノード１４のそれぞれはノードの子に対応する。リーフ１６は、１つ以上のプリミティブまたは他のタイプのジオメトリを含む。

図２は、簡単にするために２つのレベルを伴う例示的なマルチレベルの加速構造２００を示す。上位レベル（「最上位レベルの加速構造」）２０２は、そのリーフ２０４にプリミティブを含まない。代わりに、そのリーフ２０４は、より低レベル（「最下位レベルの加速構造」）２０６への基準である。最下位レベルの加速構造２０６は、最下位レベル２０６のリーフ２０８がプリミティブを含むという点で、最上位レベル２０２とは異なる。

トップレベルの加速構造２０２は、ワールド空間座標にバウンディングボリューム（いくつかのアプリケーションでは、バウンディングボリューム及びプリミティブ）を有し得る。最下位レベルの加速構造２０６は、それぞれ、独自の座標空間を有する。これにより、例えば、最下位レベルの加速構造「Ｙ」で表される３Ｄオブジェクトを、それぞれ異なる位置及び方位に２回だけ表示することが可能である。

図１及び図２は、本発明の原理と一致して使用され得る加速構造の非限定的な例を示す。

図３はグラフィックプロセッサユニット（ＧＰＵ）３００の簡略図であり、ＧＰＵ３００は、１つ以上のプロセッサコア３０４（例では、複数のプロセッサコア３０４）と、１つ以上の交差エンジン３０６（示される例では、複数の交差エンジン３０６）とをサポートする半導体ダイ３０２を含む。交差エンジンはレイトレーシングを補助する。ＧＰＵ３００は、また、キャッシュ３０８、メモリインターフェース３１０、ラスタライザ３１２、及びレンダリングバックエンド３１４等のいくつかの他の機能ユニットを含み得る。

プロセッサコア３０４は、ソフトウェア実装シェーダープログラム（本明細書では、「シェーダー」とも呼ばれる）を実行して、光線を初期化し、次に加速構造をトラバースすることによって、例えば、図２の加速構造２００によって表される３Ｄ環境を通して光線を発射して、加速構造に含まれるバウンディングボリューム及びプリミティブと光線を連続的に衝突させる。簡略化された実施形態では、専用ハードウェアによって実装され得る交差エンジン３０６は、バウンディングボリューム及びプリミティブとの光線の交差を算出し得る。したがって、光線とバウンディングボリュームとの交差及び光線とプリミティブとの交差を識別することは、交差エンジン３０６にオフロードできる。図３の簡略化された概念では、プロセッサコア３０４は、光線の記述と一緒に、ノードまたはリーフアドレスを交差エンジン３０６に転送し、交差エンジンが光線とバウンディングボリュームまたはプリミティブとの交差を算出した後、交差エンジンは結果をプロセッサコアに戻す。

しかしながら、図３を参照して本明細書で理解されるように、処理のほとんどは、スタック管理を行い、光線状態を追跡し、中間結果等を追跡する必要があるシェーダープログラムによって処理される。本明細書でさらに理解されるように、実際には、シェーダープログラムによって直接処理される大量のロジック及び算出のために、パフォーマンスは望まれるよりも低下し得る。これに関連して、図４（以下参照）が提供される。

図４はレンダリングデバイス４０４に実装され得る共通の半導体ダイ４０２のＧＰＵ４００を示し、レンダリングデバイス４０４は、限定ではないが、コンピュータシミュレーションまたはゲーム機、エンドユーザにゲームをストリーミングするコンピュータサーバ、映画のコンピュータ拡張グラフィックス等に関連付けられるデバイスであり得る。ＧＰＵ４００は１つ以上のプロセッサコア４０６（示される例では、複数のプロセッサコア４０６）を含み、プロセッサコア４０６は、１つ以上のシェーダープログラムを実行し、１つ以上のレイトレーシングユニット（ＲＴＵ）４０８（示される例では、複数のＲＴＵ４０８）と通信するためのプロセッサコアである。ＲＴＵは、本明細書に開示されるタスクを実行するためのハードウェア回路を伴うハードウェアによって実装される。ＲＴＵ４０８は、独自のハードウェア実装トラバースロジックを使用して加速構造をトラバースできる。ＲＴＵ４０８は、バウンディングボリュームまたはプリミティブ（三角形等）との光線の交差を計算できる１つ以上の交差エンジン回路４１０と、加速構造をトラバースするためのトラバースロジック回路４１２と、加速構造のトラバースで使用されるスタックをメンテナンスするためのスタック管理回路４１４とを含み得る。ＲＴＵ４０８は、同様に、他のサブユニットも含み得る。

図４Ａはより高レベルのロジックを示し、図４ＢはＲＴＵ４１０のハードウェア回路によって実装され得るより詳細なロジックを示す。ブロック４１４から始まり、プロセッサコアで実行されているシェーダーは、加速構造のルートノード及び光線情報をＲＴＵ４１０に渡す。この情報を使用して、ブロック４１６において、ＲＴＵは、そのトラバースロジック回路４１２及びスタック管理回路４１４を使用して加速構造をトラバースし、バウンディングボリューム及びプリミティブとの光線の交差を識別する。ブロック４１８において、１つ以上の交差はシェーダーに伝達される。ブロック４２０において、シェーダーはいずれかの交差のヒットを識別し、ブロック４２２において、その識別によって得られた全体的情報を使用して、レンダリングするために画素をシェーディングする。

いくつかの実施形態では、ＲＴＵは、図４Ｂに示される加速構造のスタック管理及びトラバースを実行するための回路を含み得る。段階４２４において、現在のノードがルートノードまたは内部ノードであると決定された場合、ＲＴＵはブロック４２６に進み、現在のノードに含まれる各バウンディングボリュームとの光線の交差をチェックする。段階４２８において、複数の交差があると決定された場合、ブロック４３０において、複数の交差はソートされ、最初の交差（すなわち、光線の原点に最も近い交差）が第１の交差になり、残りは光線の原点からの距離の順になる。本質的に、交差は（光線の原点から）最短距離から最長距離にソートされる。ブロック４３２において、複数の交差がある場合、第２の交差以降の交差に対応する子ノードがスタックにプッシュされる。ブロック４３２から、または段階４２８から、テストがそこで否定された場合、回路はブロック４３４に進み、第１の交差に対応する子ノードで処理を継続する、または交差がない場合、スタックの上からポップされたノードで処理を継続する。スタックが空であるためにポップするノードがない場合、加速構造トラバースは完了する。段階４２４において、現在のノードがリーフであると決定された場合、ブロック４３６において、ＲＴＵは、リーフに含まれるプリミティブまたは複数のプリミティブとの光線の交差をチェックする。

他の実施形態では、トラバースはスタックレスであり得る。

図４の下半分に説明を戻すと、上記の手順を使用する例示的なトラバースが示されている。太い矢印は加速構造のトラバースを示す。太い実線のボックスは、ＲＴＵが光線とノードのバウンディングボリュームとの交差が発見されたノードを示し、太い破線のボックスは、ＲＴＵが光線とリーフに含まれるプリミティブとの交差が発見されたノードを示す。太い破線の輪郭でマークされていないトラバースのリーフは、ＲＴＵが発見されなかったリーフであり、光線とリーフに含まれるプリミティブとの交差である。例示的なトラバースの具体的なステップは次のとおりである。

４３８に示されるように、トラバースはルートノードＡを処理することによって始まり、それに含まれるバウンディングボリュームとの光線の交差を識別する。４４０及び４４２に示されるように、Ａの子Ｅ及びＪに各々対応するバウンディングボリュームは、ルートノードＡの処理によって交差として識別されるため、Ｅ及びＪはスタックにプッシュされる。さらに、Ａの子Ｂに対応するバウンディングボリュームは、ルートノードＡの処理からの交差としても識別され、次に、４４４Ｂにおいて、そのバウンディングボリュームは処理され、光線とそのバウンディングボリュームとの交差が識別される。次に、これにより、４４６においてスタックにプッシュされるプリミティブＤが識別され、４４８において処理されるプリミティブＣが識別される。示される例では、この処理によって、光線とプリミティブＣとの交差がないと決定される。プリミティブＤはスタックからポップされ、４５０において、光線との交差を識別するために処理される。この例の場合、光線とプリミティブＤの交差が識別され、プリミティブがシェーダープログラムに渡され、光線とプリミティブとの「ヒット」があったかどうかが識別される（以下に説明され、図４Ｃにも説明される）。

次に、４５２に示されるように、バウンディングボリュームＥがスタックからポップされ、交差を識別するために処理される。４５４に示されるように、バウンディングボリュームＥの処理から識別されるプリミティブＨ及びＩがスタックにプッシュされ、４５６において、バウンディングボリュームＦが処理され交差が識別される。次に、４５８において、プリミティブＧが処理され交差が識別され、プリミティブＧがヒットテストのためにシェーダープログラムに渡される。４６０において、次のプリミティブＨがスタックからポップされて処理されるが、交差が発見されない。次に、４６２において、プリミティブＩがスタックからポップされて処理され（交差が識別され、プリミティブＩがヒットテストのためにシェーダープログラムに渡され）、その次に、４６４において、バウンディングボリュームＪがスタックからポップされて処理される。これにより、４６６において処理されるプリミティブＫに識別につながり、交差は識別されない。

プロセッサコア及びＲＴＵで実行しているシェーダープログラムは協調してレイトレーシングを行う。上記の例では、プリミティブが部分的にトランスペアレントであるときの処理が示され、例えば、プリミティブは木の枝葉を表す三角形である。シェーダープログラムの目的は、加速構造（「ヒット」）によって表される３Ｄ環境の非トランスペアレント部との最初の交差（つまり、光線の原点に最も近い交差）を識別することである。

上記を実現するためのシェーダープログラムとＲＴＵとの間の通信を図４Ｃの例に示す。最初に、シェーダープログラムはルートノードＡ及び光線情報をＲＴＵに渡す。ＲＴＵは、図４のプリミティブＤの例では、光線とプリミティブとの交差に到達するまで、加速構造をトラバースする（この例では、光線とプリミティブＣとの交差はなかった）。

図４Ｃのブロック４７０から開始して、ＲＴＵはプリミティブＤをシェーダープログラムに渡す。段階４７２において、シェーダーは光線がプリミティブＤのオパーク部にヒットするかどうかを識別し、これは、光線がプリミティブのトランスペアレント部を通過するか、または光線がプリミティブのソリッド部にヒットするかを決定するためにプリミティブＤをテストすることを意味する。この例では、光線はプリミティブのソリッド部にヒットする。シェーダープログラムは、プリミティブＤをこれまでに発生した最初の交差として記録し、ブロック４７４において、交差の結果（「ヒット」）をＲＴＵに渡す。

ブロック４７６に進むと、プリミティブＤとの光線の交差の位置を超えてポイントテストが行われないため、ＲＴＵは光線を短くする。ブロック４７８において、ＲＴＵが加速構造のトラバースを継続し、プリミティブＧに到達することが示され、光線がプリミティブＧと交差したことが決定される。ＲＴＵは、ヒットテストのためにＧをシェーダープログラムに渡す。

シェーダープログラムは、図４及び図４Ｃと一致するようにヒットテストを行い、光線がプリミティブＧのトランスペアレント部を通過したため、ヒットがなかったことを決定する。いくつかの実施形態では、シェーダープログラムは、Ｇがヒットではなかったという情報をＲＴＵに渡す。他の実施形態では、ヒットがなかったので、シェーダープログラムは、プリミティブＧがヒットではなかったという情報を、ＲＴＵに渡さない。

図４に関して説明したように、ＲＴＵはトラバースを継続し、プリミティブＨに到達する。プリミティブＤの「ヒット」によって光線が短くならなかった場合、交差が検出されるが、光線が短くなっているため、光線とプリミティブＨとの交差はない。ＲＴＵはトラバースを継続し、プリミティブＩに到達し、ＲＴＵは光線とプリミティブとの交差を検出する。ＲＴＵはプリミティブＩをシェーダープログラムに渡し、シェーダープログラムはヒットテストを行う。この例では、シェーダープログラムは、ヒットがあることと、プリミティブＩのヒットがプリミティブＤのヒットよりも早い（つまり、光線の原点に近い）こととを決定する。したがって、シェーダープログラムは、発生した最初の交差をプリミティブＩに更新する。また、シェーダープログラムは、プリミティブＩにヒットがあったことをＲＴＵに通知する。繰り返しになるが、ＲＴＵはプリミティブＩのヒットに基づいて光線を短くし、加速構造のトラバースを継続し、プリミティブＫに到達する。光線とプリミティブＫとの交差がないため、ＲＴＵは次のノードをポップしスタックから処理しようとするが、スタックは空である。従って、ＲＴＵは処理を終了し（ＲＴＵは加速構造トラバースの終わりに到達して）、シェーダープログラムに処理が済んだことを通知する。ここで、シェーダープログラムは最初のヒットがプリミティブＩにあることを認識し、シェーダープログラムはそれに応じてその処理を継続する。

プロセッサコアとＲＴＵとの間のこの通信の各ステップは図４の上半分に見ることができる。プロセッサコアはルートノードＡをＲＴＵに渡す。ＲＴＵはヒットテストのためにプリミティブＤをシェーダープログラムに渡し、シェーダープログラムはヒットをレポートする。ＲＴＵはヒットテストのためにプリミティブＧをシェーダープログラムに渡し、シェーダープログラムはミスをレポートする。ＲＴＵは、ヒットテストのためにプリミティブＩをシェーダープログラムに渡し、シェーダープログラムはヒットをレポートする。ＲＴＵは、加速構造トラバースが完了したことをシェーダープログラムに通知する。

上記の処理手順では、シェーダープログラムがヒットテストだけを行うため、レイトレーシング速度の大幅な向上をもたらし得る。加速構造のトラバースを行わない、または対応するスタックを管理しない。

上記では、「ノードＡを通過する」、「プリミティブＧを通過する」等の表現は、限定ではないが、ポインタをノードもしくはプリミティブに渡すこと、またはノードもしくはプリミティブのＩＤを渡すことを含む通信のためのいずれかの手順を説明するものである。上記では、「ＲＴＵがシェーダープログラムに通知する」または「シェーダープログラムがＲＴＵに通知する」等の表現は、同様に、限定ではないが、レジスタの設定及びドアベルの呼び出し、または割り込み駆動型通信等の「プッシュ」方式、ならびに他のユニットのステータスの読み取りまたはポーリング等の「プル」方式を含むいずれかの通信方式を指す。

次に、図５及び図５Ａを参照されたい。図５及び図５Ａでは、シェーダーに関するＲＴＵの非同期動作と、プロセッサコアで実行しているシェーダープログラムがシェーダープログラムとＲＴＵとの間の通信の全ての態様を開始する手順とが示される。図５の上半分を参照すると、ＧＰＵ５００は、１つ以上のプロセッサコア５０２と、シェーダープログラムから非同期的に動作する１つ以上のＲＴＵ５０４とを含む。ＧＰＵ５００は、下記に言及する例外を除いて、図４に示されるＧＰＵ４００と実質的に同一の構成及び動作であり得る。

図５Ａでは、ブロック５０６において、シェーダープログラムがルートノードＡ及び光線情報をＲＴＵに送信して、処理が開始することが示される。ブロック５０８において、ＲＴＵは、シェーダー動作とは非同期に加速構造をトラバースし始め、ブロック５１０において、シェーダーはＲＴＵのステータスを定期的に読み取り、ブロック５１２において、ＲＴＵがトラバースを継続するとき、ＲＴＵはステータスをレポートする。ブロック５１４において、シェーダーはヒットＩＤをＲＴＵに渡し、ＲＴＵがその光線を短くすることを可能にする。

上記の動作は図５に反映されており、左向きの矢印はシェーダープログラムによる情報の要求であり、右向きの矢印はシェーダープログラムからＲＴＵへの情報の転送である。より具体的には、５１６に示されるように、シェーダープログラムはルートノードＡをＲＴＵに送信し、ステータスをＲＴＵから読み取り、５１８において、ステータス「ＷＩＰ」を受信し、これは、ＲＴＵがいずれかの交差をまだ発見していないことを意味する。シェーダープログラムは再度ステータスを読み取り、５２０において、ステータス「Ｄ」を受信し、これは、ＲＴＵがプリミティブＤとの交差を発見したことを意味する。

シェーダープログラムはヒットテストを行い、プリミティブＤが光線にヒットしたことを発見し、５２２において、ＲＴＵが光線を短くできるように、このヒットをＲＴＵに通知する。読み取り／レポートプロセスは、読み取りを発生させるシェーダーと非同期に、ＲＴＵが加速構造をトラバースするときに継続する。

図５の下半分は、ＲＴＵが距離によって交差をソートする別の実施形態の例である。これにより、レイトレーシング速度の向上をもたらし得る。この例では、前述同様に、光線とプリミティブとの３つの交差がある。光線の原点に最も近い交差は「Ｉ」である。それは、５２４に示されるようなヒットである。光線の原点に次に近い交差は「Ｇ」である。それはミスである。光線の原点から最も遠い交差は「Ｄ」である。それは前述に示したようなヒットである。

しかし、ここで、図５の下半分を参照すると、最初の手順は図５の上部の図と同一である。シェーダープログラムはルートノードＡ及び光線情報をＲＴＵに送信して処理を開始し、次に、シェーダープログラムはステータスをＲＴＵから読み取り、５２６において、ステータス「ＷＩＰ」を受信し、これは、ＲＴＵがいずれかの交差をまだ発見していないことを意味する。シェーダープログラムは再度ステータスを読み取り、５２８において、ステータス「Ｄ」を受信し、これは、ＲＴＵがプリミティブＤとの交差を発見したことを意味する。シェーダープログラムはヒットテストを行い、プリミティブＤが光線にヒットしたことを発見し、５３０において、ＲＴＵが光線を短くできるように、このヒットをＲＴＵに通知する。

シェーダープログラムがヒットテストを行っていた間、ＲＴＵトラバースは、プリミティブＧ及びプリミティブＩとの交差があり、プリミティブＩがプリミティブＧよりも光線の原点に近いことを決定した（すなわち、ＲＴＵは交差を光線の原点からの距離によってソートされた）。次に、シェーダープログラムがステータスを読み取ると、プリミティブＩが光線の原点に最も近い既知の交差であるため、５３２において、プリミティブＩ（Ｇではない）に対してヒットテストを行うべきであることが通知される。５３４に示されるように、シェーダープログラムはヒットテストを行い、プリミティブＩが光線にヒットしたことを発見し、このヒットをＲＴＵに通知する。シェーダープログラムがヒットテストを行っていた間、ＲＴＵはこれ以上の交差を発見することなく加速構造のトラバースを終了した。プリミティブＧの交差がプリミティブＩよりも光線の原点から遠いため、プリミティブＧは破棄される。次に、シェーダープログラムがステータスを読み取ると、５３６において、加速構造のトラバースが完了し、ヒットテストを必要とするプリミティブがないことが通知される。このような交差のソーティングは、また、半透明の環境のレイトレーシングを行うときに有用であり得る。その場合、光線の原点から最も遠い交差についてシェーダープログラムに最初に通知されるように、交差をソートすると有益をもたらす。

図６は、ＲＴＵによって実行される加速トラバース図６００と、１つ以上のプロセッサコア６０６と１つ以上のＲＴＵ６０８（図４もしくは図５または本書の他の箇所で説明されるＧＰＵのいずれか等のＧＰＵのＲＴＵ）との間の通信図６０２、６０４とを示すことによって、ヒットテストが必要ではないときの協調処理の例を示す。本明細書で理解されるように、加速構造のプリミティブがオパークであるとき等、ヒットテストが必要ではない場合、シェーダープログラムによって行われる処理はさらに減少し、結果として、パフォーマンスの向上をもたらす。プリミティブは、フラグまたは他の手段によって、ＲＴＵに対してオパークであると示され得る。

図６では、プリミティブはオパークであり、ＲＴＵは、シェーダープログラムがヒットテストを行う必要なく、光線とプリミティブとの最初の交差を追跡できる。加速トラバース図６００は、本質的に、図４に示されるのと同じ例であるが、図６では、光線が交差するリーフは、太い破線の境界線ではなく、太字の実線の境界線で示される。したがって、図４のように、プリミティブとの交差は、最初の交差（光線の原点に最も近い交差）から最も遠い交差まで、Ｉ－Ｇ－Ｄの順に３つの交差がある。

図６の中央の通信図６０２は、最初のヒットを見つけるときの、シェーダープログラムとＲＴＵとの協調レイトレーシングを示す。ＲＴＵは最初の交差を追跡できるため、加速構造のトラバースが完了するまで、ＲＴＵは進行中の作業（「ＷＩＰ」）のステータスをレポートし、その時点において、６１２に示されるように「完了済」のステータスをレポートし、ＲＴＵは光線が交差する最初のプリミティブとしてＩを提供する。

図６の下部の通信図６０４は、シェーダープログラムが交差があるかを知りたいが、交差の詳細を知る必要がないときの、シェーダープログラムとＲＴＵとの協調レイトレーシングを示す。これは、一般的なシャドウ及びアンビエントオクルージョンのレイトレーシングである。シェーダー処理は、光線が交差するプリミティブを見つけるとすぐに終了し、この場合、それは、６１４に示されるようにＤである。

下記に言及することを除いて、図７は加速構造７００を示し、加速構造７００は、図２に示される構造と同様の最上位レベル加速構造（ＴＬＡＳ）７０２及び最下位レベル加速構造（ＢＬＡＳ）７０４のセットを伴う。また、図７は、１つ以上のプロセッサコア７０６とＧＰＵの１つ以上のＲＴＵ７０８との間の通信図を示し、加速構造がマルチレベル階層であるときのシェーダープログラムとＲＴＵとの協調処理の例が示される。

ＴＬＡＳ７０２は、それぞれが各々のＢＬＡＳ（ＢＬＡＳ７０４のセットの１つであるＢＬＡＳＸ等）へのリンクを与えるリーフ（Ｘ７１０等）を有する。前述に説明したように、ＴＬＡＳ７０２はワールド空間座標を使用する。ＢＬＡＳ７０４のセットにおけるＢＬＡＳのそれぞれは、プリミティブを含むＤ７１２等のリーフがあり、前述にも説明したように、ＢＬＡＳ７０４のセットにおけるＢＬＡＳのそれぞれは独自の座標空間を有する。この例では、シェーダープログラムの目標は最初の交差を決定することであり、加速構造の全てのプリミティブはオパークである。

ＲＴＵ７０８によって実施される加速構造７００の望ましいトラバースは以下の通りである。ＴＬＡＳ７２０のルートノードＡの処理により、子Ｂ及び子Ｅを表すバウンディングボリュームとの光線の交差が識別される。この場合、ＴＬＡＳ７０２のＥは、ＲＴＵによってメンテナンスされるスタックにプッシュされ、ＴＬＡＳ７０２のＢ内に含まれるバウンディングボリュームは、光線の交差を識別するために処理される。リーフＸに対応するＢ内のバウンディングボリュームに対して、光線との交差を発見する。次に、これは、ＢＬＡＳ７０４のセットのＢＬＡＳＸを表すリーフＸの処理につながる。Ｘの座標空間はワールド空間の座標とは異なるため（プリミティブには独自の座標空間がある）、光線の光線属性（原点等）を変換する必要がある。

ＢＬＡＳＸのルートノードは光線の交差を識別するために処理され、Ｃの処理につながる。Ｃを処理するとき、交差はリーフノードＤ７１２のバウンディングボリュームに対して識別される。示される例では、リーフノードＤ７１２の処理により、プリミティブＤとの交差が識別され、図７のプリミティブはオパークであると想定されるため、交差は自動的にヒットとしてカウントされることを思い出されたい。Ｄはヒットとしてカウントされるため、ＲＴＵは、光線を光線の原点からＤまでの長さに短くする。

次に、ＴＬＡＳ７０２のＥがスタックからポップされる。ＢＬＡＳのＸ部の座標空間を使用しないため、ワールド空間の光線属性を復元する必要がある。このプロセスでは、光線の長さを維持する必要がある。Ｅは光線の交差を識別するために処理され、交差はリーフＺに対応するバウンディングボリュームに対して識別される。次に、これは、ＢＬＡＳ７０４のセットのＢＬＡＳＺを表すリーフＺの処理につながる。繰り返しになるが、Ｚの座標空間はワールド空間の座標とは異なるため、光線の光線属性（原点等）をＺの座標空間に変換する必要がある。

ＢＬＡＳＺのルートノードは光線の交差を識別するために処理され、Ｆの処理につながり、次にリーフＧの処理につながり、これは、示される例では交差（したがって、示される「オパーク」の例では、ヒット）として識別される。光線は、原点とＧのプリミティブとの間の長さに短くなる。

一実施形態では、ＲＴＵは、ＢＬＡＳ７０４のセット内のＴＬＡＳ７０２からＢＬＡＳへの移行と、ＢＬＡＳ７０４のセット内のＢＬＡＳからＴＬＡＳ７０２への移行とを検出し、シェーダープログラムは、光線変換の更新を行い、結果をＲＴＵに渡す。この例では、通信ステップは図７に示すとおりであり、７１４から始まり、シェーダープログラムがルートノードＡ及び光線情報をＲＴＵに送信して、処理を開始する。

７１６に示されるように、シェーダープログラムはステータスをＲＴＵから読み取り、進行中の作業（「ＷＩＰ」）のステータスを受信し、これは、ＲＴＵがまだいずれかの交差を発見していないことを意味する。シェーダープログラムは再度ステータスを読み取り、７１８においてステータス「ＢＬＡＳＸに入る」を受信し、ＲＴＵが加速構造７００のトラバースにおいてＢＬＡＳＸへの移行を検出したことを示す。シェーダープログラムは、光線属性（原点等）をＢＬＡＳＸ座標空間に変換し、光線属性及びＢＬＡＳルートノードＸをＲＴＵに送信する（７２０）。

ＲＴＵはＢＬＡＳＸをトラバースし、光線とプリミティブＤとの交差を発見し、それに応じて、光線を短くする。この例では、プリミティブがオパークであると想定されるため、シェーダーユニットでヒットテストを実行する必要がないことを思い出されたい。シェーダープログラムはステータスを読み取り、７２２において、ステータス「ＢＬＡＳから出る」を受信し、ＢＬＡＳのＲＴＵ処理が完了したことを示す。７２４に示されるように、シェーダープログラムはワールド空間光線属性をＲＴＵに送信する。

シェーダープログラムは再度ステータスを読み取り、７２６に示されるように、ステータス「ＢＬＡＳＺに入る」を受信する。シェーダープログラムは、光線属性（原点等）をＢＬＡＳＺ座標空間に変換し、７２８において、光線属性及びＢＬＡＳルートノードＺをＲＴＵに送信する。ＲＴＵはＢＬＡＳＺをトラバースし、光線とプリミティブＧとの交差を発見し、それに応じて、光線を短くする。次に、シェーダープログラムがステータスを読み取ると、７３０において、加速構造のトラバースが完了したことと、最初の交差がプリミティブＧとの交差であったこととが通知される。

別の実施形態では、ＲＴＵは、ＴＬＡＳからＢＬＡＳまで及びＢＬＡＳからＴＬＡＳまで、検出された移行を処理でき、必要に応じて光線属性を更新する。この場合、図７の例では、全ての処理がＲＴＵによって行われるため、シェーダープログラムがルートノードＡをＲＴＵに送信した後、加速構造のＲＴＵトラバースが完了するまで、シェーダープログラムはステータス「ＷＩＰ」を読み取り、その時点において、シェーダープログラムはステータス「完了済」を読み取り、最初の交差がプリミティブ「Ｇ」との交差であった。

図７Ａは、ＲＴＵによって、またはシェーダーとＲＴＵとの協調によって全体的に実行し得るロジックの観点から、上記で説明した座標移行ロジックを示す。この例は、２つのレベルを伴う加速構造を示す。ブロック７３２から開始して、光線とバウンディングボリュームとの交差の決定は、最初にワールド空間で実行される。ＲＴＵが加速構造をトラバースするとき、段階７３４において、ＲＴＵが別の座標空間にあるＢＬＡＳにトラバースしたと決定された場合、ロジックはブロック７３６に進み、光線をＢＬＡＳに固有の座標空間に変換し、ブロック７３８において、交差識別のために光線を処理する。同様に、ＲＴＵが加速構造のトラバースを継続するとき、段階７４０において、ＲＴＵがＴＬＡＳ（ワールド空間で記述される）にトラバースしたと決定された場合、ロジックはブロック７４２に進み、光線をワールド空間に変換し（または、光線の属性をワールド空間にあるように復元し）、ブロック７４４において、交差を識別するために光線を処理する。上記の変形例では、ＴＬＡＳはワールド座標空間ではなく、独自の特定の座標空間にあり得る。他の変形例では、加速構造には複数のレベルがある。図７Ａと同様に、処理は進行し、トラバースが加速構造のより低レベルに到達すると光線を新しい座標空間に変換し、トラバースが加速構造のより高レベルに到達すると光線を復元または変換する。

次に、図８を参照されたい。図８は、ＧＰＵの１つ以上のＲＴＵ８０２と通信する１つ以上のプロセッサコア８００で実行しているシェーダーによって決定された交差の例を示す。前述の例では、ＲＴＵは、テスト用の光線がプリミティブと交差するかどうかを決定し、例えば、プリミティブは三角形であり、ＲＴＵの交差エンジンは光線と三角形との交差を決定できる。対照的に、図８では、加速構造８０６のリーフＮ（８０４）に関連付けられるジオメトリは、ＲＴＵの交差エンジンが交差を算出できないようなジオメトリを有し、例えば、そのジオメトリは球である。

したがって、いくつかの実施形態では、以下のように、シェーダープログラム及びＲＴＵは協調してレイトレーシングを行う。ＲＴＵは、本明細書の他の箇所で説明されるように、加速構造８０６をトラバースする。ＲＴＵは、ノードＭ（８０８）のバウンディングボリュームに対して光線をテストし、光線がリーフＮ（８０４）に対応するバウンディングボリュームと交差したことを決定する。シェーダープログラムがステータスを読み取ると、８１０において、シェーダープログラムはＮのバウンディングボリュームが交差しているとのステータスを受信する。シェーダープログラムは、光線とリーフＮに含まれる球とのヒットテストを行い、ヒットがあったことを決定する。これは、８１２において、ヒットがあったことをＲＴＵに通知し、それに応じて、ＲＴＵによって光線を短くできるように、ヒットの位置もＲＴＵに通知する。リーフＮのプリミティブが球であるという事実は、それが球であるというプリミティブに関連付けられるフラグまたは他のインジケータ（または処理するためにＲＴＵの能力を超える他のジオメトリ）に基づいて、ＲＴＵ及び／またはシェーダーによって識別され得る。

いくつかの例示的な実施形態を参照して本原理を説明してきたが、これらは限定することを意図していないことと、様々な代替の配置を使用して、本明細書で請求される主題を実施し得ることとが認識される。

Claims

グラフィックス処理のための方法であって、
グラフィックス処理ユニット（ＧＰＵ）で、加速構造によって表される３Ｄ環境のレイトレーシングを行うシェーダープログラムを実行することと、
前記シェーダープログラムと非同期に、前記シェーダープログラムの要求に応じて前記加速構造をトラバースする前記ＧＰＵ内のハードウェア実装レイトレーシングユニット（ＲＴＵ）を使用することと、
前記シェーダープログラムにおいて、前記加速構造のトラバースの結果を使用することと、
を含み、
前記シェーダープログラムは、ルートノード及び光線情報を前記ＲＴＵに送信し、前記ＲＴＵが前記シェーダープログラムの動作とは非同期に前記加速構造をトラバースし始めるように構成される処理を開始するように構成され、前記シェーダープログラムは前記ＲＴＵの少なくとも１つのステータスを定期的に読み取り、前記ＲＴＵはトラバースを継続するとき、少なくとも１つのステータスをレポートし、前記シェーダープログラムはヒット識別を前記ＲＴＵに渡し、前記ＲＴＵが光線を短くすることを可能にし、前記ＲＴＵから前記シェーダープログラムへの前記少なくとも１つのステータスは前記ＲＴＵがいずれかの交差を発見していないことを示し、前記ＲＴＵからの少なくとも第２のステータスは前記ＲＴＵが第１のプリミティブとの交差を発見したことを示し、前記シェーダープログラムはヒットテストを行い、前記第１のプリミティブが光線にヒットしたことを発見したことに応答して、前記ＲＴＵが光線を短くできるように前記ヒットを前記ＲＴＵに通知する、前記方法。
前記結果を使用することは、コンピュータ生成グラフィックスの画素をシェーディングすることを含む、請求項１に記載の方法。
前記ＲＴＵによる前記加速構造のトラバースの前記結果は、第１の光線と前記加速構造内に含まれるバウンディングボリュームとの交差、及び／または第２の光線と前記加速構造内に含まれるプリミティブとの交差の検出を含む、請求項１に記載の方法。
前記ＲＴＵの処理は、前記加速構造のトラバースで使用されるスタックのメンテナンスを含む、請求項１に記載の方法。
前記ＲＴＵによる前記加速構造のトラバースの前記結果は、光線の原点からの前記交差の距離による、前記ＲＴＵによって検出された前記交差の前記ＲＴＵによるソーティングを含み、
前記ＲＴＵは、前記加速構造をトラバースするとき、第１の光線とプリミティブとの第１の交差を検出し、
前記ＲＴＵは、前記加速構造をトラバースするとき、前記第１の光線と前記プリミティブとの間の第２の交差を検出し、
前記ＲＴＵからの結果を前記シェーダープログラムに伝達するとき、前記第２の交差の結果は前記第１の交差の結果の前に伝達される、請求項１に記載の方法。
前記ＲＴＵによる前記加速構造のトラバースの前記結果は、前記第１の光線と前記加速構造内に含まれる前記プリミティブとの最初の交差の検出を含む、請求項３に記載の方法。
グラフィックス処理のための方法であって、
グラフィックス処理ユニット（ＧＰＵ）で、加速構造によって表される３Ｄ環境のレイトレーシングを行うシェーダープログラムを実行することと、
前記シェーダープログラムの要求に応じて前記加速構造をトラバースする前記ＧＰＵ内のハードウェア実装レイトレーシングユニット（ＲＴＵ）を使用することと、
前記シェーダープログラムにおいて、前記加速構造のトラバースの結果を使用することであって、前記加速構造は複数のレベルを伴う階層であり、前記ＲＴＵは、前記加速構造における要素を用いて光線の交差を識別し、前記シェーダープログラムに交差を示し、前記シェーダープログラムは、ヒットテストを行い、前記光線が要素のトランスペアレント部を通過したか又は前記要素の非トランスペアレント部をヒットしたかを決定し、前記ＲＴＵは距離によって交差をソートし、前記シェーダープログラムは、前記ＲＴＵが第１のプリミティブを用いて交差を発見したというステータスを受信し、前記シェーダープログラムは、前記第１のプリミティブでのヒットテストを行い、前記第１のプリミティブが光線にヒットしたと決定したことに応答して、前記ＲＴＵが光線を短くできるように前記ＲＴＵに通知し、前記ＲＴＵは第２及び第３のプリミティブを用いて交差を決定し、前記第３のプリミティブは前記第２のプリミティブよりも光線の原点に近く、前記シェーダープログラムは前記第２のプリミティブではなく前記第３のプリミティブでのヒットテストを行うためのＲＴＵ情報にアクセスする、前記使用することと、
を含む、前記方法。
前記結果を使用することは、コンピュータ生成グラフィックスの画素をシェーディングすることを含む、請求項７に記載の方法。
前記ＲＴＵによる前記加速構造のトラバースの前記結果は、前記加速構造の前記複数のレベルの範囲内でより高レベルからより低レベルまでの移行の検出を含む、請求項７に記載の方法。
前記ＲＴＵによる前記加速構造のトラバースの前記結果は、前記加速構造の前記複数のレベルの範囲内でより低レベルからより高レベルまでの移行の検出を含む、請求項７に記載の方法。
ソフトウェア実装シェーダーを実行するように適応された少なくとも１つのプロセッサコアと、
前記プロセッサコアから分離しており、シェーダー動作に対して非同期に、加速構造をトラバースするように適応され、前記加速構造に表されるオブジェクトとの光線の交差を識別し、結果を生成し、前記交差に関連付けられるヒットの前記シェーダーによる識別のために、前記結果を前記シェーダーに戻す、少なくとも１つのハードウェア実装レイトレーシングユニット（ＲＴＵ）と、
を備え、前記シェーダーは、ルートノード及び光線情報を前記ＲＴＵに送信し、前記ＲＴＵが前記シェーダーの動作とは非同期に前記加速構造をトラバースし始めるように構成される処理を開始するように構成され、前記シェーダーは前記ＲＴＵの少なくとも１つのステータスを定期的に読み取り、前記ＲＴＵはトラバースを継続するとき、少なくとも１つのステータスをレポートし、前記シェーダーはヒット識別を前記ＲＴＵに渡し、前記ＲＴＵが前記光線を短くすることを可能にし、前記ＲＴＵから前記シェーダーへの前記少なくとも１つのステータスは前記ＲＴＵがいずれかの交差を発見していないことを示し、前記ＲＴＵからの少なくとも第２のステータスは前記ＲＴＵが第１のプリミティブとの交差を発見したことを示し、前記シェーダーはヒットテストを行い、前記第１のプリミティブが光線にヒットしたことを発見したことに応答して、前記ＲＴＵが光線を短くできるように前記ヒットを前記ＲＴＵに通知する、グラフィクス処理ユニット。
前記ＲＴＵは前記交差を識別するためのハードウェア回路を含み、前記シェーダーはソフトウェアを使用して前記ヒットを識別するように適応される、請求項１１に記載のグラフィクス処理ユニット。
前記シェーダーは、前記プロセッサコアによって実行可能な命令によって、３Ｄコンピュータグラフィックスの画素をシェーディングするように構成される、請求項１１に記載のグラフィクス処理ユニット。
前記ＲＴＵは、前記加速構造をトラバースするためのトラバースロジックを実装するハードウェア回路を含む、請求項１１に記載のグラフィクス処理ユニット。
前記ＲＴＵは、前記加速構造のトラバースで使用されるスタックのスタック管理を実施するためのハードウェア回路を含む、請求項１１に記載のグラフィクス処理ユニット。
ソフトウェア実装シェーダーを実行するように適応された少なくとも１つのプロセッサコアと、
前記プロセッサコアから分離しており、加速構造をトラバースするように適応され、前記加速構造に表されるオブジェクトとの光線の交差を識別し、結果を生成し、前記結果を前記シェーダーに戻す、少なくとも１つのハードウェア実装レイトレーシングユニット（ＲＴＵ）であって、前記シェーダーは、前記ＲＴＵが第１のプリミティブを用いて交差を発見したという第１のステータスを受信し、前記シェーダーは、前記第１のプリミティブでのヒットテストを行い、前記第１のプリミティブが前記光線にヒットしたと決定したことに応答して、前記ＲＴＵが光線を短くできるように前記ＲＴＵに通知するように構成され、前記ＲＴＵは第２及び第３のプリミティブを用いて交差を決定するように構成され、前記第３のプリミティブは前記第２のプリミティブよりも光線の原点に近く、前記シェーダーは前記第２のプリミティブではなく前記第３のプリミティブでのヒットテストを行うためのＲＴＵ情報にアクセスするように構成される、前記少なくとも１つのハードウェア実装レイトレーシングユニット（ＲＴＵ）と、
を備える、グラフィクス処理ユニット。
前記ＲＴＵは前記交差を識別するためのハードウェア回路を含み、前記シェーダーはソフトウェアを使用して前記ヒットを識別するように適応される、請求項１６に記載のグラフィクス処理ユニット。
前記シェーダーは、前記プロセッサコアによって実行可能な命令によって、３Ｄコンピュータグラフィックスの画素をシェーディングするように構成される、請求項１６に記載のグラフィクス処理ユニット。
前記ＲＴＵは、前記加速構造のトラバースで使用されるスタックのスタック管理を実施するためのハードウェア回路を含む、請求項１６に記載のグラフィクス処理ユニット。
前記ＲＴＵは、少なくとも、ワールド空間から、マルチレベルの加速構造のより低レベルに対応する座標空間に第１の光線を変換するためのハードウェア回路を含む、請求項１６に記載のグラフィクス処理ユニット。
前記ＲＴＵは、少なくとも、マルチレベルの加速構造のより低レベルに対応する座標空間からワールド空間に第１の光線を変換するためのハードウェア回路を含む、請求項１６に記載のグラフィクス処理ユニット。