M3とA17 Proの新しいMetalプロファイリングツール

Tech Talksに戻る

M3とA17 Proの新しいMetalプロファイリングツール

Xcode 15の新しいプロファイリングツールを活用してApple family 9 GPUで最高のMetalパフォーマンスを実現する方法を紹介します。Metalコードのプロファイリングと最適化を行うにあたって、Shader Cost Graph、Performance Heat Maps、Shader Execution Historyの各ツールを使用する方法について説明します。新しいGPUカウンタを使用してGPU占有率とレイトレーシングのパフォーマンスを最適化する方法を確認しましょう。

リソース
- - HDビデオ
  - SDビデオ
関連ビデオ

Tech Talks
- M3とA17 ProでのGPUの進化
- Metalシェーダのパフォーマンスを改善するベストプラクティス
WWDC23
- Metalレイトレーシングのガイド
WWDC22
- Metalレイトレーシングのパフォーマンスを最大限に高める
こんにちは Ruiweiです Metalデベロッパツールのソフトウェアエンジニアです本日は同僚のIrfanと一緒に最新のMetalプロファイリングツールを紹介します
Apple family 9 GPU M3 A17 Proはまったく新しいシェーダコアアーキテクチャを備えています
これを機会に私たちはプロファイリングツールを作り変え最先端の新しいワークフローを構築しました
この新しいアーキテクチャの詳細については「M3とA17 ProでのGPUの進化」をご覧ください
この解説ではまずXcode 15の優れた新ツールを紹介します
次に占有率管理は最高のパフォーマンスを実現するために非常に重要であることを踏まえ新しい一連のパフォーマンスカウンタを使用して占有率をプロファイリングする方法を Irfanが説明します
最後にこの新しいアーキテクチャでレイトレーシングをプロファイリングする方法を説明します
まず新プロファイリングツールについて確認します
道路のレンダリングを最新のGPUを使用するパイプラインで処理します
レンダリングした画像は美しく見えますがパフォーマンスの問題に気が付きました
この種のアプリケーションでパフォーマンスのボトルネックを解決するには主に2つのアプローチがあります
1つは最もコストの高いシェーダを特定しそこでコストのかかる関数とコードがどれであるかを把握します
もう1つのアプローチとしてはコストの高いオブジェクトまたはピクセルを最初に見つけますシェーダを扱う場合フラグメントの位置やスレッドIDに応じてシェーダの動作が異なる場合があります
M3とA17 Proの新しいプロファイリングアーキテクチャのおかげで Xcode 15にはこれらのタスクを簡素化するための新しいツールが複数含まれていますここで新しいツールを使用してワークロードのパフォーマンスの問題を見つける方法を説明します
まず Shader Cost Graphを紹介しますこの新しいツールは高コストのシェーダを見つけて選別するのに役立ちます
これはXcode 15でプロファイリングしたばかりのワークロードの GPUキャプチャです「Performance」ビューに移動すると GPUタイムラインにワークロードの実行カウンタとパフォーマンスカウンタが表示されています
Shader Cost Graphを表示するには新しい「Shaders」タブに切り替えます
左側のパフォーマンスナビゲータにはパスとパイプライン状態のリストがコスト順に表示されます
GBuffer Passは総コストの約50%でありこれは想定よりも大きな値です
調査のため GBuffer Passで使用されるコストの高いパイプラインの状態をまず調べます
ナビゲータでパイプライン状態を選択すると Shader Cost Graphが表示されます
ランダムなパイプライン表示の場合デフォルトでフラグメントシェーダが選択されます
Shader Cost Graphは大きく 2つの部分に分かれています上にあるのはコストが高いシェーダ関数を視覚化したフレームグラフです
グラフの下には対応するシェーダのソースコードが表示されます
今回初めてMetalシェーダ用フレームグラフを導入しましたが見事な出来ですフレームグラフを使用するとフラグメントシェーダの最もコストの高い関数を簡単に特定できますグラフ内の関数を選択すると該当するソースがソースエディタに表示されます
ソースコードの左側のサイドバーにパフォーマンスに関する注釈が表示され各行のコストが示されます
これは画像内のすべてのピクセルに照明を適用するフルスクリーンシェーダです
左側サイドバーにあるパフォーマンスに関する注釈を使用すると最もコストの高いシェーダソース行をすぐに特定できます
円グラフにカーソルを合わせるとパフォーマンスのポップオーバーが表示されます
ポップオーバーには GPUによって実行された命令の正確な数や様々な命令カテゴリのコストなど
その行の詳細な内訳が表示されます
これはフルスクリーンシェーダであるためフラグメントの場所に応じて動作が変化する可能性があり特定の領域やピクセルが原因でパフォーマンスのボトルネックが発生している可能性があります問題を完全に理解するにはコストが高めのピクセルを見つける必要がありますこれは次に紹介する新しいツール Performance Heat Mapsを使用する絶好の機会です
Performance Heat Mapsではピクセルや計算スレッド情報パフォーマンスメトリックスを視覚化しますマップはフラグメントの位置または GPUスレッドの計算スレッドIDを使用して構築されます
GBuffer Passの様々なタイプの Performance Heat Mapsを見てみましょう
まず Shader Execution Cost ヒートマップですコストは実行時間とGPU スレッドの遅延隠蔽を確認して計算されます
画像の右半分のピクセルが赤色で表示されておりこれらのピクセルのコストがより高いことを意味しています
次はThread Divergenceヒートマップです SIMDグループ内のGPUスレッドの分岐の量を視覚化しています
スレッド間の制御フローの違いにより分岐が増加しますこれは条件分岐により発生する可能性とジオメトリの形状が原因の非アクティブなスレッドにより発生する可能性があります
Overdrawヒートマップは複数のGPUスレッドによってレンダリングされたピクセルを視覚化します
これは 1つ以上のレンダリングコマンドで有効になったブレンドによるジオメトリの重なりが原因である可能性があります GPUコマンドは必ず不透明なオブジェクトが最初にレンダリングされ次に透明なオブジェクトがレンダリングされるようにグループ化してくださいこれによりApple GPUで最高のパフォーマンスが実現します
Instruction Countヒートマップはピクセルや SIMDグループごとにGPU上で実行された命令の数を正確に表示します
そして最後にDraw IDヒートマップでは様々なGPUコマンドを色分けしますこの場合ワークロードの大半が 1つのコマンドでレンダリングされていることがわかります透明な窓でのみ別のコマンドが使用されています
ヒートマップの概要と見え方がわかったところで Xcode 15でヒートマップにアクセスする方法を見てみましょう
Performance Heat Mapsにアクセスするには上部バーにある「Heat Map」タブをクリックします
デフォルトではShader Execution Costヒートマップと最初のアタッチメントが表示されます
シーンの道路部分の実行コストが特に高いことに注意してください詳しく調べるためにヒートマップを追加してみます
下部バーのプラスボタンをクリックするとヒートマップのポップオーバーが表示されます
これにより様々なタイプのヒートマップをすばやく有効または無効にできます
Instruction CountヒートマップはGPUが道路のピクセルに対してより多くの命令を実行していることを明確に示しておりこれが高コストの説明になる可能性があります
ポインタをピクセルの上に移動するとコストのパーセンタイルや命令の正確な数などの詳細を確認できます
ヒートマップからこれらのピクセルのコストが高い理由を十分に推測できます
さらに別の新しいツールである Shader Execution Historyを使用してシェーダがこれらのピクセルをどのようにレンダリングするかを正確に確認することもできます
Performance Heat Maps内のピクセルをクリックすると基になっているSIMD グループが選択されます
これによりヒートマップの下にSIMDグループのシェーダの実行履歴が表示されます
Shader Execution Historyは 2つの主要部分に分かれています上部のタイムラインとその下のシェーダソースコードです
タイムラインは選択したSIMDグループの進行状況を左から右に向かって示します上から下に向かっては実行の各時点におけるすべてのシェーダ呼び出しスタックが表示されます
この強力な視覚化により SIMDグループが Apple GPUでどのように実行されるかを初めて正確に確認できるようになりました
タイムラインを確認すると実行時間の大部分を費やしているシェーダ関数をすぐに特定できますまた Metalデバッガはループを自動的に検出するため進行状況が理解しやすくなります
最もコストの高いシェーダ関数の下には 12回の繰り返しを含むループがあり SIMDグループの合計実行時間の 79%を占めます
各繰り返しの中でapplySpotlightが呼び出されています関数呼び出し内にさらにループがありますテクスチャのサンプリングです
これは不自然です 12個のスポットライトで街路のピクセルを照らす必要はありません
ワークロードをチェックした結果スポットライトを複製しているという設定ミスに気付きました余分な照明を削除した後 GBuffer Passのパフォーマンスは大幅に向上しました
まとめると Shader Execution Historyは SIMDグループがGPUで実行された様子を視覚化します
これにはスレッドの状態や関数コールスタックループが含まれます
これにより以前はできなかったシェーダ実行に関する詳細な理解が可能になります
以上がM3とA17 Proで利用できる Xcode 15の新しいプロファイリングツールですこれらのツールをご活用ください
続いて Irfanがプロファイリングの占有率について説明します
Ruiwei ありがとうございます M3とA17 ProのGPU用の新しいツールとワークフローについてよくわかりましたこんにちは Irfanです最初に新しいGPUアーキテクチャでの占有率プロファイリングの仕組みとハードウェアレイトレーシングワークロードのプロファイリングに役立つ新しいカウンタを紹介します
占有率をプロファイリングする方法の説明の前に「M3とA17 ProでのGPUの進化」を視聴することをお勧めしますそうすることで以降の説明がより理解しやすくなりますまずこのセクションに関連するいくつかの重要な概念を説明します
Apple family 9 GPUにはM3と A17 Proが含まれます
両チップのGPUには様々なコンポーネントがあります各シェーダコアには FP32やFP16 テクスチャリソースやバッファリソースの読み取りと書き込みなど様々なタイプの命令を実行するための複数の実行パイプラインがあります
またシェーダプログラムで使用する可能性のある様々なタイプのデータを格納するためのオンチップメモリも備えており変数の値を保存するレジスタや計算スレッドグループ全体で共有されるデータやタイル全体で共有されるカラーアタッチメントデータを保存するスレッドグループやタイルメモリなどがあります
これらのオンチップメモリは L1キャッシュを共有し GPUラストレベルキャッシュとデバイスメモリによってサポートされています
では GPUのパフォーマンスと占有率が互いにどのような関係にあるかを説明します
MetalシェーダがALU実行パイプラインを使用していくつかの数学演算を実行した後バッファを読み取りその結果が直後に使用されるとします
バッファにアクセスするにはデバイスメモリにまでアクセスしなければならない場合があり大きな遅延が生じる可能性がありますこの間 SIMDグループはほかの操作を実行できず ALUパイプラインは使用されません
これを緩和するためにシェーダコアは別のSIMDグループの命令を実行できこのSIMDグループには独自の ALU命令が含まれる場合があります
これによりALUが使用されない時間を短縮し SIMDグループを並列で実行できることでパフォーマンスが向上します
シェーダコアで実行する追加のSIMDグループがある場合はこれは何度も繰り返すことができ ALUやその他の実行パイプラインで実行する命令が不足することはありません
シェーダコア上で同時に実行するSIMDグループの数をそのコアの占有率と呼びます最適なパフォーマンスを実現するにはシェーダコア上のALUができる限り使用状態になるように占有率を高める必要があります
次に Apple family 9 GPUでの占有率管理の目的を簡単に説明します
レジスタスレッドグループタイルスタックなどのシェーダコアメモリタイプは L1キャッシュから動的に割り当てられ GPUラストレベルキャッシュとデバイスメモリによってサポートされています
各SIMDグループは様々なシェーダプログラムオンチップメモリを大量に使用する場合があります SIMDグループの数が増えるとオンチップストレージで利用可能なメモリを超えるメモリをワークロードが使用する状況になることがあり次のキャッシュレベルへのスピルを引き起こします
シェーダコアはメモリキャッシュのスラッシングを防ぐためにスレッド占有率とキャッシュ使用率のバランスを調整します
これによりシェーダデータがチップ上に留まり実行パイプラインが使用状態に保たれシェーダのパフォーマンスが向上します
Xcode 15は新しい一連のパフォーマンスカウンタを備えこれはワークロードの占有率低下の原因を簡単に特定して対処し優れたパフォーマンスを達成するのに役立ちます
次に占有率を高めることでワークロードのパフォーマンス目標を達成するのに役立つワークフローを示します
最初に確認する必要があるのは Metalワークロードが GPU上でどのように実行されているかと実行中の占有率はどのくらいかということですそのためにMetalデバッガを使用する方法を説明しますここに表示されているのは GPUでのワークロードの実行状況です「Timeline」タブを選択して確認できます
各シェーダステージのすべてのワークロードエンコーダの継続時間が表示されています各シェーダステージのセクションでシェーダパイプラインの実行を確認することもできます
エンコーダセクションの下にはカウンタセクションがあり概要レベルでパフォーマンスのリミッタや使用率占有率などの役立つパフォーマンスカウンタを確認できます
ワークロードがGPUで実行されている間これらのカウンタの情報は定期的に収集されます
この解説ではパフォーマンスの使用率とリミッタに頻繁に言及するので
その意味を簡単に説明します
ワークは ALUの算術命令や MMUのアドレス変換リクエストなどハードウェアブロックで処理されるアイテムの数ですストールは利用可能なアイテムが下流ブロックによって保留された回数です例えばメモリ命令リクエストがキャッシュによって停止され次のレベルのキャッシュまたはデバイスメモリからリクエストが戻ってくるのを待つ場合がストールとしてカウントされますハードウェアブロックの使用率とリミッタを計算する数式を次に示します使用率はサンプル期間中にハードウェアブロックによって行われたワークをハードウェアブロックのピーク処理率とサンプル期間の積に対する割合として表したものですリミッタも同様に計算しますがサンプル期間内のワークとストールの両方が含まれます
次に低い占有率を選別する方法を説明します
カウンタトラックを確認すると
合計占有率が低いように見えます占有率が低い場合のほかのパフォーマンスリミッタも確認してみます
合計占有率は低いですが ALUサブユニットである FP16のパフォーマンスリミッタが
約100%であることがわかりますこの期間全体を通じてFP16が使用状態であったことを意味しますこのシナリオでは占有率を高めようとしても新しく追加したSIMDグループが主にFP16ワークを実行する場合パフォーマンスがまったく改善されない可能性があります
シェーダ内のFP16命令を減らすとシェーダ全体のパフォーマンスが向上する可能性が高くなります
別のワークロードを示します占有率とすべてのALUリミッタが共に低いことがわかりますつまり占有率が高くないため ALUの使用率低下を回避できません占有率の影響でALUユニットの使用率が低下しているとしたら実際にはALUを使用中の状態に保つという最適化の目標に反しています
占有率が低い理由を選別して占有率を十分に高め占有率ではなくALUまたはメモリ帯域幅によってワークロードが制限される状態にする方法を示します
Shader Launch Limiterカウンタはシェーダコアでスレッドを起動するために実行されたワークとバックプレッシャによりスレッドを起動できない場合のストールの両方が対象ですこのカウンタの値が低い場合はワークロードサイズが小さいために十分なスレッドが起動されていないことを示します逆に高い値はそうでないことを示します
最初に十分な数のシェーダスレッドがシェーダコアに起動されているか確認するために「Counters」トラック内のこのカウンタ値を調べますここで「Compute Shader Launch Limiter」がわずか0.07%であることがわかりますすでに説明したようにカウンタ値が小さいことはこのワークロードがGPUを使い切るほど大きくないためシェーダコアの使用率が低下していることを示します
次に私がプロファイリングした別のワークロードを見てみましょう
「Shader Launch Limiter」が高いことがわかりますこれは十分な数のスレッドが起動しているかまたはスレッドの起動に必要なメモリリソースをおそらく使い果たしたためバックプレッシャによってスレッドの起動が停止していることを意味します
調査を続けるため次に何をすべきかを検討しましょう
「Shader Launch Limiter」カウンタが高い場合占有率が低い理由はいくつかありますまずこの期間に実行状態の計算ディスパッチがスレッドグループメモリを大量に使用しているかどうかを確認します大量に使用している場合シェーダコアはスレッドグループメモリをそれ以上使用できないため新しいスレッドの起動を停止し占有率が低下します
これは別のより単純なワークロードをプロファイリングしたもので 1つの計算パスのみで構成されています GPUタイムラインでは任意の時点で実行されていたディスパッチを確認できます GPUタイムラインで「Compute」エンコーダを選択するとそのエンコーダのディスパッチごとに設定されているスレッドグループメモリの量を確認できますディスパッチでのスレッドグループメモリの使用量はわずか2KBと少ないためスレッドグループメモリがシェーダの起動停止を引き起こす可能性は排除できますシェーダコアでは占有率マネージャを使用して最大占有率の目標を設定しスレッド使用率とキャッシュスラッシングのバランスを取ることができます
現在のワークロードについて GPUが占有率を制限しているかどうかを Occupancy Manager Target カウンタを使用して確認します
この制限はレジスタスレッドグループタイルスタックメモリをオンチップに維持するために行われますタイムラインカウンタトラックで「Occupancy Manager Target」カウンタを確認できますご覧のとおり「Occupancy Manager Target」カウンタは 100%を下回っていますこれは占有率マネージャが GPUと連携して様々なシェーダデータメモリタイプをオンチップに維持していることを示しますこれを行わないと GPUへのスピルラストレベルキャッシュへのスピルさらにはデバイスメモリへのスピルが生じます
このフローチャートを使用すると「Occupancy Manager Target」カウンタが低い場合に低い占有率を選別できますまずL1のエビクション発生率カウンタを調べますこれはどれだけのレジスタスレッドグループタイルスタックメモリが次のレベルのキャッシュへスピルせずにオンチップに留まるかの目安になりますこの「L1 Eviction Rate」カウンタトラックではカウンタに大きなスパイクが見られますこれは高負荷のシェーダコアメモリアクセスによりL1キャッシュがスラッシングされエビクションが発生していることを示しています
ここでシェーダコアメモリのどれがエビクションの原因なのかを特定する方法を説明します
L1を使用するどのシェーダコアオンチップメモリがエビクションの原因となっているのかを特定するにはどのメモリタイプが L1に最も頻繁にアクセスしているのかとどのメモリに最も大きな割合のキャッシュラインが割り当てられたのかを確認する必要があります
GPUタイムラインでL1のロード帯域幅とストア帯域幅のカウンタトラックを調べると L1を使用する様々なオンチップメモリの L1帯域幅を確認できます Imageblock L1の L1メモリストア帯域幅が最も大きいことがわかります
同様にImageblock L1の L1ロード帯域幅が最も大きく L1エビクションのほとんどを引き起こしています
L1 Residencyカウンタトラックには様々なオンチップメモリ間の L1キャッシュ割り当ての詳細が表示されるため L1での割り当てが最大であるシェーダコアメモリを確認できます
また Imageblock L1メモリはワーキングセットサイズが最大であり L1のエビクション発生率が大きい原因である可能性が高いと考えられます
この場合最小のピクセル形式を使用することで L1のエビクション発生率を低減できます MSAAを使用していてワークロードに非常に複雑なジオメトリがある場合サンプル数を減らすと L1のエビクション発生率を低減できます
L1エビクションの原因となるアクセス頻度とオンチップメモリの割り当てサイズを減らした後これらの変更で期待する効果が得られたかを確認する必要があります
メモリを最適化して再プロファイリングした後ワークロードが ALUまたはメモリ帯域幅によって制限されていないことを確認しますまずはほかのリミッタをチェックしますそうであればワークロードは占有率によって制限されていないので低い占有率を選別する必要はありませんワークロードがALUまたはメモリ帯域幅によって制限されていなければ占有率の値と Occupancy Manager Target カウンタを再度確認し L1のエビクション発生率が小さくなるまでこのプロセスを繰り返します
ではL1のエビクション発生率が低い場合ですこの場合 GPUラストレベルキャッシュか MMUのストールによって占有率マネージャのターゲットが高くなっていると考えられますこれはデバイスがメモリアクセスラストレベルキャッシュのスラッシングまたはTLBミスの生成を行うときに発生する可能性があります各種のワークロードでこれらのストールを確認する方法を説明します GPUのラストレベルキャッシュの使用率は GPUが読み取りおよび書き込みリクエストを処理した時間をピークラストレベルキャッシュ帯域幅の割合として測定しますラストレベルキャッシュリミッタにはキャッシュの使用時間とキャッシュスラッシングまたはメインメモリからのバックプレッシャが原因でキャッシュが停止している時間が含まれます GPUのラストレベルキャッシュリミッタが使用率よりもはるかに高い場合はキャッシュスラッシングが原因で頻繁に停止していることを示していますバッファサイズを減らすことでこうした停止を削減でき空間的および時間的局所性が改善されます
同様にMMUカウンタトラックで MMUのリミッタがMMUの使用率よりもはるかに大きい場合デバイスのバッファアクセスにより TLBミスが発生し MMUがスラッシングされますバッファへの不均一なメモリアクセスの削減がこうした停止を低減するのに役立つ可能性があります
デバイスのメモリアクセスを最適化しワークロードを更新したら再度プロファイリングします
ほかのリミッタが高い場合それらのリミッタの低減に注力しますこれ以上ワークロードは占有率によって制限されないためですほかのリミッタが低い場合は前に示したように低い占有率によってワークロードが制限されなくなるまで選別プロセスを繰り返します
これらの新しく追加されたパフォーマンスカウンタを使用すると命令実行パイプラインを使用状態に保つことができ優れたシェーダパフォーマンスが得られます次にレイトレーシングのプロファイリングに進みます Apple family 9 GPUの新しいレイトレーシングハードウェアアクセラレータを使用すると本物のようなシーンをリアルタイムでレンダリングできます XcodeのMetalデバッガがレイトレーシングワークロードのパフォーマンス最適化にどう役立つかを説明します
私はこのアプリを活用してトラックをレンダリングしていますレイトレーシングを使用して素晴らしい反射をレンダリングしました新しいハードウェアではすでに驚くほど高速にレンダリングできますがさらに高速化できるかどうかに興味があります
そこで最適なレイトレーシングパフォーマンスを実現できるように XcodeにはAcceleration Structure Viewerに加えて新しい一連のレイトレーシングカウンタが備わっていますきっと気に入っていただけるでしょう Ruiweiが先ほど説明した Shader Cost Graphを使用してシェーダやカスタム交差関数を分析することもできますまずはカウンタから始めましょう
レンダラのフレームをキャプチャし Performanceタイムラインを開きました Xcodeには新しいレイトレーシンググループが備わっていますこれには一連の幅広いトラックが含まれ新しいレイトレーシングハードウェアでワークロードがどのように実行されているかを理解するのに役立ちます
それぞれを確認してみましょう
最初のトラックは光線占有率を示しますこのハードウェアは多数の光線を同時に実行でき光線占有率はアクティブ状態の割合を示しますまたスレッド占有率と同様に Apple family 9 GPUのシェーダコアは光線占有率も自動的に最適化しアプリの最大限のパフォーマンスを実現します
ワークロードの使用率は光線の数によって低下することがないと仮定して占有率マネージャのターゲットを確認することから始めます
前と同じプロセスに従いますが L1 Residencyと帯域幅内のレイトレーシングスクラッチカテゴリに特に注意してください
レイトレーシングユニットは L1のかなりの部分をスクラッチバッファとして使用しますこれはペイロードサイズを最適化することで削減できます
再プロファイリングし前のセクションで説明した選別プロセスを繰り返します
次の一連のトラックはアクティブな光線が実行している内容の割合を示していますこれにより改善すべき範囲をより深く理解できます例えばこの時点ではアクティブな光線の 75%がインスタンスの変換を実行していましたこのシーンにはトラックのインスタンスが2つしかないのでこれはかなり高いと考えられます
ワークロードでこのような問題に気付いた場合はシーンを調べてインスタンスの重複を最小限にするとよいでしょうこれについては後でAcceleration Structure Viewerを使用して詳しく説明しますここでは先に進みましょう
最後に「Intersection Tests」トラックは実行中のプリミティブの交差の割合を示します
このレンダラではハードウェアがモーションなしで Opaque Triangle Testのみを実行していることがわかります最高のパフォーマンスを実現するには Opaque Triangle Testを最大化しアルファテストが必要なオブジェクトなどカスタム交差関数が必要なジオメトリではカスタム交差関数のみを使用してください
新しいレイトレーシングカウンタについては以上ですこれらはハードウェアがワークロードをどのように実行しているかを理解するのに役立ちパフォーマンスの選別を始める取り掛かりとして最適です
この場合インスタンスの変換が異常に高いことがわかりましたこれはシーンに問題がある可能性を示します
インスタンスの重複などが考えられシーンの問題を選別するには Acceleration Structure Viewerを使用できますこれについて説明しますまずアクセラレーション構造を使用するディスパッチを見つけましょうタイムラインでエンコーダをクリックし
ディスパッチを選択します
その後インスタンス化されたアクセラレーション構造をダブルクリックします
これにより Acceleration Structure Viewerが開きます
左側にアクセラレーション構造の詳細が表示され右側にプレビューが表示されます
アクセラレーション構造の各要素をハイライトすることもできます
ここでは変換を調べたいので「Instance Traversals」ハイライトモードをオンにしますホットスポットが青色で表示されますプレビューを見ると予想していた 2つのインスタンスよりも多くのインスタンスがあるように見えますこの濃い青色の領域の上にマウスを移動して光線がトラバースしているインスタンスの数を正確に調べます 8ですつまり光線は最も近い交差を見つけるまでに 8つのインスタンスをトラバースする必要がありますこれは2つをはるかに上回っていますこれがほとんどのアクティブな光線がインスタンスの変換を実行していた理由を示していますなぜこれほど多いのでしょうか
「Instances」ハイライトモードに切り替えましょう各インスタンスに異なる色が付きます
なるほどトラックの部分ごとにインスタンスが異なるようですまたそれらは重なり合っていますこの場合最高のパフォーマンスを実現するにはインスタンスを連結して単一のプリミティブアクセラレーション構造に変換する必要がありますただしそれが最も重要な変更ではないかもしれませんこのアクセラレーション構造の問題はアセットパイプラインの問題に起因する可能性があります
そこで調査を行い新しいトラックアセットに変更し
問題を解決しました
Instance Traversalsの大幅な改善に注目してください
まとめです新しいレイトレーシングカウンタと Acceleration Structure Viewerの両方を使用して Apple family 9 GPUの優れたレイトレーシングパフォーマンスを引き出すことができます
またレイトレーシングのベストプラクティスにも引き続き従う必要があります
ここに示したほかの解説で詳しく学ぶことができます
本日説明した内容をすべてまとめます
Xcode 15にApple family 9 GPUで利用できる最先端の新しいGPUプロファイリングツールが追加されました Shader Cost Graphを使用すると高コストのシェーダをすぐに見つけて選別できます
Performance Heat Mapsを使用するとシェーダのコストが高い原因となっているオブジェクトやピクセルを正確に判断できます
Shader Execution History ツールを使用すると実行時間の大部分を費やしているシェーダ関数を簡単に特定できます
Xcode 15に新しく追加されたパフォーマンスカウンタを使用して占有率が低い原因を選別し最高のパフォーマンスを実現できます
レイトレーシング用の新しいパフォーマンスカウンタに加えて Acceleration Structure Viewerを使用すると最高のレイトレーシングパフォーマンスが得られます
ご視聴ありがとうございました
（音声なし）

リソース

関連ビデオ

Tech Talks

WWDC23

WWDC22