コンピュートシェーダーの性能 - syghの新フラグメント置き場

（これは2011-10-08に書いた故OCNブログの記事を加筆修正したものです）

DirectX 9世代のシェーダーモデル3.0までは、画面座標系でのポストエフェクト処理（たとえばガウスぼかしやブルーム、トーンマッピング、SSAOなど）はレンダーターゲットを切り替えてピクセルシェーダーでテクスチャに描画することで行ない、さらに結果を次の入力テクスチャとして再利用することで実現してきました。DirectX 11やOpenGL 4.3/ES 3.1のコンピュートシェーダー (Compute Shader) は、物理シミュレーションのような本来のGPGPUらしい使い方のほかに、こういった従来からのポストエフェクトを、より効率的に実現できる可能性を秘めています。

DirectX 10.x世代のシェーダーモデル4.x対応ハードウェア（ダウンレベルハードウェア）でも、DirectX 11 APIを使えば、一応コンピュートシェーダーを動作させることはできます（OpenGL APIでは不可）。ですが、コンピュートシェーダー4.x（cs_4_x）およびピクセルシェーダー4.x（ps_4_x）にはかなり制約があって、例えばコンピュートシェーダー4から扱えるリソースタイプはStructuredBuffer、RWStructuredBuffer、ByteAddressBuffer、RWByteAddressBufferの4つだけです。ピクセルシェーダー4に至ってはStructuredBufferしか使えません。UAV (Unordered Access View) も1個だけなので、レジスタはu0しか使えません。
ひとつのリソースに対して複数のビューを割り当てることは可能で、構造化バッファとして作成したID3D11Bufferオブジェクトに対してUAVインターフェイスを作成し、そのUAVをコンピュートシェーダーのUAVスロットにバインドすることで、HLSLでRWStructuredBufferとして使えるようになります。一方、SRV (Shader Resource View) を作成してバインドすればStructuredBufferとして使えるようになります。ひとつのテクスチャリソースに対してSRVとRTV (Render Target View) を割り当てることができるのと同じです。

DirectX 11世代のシェーダーモデル5.0ではさらにRWTexture1D/RWTexture2D/RWTexture3Dがコンピュートシェーダー5（cs_5_0）およびピクセルシェーダー5（ps_5_0）から自由に使えます。ピクセルシェーダーでRW系リソースを使う機会はあまりないと思いますが、コンピュートシェーダーを本格的にポストエフェクト用途に用いるならば、RWTexture系のリソースが使えるかどうかは非常に重要になってきます。
GDC 2009にて、AMDは効率的なポストエフェクトをコンピュートシェーダーで実装するコツを紹介しています。

Intelも開発者向けWebサイトにて、ポストエフェクトにおけるコンピュートシェーダーの優位性を紹介しています。
http://software.intel.com/en-us/articles/compute-shader-hdr-and-bloom

たとえばコンピュートシェーダーを使ったブルーム処理（ぼかし＋加算合成）の場合、下記のような流れになります。

(1) まずピクセルシェーダーを使って、シーンをレンダリングした元画像（任意サイズ、1280x768のTexture2D/Texture2DMSとか）を一時テクスチャ（128x128のTexture2Dとか）へ高輝度成分のみ抽出しながらダウンサンプル。

(2) コンピュートシェーダーで、ダウンサンプルテクスチャ@t0をフェッチし、いったんラインごとのグループ共有メモリに書き込み、その後でRWTexture2D#0@u0へ水平方向ガウスぼかしカーネル適用結果を書き込む（このとき、後段の垂直ぼかしの際に高速読み込みできるよう、出力位置インデックスを転置しておく）。

(3) コンピュートシェーダーで、Texture2D#0@t0をフェッチし、いったんラインごとのグループ共有メモリに書き込み、その後でRWTexture2D#1@u0へ垂直方向ガウスぼかしカーネル適用結果を書き込む（このとき、出力位置インデックスを再び転置することでキャンセルされて縦横が元に戻る）。

(4) Texture2D#1@t0をピクセルシェーダーから読み取り＆サンプリングしながら、元のシーンに対して加算合成描画する。

基本的な流れはピクセルシェーダーのみを使ったバージョンと大差なく、最も大きな違いはRTVの代わりにUAVを使うことなのですが、ピクセルシェーダーの仕事をコンピュートシェーダーに一部委ねる形になります。そしてコンピュートシェーダーにおいて高速化の要となるのがグループ共有メモリです。グループ共有メモリは容量が小さいものの、各コンピュートスレッドグループ内で共有できるキャッシュメモリで、テクスチャや構造化バッファといった、グローバルメモリへの直接アクセスよりもはるかに高速に読み書きできます。CPUのキャッシュメモリはプログラムで直接制御することはありませんが、このグループ共有メモリは我々プログラマーが直接読み書きを指示制御することができます。特に同じ読み込みが何度も必要となるようなカーネルサイズの大きいフィルターを適用するときに、絶大な効果を発揮するでしょう（ピクセルシェーダーの場合、1ピクセルに対してフィルターを適用するとき、都度テクスチャから何度も読み込みが必要でした）。なお、場合によっては(1)もコンピュートシェーダーで実装できるかもしれません（トーンマッピングと併せて行ないます）。
ときどきコンピュートシェーダー不要論なぞを標榜する人がいますが、GPGPUをやったことのある人間からすればまったくとんでもない話です。このコンピュートシェーダーにおけるグループ共有メモリというのは、他のシェーダーステージにはない決定的な機能で、今後のハイエンドグラフィックスプログラミングではコンピュートシェーダーをいかに使いこなせるかが最重要となってくるはずです。ただ、グループ共有メモリを活用したコンピュートシェーダープログラムは非同期並列プログラミングに関する知識やGPUハードウェア特性に関する知識も必要となるため、ピクセルシェーダーとは異なる次元の難しさ・取っつきにくさがあります。コンピュートシェーダー不要論を唱える人というのはただの無知か、もしくは食わず嫌いのどちらかでしょう。

ちなみに、DirectX SDKのサンプル、HDRToneMappingCS11はコンピュートシェーダー版のほうがむしろピクセルシェーダー版よりも実測パフォーマンスが落ちるんですが、これは解説をよく読むと、ダウンレベルハードウェア（cs_4_0）用にRWTexture2DでなくRWStructuredBufferを使っていて、2Dテクスチャへの変換という余計な処理が加わっていることなどが原因の模様です。シェーダーモデル5.0専用（cs_5_0）に書き直せばピクセルシェーダーよりも高速化する可能性があります。
また、実装コードをよく読んでみると、（コンピュートシェーダーとピクセルシェーダーの比較デモであるにもかかわらず）コンピュートシェーダーのほうがだいぶ不利なコードになっているようです。ソースコードがだいぶ汚く、C++側とHLSL側とで対応する数値を見つけるのがひどく煩雑で異様に解析しづらいサンプルなのですが、おおざっぱに説明すると、

・コンピュートシェーダー：

　8x8=64サイズのブロックでタイルベース2D→1D並列リダクションを実行したのち、128サイズのブロックで1D→1pix並列リダクションを実行。cs_4_0なのでリダクションは構造化バッファで実行している。

・ピクセルシェーダー：

　2x2カーネルのリダクションののち、3x3カーネルのリダクションを複数回実行して1pix化。

となっていて、コンピュートシェーダーのほうは構造化バッファを経由するオーバーヘッドだけでなく、ブロックサイズ（ローカルスレッドグループサイズ）が小さめなのが足かせになっている模様。NVIDIA GPUには32スレッドを1単位とするWarp（ウォープ）という概念があり、またAMD GPUには64スレッドを1単位とするWavefrontという概念があるのですが、特にコンピュートシェーダーのブロックサイズが小さいとプロセッサの稼働率を最大化することができずにパフォーマンスが落ちてしまうとのことです。1ブロックあたりに割り当て可能な共有メモリのサイズや、スレッドごとのレジスタ数には上限があるので、それとの兼ね合いにもなりますが、Fermi世代では少なくともブロックサイズが128, 256, 512, 1024のいずれかでないと効率が最大になりません。詳しくはNVIDIA CUDA Occupancy Calculatorを参照のこと。NVIDIA環境でのコンピュートシェーダーはCUDAアーキテクチャにて実行されるため、CUDAコードを最適化するための手法がコンピュートシェーダーにもかなり通用するので、NVIDIA環境でコンピュートシェーダーを最適化する場合はCUDAを勉強しておくと必ず役に立つと思います*1。

なお、コンピュートシェーダーのGPGPU用途としては、例えばこれまでピクセルシェーダーで疑似的に実装していた水面の波紋シミュレーションなどを、コンピュートシェーダーで実装するのもよいかもしれません。これに関してはPC版ロストプラネット2でWave Particlesを実装するためにコンピュートシェーダーが活用されているそうです。CEDEC 2010レポートのページも実践的で参考になります。境界面で反射する波（自由端／固定端）や、キャラクターの移動に対してインタラクティブに追従するドップラー効果というのは個人的にも実装してみたい技術です。

*1:NVIDIA環境でOpenCLやOpenGLコンピュートシェーダーを使う場合も、CUDAを勉強しておくとよいです。