GPUラインアップ
GPGPUでのデファクトスタンダード 豊富な製品ラインアップと対応アプリケーション
.GPGPUでのデファクトスタンダードは、NVIDIA社製のGPUカードです。現在、グラフィックスからAI処理まで幅広い演算能力を備えた汎用のGPUとして、NVIDIA Ada Lovelaceアーキテクチャが存在します。また、GPUメモリも急速に大容量化しています。このAda Lovelaceアーキテクチャには、混合精度演算を行うTensorコア(第4世代)が搭載されており、ソフトウェアと組み合わせることで、AI学習における低精度の計算を高速に実行できるTransformer Engine機能が提供されています(高精度な計算が必要な場合には、この機能を無効にすることも可能です)。 さらに、NVIDIA Hopper アーキテクチャは、最高水準のAI学習向け製品として位置付けられています。このアーキテクチャはHPCで必須である倍精度浮動小数点の演算もサポートしています。
■ データ センター GPU | |||||||
---|---|---|---|---|---|---|---|
PCI Express | メモリ量 | アーキテクチャ | NVLink | MIG | HPC用途 | AI用途 | |
H100 NVL | 5.0 x16 | 94GB | Hopper | ◯ | ◯ | ◯ | ◯ |
A10 NC | 4.0 x16 | 24GB | Ampere | ─ | ─ | ─ | ◯ |
L40S | 4.0 x16 | 48GB | Ada Lovelace | ─ | ─ | ─ | ◯ |
L40 | 4.0 x16 | 48GB | Ada Lovelace | ─ | ─ | ─ | ◯ |
A2 | 4.0 x8 | 16GB | Ampere | ─ | ─ | ─ | ◯ |
A16 | 4.0 x16 | 4x 16GB | Ampere | ─ | ─ | ─ | ◯ |
■ ワークステーション GPU / データ サイエンスと HPC向け /Active FAN | |||||||
---|---|---|---|---|---|---|---|
PCI Express | メモリ量 | アーキテクチャ | NVLink | MIG | HPC用途 | AI用途 | |
A800 40GB | 4.0 x16 | 40GB | Ampere | ◯ | ◯ | ◯ | ◯ |
※ディスクサイドで使える倍精度GPU
■ Ada 世代 NVIDIA Ada Lovelace | |||||||
---|---|---|---|---|---|---|---|
バス | メモリ量 | CUDAコア数 | Tensorコア数 | RTコア数 | HPC用途 | AI用途 | |
RTX 6000 Ada | 4.0 x16 | 48GB | 18,176 | 568 | 142 | ─ | ◯ |
RTX 5000 Ada | 4.0 x16 | 32GB | 12,800 | 400 | 100 | ─ | ◯ |
RTX 4500 Ada | 4.0 x16 | 24GB | 7,680 | 240 | 60 | ─ | ◯ |
RTX 4000 Ada※1 | 4.0 x16 | 20GB | 6,144 | 192 | 48 | ─ | ◯ |
RTX 4000 SFF Ada※2 | 4.0 x16 | 20GB | 6,144 | 192 | 48 | ─ | ◯ |
RTX 2000 Ada | 4.0 x8 | 16GB | 2,816 | 88 | 22 | ─ | ◯ |
※1 メモリー帯域幅 360GB/s,消費電力 130W ※2 メモリー帯域幅 280GB/s,消費電力 70W
■ Aシリーズ NVIDIA Ampere | |||||||
---|---|---|---|---|---|---|---|
バス | メモリ量 | CUDAコア数 | Tensorコア数 | RTコア数 | HPC用途 | AI用途 | |
RTX A5000 | 4.0 x16 | 24GB | 8,192 | 256 | 64 | ─ | ◯ |
RTX A4500 | 4.0 x16 | 20GB | 7,168 | 224 | 56 | ─ | ◯ |
RTX A4000 | 4.0 x16 | 16GB | 6,144 | 192 | 48 | ─ | ◯ |
RTX A2000 | 4.0 x16 | 6GB/12GB | 3,328 | 104 | 26 | ─ | ◯ |
Tensorコアは、行列の積和演算ユニットであり、混合精度の融合積和演算に特化した機能を持っています。行列積は低精度で高速に処理し、和は高精度で計算することで、必要な精度で高速に処理できます。 Ampereアーキテクチャ(第3世代のTensorコア)では、従来の4×4行列から8x8行列への並列処理が拡張され、FP16に加えてFP32/FP64やInt4/Int8などでも利用できるようになりました。「自動混合精度演算(AMP)」のサポートも追加され、既存のプログラムへの簡単な追加で活用できるようになりました。
これにより、AIのトレーニングと推論用途に加えて、HPCの64ビット精度にも対応可能となっています。Hopper/Ada Lovelaceアーキテクチャ(第4世代のTensorコア)では、FP8もサポートされ、更にLLMなどの生成AI をターゲットにFP8とFP16のデータ形式を高度なソフトウェア アルゴリズムにより高速化するTransformer Engineが追加されました。 Blackwellアーキテクチャ(第5世代のTensorコア)では、FP6やFP4、第2世代Transformer Engineなどの拡張強化が施されています。
Tensorコア世代とサポート精度
世代(対応arch) | multiply精度 | accum精度 | ||||||||||
FP64 | TF32 | FP16 | BF16 | FP8 | INT8 | INT4 | INT1 | FP64 | FP32 | FP16 | INT32 | |
Volta | ─ | ─ | ◯ | ─ | ─ | ─ | ─ | ─ | ─ | ◯ | ◯ | ─ |
Turing | ─ | ─ | ◯ | ─ | ─ | ◯ | ◯ | ◯ | ─ | ◯ | ◯ | ─ |
Ampere | ◯ | ◯ | ◯ | ◯ | ─ | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
Hopper / Ada Lovelace | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ | ─ | ─ | ◯ | ◯ | ◯ | ◯ |
AI/機械学習・HPC用途の両方に高性能を発揮する AMD製GPGPUアクセラレータ
.AMDは昔から優秀なグラフィックカードを生産してきました。NVIDA同様にHPC及びAI/機械学習用途などへGPGPUの利用を進めています。NVIDIA CUDAに相当するAPIであるAMD ROCmは、AMD Radeonグラフィックスカードもサポートするので、現在、大規模解析も可能なGPGPU専用ラインナップは多くはありませんが、比較的小規模な処理には対応可能です。 また、AI系ではメジャーなフレームワークであるTensorflowとPytorch、HPC系ではAmber、GROMACS、CP2K、LAMMPS、OpenFOAMなどが対応しています。※対応するアプリケーションは限定されていますので、ご注意ください。 性能自体は、AI/機械学習系ではNVIDIAのハイエンド製品に拮抗し、HPC系の数値演算ではアドバンテージを持つとされています。大きなGPUメモリとメモリ帯域、抜群のコストパフォーマンスと相まって、今後、対応製品や対応アプリケーションの拡充が期待されます。
▼ 対応アプリケーションについてはこちらでご確認ください AMD Infinity Hub 🔗 https://www.amd.com/ja/developer/resources/infinity-hub.html
.▼ AMD ROCmについての詳細はこちら AMD ROCm™ ソフトウェア 🔗 https://www.amd.com/ja/products/software/rocm.html
搭載形態 | メモリ量 | アーキテクチャ | メモリ帯域 | HPC用途 | AI用途 | GPU用途 | ||
AMD Instinct MI300X プラットフォーム |
8基のMI300Xアクセラレータ(OAMモジュール)を1枚のUBBボードフォームファクターに搭載 | 専用プラットフォーム | HBM3 合計1.5TB | AMD CDNA3 Infinity Fabric Links(第4世代) 896GB/s x8 | OAMあたり 5.3TB/s | ◯ | ◯ | ─ |
AMD Instinct MI300X アクセラレータ |
OAM モジュール (PCIe 5.0 x16) | OCPの仕様に 基づいたサーバ comming soon |
HBM3 192GB | AMD CDNA3 Infinity Fabric Links(第4世代) 896GB/s x8 | 5.3 TB/s | ◯ | ◯ | ─ |
AMD Instinct MI300A APU | AMD InstinctアクセラレータとAMD EPYC Zen4 3.7Ghz24Coreプロセッサを1チップ化 | 専用プラットフォーム comming soon |
HBM3 128GB | AMD CDNA3 Infinity Fabric Links(第4世代) 896GB/s x8 | 5.3 TB/s | ◯ | ◯ | ─ |
AMD Instinct
MI210 アクセラレータ |
PCIe4.0x16 アドインカード | Intel Xeon/AMD EPYCプラットフォーム | HBM2e 64GB | AMD CDNA2 Infinity Fabric Links(第3世代) 800GB/s x3 | 1.6 TB/s | ◯ | ◯ | ─ |