GPUラインアップ

TOP >製品一覧 >GPUラインアップ
NVIDIA GPU

 

GPGPUでのデファクトスタンダード 豊富な製品ラインアップと対応アプリケーション

.

GPGPUでのデファクトスタンダードは、NVIDIA社製のGPUカードです。現在、グラフィックスからAI処理まで幅広い演算能力を備えた汎用のGPUとして、NVIDIA Ada Lovelaceアーキテクチャが存在します。また、GPUメモリも急速に大容量化しています。このAda Lovelaceアーキテクチャには、混合精度演算を行うTensorコア(第4世代)が搭載されており、ソフトウェアと組み合わせることで、AI学習における低精度の計算を高速に実行できるTransformer Engine機能が提供されています(高精度な計算が必要な場合には、この機能を無効にすることも可能です)。 さらに、NVIDIA Hopper アーキテクチャは、最高水準のAI学習向け製品として位置付けられています。このアーキテクチャはHPCで必須である倍精度浮動小数点の演算もサポートしています。

 

倍精度浮動小数点演算を必要とする数値計算やシミュレーション用途
   
■ データ センター GPU
   PCI Express メモリ量 アーキテクチャ NVLink MIG HPC用途 AI用途
H100 NVL 5.0 x16 94GB Hopper
A10 NC 4.0 x16 24GB Ampere
L40S 4.0 x16 48GB Ada Lovelace
L40 4.0 x16 48GB Ada Lovelace
A2 4.0 x8 16GB Ampere
A16 4.0 x16 4x 16GB Ampere
   
■ ワークステーション GPU / データ サイエンスと HPC向け /Active​ FAN
   PCI Express メモリ量 アーキテクチャ NVLink MIG HPC用途 AI用途
A800 40GB 4.0 x16 40GB Ampere

      ※ディスクサイドで使える倍精度GPU

 

 

 

 

AI推論/機械学習/単精度浮動小数点演算での数値計算やシミュレーション用途用途
   
■ Ada 世代 NVIDIA Ada Lovelace
   バス メモリ量 CUDAコア数 Tensorコア数 RTコア数 HPC用途 AI用途
RTX 6000 Ada 4.0 x16 48GB 18,176 568 142
RTX 5000 Ada 4.0 x16 32GB 12,800 400 100
RTX 4500 Ada 4.0 x16 24GB 7,680 240 60
RTX 4000 Ada※1  4.0 x16 20GB 6,144 192 48
RTX 4000 SFF Ada※2 4.0 x16 20GB 6,144 192 48
RTX 2000 Ada 4.0 x8 16GB 2,816 88 22

      ※1 メモリー帯域幅 360GB/s,消費電力 130W       ※2 メモリー帯域幅 280GB/s,消費電力 70W

   
■ Aシリーズ NVIDIA Ampere
   バス メモリ量 CUDAコア数 Tensorコア数 RTコア数 HPC用途 AI用途
RTX A5000 4.0 x16 24GB 8,192 256 64
RTX A4500 4.0 x16 20GB 7,168 224 56
RTX A4000 4.0 x16 16GB 6,144 192 48
RTX A2000 4.0 x16  6GB/12GB 3,328 104 26

 

 

 

 

 

Tensorコアについて .

Tensorコアは、行列の積和演算ユニットであり、混合精度の融合積和演算に特化した機能を持っています。行列積は低精度で高速に処理し、和は高精度で計算することで、必要な精度で高速に処理できます。 Ampereアーキテクチャ(第3世代のTensorコア)では、従来の4×4行列から8x8行列への並列処理が拡張され、FP16に加えてFP32/FP64やInt4/Int8などでも利用できるようになりました。「自動混合精度演算(AMP)」のサポートも追加され、既存のプログラムへの簡単な追加で活用できるようになりました。

これにより、AIのトレーニングと推論用途に加えて、HPCの64ビット精度にも対応可能となっています。Hopper/Ada Lovelaceアーキテクチャ(第4世代のTensorコア)では、FP8もサポートされ、更にLLMなどの生成AI をターゲットにFP8とFP16のデータ形式を高度なソフトウェア アルゴリズムにより高速化するTransformer Engineが追加されました。 Blackwellアーキテクチャ(第5世代のTensorコア)では、FP6やFP4、第2世代Transformer Engineなどの拡張強化が施されています。

 

Tensorコア世代とサポート精度
世代(対応arch) multiply精度 accum精度
FP64 TF32 FP16 BF16 FP8 INT8 INT4 INT1 FP64 FP32 FP16 INT32
Volta
Turing
Ampere
Hopper / Ada Lovelace

 

 

 

AMD GPU

 

AI/機械学習・HPC用途の両方に高性能を発揮する AMD製GPGPUアクセラレータ

.

AMDは昔から優秀なグラフィックカードを生産してきました。NVIDA同様にHPC及びAI/機械学習用途などへGPGPUの利用を進めています。NVIDIA CUDAに相当するAPIであるAMD ROCmは、AMD Radeonグラフィックスカードもサポートするので、現在、大規模解析も可能なGPGPU専用ラインナップは多くはありませんが、比較的小規模な処理には対応可能です。 また、AI系ではメジャーなフレームワークであるTensorflowとPytorch、HPC系ではAmber、GROMACS、CP2K、LAMMPS、OpenFOAMなどが対応しています。※対応するアプリケーションは限定されていますので、ご注意ください。 性能自体は、AI/機械学習系ではNVIDIAのハイエンド製品に拮抗し、HPC系の数値演算ではアドバンテージを持つとされています。大きなGPUメモリとメモリ帯域、抜群のコストパフォーマンスと相まって、今後、対応製品や対応アプリケーションの拡充が期待されます。

 

▼ 対応アプリケーションについてはこちらでご確認ください AMD Infinity Hub 🔗 https://www.amd.com/ja/developer/resources/infinity-hub.html

.

▼ AMD ROCmについての詳細はこちら AMD ROCm™ ソフトウェア 🔗 https://www.amd.com/ja/products/software/rocm.html

 

人工知能領域でTensorFlowやPyTorchをお使いのユーザさまに
   
   搭載形態 メモリ量 アーキテクチャ メモリ帯域 HPC用途 AI用途 GPU用途
AMD Instinct
MI300X
プラットフォーム
8基のMI300Xアクセラレータ(OAMモジュール)を1枚のUBBボードフォームファクターに搭載 専用プラットフォーム HBM3 合計1.5TB AMD CDNA3 Infinity Fabric Links(第4世代) 896GB/s x8 OAMあたり 5.3TB/s
AMD Instinct
MI300X
アクセラレータ
OAM モジュール (PCIe 5.0 x16) OCPの仕様に
基づいたサーバ
comming soon
HBM3 192GB AMD CDNA3 Infinity Fabric Links(第4世代) 896GB/s x8 5.3 TB/s
AMD Instinct MI300A APU AMD InstinctアクセラレータとAMD EPYC Zen4 3.7Ghz24Coreプロセッサを1チップ化 専用プラットフォーム
comming soon
HBM3 128GB AMD CDNA3 Infinity Fabric Links(第4世代) 896GB/s x8 5.3 TB/s
AMD Instinct MI210
アクセラレータ
PCIe4.0x16 アドインカード Intel Xeon/AMD EPYCプラットフォーム HBM2e 64GB AMD CDNA2 Infinity Fabric Links(第3世代) 800GB/s x3 1.6 TB/s

 

 

ご質問、ご相談、何でもお気軽にお問い合わせください。