GPUラインアップ

TOP >製品一覧 >GPUラインアップ

NVIDIA GPU

GPGPUでのデファクトスタンダード豊富な製品ラインアップと対応アプリケーション

GPGPUでのデファクトスタンダードは、NVIDIA社製のGPUカードです。現在、グラフィックスからAI処理まで幅広い演算能力を備えた汎用のGPUとして、NVIDIA Ada Lovelaceアーキテクチャが存在します。また、GPUメモリも急速に大容量化しています。このAda Lovelaceアーキテクチャには、混合精度演算を行うTensorコア（第4世代）が搭載されており、ソフトウェアと組み合わせることで、AI学習における低精度の計算を高速に実行できるTransformer Engine機能が提供されています（高精度な計算が必要な場合には、この機能を無効にすることも可能です）。さらに、NVIDIA Hopper アーキテクチャは、最高水準のAI学習向け製品として位置付けられています。このアーキテクチャはHPCで必須である倍精度浮動小数点の演算もサポートしています。

倍精度浮動小数点演算を必要とする数値計算やシミュレーション用途

■ データセンター GPU
	PCI Express	メモリ量	アーキテクチャ	NVLink	MIG	HPC用途	AI用途
H100 NVL	5.0 x16	94GB	Hopper	◯	◯	◯	◯
A10 NC	4.0 x16	24GB	Ampere	─	─	─	◯
L40S	4.0 x16	48GB	Ada Lovelace	─	─	─	◯
L40	4.0 x16	48GB	Ada Lovelace	─	─	─	◯
A2	4.0 x8	16GB	Ampere	─	─	─	◯
A16	4.0 x16	4x 16GB	Ampere	─	─	─	◯

■ ワークステーション GPU / データサイエンスと HPC向け /Active FAN
	PCI Express	メモリ量	アーキテクチャ	NVLink	MIG	HPC用途	AI用途
A800 40GB	4.0 x16	40GB	Ampere	◯	◯	◯	◯

　　　　　※ディスクサイドで使える倍精度GPU

AI推論/機械学習/単精度浮動小数点演算での数値計算やシミュレーション用途用途

■ Ada 世代 NVIDIA Ada Lovelace
	バス	メモリ量	CUDAコア数	Tensorコア数	RTコア数	HPC用途	AI用途
RTX 6000 Ada	4.0 x16	48GB	18,176	568	142	─	◯
RTX 5000 Ada	4.0 x16	32GB	12,800	400	100	─	◯
RTX 4500 Ada	4.0 x16	24GB	7,680	240	60	─	◯
RTX 4000 Ada※1	4.0 x16	20GB	6,144	192	48	─	◯
RTX 4000 SFF Ada※2	4.0 x16	20GB	6,144	192	48	─	◯
RTX 2000 Ada	4.0 x8	16GB	2,816	88	22	─	◯

　　　　　※1　メモリー帯域幅 360GB/s，消費電力 130W 　　　　　※2　メモリー帯域幅 280GB/s，消費電力 70W

■ Aシリーズ NVIDIA Ampere
	バス	メモリ量	CUDAコア数	Tensorコア数	RTコア数	HPC用途	AI用途
RTX A5000	4.0 x16	24GB	8,192	256	64	─	◯
RTX A4500	4.0 x16	20GB	7,168	224	56	─	◯
RTX A4000	4.0 x16	16GB	6,144	192	48	─	◯
RTX A2000	4.0 x16	6GB/12GB	3,328	104	26	─	◯

Tensorコアについて .

Tensorコアは、行列の積和演算ユニットであり、混合精度の融合積和演算に特化した機能を持っています。行列積は低精度で高速に処理し、和は高精度で計算することで、必要な精度で高速に処理できます。 Ampereアーキテクチャ（第3世代のTensorコア）では、従来の4×4行列から8x8行列への並列処理が拡張され、FP16に加えてFP32/FP64やInt4/Int8などでも利用できるようになりました。「自動混合精度演算(AMP)」のサポートも追加され、既存のプログラムへの簡単な追加で活用できるようになりました。

これにより、AIのトレーニングと推論用途に加えて、HPCの64ビット精度にも対応可能となっています。Hopper/Ada Lovelaceアーキテクチャ（第4世代のTensorコア）では、FP8もサポートされ、更にLLMなどの生成AI をターゲットにFP8とFP16のデータ形式を高度なソフトウェアアルゴリズムにより高速化するTransformer Engineが追加されました。 Blackwellアーキテクチャ（第5世代のTensorコア）では、FP6やFP4、第2世代Transformer Engineなどの拡張強化が施されています。

Tensorコア世代とサポート精度

世代（対応arch）

multiply精度

accum精度

FP64

TF32

FP16

BF16

FP8

INT8

INT4

INT1

FP64

FP32

FP16

INT32

Volta

─

◯

─

◯

─

Turing

─

◯

─

◯

─

◯

─

Ampere

◯

─

◯

Hopper / Ada Lovelace

◯

─

◯

AMD GPU

AI/機械学習・HPC用途の両方に高性能を発揮する AMD製GPGPUアクセラレータ

AMDは昔から優秀なグラフィックカードを生産してきました。NVIDA同様にHPC及びAI/機械学習用途などへGPGPUの利用を進めています。NVIDIA CUDAに相当するAPIであるAMD ROCmは、AMD Radeonグラフィックスカードもサポートするので、現在、大規模解析も可能なGPGPU専用ラインナップは多くはありませんが、比較的小規模な処理には対応可能です。また、AI系ではメジャーなフレームワークであるTensorflowとPytorch、HPC系ではAmber、GROMACS、CP2K、LAMMPS、OpenFOAMなどが対応しています。※対応するアプリケーションは限定されていますので、ご注意ください。性能自体は、AI/機械学習系ではNVIDIAのハイエンド製品に拮抗し、HPC系の数値演算ではアドバンテージを持つとされています。大きなGPUメモリとメモリ帯域、抜群のコストパフォーマンスと相まって、今後、対応製品や対応アプリケーションの拡充が期待されます。

▼ 対応アプリケーションについてはこちらでご確認ください AMD Infinity Hub　🔗 https://www.amd.com/ja/developer/resources/infinity-hub.html

▼ AMD ROCmについての詳細はこちら AMD ROCm™ ソフトウェア　🔗 https://www.amd.com/ja/products/software/rocm.html

人工知能領域でTensorFlowやPyTorchをお使いのユーザさまに

	搭載形態		メモリ量	アーキテクチャ	メモリ帯域	HPC用途	AI用途	GPU用途
AMD Instinct MI300X プラットフォーム	8基のMI300Xアクセラレータ（OAMモジュール）を1枚のUBBボードフォームファクターに搭載	専用プラットフォーム	HBM3　合計1.5TB	AMD CDNA3 Infinity Fabric Links（第4世代） 896GB/s x8	OAMあたり 5.3TB/s	◯	◯	─
AMD Instinct MI300X アクセラレータ	OAM モジュール（PCIe 5.0 x16）	OCPの仕様に基づいたサーバ	HBM3　192GB	AMD CDNA3 Infinity Fabric Links（第4世代） 896GB/s x8	5.3 TB/s	◯	◯	─
AMD Instinct MI300A APU	AMD InstinctアクセラレータとAMD EPYC Zen4 3.7Ghz24Coreプロセッサを1チップ化	専用プラットフォーム	HBM3　128GB	AMD CDNA3 Infinity Fabric Links（第4世代） 896GB/s x8	5.3 TB/s	◯	◯	─
AMD Instinct MI210 アクセラレータ	PCIe4.0x16 アドインカード	Intel Xeon/AMD EPYCプラットフォーム	HBM2e 64GB	AMD CDNA2 Infinity Fabric Links（第3世代） 800GB/s x3	1.6 TB/s	◯	◯	─

ご質問、ご相談、何でもお気軽にお問い合わせください。