富士通 PRIMEHPC A64FX プラットフォーム
「富岳」の流れをくむ、
高性能・高拡張性・高信頼性・省電力性
に優れたスーパーコンピュータ
スーパーコンピュータ「富岳」のために作られた富士通のA64FXプロセッサは、Arm v8.2-A SVE(512-bit SIMD)と呼ばれるスパコン向けに拡張された命令セットを持っています。1CPUは48個の演算コア、メモリ帯域1024GB/sの高速なHBM2メモリを32GB利用可能です。
富士通は、このCPUを搭載したFUJITSU Supercomputer PRIMEHPCシリーズの発売を開始しました。
「富岳」向けのアプリケーション開発・検証環境はもとより、高性能Armサーバとして、HPCクラスタの高性能計算ノードとしてもご活用いただけます。
VTは通常の19インチラックマウントで利用できる、空冷仕様のPRIMEHPC FX700をご提供いたします。
価格や納期なども含め、お気軽にお問い合わせください。
※SVE: Scalable Vector Extension
512-bitのSIMD演算は、倍精度は8要素、単精度は16要素、半精度は32要素を同時に演算することができます。
※「富岳」はこのCPUを約15万個実装し、先代の「京」の100倍のアプリケーション実行性能を僅か3倍の消費電力で達成するとされています。
A64FX 高クロック版CPUラインアップ追加!
FX700向けに、動作周波数を2.0GHz or 1.8GHzから2.6GHz に高めた、新CPUがリリースされました。
詳細はこちらをご覧ください。
「スーパーコンピュータ「富岳」と今後の展開」-商用アプリケーションの拡大 (2020/6 現在 富士通)
LS-DYNA,Poynting,Amber,Gaussian16をはじめとして、エンジニアリング分野(構造解析、流体解析、エレクトロニクスなど)の商用ソフトベンダーはアプリケーションの対応を進めています。
「PRIMEHPC FX1000/FX700 アプリケーション関連情報 (2022/1/14現在 富士通)
現時点までの商用/Open-Source Software (OSS)アプリケーションの対応状況と評価結果をまとめた情報です。
FEATURE富士通 PRIMEHPC A64FX プラットフォーム
富士通のA64FXプロセッサ
スパコン向けCPUとして世界で初めて英アーム(Arm)の命令セット・アーキテクチャー(ISA)を採用した、富士通のA64FXプロセッサは、いくつかの顔を持っています。
1.富士通が独自に開発してきたOut-of-Order実行機能をもつハイエンドプロセッサ
スーパーコンピュータ「富岳」向けのアプリケーションの開発・検証環境として利用できます。
x86環境でのクロスコンパイラなども提供されており、柔軟な開発/評価環境が構築できます。
2.高性能Armプロセッサ
命令アークテクチャはArm v8.2-A SVE(512-bit wide SIMD)命令セットで、基本的にはArm用アプリケーションを動かすことが可能です。
※SVE: Scalable Vector Extension
512-bitのSIMD演算は、倍精度は8要素、単精度は16要素、半精度は32要素を同時に演算することができます。
3.メニーコア、広帯域大容量メモリ、省電力性を生かしたHPCプラットフォーム
1プロセッサ当たり48コア、メモリ帯域1024GB/sの高速なHBM2メモリを32GB利用可能です。更に、省電力性能を生かして2U筐体で最大8プロセッサ/8ノード構成、InfiniBand EDRを装備したFX700はHPCクラスタとしても活用可能です。
ただし、1ノード/CPU当りの最大メモリは32GBという制限がありますので、大容量メモリが必要なアプリケーションのご利用にはご注意ください。
A64FXの構造:
A64FX CPUは4つに区分されており、各区画に演算用の12個のComputeコアを持っています。全体での演算コア48コアとなります。
各コアは64KiBのL1データキャッシュを備えています。また4つの区画ごとに、区画内の全コアに共通で8MiBのL2キャッシュを持っています。L2キャッシュからは、最大容量が8GiB/メモリバンド幅256GB/sのHBM2メモリに接続されます。プロセッサ全体でのメモリは帯域1024GB/s、容量32GBに達します。
A64FXのメモリバンド幅
- L1データキャッシュ:11TB/s(B/F比4)
- L2キャッシュ:3.6TB/s(B/F比1.3)
- HBM2メモリ:1024GB/s(B/F比0.37)
※B/F値 =データ移動量(Byte)/演算量(Flop)
※ FX700のインターコネクト(ノード間通信)はTofuではなく、PCIeバスにInfiniBand EDRカード(オプション)を利用します。
機能のトピックス:
- アラインされていないデータの読み込みを高速で行うことができる。
アラインされていないアドレスからの読み込み時でも、次のキャッシュラインを同時に読み込み、その中からアクセスされたアドレスから128バイトの読み込みを行う機能を持っています。 - アラインされた領域の2つのデータをまとめてレジスタにロードすることができる。
「Combined Gather」と呼ばれる機能です。
間接アドレッシングでデータを集めてレジスタにロードする際、128バイトのアラインされた領域に2つのデータが入っていれば、それらを纏めてレジスタに入れる機能で、条件によっては、1つずつロードするのと比べて半分の時間で処理ができます。 - 省エネルギー性を考慮した4命令並列デコード
各Computeコアは整数演算器と浮動小数点演算器を2セット持つ。また、省エネルギー性して、不要の時はこの部分の電源をオフにすることができます。 - FP16 やInte8をサポートするSIMD(Single Instruction Multiple Data)演算機能
機械学習/Deep Learningの畳み込みなどを想定して、精度の要らない演算を高速に処理できるよう、FP16やInt8をサポートしています。 - 製造プロセスはTSMCの7nm FinFET
搭載トランジスタ数は878億6000万で、パッケージの信号端子数は594です。
富士通の培ってきたソフトウェア環境
富士通はこれまで、スーパーコンピュータの分野のフトウェア環境についても、多くの先進的な取り組みを重ねてきました。コンパイラやライブラリ類、運用を支援する各種ソフトウェアなどが整備されています。また、各種コンサルテーションも充実しています。
商用アプリケーションの充実
「富岳」とPRIMEHPC FX700はバイナリ互換です。対応した商用アプリケーションが順次リリースされます。
非線形構造解析ソフト「LD-DYNA」や分子動力学計算ソフト「Amber」、量子化学計算ソフト「Gaussian16」、更にPAW法での平面波第一原理計算ソフト「VASP」や流体解析ソフト「AnsysFluent」、CAE用構造解析ソフト「Radioss」など多くのリリースが予定されています。
性能比較
Xeon 8168(Dual構成48コア)、A64FX(シングル構成48コア)、NECのSX-Aurora、NVIDIAのV100 GPUを比較した結果を、ISC 2019にて富士通が発表しています。
メモリ帯域の依存度が高い姫野ベンチの実行性能:
A64FXは同じコア数のXeon Plutnu8168 Dual構成の4倍、SX-AuroraやV100を凌駕する性能を示しています。
2019 HPCフォーラム発表 スーパーコンピュータ「富岳」の開発より
A64FXのアプリケーション性能 姫野ベンチマーク
2019 HPCフォーラム発表 スーパーコンピュータ「富岳」の開発より
A64FXのアプリケーション性能 姫野ベンチマーク
気象モデルのWRFでのベンチマーク:
WRF v3.8.1(48hour,12Km,CONUS)にて、A64FXは同じコア数のXeon8168 Dual構成より32%速いという結果となっています。更にディレクティブを使用したソースコードの調整により、コンパイラの最適化が促進され、56%速いとのこと。
2019 HPCフォーラム発表 スーパーコンピュータ「富岳」の開発より
A64FXのアプリケーション性能 WRF: Weather Research and Forecasting model
2019 HPCフォーラム発表 スーパーコンピュータ「富岳」の開発より
A64FXのアプリケーション性能 WRF: Weather Research and Forecasting model
PRIMEHPC FX700 の概要
19”サーバーラックに搭載できる空冷方式の2U筐体(最大8ノード/8CPU)とすることで、導入のしやすさに配慮したモデルです。また、インターコネクトに汎用のInfiniBandを採用し、OSはRed Hat Enterprise Linux 8.0(またはCentOS 8.0)、HPCミドルウェアにオープンソースソフトウェア(OSS):OpenHPCを活用するなど、スーパーコンピュータシステムにおけるスタンダード技術をベースとしています。
「富岳/A64FX」のすそ野を広げるモデルです。
※注意:Red Hat Enterprise Linux 8.0でご利用になる場合、ライセンスは最小4ノードからの購入可能となります。
また、管理やコンパイル用のノードとして富士通 PRIMERGYシリーズ(x86-64サーバ)が指定されます。
■スーパーコンピュータ「富岳」由来のハードウェア
CPU「A64FX」(48コア)、1CPU/1ノード当たり32GBの広帯域メモリを搭載
「富岳」」とバイナリ互換
■高性能を容易に導入可能
通常の空冷方式を採用した19インチラックマウント2U筐体
2CPU/2ノード搭載のブレードを最大4枚搭載可能(合計8ノード:384コア構成)
各ノードにInfiniBand EDR(100Gbps) 1ポート PCIeカード、NVMe SSD 512GB
■多彩な用途・分野に活用可能
「富岳」向けのアプリケーション開発・検証環境としてだけではなく、高性能Armサーバとして、また高性能HPCクラスタの計算ノードとしてもご活用いただけます。
■「FUJITSU Software Compiler Package」
Fortran、C言語、およびC++言語による、高性能な並列プログラムの開発/実行環境がご利用いただけます。
※ 現在「FUJITSU Software Compiler Package」でソースコードをコンパイルしてArm用のバイナリを作成するためには、x86-64環境が必要です。
FX700単体での導入をご検討の場合、ご注意ください。
PRIMEHPC FX700 によるクラスタ構成例
FX700は2U筐体に2CPU/2ノードのブレードを単位として最大8ノート/8CPUを搭載可能です。各ノード(1CPU)のメモリ搭載量は最大32 GBですので、大規模なメモリが必要な用途には、高速なネットワークで構成されたクラスタ構成が必要です。
FX700は「富岳」と異なりInfiniBandでノード(CPU)間を接続します。
下記にFX700によるクラスタ構成例を示します。
NFSファイル共有は、10GbEth以上の高速なインタフェースを推奨します。
ご利用のアプリケーションの特質から、MPI用のInfiniBandや、制御系の1GbEthを使う構成も可能です。