実はExa時代到来?

SC21が盛り上がっているようで、現地に行けない自分が悲しい…

さて、大盛りあがりのSC21では、Top500のBoFが行われたようです。といっても、先の記事で述べました通り、Top500はそんなに動きがなかったので面白くはないのですが、そこで面白い表が公開されていたようです。

今回登録されていなかった中国のシステム、ゴードンベル賞のFinalistでは姿を見せていた、Tianhe-3とSunwayの後継機ことOceanlightの数字が明かされました。
双方、カタログスペックでは1Exa超え、Oceanlightの方は実測で(つまりRmaxで) 1.05ExaFlopsを達成しているというのだから驚きです。
Tianhe-3は調整が間に合わなかったのかまだちゃんとした数字が出ていませんが、1.3ExaFlops以上とされており、こちらもRmaxでExaFlopsを超えているようです。

ExaFlops時代への一番乗りは中国となったようです。
しかし、なんとも静かなExa時代の幕開けですね…

Nov 2021 Top500 / Green500発表

半年に一度のおまちかね、スーパーコンピュータのお祭り、Top500/Green500が発表されました。

www.top500.org

Top500は

TOP500 List - November 2021 | TOP500

から。 とはいえ、今回のTop500はそんなに動きがありません。中国で稼働しているとされる、Sunwayの新システムも、Tianhe系列の新システム(3?) も、リストには載っていないからです。ゴードンベル賞ファイナリストのプレプリントには載っているので、HPLは動いているはずなのですが…. 中国ではTop500には出さない、というのが方針なのかもしれません。まぁ、下手に一位とか取るとアメリカの予算増えますしね(?

一方、Green500は

Green500 List - November 2021 | TOP500

大きな動きがあって、非常に面白いことになっています。
まず、日本はPFNのMN-3が首位を維持しました。性能は、なんと39.38GFlops/Wということで、前回から更に電力性能を3割も伸ばしてくるという大快挙です。

プレスリリースを読むと分かる通り

PFNの深層学習用スーパーコンピュータMN-3、39.38GFlops/Wの電力効率を記録しGreen500ランキングで3度目の世界1位を獲得 - 株式会社Preferred Networks

MN-Coreは2020年5月の運用開始から同一のものを使用していますが、ソフトウェアによる制御のさらなる効率化、MN-Core同士を相互接続する専用インターコネクト(計算機ノード間を結ぶネットワーク)の改善などにより、前回(2021年6月)と比較して、計算能力が19.70%、電力効率が32.59%と飛躍的に向上しました。

とのことなので、実効効率を2割向上して消費電力を削減することで電力効率の向上を実現しています。
12nmのプロセッサでここまでできるのは、アーキテクチャの素晴らしさもさることながら、ソフトウェアチームもまた素晴らしいと思います。皆様、おめでとうございます。

さて、今回は4位までがすべて30GFlops/Wを超えるという、いよいよ50GFlops/Wの壁さえも突破しそうな勢いを感じられるような、性能向上のスピードが圧倒的に加速しているといえるランキングになっています。
惜しむらくは、MN-Coreを除くと、上位がほぼ全てA100で埋まってしまうという状況ですが…こればっかりはA100の効率が大変良いので仕方ないというか…A100は超強力というか…. そんな中、PEZY ComputingがPEZY-SC3でGreen500の12位につけています。
NA-IT1という小規模システムですが、PEZY-SC3でのシステムができたのは喜ばしいことです。電力性能としては24.6GFlops/Wということで、上位勢と比べるとやや見劣りする数字ではありますが、Tensor回路のないアクセラレータとしてはなかなかの数字かと思います。

今回はMI250Xを搭載したFrontierの小規模システムが出てくるかなと思いましたが出てきませんでした。Frontier, Auroraの対決は次回以降に持ち越しのようです。

AMD Instinct MI250Xは49.6TFlops@DPを達成?

videocardz.comさんより、AMD Instrinct MI250Xの性能のリークが出ています。

videocardz.com

TDPが500Wに対し、倍精度で49.6TFlopsの性能と書かれています。これが本当だとすると、カタログスペックでは100GFlops/Wと、他社の競合製品を一気に引き離す性能を実現可能になります。
近年のRadeon系はカタログスペックが非常に良いので、あとはソフトウェアスタックがもう少しNVIDIAに追従してくれば、いい勝負ができるのではないかと数年間言い続けているような気がしますね。まぁこれはFrontierとORNLの頑張り次第なのではないかと思うところはあります。

ただ、気になるのは、FP32とDPの性能が同一であるということです。
近年では、TensorCoreに代表されるように行列演算回路を積むのがトレンドとなっていますが、FP32とDPの性能が同一ということは、FP32を処理するときにDPに変換するということです。つまり回路的にはDP回路しか入っていないことになります。同様の仕組みでFP32を処理していたのは京のプロセッサのSPARC64 VIIIfx、開発コードVenusでした。Venusの場合は、科学技術計算用ということで倍精度だけでいいだろうという判断がされたのでしょうが、AMD Instinctはディープラーニングの学習のことを考えるとFP32性能も捨てるわけにはいかないのではないかと考えられます。

いずれにせよ、製品が出てくるのを楽しみにしたいところです。

SK HynixのHBM3アナウンス

SK HynixがHBM3をアナウンスしました。

www.anandtech.com

HBMはHPC分野で重宝されている広帯域メモリです。現行ではHBM2/HBM2eが使われています。 NVIDIA A100はHBM2e, 富岳のA64fxはHBM2が使われています。

HBMの泣き所として、容量が少ないという点があります。A64fxでは4ch(と表記するのが正確かはすこし悩むところがある) で32GBとなり、こんにちのサーバー用プロセッサと比較すると非常に少ない(GPUのデバイスメモリかな?) のがネックでした。この問題は、HBM3になることで多少は緩和できそうです。

今回アナウンスされたのは2GBのDRAMを12スタックまで積層できるもので、このときの帯域は819.2GB/sになります。 HBM2比で言えば約3.2倍、HBM2e比でも約1.7倍の帯域です。これをA64fxと同じだけ積んだとしたら、チップ単位では3.2TB/sの帯域となります。非常に高速なチップが作れそうですね。

気になるのは消費電力ですが、現状より低くなることはないと考えられるので、HBM側の消費電力もこれから馬鹿にならない時代に突入しそうですね。いや、現状でも結構厳しかったりしますけれど…

アリババクラウドがArmプロセッサとRISC-Vプロセッサを発表

アリババクラウドがArmプロセッサとRISC-Vプロセッサを発表しました。

www.alibaba.co.jp

アリババの子会社のT-headという会社が開発したプロセッサたちのようです。
Armのプロセッサ、Yitian 710はArm v9アーキテクチャを採用した128コアのプロセッサです。DDR5 8chを搭載し、PCI Expressは96レーンを持っています。 トランジスタ数は60億となっており、これはAMDの第二世代EPYCの40億と比較して1.5倍のトランジスタ数です。 マイクロアーキテクチャの詳細については触れられていませんが、T-headはNeoverse N1を使っていたようなので、N2かもしくは自前で起こしたのかもしれません。

RISC-VプロセッサのXuanTie 910は、
昨年のHopchipsで詳細は公開されていましたが

www.anandtech.com

この度オープンソースとして公開されることになりました。

github.com

RISC-Vの実装はいくつか公開されていますが、パフォーマンスの高い実装が公開されるようになると、参入しやすくなって非常に良いですね。

Apple M1 Pro/Max発表

Appleによる、Macbook Proの発表会が行われましたね。 CPUオタク的にはM1のバージョンアップであるM1Xとか呼ばれていたチップが気になっていたところですが、M1 Pro / M1 Maxという名前で発表されました。

www.anandtech.com

ProはCPU 10コア / GPU 16コア、MaxはCPU 10コア / GPU 32コアとなっています。MBP 14インチの最下位モデルではCPU 8コア / GPU 14コアとなり、それぞれ2コアずつDisableになっていますが、これは歩留まりのためでしょう。 製造はTSMCの5nm。5nmを使用してこの価格で販売できるということは、相当な数を生産しているということかと思います。 Pro / Maxのダイサイズは、それぞれ215mm2 と 432mm2なので、相当なモンスターチップであることがわかります。 プロセスルールが違うので同一比較に意味はないですが、GTX3070Tiのダイサイズが392mm2だそうなので、SoCとはいえGPUに匹敵するサイズになっています。

特筆すべきは高効率コアとパフォーマンスコアの比率が変更されたことと、メモリ帯域が増加したことでしょうか。GPUの性能向上も大きいですが、ここでは触れません。特にGPU触らないんで…(? しかしダイ写真を見ると、CPU部分よりもGPU部分が圧倒的に大きくなっているので、Xeonに匹敵する性能のArmコアであってもこれだけ小さく収めることができるようになったというのはなかなか隔世の感があります。もうArmを1000コアとか並べればいいんじゃないかな。

メモリはProでLPDDR5-6400を採用し、128bitインタフェースが2つあるので、204.8GB/sを達成しています。DDR4-3200の8ch相当までLPDDR5で達成できているというのは偉大だと思います。まぁ単純に比較するのも意味ないんですけど。 Maxに至っては更に倍の409.6GB/sを達成しており、なんかもう超強力なCPU過ぎて困りますね。CPUだけでメモリ帯域引ききれるのかというのも逆に気になってきます。 というか、これを巨大にしたらHBMを積んだSapphire Rapidsとかいらないのでは…

Ampere Altra Max M128ベンチマーク

Anandtechさんによる、Ampere Altra Max M128の詳細ベンチマークが公開されています。

www.anandtech.com

今回テストされたのはM128-30という最上位モデルです。マイクロアーキテクチャとしてはArm社のNeoverse N1を採用しています。これは前世代のAltraシリーズと同様です。 直接の競合となるのは第三世代EPYC、第三世代Xeno Scalableでしょうが、EPYCはともかく、Xeonはやや苦しい戦いを強いられそうです。

Altra Max M128の特徴としては、非常に高いメモリ帯域を持つことが挙げられます。DDR4 8ch / Socketであり、第三世代EPYCと同等のメモリスペックのはずですが、実効性能は第三世代EPYC、第三世代Xeon Scalableを上回っています。足回りが(いつも) 怪しいAMDはともかく、信頼できるIntelさえも上回るというのは、なかなか素晴らしいことです。

ここまで強いArmのプロサッサが出てくると、x86陣営の置き換えも加速しそうですね。 一度使ってみたいものです。

www.oracle.com

Oracle Cloudさんに前世代のがあるみたいなので、使ってみようと思います。