スーパーコンピュータ「富岳」が機械学習処理ベンチマークMLPerf HPCで世界第1位を獲得

Photo by JJ Ying on Unsplash

富士通株式会社は、スーパーコンピュータ規模の処理を必要とする大規模機械学習処理のベンチマーク「MLPerf HPC」の1つである深層学習モデル「CosmoFlow」※で、同社と理化学研究所が開発したスーパーコンピュータ「富岳」が世界最高速度を達成して第1位を獲得したと発表した。機械学習を利用した大規模な科学技術計算の分野において世界最高レベルの性能を持つことが示されたという。

「MLPerf HPC」は、大規模機械学習計算をスーパーコンピュータで行った際のシステム性能を評価するために、2020年に策定された機械学習ベンチマークだ。MLPerf HPCには3つのベンチマーク・プログラムがあり、CosmoFlowもそのひとつ。今回からは単位時間あたりに深層学習モデルをいくつ学習数を測定できるか(スループット性能)も測定している。

CosmoFlowは「富岳」の約半分の規模を用いて、複数の深層学習モデルを一定の予測精度まで学習させ、はじめに学習を開始したモデルの開始時刻から最後に学習を終えたモデルの終了時刻までを計測しスループット性能を評価した。

今回「富岳」の並列処理性能をさらに引き出すため、複数の学習モデルを並行して処理するときに発生するCPU同士の通信の相互干渉を減らした。加えて、CPUとストレージ間でのデータの通信量を最適化する技術を「富岳」上のプログラムに適用させた。

結果、深層学習モデルを8時間16分で637個(1分あたりで約1.29個)学習し、CosmoFlowの同カテゴリに登録した全システムの計測値の中で第1位となった。他システムの性能と比較し約1.77倍の性能差をつけたことになる。

リリースによると、今後、今回の計測にあたって開発した大規模機械学習処理を高速化するライブラリやAIフレームワークといったソフトウェアスタックは一般公開されるという。

スーパーコンピュータを用いた大規模機械学習処理の知見を広く共有することで、シミュレーション結果の解析による、宇宙物理学をはじめとする科学技術上の新たな発見へつながることが期待できるという。また特定の分野に限らず、機械翻訳サービスなどで活用されている自然言語処理モデルといった他の大規模機械学習計算への応用を見込み、技術革新を加速や社会的・科学的課題の解決に貢献する。

>>プレスリリース

>>MLCommons

※宇宙空間に分布する暗黒物質の3次元シミュレーション結果から、宇宙論的パラメータを予測する深層学習モデル