SQUIDにおける分散深層学習のスケーラビリティ向上

 

氏名:高橋慧智

所属:大阪大学 D3センター

概要:SQUIDにおける分散深層学習のスケーラビリティを測定・改善することを目的とし、MLPerf HPCのCosmoFlowベンチマークをGPUノード上で実行した。大規模実行時にはストレージI/Oや集団通信がボトルネックとなることを特定し、データセット読み込みの並列化、前処理のGPUオフローディング、GPUメモリへのプリフェッチ、CPUコア割当の固定など多面的な最適化を実施した。その結果、1ノードで3.6倍、16ノードで2.4倍の性能向上を達成した。

 

論文掲載,発表実績:

(国内研究会等発表論文)

  • 東郷凜太朗, 高橋慧智, 速水智教, 曽我隆, 遠藤新, 伊達進, “SQUID GPUノード上でのMLPerfHPCを用いた分散深層学習の性能評価”, 研究報告ハイパフォーマンスコンピューティング (HPC),vol. 2025-HPC-199, no.10, pp. 1-10, 2025年5月.

 




Posted : 2025年03月31日