SQUIDにおける分散深層学習のスケーラビリティ向上
氏名:高橋慧智
所属:大阪大学 D3センター
概要:SQUIDにおける分散深層学習のスケーラビリティを測定・改善することを目的とし、MLPerf HPCのCosmoFlowベンチマークをGPUノード上で実行した。大規模実行時にはストレージI/Oや集団通信がボトルネックとなることを特定し、データセット読み込みの並列化、前処理のGPUオフローディング、GPUメモリへのプリフェッチ、CPUコア割当の固定など多面的な最適化を実施した。その結果、1ノードで3.6倍、16ノードで2.4倍の性能向上を達成した。
論文掲載,発表実績:
(国内研究会等発表論文)
- 東郷凜太朗, 高橋慧智, 速水智教, 曽我隆, 遠藤新, 伊達進, “SQUID GPUノード上でのMLPerfHPCを用いた分散深層学習の性能評価”, 研究報告ハイパフォーマンスコンピューティング (HPC),vol. 2025-HPC-199, no.10, pp. 1-10, 2025年5月.
Posted : 2025年03月31日