Improving the Scalability of Distributed Deep Learning on SQUID
Authors:Keichi Takahashi
Affiliation:D3 Center, The University of Osaka
Abstract:SQUIDにおける分散深層学習のスケーラビリティを測定・改善することを目的とし、MLPerf HPCのCosmoFlowベンチマークをGPUノード上で実行した。大規模実行時にはストレージI/Oや集団通信がボトルネックとなることを特定し、データセット読み込みの並列化、前処理のGPUオフローディング、GPUメモリへのプリフェッチ、CPUコア割当の固定など多面的な最適化を実施した。その結果、1ノードで3.6倍、16ノードで2.4倍の性能向上を達成した。
Publication related to your research:
(Domestic conference/wokrshop)
- 東郷凜太朗, 高橋慧智, 速水智教, 曽我隆, 遠藤新, 伊達進, “SQUID GPUノード上でのMLPerfHPCを用いた分散深層学習の性能評価”, 研究報告ハイパフォーマンスコンピューティング (HPC),vol. 2025-HPC-199, no.10, pp. 1-10, 2025年5月.
Posted : March 31,2025