A study on resource allocation for parallel and distributed machine learning tasks

 

Authors:Akiyoshi Sugiki

Affiliation:Information Initiative Center, Hokkaido University

Abstract:(目的)本研究では,近年の機械学習の中核である並列分散SGD(Stochastic Gradient Descent)に対して,学習時間の改善に関する研究を実施した.
(内容)大阪大学OCTOPUSが有するGPUノード,汎用CPUノードなどのさまざまな計算機で,並列分散化された学習タスク間で学習時間にばらつきが生じることを確認し,各タスクの学習時間をリソース割り当ての工夫により,平準化することで,改善することを試みた.
(結果)特に学習の遅れたタスクはstragglerとして知られており,広く改善が必要である.所属機関を含む他拠点の計算資源での研究の展開や,翌年度以降の研究に向けた知見が得られた.

 

Publication related to your research
(Etc)

  • 杉木章義,北海道大学ハイパフォーマンスインタークラウドの概要 ~ハードウェア調達から継続的なソフト力の強化へ~,Cyber HPC Symposium 2019基調講演,大阪大学サイバーメディアセンター,2019年3月8日.

 




Posted : March 29,2019