2021.11.26

SQUID GPUノード群のGPUで使った最大メモリサイズを取得したい

以下のコマンドで取得可能です。ジョブスクリプトの最後で実行してください。

$ nvidia-smi --query-accounted-apps=timestamp,gpu_name,gpu_bus_id,gpu_serial,gpu_uuid,vgpu_instance,pid,time,gpu_util,mem_util,max_memory_usage --format=csv

出力例は以下のとおりです。最後に記載されている523MiBがGPUで使用した最大メモリサイズです。

2021/11/24 19:26:26.333, A100-SXM4-40GB, 00000000:27:00.0, 1564720026417, GPU-a3b25bed-7bb1-cbd8-89e3-3f14b6118874, N/A, 761279, 117202 ms, 2 %, 0 %, 523 MiB

ジョブクラス「SQUID-S」を使用している場合は、同じノード内で別の方のジョブが実行されている場合があるため、正しい値が取得されない可能性があります。予めご了承ください。

2021.11.08

SQUIDのGPUノードでPytorchを使用したい

ご自身でインストールすることで、利用可能です。手順は以下のとおりです。

python venvを使用する

インストール手順

利用手順(ジョブスクリプト例)

 

Anacondaを使用する

インストール手順

利用手順(ジョブスクリプト例)