当センターの計算機では、下記のスケジューラコマンドを提供しています。
qsubコマンド:バッチリクエストの投入
qstatコマンド:バッチリクエストの状態確認
qstatgroupコマンド:所属するグループ,課題内のバッチリクエストの状態を確認
qstatallコマンド:現在投入されている全バッチリクエストの状態を確認
sstatコマンド:バッチリクエストのスケジューリング状態を確認
sstatgroupコマンド:所属するグループ,課題内のバッチリクエストのスケジューリング状態を確認
sstatallコマンド:現在投入されている全バッチリクエストのスケジューリング状態を確認
qcatコマンド:ジョブスクリプト/標準出力/標準エラー出力の確認
qdelコマンド:バッチリクエストの削除
acstatコマンド:過去のジョブ情報の確認
acstatgroupコマンド:所属するグループ,課題内の過去のジョブ情報の確認
その他コマンド
バッチリクエストの投入
バッチリクエスト投入は、qsubコマンドを使用します。
% qsub [ジョブスクリプトファイル名]
実行例
Request 12345.sqd submitted to queue: SQUID.
上記の例はジョブクラス「SQUID」に対して、バッチリクエストを投入した際の表示です。
投入し、受け付けられたバッチリクエストには リクエストID が付けられます。
上記の例では12345.sqdというリクエストIDが付いています。
バッチリクエストの状態確認
バッチリクエストは受け付けられると「QUE」(キュー)状態になります。
次に、実行開始時間が決まりスケジューラマップに配置されると「ASG」(アサイン)状態になります。
そして実行が開始されると「RUN」(実行)状態となります。
こういったバッチリクエストの状態を確認するために、当センターでは下記のコマンドを用意しています。
コマンド名 | 表示内容 |
---|---|
qstat | 自分が投入したバッチリクエストの状態を表示する |
sstat | 自分が投入したバッチリクエストのスケジュール状態を表示する |
qstatコマンド
自分が投入したバッチリクエストの状態を表示します。
% qstat
表示例
RequestID ReqName UserName Queue Pri STT S Memory CPU Elapse R H M Jobs
----------- -------- -------- -------- ---- --- - -------- -------- -------- - - - ----
53678.oct AAA.nqs User_A OC1C 0 RUN - 617.29M 79997.28 80254 Y Y Y 1
53720.oct BBB.nqs User_A OC1C 0 QUE - 0.00B 0 0 Y Y Y 1
qstatコマンドで表示される情報は下記の通りです。
RequestID:リクエストID
投入したバッチリクエストに割り振られるIDになります。
ReqName:バッチリクエスト名
ジョブスクリプト名が表示されます。
UserName:ユーザ名
Queue:バッチリクエストが存在するキュー名
実際にここで表示されるキュー名は「実行キュー」名となります。
「実行キュー」については各資源毎のジョブクラス表をご覧ください。
ジョブクラス表
Pri:バッチリクエストの優先度
STT:バッチリクエストの状態
- QUE queued:実行待ち状態
- RUN running:実行中
- POR post-running:スレーブリクエストの実行終了待ち状態
- PRR pre-running:スレーブリクエストの実行開始待ち状態
- EXT exiting:実行結果ファイルの転送中(ステージアウト含む)
- STG staging:バッチジョブの生成、ファイル転送中(ステージイン)
- HLD held:保留中
- HOL holding:保留要求中
- WAT waiting:開始時刻の待ち合わせ中
- SUS suspending,suspended,resuming:実行一時中断の要求中/中断中/再開中
- TRS transferring:転送キューからの送信中
- ARI arriving:転送キューからの受信中
- MIG migrating:動的ジョブマイグレーションによるリクエスト移動中
- RST restarting:チェックポイントからのリスタート中
- CHK checkpointing:チェックポイントの採取中
S:ストール状態
- Y ストール
- - 正常
- ストール状態になっているバッチリクエストは正常に実行されません。
qstatgroupコマンド
自分と、自分が所属がしているグループのユーザが投入したバッチリクエストの状態を表示します。
HPCI利用者の場合は、自分が所属している課題のユーザが投入したバッチリクエストの状態を表示します。
% qstatgroup
表示例
RequestID ReqName UserName Queue Pri STT S Memory CPU Elapse R H M Jobs
----------- -------- -------- -------- ---- --- - -------- -------- -------- - - - ----
53678.oct AAA.nqs User_A OC1C 0 RUN - 617.29M 79997.28 80254 Y Y Y 1
53720.oct BBB.nqs User_A OC1C 0 QUE - 0.00B 0 0 Y Y Y 1
53234.oct CCC.nqs User_B OC1C 0 RUN - 20.93M 221.23 234 Y Y Y 1
53213.oct DDD.nqs User_C OC1C 0 QUE - 1.23B 3423.23 3234 Y Y Y 1
qstatgroupコマンドで表示される情報については、qstatコマンドの欄をご覧ください。
表示される情報は15分間隔での更新となりますので、ご注意ください。
qstatallコマンド
現在投入されている全バッチリクエストの状態を表示します。
自分と、自分が所属しているグループのユーザが投入したバッチリクエスト(HPCI利用者の場合は自分が所属している課題)以外は、ユーザ名とスクリプト名をマスクした状態で表示します。
% qstatall
表示例
RequestID ReqName UserName Queue Pri STT S Memory CPU Elapse R H M Jobs
--------------- -------- -------- -------- ---- --- - -------- -------- -------- - - - ----
53678.oct AAA.nqs User_A OC1C 0 RUN - 617.29M 79997.28 80254 Y Y Y 1
53720.oct BBB.nqs User_A OC1C 0 QUE - 0.00B 0 0 Y Y Y 1
53234.oct CCC.nqs User_B OC1C 0 RUN - 20.93M 221.23 234 Y Y Y 1
53213.oct DDD.nqs User_C OC1C 0 QUE - 1.23B 3423.23 3234 Y Y Y 1
43221.oct -------- -------- OC1C 0 RUN - 941.32M 1767693.09 227760 Y Y Y 1
53311.oct -------- -------- OC1C 0 RUN - 50.30G 3354746.67 167759 Y Y Y 1
53423.oct -------- -------- OC1C 0 RUN - 21.74G 3451262.81 172590 Y Y Y 1
53223.oct -------- -------- OC1C 0 RUN - 1.56G 3539750.07 147540 Y Y Y 1
53331.oct -------- -------- OC1C 0 RUN - 217.18M 813753.53 95160 Y Y Y 1
qstatallコマンドで表示される情報については、qstatコマンドの欄をご覧ください。
表示される情報は15分間隔での更新となりますので、ご注意ください。
sstatコマンド
自分が投入したバッチリクエストのスケジューリング状態を表示します。
% sstat
表示例
RequestID ReqName UserName Queue Pri STT PlannedStartTime
--------------- -------- -------- -------- ----------------- --- -------------------
12345.oct AAA.nqs User_A OC1C 3.0585/ 3.0585 RUN 2018-04-01 11:33:01
sstatコマンドで表示される情報は下記の通りです。
RequestID:リクエストID
投入したバッチリクエストに割り振られるIDになります。
ReqName:バッチリクエスト名
ジョブスクリプト名が表示されます。
UserName:ユーザ名
Queue:バッチリクエストが存在するキュー名
実際にここで表示されるキュー名は「実行キュー」名となります。
「実行キュー」については各資源毎のジョブクラス表をご覧ください。
ジョブクラス表
Pri:バッチリクエストの優先度
STT:バッチリクエストの状態
- QUE QUEUED:リソースの割り当て待ち状態
- ASG ASSIGNED:リソースが割り当てられた状態
- RUN RUNNING:実行中
- POR POST-RUNNING:スレーブリクエストの実行終了待ち状態
- PRR PRE-RUNNING:スレーブリクエストの実行開始待ち状態
- EXT EXITING:実行結果ファイルの転送中(ステージアウト含む)
- STG STAGING:バッチジョブの生成、ファイル転送中(ステージイン)
- HLD HELD:保留中
- HOL HOLDING:保留要求中
- WAT WAITING:開始時刻の待ち合わせ中
- SUS SUSPENDING,SUSPENDED,RESUMING:実行一時中断の要求中/中断中/再開中
- TRS TRANSFERRING:転送キューからの送信中
- ARI ARRIVING:転送キューからの受信中
- MIG MIGRATING:動的ジョブマイグレーションによるリクエスト移動中
- RST RESTARTING:チェックポイントからのリスタート中
- CHK CHECKPOINTING:チェックポイントの採取中
PlannedStartTime:実行開始予定時間
「STT:バッチリクエストの状態」がASG状態になった際に、実行開始予定時間が表示されます。
現時点での実行開始予定時間のため、前のジョブが早く終わると、その分時間が繰り上げられて実行が開始されます。
この実行開始予定時間よりも開始が遅れることはありません。
RUN状態になると、「Already Running...」と表示されます。
sstatgroupコマンド
自分と、自分が所属しているグループのユーザが投入したバッチリクエストのスケジューリング状態を表示します。
HPCI利用者の場合は、自分が所属している課題のユーザが投入したバッチリクエストのスケジューリング状態を表示します。
% sstatgroup
表示例
RequestID ReqName UserName Queue Pri STT PlannedStartTime
--------------- -------- -------- -------- ----------------- --- -------------------
12674.oct AAA.nqs User_A OC16C 3.0585/ 3.0585 RUN Already Running...
12432.oct AAA.nqs User_B OC16C 3.0585/ 3.0585 RUN Already Running...
sstatgroupコマンドで表示される情報については、sstatgroupコマンドをご覧ください。
表示される情報は15分間隔での更新となりますので、ご注意ください。
sstatallコマンド
現在投入されている全バッチリクエストのスケジューリング状態を表示します。
自分と、自分が所属しているグループのユーザが投入したバッチリクエスト(HPCI利用者の場合は自分が所属している課題)以外は、ユーザ名とスクリプト名をマスクした状態で表示します。
% sstatall
表示例
RequestID ReqName UserName Queue Pri STT PlannedStartTime
--------------- -------- -------- -------- ----------------- --- -------------------
12674.oct AAA.nqs User_A OC16C 3.0585/ 3.0585 RUN Already Running...
12432.oct AAA.nqs User_B OC16C 3.0585/ 3.0585 RUN Already Running...
12569.oct -------- -------- OC1C 0.5002/ 0.5002 RUN Already Running...
12181.oct -------- -------- OC16C 0.5002/ 0.5002 QUE -
12182.oct -------- -------- OC1C 0.5002/ 0.5002 QUE -
sstatallコマンドで表示される情報については、sstatgroupコマンドをご覧ください。
表示される情報は15分間隔での更新となりますので、ご注意ください。
標準エラー出力/標準出力/ジョブスクリプトの確認
qcatコマンド
自分が投入したバッチリクエストの標準エラー出力/標準出力/ジョブスクリプトを確認します。
。実行例
% qcat 123456.oct(バッチリクエストID)
→ジョブスクリプトの内容を表示します。
% qcat -e 123456.oct(バッチリクエストID)
→標準エラー出力の内容を表示します。
% qcat -o 123456.oct(バッチリクエストID)
→標準出力の内容を表示します。
以下のオプションを組み合わせることも可能です。
-f:ファイルの内容が増え続けるとき、追加されたデータを出力します。
-n:指定した行数分表示します。(無指定時は10行分です。)
-b:ファイルの先頭から表示します。(無指定時は最終行から表示されます。)
バッチリクエストの削除
qdelコマンド
自分が投入したバッチリクエストを削除します。
実行例
% qdel 123456.oct(削除したいバッチリクエストID)
Request 123456.oct was deleted.
過去のジョブ状況の確認
acstatコマンド
自分自身が過去に投入したジョブの情報を表示します。
実行例
% acstat
→過去24時間以内のジョブ情報を表示
% acstat -A
→年度分のジョブ情報を表示
acstatgroupコマンド
自身が所属するグループ全員が過去に投入したジョブの情報を表示します。
実行例
% acstatgroup
→過去24時間以内のジョブ情報を表示
% acstatgroup -A
→年度分のジョブ情報を表示
その他のコマンドについて
その他のコマンドを知りたい場合は、下記のNQSV referenceマニュアルをご覧ください。
公式マニュアル,ドキュメント一覧