2023.06.26

実行したジョブの情報(経過時間やメモリ使用量)を取得したい

SQUIDでは、acstatコマンドを使って過去に実行したジョブの経過時間を取得可能です。メモリ使用量については取得できませんので、以下のお問い合わせフォームからご連絡くださいませ。
OCTOPUSについては、経過時間・メモリ使用量ともに取得できません。同じく、以下のお問い合わせフォームからご連絡くださいませ。
 
お問い合わせフォーム

2022.12.09

SQUIDにMPIを独自にインストールして利用することは可能ですか?

OpenMPIについては独自にインストールしてご利用することが可能です。

MPIのパスを記載したmoduleファイルを作成してください。

ジョブスクリプトの中で以下のようにmoduleファイル指定してください。

2022.10.13

次のエラーの対処方法を教えてほしい。Runtime Error: Cannot allocate memory for environment variable VE_FORT_UFMTENDIAN.

本エラーは、書式なしの入出力文の並びに配列が指定されており、その配列サイズが大きい場合に発生するエラーです。
以下のコンパイラオプション、実行時環境変数を指定して実行いただくことで特定可能です。
★のように、エラーの出たファイルと行数が表示されます。

例)
$ nfort main.f90 -g -traceback=verbose
$ export VE_TRACEBACK=VERBOSE
$ ./a.out
Runtime Error: Cannot allocate memory for environment variable VE_FORT_UFMTENDIAN.
Program terminated by fatal error
[ 0] 0x600c00a58910 ? ?:?
[ 1] 0x600c00a51b38 ? ?:?
[ 2] 0x600c00cd4c78 ? ?:?
[ 3] 0x60000001f850 MAIN main.f90:28 ★
[ 4] 0x60000001fc80 ? ?:?
[ 5] 0x600c02a407a8 ? ?:?
[ 6] 0x600000002d00 ? ?:?

2022.10.13

SQUIDでwandbを使用したい

wandbについてはpipコマンドにてインストール可能です。

pip install wandb
wandb login "XXXX"

 
SQUIDでは原則計算ノードからのインターネットアクセスを許可しておりませんが、wandbに限定して許可しています。
以下のようにジョブスクリプトを記述してください。

#!/bin/bash
#PBS -q SQUID
#PBS --group=[グループ名]
#PBS -l elapstim_req=1:00:00
cd $PBS_O_WORKDIR
export http_proxy="http://ibgw1f-ib0:3128"
export https_proxy="https://ibgw1f-ib0:3128"
python test.py

 
requests-2.24を使用してください。2.26等のバージョンについては、SQUIDで正常に動作しません。

2022.01.18

Intel MPIで ppn, rr, prehostオプションを使用したい

SQUIDでは環境変数 $NQSII_MPIOPTS / $NQSV_MPIOPTによって、#PBS -l cpunum_jobで指定した値を元に、machinefileを自動生成しMPIに設定しています。ppn, rr, prehostといったオプションはmachinefileと同時に指定することが出来ないため、仮に128 MPIプロセス / 1ノードあたり64プロセス割り当てることを想定し、以下のように指定したとしても、ppn オプションは無効となります

mpirun ${NQSV_MPIOPTS} -np 128 -ppn 64 ./a.out

基本的には以下のように指定いただくことで、128 MPIプロセスを生成し、1ノードあたり64プロセス割り当てることが可能です。

#PBS -l cpunum_job=64
(中略)
mpirun ${NQSV_MPIOPTS} -np 128 ./a.out

環境変数 $NQSV_MPIOPTS は、以下のオプションとファイルが指定されています。

-machinefile /var/opt/nec/nqsv/jsv/jobfile/[リクエストID等の数値]/mpinodes

mpinodesファイルはマシンファイルとなっており、上記の場合は以下のようなホスト名、コア数が指定されています。

host001:64
host002:64

 
ただし、より細かくプロセス配置を指定したい場合(例えばピニングを設定し特定のコアにプロセスを使用せずに計算する場合など)上記のオプションでは対応出来ないケースがあります。ppn, rr, prehostオプションを使用する場合は、環境変数 $NQSII_MPIOPTS / $NQSV_MPIOPT を指定する代わりにhostfileオプションと環境変数 $PBS_NODEFILE を指定してください。128 MPIプロセスを生成し、1ノードあたり64プロセス割り当てる場合は以下のように指定します。

mpirun -hostfile ${PBS_NODEFILE} -np 128 -ppn 64 ./a.out

※PBS_NODEFILEを使う場合、#PBS -l cpunum_jobで指定した値がMPIに設定されません。ご自身でプロセス数の確認をお願いします。また、OCTOPUSではご利用いただけません。

2021.11.26

SQUID GPUノード群のGPUで使った最大メモリサイズを取得したい

以下のコマンドで取得可能です。ジョブスクリプトの最後で実行してください。

$ nvidia-smi --query-accounted-apps=timestamp,gpu_name,gpu_bus_id,gpu_serial,gpu_uuid,vgpu_instance,pid,time,gpu_util,mem_util,max_memory_usage --format=csv

出力例は以下のとおりです。最後に記載されている523MiBがGPUで使用した最大メモリサイズです。

2021/11/24 19:26:26.333, A100-SXM4-40GB, 00000000:27:00.0, 1564720026417, GPU-a3b25bed-7bb1-cbd8-89e3-3f14b6118874, N/A, 761279, 117202 ms, 2 %, 0 %, 523 MiB

ジョブクラス「SQUID-S」を使用している場合は、同じノード内で別の方のジョブが実行されている場合があるため、正しい値が取得されない可能性があります。予めご了承ください。

2021.11.08

機種変更/紛失/何らかの問題で2段階認証できなくなった

2段階認証コードのリセットには管理者の操作が必要となりますので、お問い合わせフォームからお知らせください。その際、氏名、利用者番号、メールアドレスは登録時のものを記入してください。2段階認証のリセット時にパスワードもあわせて初期化いたしますので、予めご了承ください。
お問い合わせフォーム
 

アカウントの所有者が卒業してしまった等、本人からの連絡が難しい場合に限り、当該アカウントに登録されている指導教員またはグループの申請代表者からの2段階認証リセットの依頼にも対応します。

2021.11.08

SQUIDのGPUノードでPytorchを使用したい

ご自身でインストールすることで、利用可能です。手順は以下のとおりです。

python venvを使用する

インストール手順

利用手順(ジョブスクリプト例)

 

Anacondaを使用する

インストール手順

利用手順(ジョブスクリプト例)

2021.10.11

ワークフロー実行機能で複数ジョブを順番に実行している場合、先行ジョブが障害等で再投入(Rerun)されると、後続ジョブはどのような扱いになりますか?

ワークフローにてA⇒Bの順序で制御しているときに、AがRERUNとなった場合、Aを再実行、Bは再スケジューリングされ、ワークフローの順番を保ったまま実行されます。

2021.05.18

NaNを含む無効演算例外を検知し、計算を止めたい

ベクトルノード群の場合、実行時に以下の環境変数を指定いただくことでNaNを含む無効演算例外を検知することが可能です。
(NaNを演算に使用されるとエラーとなります。)

export VE_FPE_ENABLE=INV

詳細は、以下のマニュアル 6ページ「1.9 演算例外」の項目をご参照ください。
SX-Aurora TSUBASA Fortran コンパイラ ユーザーズガイド
 

また、エラーを検知した該当箇所を確認する場合は以下も合わせてご指定ください。

 コンパイラオプション:-traceback=verbose -g
 実行時環境変数:export VE_TRACEBACK=VERBOSE

詳細は上記マニュアルの24ページに記載しております。

2021.05.14

qstatでベクトルエンジンのCPU時間、使用メモリを確認したい

qstatコマンドを実行すると、SX-Aurora TSUBASA(ベクトルエンジン)が接続されているLinux(ベクトルホスト)のCPU時間や使用メモリが表示されます。SX-Aurora TSUBASA(ベクトルエンジン)の情報を確認する場合は以下のオプションを指定してください。

1行に出力される情報は、投入するジョブクラスによって異なります。
DBGやSQUID-Sに投入した場合:ベクトルエンジン1台分の使用メモリ量、CPU時間を表示します
SQUIDやSQUID-Hに投入した場合:ベクトルエンジン8台分の使用メモリ量、CPU時間を表示します

2021.05.14

実行したプログラムのベクトル化率やメモリ情報を取得したい

SX-ACEでは標準で出力されていましたが、SX-Aurora TSUBASAではコンパイル時および実行時にオプションを設定する必要があります。
コンパイラオプションでproginfオプションを指定してください。

nfort -proginf test.f90

 
また、ジョブスクリプトで以下を指定してください。

export VE_PROGINF=YES
 または
export VE_PROGINF=DETAIL

2019.12.05

一度に大量のジョブを投入し、ジョブごとに入力ファイル/実行ファイルを変更したい

ファイル名に連続した数値が含まれている場合、パラメトリックジョブという投入方法で、一度に大量のジョブを投入できます。
パラメトリックジョブでは、ジョブスクリプト内の"$PBS_SUBREQNO"環境変数に、-tで指定した数値(下記の例では1から5までの数値)が格納されます。
qsubすると同時に5本のジョブが投入され、a.outに対してそれぞれ異なる入力ファイル(下記の例ではinput1からinput5)が設定されます。
 

ジョブスクリプト例

 

投入例

 

qstatの表示例:パラメトリックジョブの場合、1回のqsubにつき1件分の表示となります

 

sstatの表示例:-tで指定した数値分だけ表示されます

2019.04.11

複数のジョブを同時に実行させたい

資源に空きがある限り、複数のジョブを同時に実行可能です。

qsub A.nqs
qsub B.nqs

といったように、1件1件個別にqsubしていくことで、A.nqsとB.nqsが同時に実行可能な状態となります。

2018.12.20

ジョブを投入するとNQScrereq: [BSV ELIMEXCEED] Global submit limit has exceeded.というエラーが表示される

利用者単位、計算機単位でジョブの投入数上限を設定しており、いずれかの上限を超過していることによるエラーとなります。
基本的には、誤った利用方法による事故を防ぐ目的で設定しているものであり、利用を阻害するために設けているものではありませんので、本エラーを確認された場合は、以下までお知らせください。
 
お問い合わせフォーム

2018.11.16

試用制度のアカウントを一般(有償)利用に引き継ぐことはできますか?

試用制度のアカウントを一般利用へ引き継ぐことが可能です。アカウント情報、ストレージのデータなどをそのままご利用いただけます。
引継ぎを行う場合、下記の利用者管理システムから「利用資源追加申請」を行ってください。
利用者管理システム
 

「利用資源追加申請」の手順については下記のページに掲載しています。
利用資源追加申請

2017.06.06

MPIで並列計算を行う際に、ノード間のネットワーク的な距離の近いノード群を指定して利用できますか?

計算に使用するノードは、スケジューラ側が自動で最適なノードを割り当てるようになっており、利用者様の方では指定することはできません。
ご理解くださいませ。

2017.05.29

OpenMPで並列化していない箇所の処理時間が増加している

コンパイル時に、OpenMPや自動並列化を使用するオプションを指定した場合、並列化指示行の有無に関わらず、「並列版ライブラリ」がリンクされます。「並列版ライブラリ」の関数(並列版の関数)には通常版ライブラリと比べて、排他制御のために他スレッドのリソースへのアクセスを制限する「ロック処理」が組み込まれています。
 
並列化指示行を挿入していない箇所で並列版の関数がコールされた場合、1スレッドで動作するので、実際にロック処理に伴う「他スレッドの処理待ち」が発生するわけではないのですが、例えば、「排他が必要かどうか」といった判定を行う都合で、わずかですが通常版ライブラリより処理時間が増えることとなります。
 
一回のオーバヘッドはわずかですが、大量にコールすると、処理時間に大きく影響することとなります。
ご注意ください。

2017.04.14

コンパイル時に" (****) is abnormally terminated by SIGSEGV"というメッセージが表示され中断する

フロントエンドサーバのstacksizeの制限を超過している可能性があります。
標準でははstacksize 10240 kbytesとなっておりますので、任意の値に変更し、再度コンパイルを試みてください。
 
stacksizeは、下記のコマンドで変更可能です。

limit stacksize (任意の値) kbytes

 
この対応でも改善しない場合、こちらで調査しますので、下記よりお問い合わせください。
お問い合わせフォーム
 

2017.01.20

SQUID ベクトルノードで標準出力に出力されるMPIの実行結果を、別ファイルにリダイレクトしたい

SQUID ベクトルノードで実行するNEC MPIにおいて標準出力をリダイレクトする場合は、「/opt/nec/ve/bin/mpisep.sh」スクリプトをご利用ください。

MPIを実行する際、ジョブスクリプトに

と指定していただくと、標準出力はstdout.0:(MPIプロセスID)、標準エラー出力はstderr.0:(MPIプロセスID)へリアルタイムで出力されます。
 

これらの詳しい解説は、下記「NEC MPIユーザズガイド」の3.3 MPI プロセスの標準出力 および 標準エラー出力 に記載されております。
NEC MPIユーザズガイド
 

上記のスクリプトをそのまま使用した場合、stdout/stderrというファイル名になってしまいますが、ご自身でmpisep.shを修正いただくと、任意の名前に変更することも可能です。

2016.09.16

標準出力ファイル、標準エラー出力ファイルに対して任意のパーミッションを設定したい

標準出力ファイル、標準エラー出力ファイルは、umaskコマンドで指定したパーミッションに従い、出力されます。フロントエンド上でumaskコマンドを実行し、指定してください。
 承ください。

2016.08.25

usage_viewコマンドで表示される「残りノード時間(remaining)」が負の値になっている

ノード時間を残高以上に使用した場合(ノード時間を使い過ぎてしまった場合)に、そのような表記になります。
※当センターではノード時間を1日に1度取得しますので、ノード時間の残高以上の計算も実行できてしまいます。

    本来ですと、ノード時間を使い切った時点で、
    (1)ジョブの新規投入
    (2)投入されている全てののジョブの実行
    の両方を止めるべきなのですが、当センターのシステムの都合により、(2)を止める機能を搭載できていないため、このようなこととなります。

 

たとえば、8月1日時点で、usage_viewは下記のような表示だったとします。残りノード時間(remaining)は200ノード時間です。
 

[ SX-ACE ]
shared use : 300 / 500 node-hour (remaining : 200 node-hour)

 

仮に、8月1日にSX-ACEで20ノードを使った、15時間のジョブを実行したとしますと、計300ノード時間を消費することになります。
8月2日のusage_viewは下記のようになり、残りノード時間(remaining)に負の値が表示されます。
 

[ SX-ACE ]
shared use : 600 / 500 node-hour (remaining : -100 node-hour)

 

使いすぎてしまった分については、改めて料金を請求することはございませんので、ご安心くださいませ。
 

ただし、もし年度中に「資源追加」された場合は、使い過ぎてしまったノード時間分を追加分から差し引いて処理することになりますので、ご了承くださいませ。
年度を越えた際に、使用されたノード時間の情報は全てリセットされます。
 

2016.08.25

qstatやsstatコマンドを定期的に実行してもよいでしょうか?

qstatやsstatコマンドは実行中にライセンスを消費します。
平常利用においては、十分なライセンスを確保しておりますが、短い周期で定期実行されますと、ライセンスが不足し、他の利用者が利用できない状態に陥る可能性があります。
 
定期的な実行はできるだけお控えいただき、もしどうしても必要ということでしたら10分周期程度でご利用いただきますよう、よろしくお願いいたします。

2016.08.25

ディスク容量を超過した場合データはいつごろ削除されるのでしょうか?

システムを利用中の方については、センター側でデータを削除することはありません。
 
「ディスク容量の超過」についてですが、ディスクの容量は、基本的に「quota」という、Linuxのグループやユーザ毎にディスクを割り当てる機能を使っております。「quota」で決められた容量を超過しそうな場合は、対象の領域(この場合ext領域)について、新規のディスク書き込みができない状態になります。閲覧・削除等は可能です。
新規のディスク書き込みが出来なくなりますので、Writeを行うようなジョブは全てエラーとなってしまいます。ご注意ください。

2016.08.25

年度途中にディスク容量を追加した場合の利用期限はいつまででしょうか?

申し込み時期にかかわらず、年度末までとなります。翌年度もご利用いただく場合は、継続申請時にディスク容量追加の申請が必要となります。

2016.08.25

学生や共同研究者のアカウントを同一グループ内に作成したい

申請代表者様は、その申請枠内(同一グループ内)で利用者を追加登録することができます。
詳細については下記をご参照くださいませ。

利用者の追加/変更/削除について

2016.08.25

年度途中で利用負担金の支払い費目や支払い時期を変更したい

下記、お問い合わせフォームより承っております。ご連絡くださいませ。
お問い合わせフォーム

2016.08.25

他の利用者のジョブ投入状況を確認したい

他の利用者様のジョブ投入状況を確認することは出来ません。ご了承くださいませ。

2016.08.24

特定のライブラリ/アプリケーションをインストールしたい

利用者様の方で、ご自身のディスク領域に対して、特定のライブラリやアプリケーションをインストールされる場合、許可は不要です。(管理者権限を要しない場合は、許可不要です。)
 
センター側でのインストールを希望する場合は、下記のお問い合わせフォームよりご連絡くださいませ。(管理者権限を要する場合は、ご連絡ください。)
 
お問い合わせフォーム

ライブラリやアプリケーションの内容によっては、お断りする場合や、利用者様自身でのインストールをお願いする場合がございます。あらかじめご了承くださいませ。

2016.08.24

複数のジョブを順番に実行させたい

ワークフロー実行機能あるいはリクエスト連携機能を使用することで可能です。
 

ワークフロー実行についての詳細は下記マニュアルの7.ワークフローをご参照くださいませ。
リクエスト連携機能については下記マニュアルの1.2.22. リクエスト連携機能をご参照くださいませ。
NQS利用の手引き
 

ワークフロー実行とリクエスト連携機能の違いについて

リクエスト連携機能とではアサインされるタイミングが異なります。ワークフローの場合、投入後すぐに全リクエストがアサイン対象になりますが、リクエスト連携機能の場合、前のリクエストの実行が完了した時点でアサインされます。そのため、混んでいる場合にはワークフローの方が早く実行される可能性があります。

Next »