2022.01.18

Intel MPIで ppn, rr, prehostオプションを使用したい

SQUIDでは環境変数 $NQSII_MPIOPTS / $NQSV_MPIOPTによって、#PBS -l cpunum_jobで指定した値を元に、machinefileを自動生成しMPIに設定しています。ppn, rr, prehostといったオプションはmachinefileと同時に指定することが出来ないため、仮に128 MPIプロセス / 1ノードあたり64プロセス割り当てることを想定し、以下のように指定したとしても、ppn オプションは無効となります

mpirun ${NQSV_MPIOPTS} -np 128 -ppn 64 ./a.out

基本的には以下のように指定いただくことで、128 MPIプロセスを生成し、1ノードあたり64プロセス割り当てることが可能です。

#PBS -l cpunum_job=64
(中略)
mpirun ${NQSV_MPIOPTS} -np 128 ./a.out

環境変数 $NQSV_MPIOPTS は、以下のオプションとファイルが指定されています。

-machinefile /var/opt/nec/nqsv/jsv/jobfile/[リクエストID等の数値]/mpinodes

mpinodesファイルはマシンファイルとなっており、上記の場合は以下のようなホスト名、コア数が指定されています。

host001:64
host002:64

 
ただし、より細かくプロセス配置を指定したい場合(例えばピニングを設定し特定のコアにプロセスを使用せずに計算する場合など)上記のオプションでは対応出来ないケースがあります。ppn, rr, prehostオプションを使用する場合は、環境変数 $NQSII_MPIOPTS / $NQSV_MPIOPT を指定する代わりにhostfileオプションと環境変数 $PBS_NODEFILE を指定してください。128 MPIプロセスを生成し、1ノードあたり64プロセス割り当てる場合は以下のように指定します。

mpirun -hostfile ${PBS_NODEFILE} -np 128 -ppn 64 ./a.out

※PBS_NODEFILEを使う場合、#PBS -l cpunum_jobで指定した値がMPIに設定されません。ご自身でプロセス数の確認をお願いします。また、OCTOPUSではご利用いただけません。

2021.11.26

SQUID GPUノード群のGPUで使った最大メモリサイズを取得したい

以下のコマンドで取得可能です。ジョブスクリプトの最後で実行してください。

$ nvidia-smi --query-accounted-apps=timestamp,gpu_name,gpu_bus_id,gpu_serial,gpu_uuid,vgpu_instance,pid,time,gpu_util,mem_util,max_memory_usage --format=csv

出力例は以下のとおりです。最後に記載されている523MiBがGPUで使用した最大メモリサイズです。

2021/11/24 19:26:26.333, A100-SXM4-40GB, 00000000:27:00.0, 1564720026417, GPU-a3b25bed-7bb1-cbd8-89e3-3f14b6118874, N/A, 761279, 117202 ms, 2 %, 0 %, 523 MiB

ジョブクラス「SQUID-S」を使用している場合は、同じノード内で別の方のジョブが実行されている場合があるため、正しい値が取得されない可能性があります。予めご了承ください。

2021.11.08

機種変更/紛失/何らかの問題で2段階認証できなくなった

お問い合わせフォームからお知らせください。その際、氏名、利用者番号、メールアドレスは登録時のものを指定してください。
その際、パスワードについても初期化いたしますので、ご了承ください。
お問い合わせフォーム

2021.11.08

SQUIDのGPUノードでPytorchを使用したい

ご自身でインストールすることで、利用可能です。手順は以下のとおりです。

python venvを使用する

インストール手順

利用手順(ジョブスクリプト例)

 

Anacondaを使用する

インストール手順

利用手順(ジョブスクリプト例)

2021.10.11

ワークフロー実行機能で複数ジョブを順番に実行している場合、先行ジョブが障害等で再投入(Rerun)されると、後続ジョブはどのような扱いになりますか?

ワークフローにてA⇒Bの順序で制御しているときに、AがRERUNとなった場合、Aを再実行、Bは再スケジューリングされ、ワークフローの順番を保ったまま実行されます。

2021.05.18

NaNを含む無効演算例外を検知し、計算を止めたい

ベクトルノード群の場合、実行時に以下の環境変数を指定いただくことでNaNを含む無効演算例外を検知することが可能です。
(NaNを演算に使用されるとエラーとなります。)

export VE_FPE_ENABLE=INV

詳細は、以下のマニュアル 6ページ「1.9 演算例外」の項目をご参照ください。
SX-Aurora TSUBASA Fortran コンパイラ ユーザーズガイド
 

また、エラーを検知した該当箇所を確認する場合は以下も合わせてご指定ください。

 コンパイラオプション:-traceback=verbose -g
 実行時環境変数:export VE_TRACEBACK=VERBOSE

詳細は上記マニュアルの24ページに記載しております。

2021.05.14

qstatでベクトルエンジンのCPU時間、使用メモリを確認したい

qstatコマンドを実行すると、SX-Aurora TSUBASA(ベクトルエンジン)が接続されているLinux(ベクトルホスト)のCPU時間や使用メモリが表示されます。SX-Aurora TSUBASA(ベクトルエンジン)の情報を確認する場合は以下のオプションを指定してください。

1行に出力される情報は、投入するジョブクラスによって異なります。
DBGやSQUID-Sに投入した場合:ベクトルエンジン1台分の使用メモリ量、CPU時間を表示します
SQUIDやSQUID-Hに投入した場合:ベクトルエンジン8台分の使用メモリ量、CPU時間を表示します

2021.05.14

実行したプログラムのベクトル化率やメモリ情報を取得したい

SX-ACEでは標準で出力されていましたが、SX-Aurora TSUBASAではコンパイル時および実行時にオプションを設定する必要があります。
コンパイラオプションでproginfオプションを指定してください。

nfort -proginf test.f90

 
また、ジョブスクリプトで以下を指定してください。

export VE_PROGINF=YES
 または
export VE_PROGINF=DETAIL

2019.12.05

一度に大量のジョブを投入し、ジョブごとに入力ファイル/実行ファイルを変更したい

ファイル名に連続した数値が含まれている場合、パラメトリックジョブという投入方法で、一度に大量のジョブを投入できます。
パラメトリックジョブでは、ジョブスクリプト内の"$PBS_SUBREQNO"環境変数に、-tで指定した数値(下記の例では1から5までの数値)が格納されます。
qsubすると同時に5本のジョブが投入され、a.outに対してそれぞれ異なる入力ファイル(下記の例ではinput1からinput5)が設定されます。
 

ジョブスクリプト例

 

投入例

 

qstatの表示例:パラメトリックジョブの場合、1回のqsubにつき1件分の表示となります

 

sstatの表示例:-tで指定した数値分だけ表示されます

2019.04.11

複数のジョブを同時に実行させたい

資源に空きがある限り、複数のジョブを同時に実行可能です。

qsub A.nqs
qsub B.nqs

といったように、1件1件個別にqsubしていくことで、A.nqsとB.nqsが同時に実行可能な状態となります。

2018.12.20

ジョブを投入するとNQScrereq: [BSV ELIMEXCEED] Global submit limit has exceeded.というエラーが表示される

利用者単位、計算機単位でジョブの投入数上限を設定しており、いずれかの上限を超過していることによるエラーとなります。
基本的には、誤った利用方法による事故を防ぐ目的で設定しているものであり、利用を阻害するために設けているものではありませんので、本エラーを確認された場合は、以下までお知らせください。
 
お問い合わせフォーム

2018.11.16

試用制度のアカウントを一般(有償)利用に引き継ぐことはできますか?

試用制度のアカウントを一般利用へ引き継ぐことが可能です。アカウント情報、ストレージのデータなどをそのままご利用いただけます。
引継ぎを行う場合、下記の利用者管理システムから「利用資源追加申請」を行ってください。
利用者管理システム
 

「利用資源追加申請」の手順については下記のページに掲載しています。
利用資源追加申請

2017.06.06

MPIで並列計算を行う際に、ノード間のネットワーク的な距離の近いノード群を指定して利用できますか?

計算に使用するノードは、スケジューラ側が自動で最適なノードを割り当てるようになっており、利用者様の方では指定することはできません。
ご理解くださいませ。

2017.05.29

OpenMPで並列化していない箇所の処理時間が増加している

コンパイル時に、OpenMPや自動並列化を使用するオプションを指定した場合、並列化指示行の有無に関わらず、「並列版ライブラリ」がリンクされます。「並列版ライブラリ」の関数(並列版の関数)には通常版ライブラリと比べて、排他制御のために他スレッドのリソースへのアクセスを制限する「ロック処理」が組み込まれています。
 
並列化指示行を挿入していない箇所で並列版の関数がコールされた場合、1スレッドで動作するので、実際にロック処理に伴う「他スレッドの処理待ち」が発生するわけではないのですが、例えば、「排他が必要かどうか」といった判定を行う都合で、わずかですが通常版ライブラリより処理時間が増えることとなります。
 
一回のオーバヘッドはわずかですが、大量にコールすると、処理時間に大きく影響することとなります。
ご注意ください。

2017.04.14

コンパイル時に" (****) is abnormally terminated by SIGSEGV"というメッセージが表示され中断する

フロントエンドサーバのstacksizeの制限を超過している可能性があります。
標準でははstacksize 10240 kbytesとなっておりますので、任意の値に変更し、再度コンパイルを試みてください。
 
stacksizeは、下記のコマンドで変更可能です。

limit stacksize (任意の値) kbytes

 
この対応でも改善しない場合、こちらで調査しますので、下記よりお問い合わせください。
お問い合わせフォーム
 

2017.01.20

SQUID ベクトルノードで標準出力に出力されるMPIの実行結果を、別ファイルにリダイレクトしたい

SQUID ベクトルノードで実行するNEC MPIにおいて標準出力をリダイレクトする場合は、「/opt/nec/ve/bin/mpisep.sh」スクリプトをご利用ください。

MPIを実行する際、ジョブスクリプトに

と指定していただくと、標準出力はstdout.0:(MPIプロセスID)、標準エラー出力はstderr.0:(MPIプロセスID)へリアルタイムで出力されます。
 

これらの詳しい解説は、下記「NEC MPIユーザズガイド」の3.3 MPI プロセスの標準出力 および 標準エラー出力 に記載されております。
NEC MPIユーザズガイド
 

上記のスクリプトをそのまま使用した場合、stdout/stderrというファイル名になってしまいますが、ご自身でmpisep.shを修正いただくと、任意の名前に変更することも可能です。

2016.09.16

標準出力ファイル、標準エラー出力ファイルに対して任意のパーミッションを設定したい

標準出力ファイル、標準エラー出力ファイルは、umaskコマンドで指定したパーミッションに従い、出力されます。フロントエンド上でumaskコマンドを実行し、指定してください。
 承ください。

2016.08.25

usage_viewコマンドで表示される「残りノード時間(remaining)」が負の値になっている

ノード時間を残高以上に使用した場合(ノード時間を使いすぎてしまった場合)に、そのような表記になります。
※当センターではノード時間を1日に1度取得しますので、ノード時間の残高以上の計算も実行できてしまいます。

    本来ですと、ノード時間を使い切った時点で、
    (1)ジョブの新規投入
    (2)投入されている全てののジョブの実行
    の両方を止めるべきなのですが、当センターのシステムの都合により、(2)を止める機能を搭載できていないため、このようなこととなります。

 

たとえば、8月1日時点で、usage_viewは下記のような表示だったとします。残りノード時間(remaining)は200ノード時間です。
 

[ SX-ACE ]
shared use : 300 / 500 node-hour (remaining : 200 node-hour)

 

仮に、8月1日にSX-ACEで20ノードを使った、15時間のジョブを実行したとしますと、計300ノード時間を消費することになります。
8月2日のusage_viewは下記のようになり、残りノード時間(remaining)に負の値が表示されます。
 

[ SX-ACE ]
shared use : 600 / 500 node-hour (remaining : -100 node-hour)

 

使いすぎてしまった分については、改めて料金を請求することは御座いませんので、ご安心くださいませ。
 

ただし、もし年度中に「資源追加」された場合は、使いすぎてしまったノード時間分を追加分から差し引いて処理することになりますので、ご了承くださいませ。
年度を越えた際に、使用されたノード時間の情報は全てリセットされます。
 

2016.08.25

qstatやsstatコマンドを定期的に実行してもよいでしょうか?

qstatやsstatコマンドは実行中にライセンスを消費します。
平常利用においては、十分なライセンスを確保しておりますが、短い周期で定期実行されますと、ライセンスが不足し、他の利用者が利用できない状態に陥る可能性があります。
 
定期的な実行はできるだけお控えいただき、もしどうしても必要ということでしたら10分周期程度でご利用いただきますよう、よろしくお願いいたします。

2016.08.25

ディスク容量を超過した場合データはいつごろ削除されるのでしょうか?

システムを利用中の方については、センター側でデータを削除することはありません。
 
「ディスク容量の超過」についてですが、ディスクの容量は、基本的に「quota」という、Linuxのグループやユーザ毎にディスクを割り当てる機能を使っております。「quota」で決められた容量を超過しそうな場合は、対象の領域(この場合ext領域)について、新規のディスク書き込みができない状態になります。閲覧・削除等は可能です。
新規のディスク書き込みが出来なくなりますので、Writeを行うようなジョブは全てエラーとなってしまいます。ご注意ください。

2016.08.25

年度途中にディスク容量を追加した場合の利用期限はいつまででしょうか?

申し込み時期にかかわらず、年度末までとなります。翌年度もご利用いただく場合は、継続申請時にディスク容量追加の申請が必要となります。

2016.08.25

学生や共同研究者のアカウントを同一グループ内に作成したい

申請代表者様は、その申請枠内(同一グループ内)で利用者を追加登録することができます。
詳細については下記をご参照くださいませ。

利用者の追加/変更/削除について

2016.08.25

年度途中で利用負担金の支払い費目や支払い時期を変更したい

下記、お問い合わせフォームより承っております。ご連絡くださいませ。
お問い合わせフォーム

2016.08.25

他の利用者のジョブ投入状況を確認したい

他の利用者様のジョブ投入状況を確認することは出来ません。ご了承くださいませ。

2016.08.24

特定のライブラリ/アプリケーションをインストールしたい

利用者様の方で、ご自身のディスク領域に対して、特定のライブラリやアプリケーションをインストールされる場合、許可は不要です。(管理者権限を要しない場合は、許可不要です。)
 
センター側でのインストールを希望する場合は、下記のお問い合わせフォームよりご連絡くださいませ。(管理者権限を要する場合は、ご連絡ください。)
 
お問い合わせフォーム

ライブラリやアプリケーションの内容によっては、お断りする場合や、利用者様自身でのインストールをお願いする場合がございます。あらかじめご了承くださいませ。

2016.08.24

複数のジョブを順番に実行させたい

ワークフロー実行機能あるいはリクエスト連携機能を使用することで可能です。
 

ワークフロー実行についての詳細は下記マニュアルの7.ワークフローをご参照くださいませ。
リクエスト連携機能については下記マニュアルの1.2.22. リクエスト連携機能をご参照くださいませ。
NQS利用の手引き
 

ワークフロー実行とリクエスト連携機能の違いについて

リクエスト連携機能とではアサインされるタイミングが異なります。ワークフローの場合、投入後すぐに全リクエストがアサイン対象になりますが、リクエスト連携機能の場合、前のリクエストの実行が完了した時点でアサインされます。そのため、混んでいる場合にはワークフローの方が早く実行される可能性があります。

2016.08.24

HPCIアカウント、ローカルアカウントの違いがわかりません

HPCIアカウント

プライマリセンターから発行されるアカウントです。HPCIが提供するシングルサインオンを行う際に必要となります。
大阪大学サイバーメディアセンターをプライマリセンターに指定している場合は、利用者番号という形でお知らせしております。
 

ローカルアカウント

資源提供機関(利用する計算機を運用する機関)から発行されるアカウントです。計算機を利用する際に必要になるアカウントになります。
(HPCIアカウントを使ったシングルサインオンでも計算機を利用可能です)
大阪大学サイバーメディアセンターの計算機を使用する場合は、利用者番号という形でお知らせしております。
 

これらについての詳細は下記のページをご参照ください。
HPCIポータルサイト

備考

下記の場合、HPCIアカウントとローカルアカウントは同じものを割り当てます。ご注意くださいませ。
プライマリセンター:大阪大学サイバーメディアセンター
資源提供機関:大阪大学サイバーメディアセンター

2016.08.24

MPIスレーブノードに対して、任意のPATHを指定することは可能でしょうか?

ほぼ全ての環境変数は、#PBS -v によってMPIスレーブノードに対しても指定することができますが、いくつかの環境変数はスケジューラNQSIIの標準機能(#PBS -v)で指定することが出来ません。PATHもその一つになります。指定できない環境変数については下記マニュアルの1.16 qsub(1)をご参照ください。
NQSII 利用の手引き(OCTOPUS)
NQSV 利用の手引き(SQUID)
 
MPI実行時オプションをご利用いただくことで、これらの環境変数をスレーブノードに対して設定することが可能です。

2016.08.24

Random関数を使って独立した2つの乱数を生成したいが同じ値になる

多くの擬似乱数生成関数は指定した初期値(random seed)に対して、ある一定の規則に基づいた処理を行い、乱数を生成します。同じ初期値を与えた場合は、常に同じ乱数が生成されますので、独立した乱数を生成した場合は、その度に初期値を変更する必要があります。

2016.05.06

試用制度にはどのような制限がありますか?

試用制度では、SX-ACEは500ノード時間500ノード時間まで、OCTOPUSは26OCTOPUSポイントまでのご利用となりますが、それ以外は特に制限がありません。
ジョブクラスについても、通常の利用と変わらずご利用いただけます。
 
ノード時間の算出方法についてはこちらをご覧ください。
OCTOPUSポイントの算出方法についてはこちらをご覧ください
試用制度の詳細、申し込み方法はこちらをご覧ください。

Next »