(終了) OCTOPUS 緊急メンテナンスに伴うサービスの一時停止について
2018/05/15
全ノードのメンテナンスを完了しました。ご迷惑をおかけし、申し訳ありませんでした。
----
現在稼動しているOCTOPUSのスケジューラに不具合があることが判明しました。
ご迷惑をおかけし、誠に申し訳ございません。
この不具合を修正するため、下記の日程にてメンテナンスを実施いたします。
影響を限定的にするため、ノード群にわけて段階的にメンテナンスを行います。
不具合の症状
- MPIジョブを実行時に、スレーブジョブが異常終了しMPIプログラムが起動しない。
- ※毎回発生するわけではなく、同じプログラムでも発生する場合としない場合があります。
- 標準エラー出力に下記のようなエラーが出力される。
-
-------------------------------------
%NQSII(INFO): ------- Output from job:0000 -------
[mpiexec@oct-cXXX] HYDU_sock_write (../../utils/sock/sock.c:418): write error (Bad file descriptor)
[mpiexec@oct-cXXX] HYD_pmcd_pmiserv_send_signal (../../pm/pmiserv/pmiserv_cb.c:252): unable to write data to proxy
[mpiexec@oct-cXXX] ui_cmd_cb (../../pm/pmiserv/pmiserv_pmci.c:174): unable to send signal downstream
[mpiexec@oct-cXXX] HYDT_dmxu_poll_wait_for_event (../../tools/demux/demux_poll.c:76): callback returned error status
[mpiexec@oct-cXXX] HYD_pmci_wait_for_completion (../../pm/pmiserv/pmiserv_pmci.c:501): error waiting for event
[mpiexec@oct-cXXX] main (../../ui/mpich/mpiexec.c:1147): process manager error waiting for completion
------------------------------------- - エラーが出ているにもかかわらず、経過時間の指定(elapstime_req)一杯まで実行され続ける場合がある。
不具合への対応
- この不具合によって消費したOCTOPUSポイントを返却いたします。
該当するユーザの皆様には個別にご連絡いたします。 - 以下の日程でメンテナンスを実施いたします。
-------------------------------------
5/8(火) 10:00 ~ 12:00
-
汎用CPUノード群:118ノード
GPUノード群:18ノード
XeonPhiノード群:22ノード
大容量主記憶搭載ノード群:1ノード
-------------------------------------
5/15(火) 10:00 ~ 12:00
-
汎用CPUノード群:118ノード
GPUノード群:19ノード
XeonPhiノード群:22ノード
大容量主記憶搭載ノード群:1ノード
-------------------------------------
メンテナンスの影響:
- OCTOPUS
- SX-ACE、VCCなどその他のシステム
上記の通り各ノード群を分割してメンテナンスを行うため、メンテナンス中も通常どおりジョブの投入や実行が可能です。
稼働ノード数が減少するため、通常よりも待ち時間が長くなる可能性があります。
フロントエンドやストレージへの影響はありません。
メンテナンスの影響はありません。
注意事項:
- 経過時間の指定(elapstime_req)が、メンテナンス開始時刻を超えるジョブについては、実行されませんので、ご注意ください。
メンテナンス時のジョブ投入については、下記も併せてご覧ください。
FAQ:計算機のメンテナンス前後に投入したジョブはどのような挙動になるのでしょうか?
Posted : 2018年04月27日