(終了) OCTOPUS 緊急メンテナンスに伴うサービスの一時停止について

2018/05/15
全ノードのメンテナンスを完了しました。ご迷惑をおかけし、申し訳ありませんでした。
 
----
 

現在稼動しているOCTOPUSのスケジューラに不具合があることが判明しました。
ご迷惑をおかけし、誠に申し訳ございません。
この不具合を修正するため、下記の日程にてメンテナンスを実施いたします。
影響を限定的にするため、ノード群にわけて段階的にメンテナンスを行います。
 

不具合の症状

  • MPIジョブを実行時に、スレーブジョブが異常終了しMPIプログラムが起動しない。
      ※毎回発生するわけではなく、同じプログラムでも発生する場合としない場合があります。
  •  

  • 標準エラー出力に下記のようなエラーが出力される。
      -------------------------------------
      %NQSII(INFO): ------- Output from job:0000 -------
      [mpiexec@oct-cXXX] HYDU_sock_write (../../utils/sock/sock.c:418): write error (Bad file descriptor)
      [mpiexec@oct-cXXX] HYD_pmcd_pmiserv_send_signal (../../pm/pmiserv/pmiserv_cb.c:252): unable to write data to proxy
      [mpiexec@oct-cXXX] ui_cmd_cb (../../pm/pmiserv/pmiserv_pmci.c:174): unable to send signal downstream
      [mpiexec@oct-cXXX] HYDT_dmxu_poll_wait_for_event (../../tools/demux/demux_poll.c:76): callback returned error status
      [mpiexec@oct-cXXX] HYD_pmci_wait_for_completion (../../pm/pmiserv/pmiserv_pmci.c:501): error waiting for event
      [mpiexec@oct-cXXX] main (../../ui/mpich/mpiexec.c:1147): process manager error waiting for completion
      -------------------------------------
  •  

  • エラーが出ているにもかかわらず、経過時間の指定(elapstime_req)一杯まで実行され続ける場合がある。

 

不具合への対応

  • この不具合によって消費したOCTOPUSポイントを返却いたします。
    該当するユーザの皆様には個別にご連絡いたします。
  •  

  • 以下の日程でメンテナンスを実施いたします。
  • -------------------------------------
    5/8(火) 10:00 ~ 12:00

      汎用CPUノード群:118ノード
      GPUノード群:18ノード
      XeonPhiノード群:22ノード
      大容量主記憶搭載ノード群:1ノード

    -------------------------------------
    5/15(火) 10:00 ~ 12:00

      汎用CPUノード群:118ノード
      GPUノード群:19ノード
      XeonPhiノード群:22ノード
      大容量主記憶搭載ノード群:1ノード

    -------------------------------------

 

メンテナンスの影響:

  • OCTOPUS
  • 上記の通り各ノード群を分割してメンテナンスを行うため、メンテナンス中も通常どおりジョブの投入や実行が可能です。
    稼働ノード数が減少するため、通常よりも待ち時間が長くなる可能性があります。
    フロントエンドやストレージへの影響はありません。
     

  • SX-ACE、VCCなどその他のシステム
  • メンテナンスの影響はありません。

 

注意事項: