OpenFOAMを含む一部プログラムの異常終了について(UCX 1.16.0 不具合)

現在、SQUIDにインストールされている通信ライブラリである UCX 1.16.0(Mellanox OFED 23.10-3.2.2.0-LTS に含まれる)において、「OpenFOAM」を含む一部プログラムが異常終了する問題が判明しております。不具合の詳細はこちらをご参照ください。
 

■発生事象
MPI_Init_thread関数内で浮動小数点例外が発生し、以下のようなメッセージを出力しプログラムが強制終了します。

Caught signal 8 (Floating point exception: floating-point invalid operation)

 

■ 対象となるプログラム
Intelコンパイラ(icc, ifort等)にて -fpe0 オプションを指定してビルドしたプログラム
→現時点でSQUIDにプリインストールしている「OpenFOAM」が該当していることがわかっております。
 

■ 発生時期
本不具合は、2024年度末メンテナンス以降(UCX 1.16.0 へのアップデート後)から発生しております。
 

■ 回避策
ジョブスクリプトまたは環境設定ファイル等に、以下の環境変数を設定してください。

export UCX_PROTO_ENABLE=n

当該浮動小数点例外はUCX 1.16.0よりデフォルトで有効になった新しいUCX通信プロトコルの自動選択処理 (UCX Protocols v2) の一部で発生していることを確認しています。当該環境変数を設定することにより、自動選択処理を従来のUCX Protocols v1に強制させ、浮動小数点演算例外の発生を回避できます。
 

■ 今後の対応
当該不具合が修正済みのUCXバージョンへアップデートを検討しております。アップデートの実施日が決まり次第、あらためてご案内いたします。
利用者の皆様におかれましては、上記の回避策を適用いただき、影響を回避くださいますようお願いいたします。




Posted : 2025年05月28日