SQUIDファイルシステム(Lustre)のI/O遅延に伴うファイルシステムマウントオプション変更のお知らせ

2023年9月および10月に発生したSQUIDファイルシステム(Lustre)のI/O遅延への対処のため
SQUIDのファイルシステム(Lustre)のマウントオプションを「flock」から「localflock」に変更いたしました。
 

flockとはファイルロックを有効にしてファイルシステムをマウントするオプションのことであり、
「flock」がクラスター全体での flock による制御をサポートしているのに対し
「localflock」ではノード単位での flock のサポートを提供しております。
 

ファイルシステム(Lustre)において、ソフトウェア的な問題があるため、
「flock」の設定では、一定の条件を満たす高負荷ジョブを実行した場合に
計算ノードで実行しているジョブ遅延やフロントエンドノードでのコマンド操作遅延などが発生してしまうことが判明し、
「localflock」に変更いたしました。
 

ファイルシステム(Lustre)において、恒久的な対策がなされていないため、現時点で「flock」の設定に戻すことは予定しておりません。
現在、開発元で対策を検討中です。
 

障害復旧を優先したためとはいえ、事後の連絡となってしまい大変申し訳ございません。
 

本変更により基本的にはアプリケーションの実行などに影響はないものと考えておりますが、
意図的にノード間のflockによる一貫性を求めるアプリケーションを実行する場合には、正常に実行できない可能性がございます。
本変更に伴い不具合などが発生しておりましたらご連絡いただければ幸いです。
 

ご迷惑をおかけしてしまい大変恐縮なのですが、何卒ご理解賜りますようお願い申し上げます。




Posted : 2024年01月11日