更新日時:2023年03月06日 / OCTOPUS

本システムは2024年3月29日をもってサービス終了しました。
「OCTOPUS(Osaka university Cybermedia cenTer Over-Petascale Universal Supercomputer)」は、汎用CPUノード群、GPUノード群、Xeon Phiノード群、大容量主記憶搭載ノード群、大容量ストレージから構成され、総理論演算性能1.463 PFLOPSを有するスーパーコンピュータです。
 

システム構成

総演算性能 1.463 PFLOPS
ノード構成 汎用CPUノード
236ノード (471.24 TFLOPS)
プロセッサ:Intel Xeon Gold 6126 (Skylake / 2.6 GHz 12コア) 2基
主記憶容量:192GB
GPUノード
37ノード (858.28 TFLOPS)
プロセッサ:Intel Xeon Gold 6126 (Skylake / 2.6 GHz 12コア) 2基
GPU:NVIDIA Tesla P100 (NV-Link) 4基
主記憶容量:192GB
Xeon Phiノード
44ノード (117.14 TFLOPS)
プロセッサ:Intel Xeon Phi 7210 (Knights Landing / 1.3 GHz 64コア) 1基
主記憶容量:192GB
大容量主記憶搭載ノード
2ノード (16.38 TFLOPS)
プロセッサ:Intel Xeon Platinum 8153 (Skylake / 2.0 GHz 16コア) 8基
主記憶容量:6TB
ノード間接続 InfiniBand EDR (100 Gbps)
ストレージ DDN EXAScaler (Lustre / 3.1 PB)

 

Gallery

      
 

技術資料

下記の資料をご覧ください。
ペタフロップス級ハイブリッド型スーパーコンピュータ OCTOPUS : Osaka university Cybermedia cenTer Over-Petascale Universal Supercomputer ~サイバーメディアセンターのスーパーコンピューティング事業の再生と躍進にむけて~ [DOI: 10.18910/70826]


更新日時:2021年02月28日 / SX-ACE

本システムは2021年2月28日で提供を終了しました。

2020年3月31日まで 2020年4月1日から2021月年2月28日まで
クラスタ数 3 2
ノード数 1536 1024
コア数 6144 4096
演算性能 423TFLOPS 282TFLOPS
ベクトル性能 393TFLOPS 262TFLOPS
主記憶容量 96TB 64TB
ディスク容量 2PB(変更無し)

また、2020年11月30日以降のサービスについて、以下のような変更があります。

  • 2020年11月30日以降は、システムの利用に関する質問等の技術的なサポートは利用できません。
  • 2020年11月30日以降、「利用資源追加申請」や「新規利用申請」の受け付けを停止します。12月1日から2月28日の間に、共有利用のノード時間やストレージ資源を使い切った場合も、資源の追加は出来ませんので、不足するかもしれない場合は、事前に申請をお願いいたします。
  • 現在ご利用中の、共有利用 ノード時間、占有ノード、ディスク領域(home, ext)は、すべて2021年2月28日までご利用可能です。
  • 占有ノード、ディスク領域については、利用期間の延長に伴う追加料金は発生しません。

 

システム概要

サイバーメディアセンターが導入するSX-ACEは、総計1,536ノード構成(3クラスタ)となる”クラスタ化”されたベクトル型スーパーコンピュータです。各ノードは、4コアのマルチコア型ベクトルCPU、64GBの主記憶容量を搭載しています。これら512ノードを、IXS (Internode Crossbar Switch)と呼ばれる専用のノード間スイッチでノード間接続し、クラスタを形成します。なお、本センターでは、このノード間接続装置IXSは、512ノードを2段ファットツリー構成 1 レーンで接続しており、ノード間最大転送性能は入出力双方向それぞれ 4 GB/sとなっています。本センターでは、2 PBのディスクをNEC独自開発のNEC Scalable Technology File System (ScaTeFS)と呼ばれる高速・分散並列ファイルシステムで管理し、SX-ACEを含む本センターの大規模計算機システムからアクセス可能な構成としています。

 

【TIPS】ScaTeFS
ScaTeFSは、複数のI/Oサーバにメタデータおよびデータを均等に分散させることで、高速な並列I/Oと大量のファイル操作に強いファイルシステムを実現するだけでなく、単一障害点の排除と自動リカバリによる高い耐障害性とデータ保護も同時に実現した高信頼性を確立したファイルシステムです。

 

ノード性能

各ノードは、64 GFlopsのベクトル演算性能を有するコアを 4 個保有するマルチコア型ベクトルCPU、64 GBの主記憶容量を搭載しており、ノード単体のベクトル演算性能は256 GFlopsとなります。一方、ノード内におけるCPUと主記憶間の最大転送能力は、256 GB/sを保有しています。すなわち、1 Byte/Flopsの高いCPU性能にバランスした高メモリバンド幅が実現されており、気象・気候、流体シミュレーションに適した演算性能とメモリバンド幅バランスを提供するシステムとなっています。

 

sx_ace01

ノード間の通信は、RCUと呼ばれるノード間通信制御ユニットが専用ノード間スイッチIXSと接続されており、8 GB/s (4GB × 2(双方向))での広帯域データ通信が可能です。

 

システム性能

本センターで導入するSX-ACEは、3 クラスタ(総計1536ノード)から構成されます。そのため、1 クラスタおよび 3 クラスタあたりの理論性能値は、ノード単体性能から簡単な計算で、下記のとおり導かれます。

SX-ACE
ノード毎 1クラスタ(512ノード) 総合(3クラスタ)
CPU数 1 512 1536
コア数 4 2048 6144
演算性能 276GFLOPS 141TFLOPS 423TFLOPS
ベクトル性能 256GFLOPS 131TFLOPS 393TFLOPS
主記憶容量 64GB 32TB 96TB
ディスク容量 2PB

なお、演算性能は、SX-ACE 1ノードが 4コアのマルチコア型ベクトルCPUに加え、スカラ型CPUを搭載していることから、スカラ型CPUの演算性能とベクトル型 CPUの合計理論性能値となっています。

 

ソフトウェア

本センターのSX-ACEには、オペレーティングシステムとしてSUPER-UX R21.1が採用されています。SUPER-UXはSystem V系のUNIXに基づき、高いユーザエクスペリエンスを提供する一方で、SX-ACEのハードウェア性能を最大限にまで引き出すことのできるオペレーティングシステムです。これまでセンターが保有・提供してきたSX-8R、SX-9でもSUPER-UXがオペレーティングシステムとして採用されてきた経緯があるため、SX-8R、SX-9を利用されてきた利用者の方には親しみやすく、使いやすいオペレーティングシステムです。

 

また、本センターのSX-ACEでは、SUPER-UX上で動作、チューニングがなされた下記のソフトウェア、ライブラリを提供します。

SX-ACE
分類 機能
開発環境ソフトウェア Fortran95/2003コンパイラ
C/C++コンパイラ
MPIライブラリ MPI/SX
HPFコンパイラ HPF/SX V2
デバッガ dbx/pdbx
性能解析ツール PROGINF/FILEINF
FTRACE
prof
数値計算ライブラリ ASL
統計計算ライブラリ ASLSTAT
数学ライブラリ集 MathKeisan
(ARPACK, BLACS, BLAS, FFT, LAPACK, PARBLAS,
PARFFT, PARPACK, CBLAS, SBLAS, ScaLAPACK)

計算化学用ソフトウェア Gaussian09
フロントエンド
分類 機能
開発環境ソフトウェア Fortran95/2003クロスコンパイラ
C/C++クロスコンパイラ
Intel Cluster Studio XE
HPFコンパイラ HPF/SX V2クロスコンパイラ
デバッガ NEC Remote Debugger
性能解析ツール FTRACE
NEC Ftrace Viewer
汎用可視化ソフトウェア AVS/ExpressDeveloper

 

なお、SX-ACEへのジョブ管理には、JobManipulatorとNQSIIを中核とした統合スケジューラを採用しています。

スケジューラについてはこちらをご参照ください。

 

スケジューラについて

 

チェックポイント/リスタート機能

SX-ACEは、実行中のプログラムを任意の時点で中断させ、メモリ上のデータをディスクに書きだすことで、状態を保存する機能(チェックポイント)を持っています。保存した状態から再開させること(リスタート)も可能です。
例えば、緊急メンテナンスが必要となった場合に、実行中のジョブを一時中断しておき、メンテナンス終了後に再開する、といったことが可能となります。

 

 

SX-ACEでの性能チューニング

本センターがこれまで保有・提供してきたベクトル型スーパーコンピュータSX-8R、SX-9では、多数のベクトル型CPUが大規模な主記憶装置上で演算を行う共有メモリ型のスーパーコンピュータでしたが、SX-ACEでは上記のような小規模化したノードが多数接続された分散並列メモリ型のスーパーコンピュータとなっています。分散並列メモリ型のスーパーコンピュータでは、異なるメモリアドレス空間を有するノード間でデータを交換しながら通信を行う必要があります。そのため、SX-ACEでの性能チューニングには、上述したノード内アーキテクチャ、ノード間アーキテクチャ、およびそれらの通信特性に関して基本的な知識を持っておくことが前提となります。

 

SX-ACE上で性能チューニングを行う方法には、大別して、ノード内並列(共有メモリ並列処理)、ノード間並列(分散メモリ並列処理)の2種類があります。前者のノード内並列処理は、SX-ACEのノード内に搭載されたベクトル型CPU4コア内で計算負荷を分散する方法です。後者のノード間並列処理は、SX-ACEの複数のノードに計算負荷を分散する方法です。

 

ノード内並列(共有メモリ並列処理)

この方法の特徴は、ベクトル型CPU4コアが主記憶64GBのメモリ空間を”共有”することにあります。一般的に、並列計算においては、分散メモリ型より共有メモリ型のほうがプログラミング、チューニングが容易といわれています。SX-ACEにおいても、この一般論があてはまり、ノード間並列よりもノード内並列のほうが容易であると言えます。

 

SX-ACEでのノード内並列は、「自動並列」「OpenMP」といった方法が代表的です。

 

【TIPS】自動並列による共有並列化
この方法では、コンパイラが並列実行可能なループや文の集まりを検出し、それらを並列化します。そのため、基本的には、ソースコードに加筆・修正を行う必要はなく、コンパイラオプションで自動並列オプションを指定することにより、並列化された実行モジュールを生成できます。本センターのSX-ACEでは、"-P auto"オプションをコンパイラに指定することで自動並列化がなされます。

 

なお、自動並列化で並列化されなかったり、あるいは明示的に並列化を強制/無効化したい場合には、開発者がソースコードにコンパイラ指示行を挿入して並列化を制御することできます。詳細は、こちらをご覧ください。

 

(準備中)

【TIPS】OpenMPによる共有並列化

OpenMPは共有メモリ並列プログラミングのための標準API(Application Programming Interface)です。文字通り、OpenMPは、共有メモリ型の計算機を対象としています。例えば、以下のように、ソースコードにコンパイラに対する指示行(Compiler Directive)を挿入してコンパイルするだけで、マルチスレッド実行する実行モジュールが自動的に生成されるため、初学者が比較的簡単に着手できる分散並列化手法です。Fortran、CあるいはC++で利用できます。

 

例1              
#pragma omp parallel
 {
#pragma omp for
  for(i =1; i < 1000; i=i+1)   x[i] = y[i] + z[i];  }

例2
!$omp parallel
!$omp do
  do i=1, 1000
    x(i) = y(i) + z(i)
  enddo
!$omp enddo
!$omp end parallel

OpenMPについては、書籍、インターネットから多くの情報を取得できますの で、より詳細な利用方法については、参考にされるとよいでしょう。

 

ノード間並列(分散メモリ並列処理)

この方法の特徴は、異なるノードの主記憶を利用する計算方法であるため、同一のメモリ空間を共有せず、分散配置され た複数の独立したメモリ空間を利用することにあります。このことが、分散メモリ並列処理が共有メモリ並列処理よりも難しい要因となっています。

 

SX-ACEでのノード間並列は、「HPF (High-Performance Fortran)」「MPI (Message Passing Interface)」を利用する方法が代表的です。

 

【TIPS】MPIによる分散並列化

Message Passing Interfaceはメッセージパッシング方式に基づく分散並列プログラミングのためのライブラリ、API(Application Programming Interface)を規定しています。MPIでは、分散メモリ並列処理環境上で発生しうるMPIプロセス間の通信パターンを想定し、あるプロセスがあるプロセスと通信をおこなう1対1通 信(例えば、MPI_Send, MPI_Recvなど。)、複数のプロセスが同時に関係した通信をおこなう集合通信(例えば、MPI_Bcast, MPI_Reduceなど。)に関する、直感的で分かりやすいAPIを提供します。MPIによる分散並列化では、開発者が複数のMPIプロセス間でのデータ移動、計算負荷分散を考慮しつつ、ソースコードを作成しなければならないため、初学者にはすこし敷居が高い分散並列化手法です。 しかし、計算機システムのハードウェアアーキテクチャや特性を理解してコーディングを行うことができる中・上級者になれば、HPFよりも高性能なソースコードを開発することができるようになるでしょう。なお、今日では、MPIは事 実上標準(de facto standard)になっており、数多くの分散並列化を行うシミュ レーションや解析処理で用いられています。また、今日の計算機アーキテクチャ が”クラスタ化”していることも背景にありますので、MPIは習得しておくのがよ いでしょう。

【TIPS】HPFによる分散並列化

HPF (High Performance Fortran)は、分散メモリ型並列計算機向けの拡張がなされたFortranであり、現在国際的な標準となっています。

 

このHPFは、OpenMPと同様に、データや処理の並列化に関するコンパイラに対する指示行(Compiler Directive)をソースコードに挿入してコンパイルするだけで、複数のプロセスで実行する実行モジュールが自動的に生成されます。コンパイラが並列計算に必要となるプロセッサ間の通信や同期の指示を生成してくれるため、初学者にも比較的容易にノード間並列が実現できます。ただし、HPFという名が示す通り、Fortranの拡張ですので、Cではご利用いただけません。


!HPF$ PROCESSORS P(4)
!HPF$ DISTRIBUTE (BLOCK) ONTO P :: x,y,z
 do i=1, 1000
  x(i) = y(i) + z(i)
enddo

 

【参考資料】

第1回 次期スーパーコンピュータ「SX-ACE」利用説明会資料(2014/09/02開催)
第2回 次期スーパーコンピュータ「SX-ACE」利用説明会資料(2014/11/26開催)

 

 

【TIPS】SX-9 vs SX-ACE
SX-9とSX-ACEを比較すると、SX-ACEはSX-9に比較してかなり小規模化しています。SX-9 では、1ノードが1TBの主記憶容量を共有し、16個のベクトル型CPU(最大ベクトル性能1.6TFlops)によって計算が行われるのに対し、SX-ACEでは、1ノードあたり64GBの主記憶容量しかなく、またCPUも4コアのマルチコア型 CPU 1基(256GFlops)で計算が行われます。そのため、ノードあたりの性能を比較すると、大幅に性能が低下したように見えます。実際、SX-9では、最大 16CPUを利用した自動並列やOpenMPでのノード内並列化により性能向上をおこなうことができましたが、SX-ACEでは、最大1CPU4コアでの自動並列あるいはOpenMPでノード内並列化までです。しかし、これまでのSX-9では、最大4 ノードまでのノード間並列までしかできなかったのに対し、SX-ACEでは、一度に最大512ノードを利用したノード間並列が可能となりました。SX-ACEでは、その性能をより引き出すためには、自動並列やOpenMPといったノード内並列よりも、 HPFやMPIといった並列化技法を用いたノード間並列の重要度が高まっているといえます。

SX-9 SX-ACE
CPU数(core数) 16CPU 1CPU (4core)
最大ベクトル性能 1.6TFLOPS 256TFLOPS (x1/6.4)
主記憶容量 1TB 64GB (x1/16)

 

  
 


更新日時:2020年03月30日 / 大規模可視化対応PCクラスタ(VCC)

本システムは2020年3月31日で提供を終了しました。
2020年4月10日追記:緊急性と必要性を鑑み、昨年度3月31日でサービスを終了した本システムを再配備し、新型コロナウイルス感染症対策対応HPCI臨時公募課題に資源拠出することとしました。
2021年2月追記:新型コロナウイルス感染症対策対応HPCI臨時公募課題への提供を終了しました。

 

システム概要

大規模可視化対応PCクラスタ(VCC : PC Cluster for large-scale Visualization)は、総計69ノードが相互接続されたクラスタシステムです。66ノードはIntel Xeon E5-2670v2プロセッサ2基、64GBの主記憶容量を搭載しており、残り3ノードはIntel Xeon E5-2690v4 プロセッサ2基、64GBの主記憶容量を搭載しております。これら69ノードを、InfiniBand FDRでノード間接続し、クラスタを形成します。

 

また、本システムでは、システムハードウェア仮想化技術ExpEtherを導入しており、各ノードと、GPU資源、SSD、ディスクが接続された拡張I/Oノードを20GbpsのExpEtherネットワークで接続します。このノードと拡張I/Oノードの接続組み合わせを変更することで、利用者の利用要求に応じた大規模計算機システムを再構成することができる点を最大の特徴としています。

 

なお、本センターでは、2PBのディスクをNEC独自開発のNEC Scalable Technology File System (ScaTeFS) と呼ばれる高速・分散並列ファイルシステムで管理し、VCCを含む本センターの大規模計算機システムからアクセス可能な構成としています。

 

[注意!!] 本システムは、大規模可視化システムとの連動や、可視化用途にしか利用できないというわけではありません。シミュレーションや大規模計算用途にもご利用いただけます。

 

【TIPS】ScaTeFS
ScaTeFSは、複数のI/Oサーバにメタデータおよびデータを均等に分散させることで、高速な並列I/Oと大量のファイル操作に強いファイルシステムを実現するだけでなく、単一障害点の排除と自動リカバリによる高い耐障害性とデータ保護も同時に実現した高信頼性を確立したファイルシステムです。
【TIPS】システムハードウェア仮想化技術 ExpEther

ExpEtherは、イーサネット(Ethernet)上でPCI Expressを仮想化する技術です。これにより、通常の計算機内の内部バスを、イーサネット上にスケールアップすることが可能となります。

 

ノード性能

各ノードは、200GFlopsの演算性能を有するIntel Xeon E5-2670v2プロセッサ2基、64GBの主記憶容量を搭載しています。Intel Xeon E5-2670v2プロセッサは、その動作周波数は2.5GHz、内部に10コアを搭載しており、プロセッサ単体の演算性能は200GFlopsです。そのため、ノード単体では合計20コア、ノード単体の演算性能は400GFlopsとなります。

 

ノード間の通信は、InfiniBand FDRで接続され、双方向56Gbpsの最大転送容量を提供します。

1ノード(VCC)
プロセッサ(コア)数 2(20)個
主記憶容量 64GB
ディスク容量 1TB
演算性能 400GFlops

2017年4月追記
構成の異なる3ノードを増設しました。(以下、増設ノードという)

増設ノードは、Intel Xeon E5-2690v4 プロセッサ2基、64GBの主記憶容量を搭載しています。Intel Xeon E5-2690v4プロセッサは、その動作周波数は3.5GHz(ターボブースト使用)、内部に14コアを搭載しており、プロセッサ単体の演算性能は784GFlopsです。そのため、ノード単体では合計28コア、ノード単体の演算性能は1568GFlopsとなります。

1ノード(VCC増設分)
プロセッサ(コア)数 2(28)個
主記憶容量 64GB
ディスク容量 1TB
演算性能 1568GFlops

 

システム性能

大規模可視化対応PCクラスタ(VCC)は、総計69ノードから構成されます。そのため、システム全体の理論性能値は下記のように導かれます。

大規模可視化対応PCクラスタ(VCC)
プロセッサ(コア)数 138(1404)個
主記憶容量 4.278TB
ディスク容量 62TB
演算性能 31.104TFlops

また、VCCは、各ノードに対して、システムハードウェア仮想化技術ExpEtherを用いることで、ユーザのニーズに応じて、下記の再構成可能資源を割り付けることができます。現在、再構成可能資源として提供している資源は下記の通りです。現在、再構成可能資源として提供している資源は下記の通りです。

 

【TIPS】再構成可能資源を割り付けでの注意事項

1ノードに対してすべての再構成可能資源を割り付けることができるわけではなく、1ノードあたりに割り付けることのできる最大資源数が限られています。しかし、SSDとGPUといった再構成可能資源を組み合わせて割り付けることが可能です。

 

ご興味・関心のある方は下記までお問い合わせください。

 

system at cmc.osaka-u.ac.jp

 

再構成可能資源 資源数 性能値
GPU:Nvidia Tesla K20 59枚 69.03TFlops
SSD:ioDrive2(365GB) 4枚 1.46TB
Storage:PCIe SAS (36TB) 9枚 324 TB

 

ソフトウェア

本センターのVCCには、オペレーティングシステムとしてCent OS 6.4が採用されています。そのため、日常的にLinux系OS上でプログラム開発をされている方にとっては、利用、プログラムの移植・開発が非常に容易なシステムとなっています。

 

現在、本システムで利用できるソフトウェアとして下記を提供しています。

ソフトウェア
Intel C/C++/Fortran Compiler
Intel MPI
Intel MKL(BLAS、LAPACKをはじめとする密線形台数、スパース線形代数、統計関数、ScaLAPACK、クラスター FFT、高速フーリエ変換 (FFT)、最適化された LINPACK ベンチマーク、ベクトル・マス・ライブラリー)
AVS/Express PCE
AVS/Express MPE (Ver.8.1)
Gaussian09
GROMACS
OpenFOAM
LAMMPS
プログラミング言語
C/C++(Intel Compiler/GNU Compiler)
FORTRAN(Intel Compiler/GNU Compiler)
Python
Octave
Julia

なお、VCCへのジョブ管理には、Job ManipulatorとNQSIIを中核とした統合スケジューラを採用しています。スケジューラについては下記をご参照ください。


スケジューラについて

 

 

VCCでの性能チューニング

VCC上で性能チューニングを行う方法には、大別して、ノード内並列(共有メモリ並列)、ノード間並列(分散メモリ並列処理)の2種類があります。前者のノード内並列処理は、VCCのノード内に搭載された20個のCPUコアで計算負荷を分散する方法です。後者のノード間並列処理は、VCCの複数のノードに計算負荷を分散する方法です。

 

VCCで最大限の性能を引き出すためには、ノード内並列とノード間並列を併用する必要があります。VCCでは特に1ノードあたりに搭載されたコア数が多いため、主記憶容量64GBの範囲で計算が可能な場合には、ノード内並列で20コアを最大限に分散並列化が効果的ともいえます。

 

さらに、VCCでは再構成可能資源としてGPUやSSDが準備されていますので、GPUを用いた高速化を行ったり、SSDを用いてローカルディスクへのI/Oを高速化するなどの工夫によって、さらにチューニングを進めることもできます。

 

    ノード内並列(共有メモリ並列処理)

    この方法の特徴は、スカラ型CPU20コアが主記憶64GBのメモリ空間を”共有”することにあります。一般的に、分散並列計算においては、分散メモリ型のほうがプログラミング、チューニングが容易といわれています。VCCにおいても、この一般論があてはまり、ノード間並列よりもノード内並列のほうが容易であると言えます。

     

    VCCでのノード内並列は、「OpenMP」、「スレッド」といった方法が代表的です。なお、一般的には、ノード間並列処理で用いられる「MPI」をノード内並列で用いることもできます。

     

    【TIPS】OpenMPによる共有並列化

    OpenMPは共有メモリ並列プログラミングのための標準API(Application Programming Interface)です。文字通り、OpenMPは、共有メモリ型の計算機を対象としています。例えば、以下のように、ソースコードにコンパイラに対する指示行(Compiler Directive)を挿入してコンパイルするだけで、マルチスレッド実 行する実行モジュールが自動的に生成されるため、初学者が比較的簡単に着手できる分散並列化手法です。Fortran、CあるいはC++で利用できます。

     

    例1              
    #pragma omp parallel
     {
    #pragma omp for
      for(i =1; i < 1000; i=i+1)  x[i] = y[i] + z[i];  }

    例2
    !$omp parallel
    !$omp do
      do i=1, 1000
        x(i) = y(i) + z(i)
        enddo
    !$omp enddo
    !$omp end parallel

    OpenMPについては、書籍、インターネットから多くの情報を取得できますの で、より詳細な利用方法については、参考にされるとよいでしょう。

    【TIPS】スレッドによる分散並列化

    スレッド(thread)は軽量プロセスとよばれる、プロセスよりも細かい処理の単位です。プロセス単位でCPU利用を制御するよりもスレッド単位でCPU利用を制御するほうが、それらを実行するための情報の切り替えが高速に行われるため、計算処理が高速になることがあります。

     

    ただし、VCCでスレッドを利用する際は、スケジューラにジョブを投入する際に、

    #PBS -l cpunum_job=20

    として、ノード内のCPUコアをすべて利用する宣言を行わなければなりません。

     

    ノード間並列(分散メモリ並列処理)

    この方法の特徴は、異なるノードの主記憶を利用する計算方法であるため、同一のメモリ空間を共有せず、分散配置された複数鵜の独立したメモリ空間を利用することにあります。このことが、分散メモリ並列処理が共有メモリ並列処理よりも難しい要因となっています。

     

    VCCでのノード間並列は、「MPI(Message Passing Interface)」を利用する方法が代表的です。

     

    【TIPS】MPIによる分散並列化

    Message Passing Interfaceはメッセージパッシング方式に基づく分散並列プ ゴラミングのためのライブラリ、API(Application Programming Interface)を規 定しています。MPIでは、分散メモリ並列処理環境上で発生しうるMPIプロセス間の通信パターンを想定し、あるプロセスがあるプロセスと通信をおこなう1対1通 信(例えば、MPI_Send, MPI_Recvなど。)、複数のプロセスが同時に関係した通信をおこなう集合通信(例えば、MPI_Bcast, MPI_Reduceなど。)に関する、直感的で分かりやすいAPIを提供します。MPIによる分散並列化では、開発者が複数のMPIプロセス間でのデータ移動、計算負荷分散を考慮しつつ、ソースコードを作成しなければならないため、初学者にはすこし敷居が高い分散並列化手法です。 しかし、計算機システムのハードウェアアーキテクチャや特性を理解してコー ディングを行うことができる中・上級者になれば、HPFよりも高性能なソースコードを開発することができるようになるでしょう。なお、今日では、MPIは事 実上標準(de facto standard)になっており、数多くの分散並列化を行うシミュレーションや解析処理で用いられています。また、今日の計算機アーキテクチャが”クラスタ化”していることも背景にありますので、MPIは習得しておくのがよいでしょう。

     

    GPUを用いた高速化

    VCCには、Nvidia Tesla K20というGPUが59枚再構成可能資源として準備されています。このGPUを、例えば、VCCを構成する4ノードに2個ずつ割り付け、8個のGPUを用いたアクセラレーションを行うことも可能です。本センターのGPUでの開発環境としては、CUDA(Compute Unified Device Architecture)が準備されています。

     

    【TIPS】CUDAによる分散並列化
    CUDA(Compute Unified Device Architecture)は、NVIDIA社が提供するGPUコンピューティングのための統合開発環境で、C言語ベースのライブラリ、コンパイラ、デバッガなどが提供されています。そのため、C言語経験者には比較的容易にGPUを利用したプログラミングに着手することができます。

     

    関心の有る方は、こちらより情報が取得できます。

     

     


更新日時:2020年03月15日 / 24面大型立体表示システム

本システムの提供は終了しました。
 

システム概要

24面大型立体表示システム(24-screen Flat Stereo Visualization System)は、Full HD (1920×1080) 50インチステレオプロジェクションモジュール(Barco社製 OLS-521 ) 24面、および、24面モニタ上での可視化処理を制御する画像処理用PCクラスタ(Image-Processing PC Cluster)から構成される可視化システムです。本可視化システムは、水平150度の広視野角で約5000万画素の超高精細立体表示を可能とする点を特徴とします。また、大規模可視化対応PCクラスタ(VCC)を占有利用することで、本可視化システムと連動させた可視化処理を可能とする点を最大の特徴とします。

 

また、本可視化システムには、モーションキャプチャリングシステムOptiTrack Flex13が導入されており、対応ソフトウェアを利用することで、VR(Virtual Reality)機能を利用したインタラクティブな可視化が可能です。

 

さらに、ハイビジョンビデオ会議システム(Panasonic製KX-VC600)もありますので、テレビ会議利用も可能となっています。

 

ノード性能

本可視化システムを構成する画像処理用PCクラスタ(IPC-C: Image-Processing PC Cluster on Campus)は、Intel Xeon E5-2640 2.5GHzプロセッサ2基、主記憶容量64GB、ハードディスク2TB(RAID 1構成)、NVIDIA製Quadro K5000を備えた計算機7台から構成されています。本可視化システムでは、この画像処理用PCクラスタを相互連携させ、24面モニタ上での可視化処理を制御しています。

 

1ノード(IPC-C)
プロセッサ(コア)数 2(12) 個
主記憶容量 64 GB
ディスク容量 2TB (RAID 1)
GPU: NVidia Quadro K5000 1個
演算性能 240 GFlops

システム性能

IPC-Cは、7ノードが10GbEで接続されたクラスタシステムです。IPC-Cの理論性能値は以下の通りです。

IPC-C
プロセッサ(コア)数 14(84)個
主記憶容量 448 GB
ディスク容量 14 TB (RAID 1)
GPU: NVidia Quadro K5000 7個
演算性能 1.68 TFlops

 

ソフトウェア

本可視化システムを構成する画像処理用PCクラスタ(IPC-C)には、オペレーティングシステムとして、Windows 7 ProfessionalおよびCent OS 6.4がデュアルブート可能な形でインストールされています。利用用途に応じてオペレーティングシステムはお選び頂けます。

 

このIPC-Cには、可視化ソフトウェア、VRユーティリティソフトウェアとして下記のソフトウェア群が導入されています。

 

可視化ソフトウェア

AVS Express/MPE VR 汎用可視化ソフトウェア。CAVE などのVRディスプレイにも対応。
IDL データ分析,可視化,ソフトウェア開発環境を持った統合パッケージ
Gsharp グラフ・コンター図作成ツール.
SCANDIUM SEMデータの画像解析処理
ヴェイサエンターテイメント社製Umekita 電子顕微鏡等の計測機器から出力される立体構造のデータを高品質に可視化

 

VRユーティリティ

CAVELib マルチディスプレイ,PCクラスタ環境下で可視化を行うためのAPI
EasyVR MH Fusion VR 3D-CAD/CGソフトウェア上の3DモデルをVRディスプレイに表示するソフトウェア(データコンバート不要)
VR4MAX 3ds Max上の3DモデルをVRディスプレイに表示するためのソフトウェア

更新日時:2014年09月15日 / 15面シリンドリカル立体表示システム

本システムの提供は終了しました。
 

システム概要

15面シリンドリカル立体表示システム(15-screen Cylindrical Stereo Visualization System)は、WXGA (1366×768) 46インチLCD 15面、および、15面モニタ上での可視化処理を制御する画像処理用PCクラスタ(Image-Processing PC Cluster)から構成される可視化システムです。本可視化システムは、約1600万画素の超高精細立体表示を可能とする点を特徴とします。また、大規模可視化対応PCクラスタ(VCC)を占有利用することで、本可視化システムと連動させた可視化処理を可能とする点を最大の特徴とします。

 

また、本可視化システムには、モーションキャプチャリングシステムOptiTrack Flex13が導入されており、対応ソフトウェアを利用することで、VR(Virtual Reality)機能を利用したインタラクティブな可視化が可能です。

 

さらに、ハイビジョンビデオ会議システム(Panasonic製KX-VC600)もありますので、テレビ会議利用も可能となっています。

 

本可視化システムの設置場所は、大阪大学サイバーメディアセンターうめきた拠点(グランフロント大阪 タワーC 9階 大阪大学エリア)です。

 

ノード性能

本可視化システムを構成する画像処理用PCクラスタ(IPC-U: Image-Processing PC Cluster on Umekita)は、Intel Xeon E5-2640 2.5GHzプロセッサ2基、主記憶容量64GB、ハードディスク2TB(RAID 1構成)、NVIDIA製Quadro K5000を備えた計算機6台から構成されています。本可視化システムでは、この画像処理用PCクラスタを相互連携させ、15面モニタ上での可視化処理を制御しています。

 

1ノード(IPC-U)
プロセッサ(コア)数 2(12)個
主記憶容量 64 GB
ディスク容量 2 TB (RAID 1)
GPU: NVidia Quadro K5000 1個
演算性能 240 GFlops

 

システム性能

IPC-Uは、6ノードが10GbEで接続されたクラスタシステムです。IPC-Uの理論性能値は以下の通りです。

IPC-U
プロセッサ(コア)数 12(72)個
主記憶容量 384 GB
ディスク容量 12 TB (RAID 1)
GPU: NVidia Quadro K5000 6個
演算性能 1.44 TFlops

 

ソフトウェア

本可視化システムを構成する画像処理用PCクラスタ(IPC-U)には、オペレーティングシステムとして、Windows 7 ProfessionalおよびCent OS 6.4がデュアルブート可能な形でインストールされています。利用用途に応じてオペレーティングシステムはお選び頂けます。

 

このIPC-Uには、可視化ソフトウェア、VRユーティリティソフトウェアとして下記のソフトウェア群が導入されています。

 

可視化ソフトウェア

AVS Express/MPE VR 汎用可視化ソフトウェア.CAVE などのVRディスプレイにも対
IDL データ分析,可視化,ソフトウェア開発環境を持った統合パッケー
Gsharp グラフ・コンター図作成ツール
SCANDIUM SEMデータの画像解析処理
ヴェイサエンターテイメント社製Umekita 電子顕微鏡等の計測機器から出力される立体構造のデータを高品質に可視化

 

VRユーティリティ

CAVELib マルチディスプレイ,PCクラスタ環境下で可視化を行うためのAPI EasyVR MH Fusion VR 3D-CAD/CGソフトウェア上の3DモデルをVRディスプレイに表示するソフトウェア(データコンバート不要) VR4MAX 3ds Max上の3DモデルをVRディスプレイに表示するためのソフトウェア

更新日時:2014年07月16日 / 汎用コンクラスタ(HCC)

本システムの提供は終了しました。後継機のOCTOPUSをご利用ください。(提供期間:提供期間:2013年4月-2017年9月)

システム概要

2012年10月より、Express5800/53Xh×575台上の仮想Linuxをクラスタシステムとして演算サービスを提供しています。

 

Express5800/53Xh は CPUがIntel Xeon E3-1225v2(1CPU 4コア)、メモリが8GB/16GBの性能を持ちますが、仮想Linuxでは 2コア、4GB/12GB が利用可能です。仮想LinuxのOSはCent OS 6.1、Intel製の C/C++ 及び Fortran コンパイラを導入しています。また、Intel MPI ライブラリーを用いたMPI 並列計算が可能です。

 

システム性能

豊中地区 吹田地区 箕面地区
ノード毎 総合 ノード毎 総合 ノード毎 総合
プロセッサ数 2 536 2 338 2 276
演算性能 28.8 GFLOPS 7.7 TFLOPS 28.8 GFLOPS 4.9 TFLOPS 28.8 GFLOPS 4.0 TFLOPS
主記憶容量 4GB 1.1TB 4/12GB 1.2TB 4GB 0.6TB
ノード数 268ノード 169ノード 138ノード
全ノード数 575ノード

※ 3地区に分散して設置しています。

 

汎用コンクラスタ(HCC)利用における注意事項

ホストOSを学生教育用の端末PCとして利用している関係上、突然のノード停止が発生する可能性があります。この停止は事前に予測できずに発生いたしますので、投入されたバッチリクエストの動作に影響する可能性があることをご了承ください。

 


更新日時:2014年07月15日 / SX-9


本システムの提供は終了しました。(提供期間:2008年7月1日-2014年9月12日)後継機のSX-ACEをご利用ください。

 

SX-9のCPUはプロセッサ当たり102.4GFLOPSの性能を持ち、各ノードには16個を搭載、ノード毎の演算性能は1.6TFLOPS、主記憶容量は1TBを有します。

 

10ノードの総合演算性能は16TFLOPS、総合メモリは10TBの大規模システムになり、MPIを用いた並列処理により最高で8ノード(12.8TFLPS, 8TBメモリ)の演算が可能です。


更新日時:2014年07月14日 / SX-8R

本システムの提供は終了しました。(提供期間:2007年1月5日-2014年9月12日)後継機のSX-ACEをご利用ください。

 

SX-8Rは、大容量メモリ型(DDR2)8ノードと高速メモリ型(FC-RAM)12ノードの2種類の機種から構成されます。各ノードには8個のCPUを搭載し、ノード毎の演算性能は大容量メモリ型が281.6GFLOPS、高速メモリ型が256GFLOPSとなっています。

 

また、主記憶容量は大容量メモリ型が256GB、高速メモリ型は4ノードが64GB、8ノードが128GBとなっています。

 

大容量メモリ型の8ノードは、ノード間接続装置(IXS)で接続され、MPIプログラミングにより最大2TBメモリの演算が可能です。


更新日時:2014年07月14日 / PCクラスタ(PCC)


本システムの提供は終了しました。ご利用ありがとうございました。(提供期間:2007年3月-2014年3月)

Express5800/120Rg-1×128台でPCクラスタシステムとして演算サービスを提供しています。

Express5800/120Rg-1 は CPU が Intel Xeon 3GHz (Woodcrest) 2CPU 4コア、メモリが 16GB の性能を持ちます。

OS は SUSE Linux Enterprise Server 10、Intel 製の C/C++ 及び Fortran コンパイラを導入しています。

また、MPI-CH 1.2.7p1 及び Intel MPI ライブラリー を用いた MPI 並列演算が可能です。


更新日時:2007年01月19日 / SX-5

本システムの提供は終了しました。(提供期間:2001年1月-2007年1月)

SX-5/128M8は16個のベクトルプロセッサと128GBの主記憶を搭載したNEC SX-5/16Afの8ノードと、64Gbpsの専用ノード間接続装置IXS、800MbpsのHiPPIおよび1GbosのGigabit Ethernetによって接続したクラスタ型スーパーコンピューティングシステムです。
 

システム全体の仕様

理論演算性能 1.2 TFLOPS
ノード数 8
CPU数 128
定格消費電力 443.36 kVA

1ノードあたりの仕様

CPU NEC SX-5/16Af
CPU数 16
メモリ容量 128 GB
メモリ帯域 16 GB/s
理論演算性能 160 GFLOPS
定格消費電力 55.42 kVA