New Central Computing System of KEK

近年のビッグ・サイエンスにおいて、計算技術がプロジェクト成功の鍵を握っています。高エネルギー物理学の大規模実験においても、加速器と検出器だけでなく、計算機の役割が本質的です。KEK中央計算機システム(KEKCC) はKEKが推進するBelle II実験やJ-PARCでの様々な実験に不可欠なシステムです。KEK計算科学センターはこのコンピュータシステムの調達と運用を行っています。システムは4-5年周期で更新されますが、その際には実験グループからの要望に従って、デザインの検討と構築を初めからやり直しています。8か月の設置作業が完了し、2016年9月に新KEKCCシステムが稼働を開始しました。このシステムは4年間のレンタルで、2020年8月まで運用される予定です。

Fig. 1 新KEKCCシステムの全体図

KEKCCは複合的な計算機サービスから構成されています。その中心となるのは、ログインとバッチサービス、大規模ストレージです。ストレージシステムと計算ノードは高い入出力効率を持つ高速通信ネットワークで互いに接続されています。CPUとストレージは、増大しつつある計算資源の需要に対応して大幅に拡充されました。新システムは約10,000のCPUコア(前システム比2.5倍)、13 PBのディスクストレージ(同1.8倍)、最大容量70 PBまでのテープライブラリを備えています。Fig.1 はシステムの全体構成です。KEKCCは主にBelle II実験に使用されるGridコンピューティングサービスも提供します。Gridコンピューティングは地理的に離れたサイトに分散するデータを管理し、効率的に共有するための技術で、国際共同研究に不可欠です。

このような分散解析技術を最大限に利用しても、Belle II 実験でKEKに保存される数百PBものデータを管理すること容易ではありません。ストレージ容量だけではなく、入出力のスケーラビリティや電力効率なども重要な因子だからです。更にデータの蓄積だけでなく、解析のためのデータ処理の効率化も重要です。KEKはBelle II実験やJ-PARCで行われる様々な実験のホスト機関として、生データの取得からDST(データサマリーテーブル)の作成、エンドユーザが利用する物理データの蓄積までサポートする責任があります。

ストレージシステムは、高性能のディスクストレージと、70PBまで拡張可能なテープライブラリから構成されます。高エネルギー実験では、コストと長時間のデータ保存という観点から、現在でもテープ装置が不可欠です。一方でテープ装置の弱点は、データへのアクセスの利便性がディスク装置に比べて劣ることです。階層的ストレージ管理技術(Hierarchal storage management, HSM) はこの弱点を隠してシームレスなデータ入出力を提供します。HSMシステムとして、我々はHPSS (High Performance Storage System) を採用しました。データ入出力はHSMシステムのディスクによって自動的に実行され、テープ上のファイルに対してもディスクと同じようにアクセスすることが可能となりました。

バッチシステムに対しても、ジョブのスループット改善、ジョブのモニタリングやキューパラメターの最適化等を継続的に行っています。その結果、CPU利用効率は徐々に向上し、持続的に高負荷状態を実現しています。

KEKCCはKEK の種々の実験に対して不可欠です。特に最優先課題であるBelle II実験の成功のために、計算科学センターは最大限の努力を続けていきます。