for pulic for researcher English
news@kek
home news event library kids scientist site map search
>ホーム >ニュース >News@KEK >この記事
last update:07/02/8  

   image 大量のデータ処理手法で優勝    2007.2.8
 
        〜 Belle実験グループとグリッド技術Gfarm 〜
 
 
  宇宙誕生の起源の謎にせまる研究を続けているBelle実験グループでは、これまでに電子と陽電子が衝突して生じるB中間子の反応のデータを15億個、記録してきました。その量は1ペタバイト(最新のノート型パソコンの記憶容量で約1万台)にのぼり、国会図書館に所蔵されているすべての本の文字情報に匹敵するといわれます。

このように大量に蓄積された実験データを解析するためには、コンピュータやネットワークを効率よく活用する必要があります。Belle実験グループが情報科学分野で「グリッド」と呼ばれている技術を用いて作り上げたデータ解析システムが、米国で開催されたスーパーコンピュータ会議「SC06」の大規模システム部門のコンテストで見事優勝しました。

増え続けるデータ

Belle実験は13ヶ国、57研究機関からの約400人の研究者が行っている国際共同実験です。この実験では、KEKB加速器を用いて、大量のB中間子を作りだし、粒子と反粒子の性質の違い(CP対称性の破れ)についての研究を行っています。KEKBは世界最高のルミノシティ(衝突性能)を有する加速器で、1秒間に約30個のB中間子を生成することができます。1999年の運転開始から現在までに、15億個という膨大な数のB中間子を生成してきました。

生成されたB中間子はすぐに崩壊してしまいますが、Belle検出器は、20万チャンネルに及ぶ位置、光、時間センサーを用い、その崩壊の様子をとらえます。この研究を行うためには、B中間子のそれぞれの崩壊の様子を記録したデータを保存する大容量の記憶装置と、それを解析する巨大な計算機システムが必要になります(図1、2)。

Belle実験で蓄積されたデータは、測定器で得られた情報がそのまま記録されたもので、研究者がその後の解析で扱いやすい情報にするために、コンピュータを使ってさらに大量のデータ処理を行う必要があります。また、収集されたデータの他に、モンテカルロと呼ばれるシミュレーションデータも必要となるため、データの量はそれ以上に多くなります。そのために必要な計算能力も膨大なものです。また、研究者は様々な崩壊モードを研究しているので、これらのデータを何度も繰り返し読み出して解析する必要があります。

グリッド技術でデータを分散

大型のコンピュータから広く使われるパソコンまで、世の中にあるコンピュータにはすべて、CPU(中央演算処理装置)という、データを処理して必要な計算を行う、コンピュータの頭脳にあたる部分と、データを格納するための磁気ディスクやDVDのような記録装置があります。

1台のコンピュータで大量のデータを扱おうとすると、交差点が1つしか無い道路に四方から大量の車が押し寄せるのと同じように、渋滞が起きてしまいます。渋滞を避けるには、たくさんの交差点を作って、それぞれにうまく車がたどり着けるように、ネットワークの作り方を工夫すればいい、ということになります。

このためにKEKでは、「グリッド」と呼ばれるデータの分散処理技術を使って、大量のデータを効率的に扱うシステムを情報科学の研究者と共同で開発してきました。

Belle実験グループが2006年春に導入した新しい計算機は、1,200台のPC、1ペタバイトの磁気ディスク、3.5ペタバイトの磁気テープからなる巨大なシステムです。Belle測定器で記録されたデータは磁気テープ内に格納されており、PCで処理された後、研究者が読みやすい形にして磁気ディスク上に展開されます。研究者は、各自の解析プログラムを数百台のPC上で走らせ、磁気ディスク上のデータを読み出します(図3)。

GfarmとBelle実験グループの計算機システムが優勝

今回、KEKの片山伸彦氏、西田昌平氏、足立一郎氏および筑波大学のチームは、産総研、筑波大学の建部修見氏らがオープンソースで開発している広域仮想ファイルシステムGfarm(ジーファーム)を用いて、1,000台のサーバにデータを分散させる試験を行いました。Gfarmについては、以前の記事(2002年12月5日)でもご紹介しましたが、数千台のPC上のデータを見かけ上、1つのディスク上にあるかのように扱うことができます(図4)。チームは、Belle実験グループの計算機システムにGfarmを導入し、ファイルの読み出しの性能測定や、実際のデータ解析作業を行いました。

その結果、1,000台以上という大規模なシステムで同時にデータを読み出しても、データの交通渋滞が起きること無く、毎秒52ギガバイトという驚異的な速度でデータを読み出したり書き出したりすることができることを確認しました。これは「ベンチマークプログラム」とよばれる性能確認のための試験の結果ですが、Belle実験グループが実際にデータ解析に用いるプログラムでも、毎秒24ギガバイトという速度で実際の物理解析を行うことに成功しました(図5)。

これによって、従来の方法では1週間以上かかる作業を数十分で行う事ができ、今後Belle実験における解析能力を飛躍的に向上させることができることになります。

この成果は、2006年11月にアメリカ・タンパで行われたSC06(International Conference for High Performance Computing, Networking, Storage and Analysis)国際会議において、HPC Competition(高性能コンピューティングコンテスト)という企画の「ストレージチャレンジ」で発表されました。SC06は、ACM(アメリカ計算機学会)とIEEE Computer Societyが後援する、世界最大のスーパコンピュータ国際会議です。「ストレージチャレンジ」は、ストレージをより高性能に利用することを競うもので、単なるストレージの読み書きの最高性能だけではなく、より効果的に実際の用途に利用することが要求されます。

「ストレージチャレンジ」には世界中の研究所や大学から12のチームが参加しましたが、前述のとおり、KEK・筑波大チームの「High Performance Data Analysis for Particle Physics using the Gfarm File System」が、その大規模システム部門のコンテストで優勝しました(図6、7)。


※もっと詳しい情報をお知りになりたい方へ

→Gfarmのwebページ
  http://datafarm.apgrid.org/
→SC06国際会議のwebページ(英語)
  http://sc06.supercomputing.org/
→SC06のチャレンジの結果を記したプレスリリース(英語)
  http://sc06.supercomputing.org/news/
            press_release.php?id=14


→関連記事
  ・02.12.05
     素粒子実験とグリッド技術 〜国際舞台での成果〜
  ・06.12.04 トピックス記事
    2006年スパコン会議大規模システム部門で
            筑波大・KEKのチームが優勝

 
image
[図1]
Belle の計算機(サーバ)
拡大図(69KB)
 
 
image
[図2]
Belle の計算機(ストレージ)
拡大図(45KB)
 
 
image
[図3]
Belle 実験用計算機の構成図。通常は「大規模ストレージ」のデータを1140台の「計算サーバ」から読み出しているが、今回の測定では「計算サーバ」上にGfarmを用いてデータを配置した。
拡大図(55KB)
 
 
image
[図4]
Gfarm ファイルシステムのイメージ図。多数のPC上のディスクを、仮想的に1つの大きなディスクに見せかけることができる。
拡大図(44KB)
 
 
image
[図5]
ベンチマークプログラムを用いた、Gfarmの読み出し性能テストの結果。横軸はサーバーの台数。縦軸は読み出し速度。1000台以上のサーバからでも、性能が悪化することなくデータを読み出すことができた。
拡大図(16KB)
 
 
image
[図6]
Storage Challenge 優勝の賞状
拡大図(71KB)
 
 
image
[図7]
Storage Challenge 優勝の表彰式にて
拡大図(53KB)
 
 
 
 
 

copyright(c) 2007, HIGH ENERGY ACCELERATOR RESEARCH ORGANIZATION, KEK
〒305-0801 茨城県つくば市大穂1-1
proffice@kek.jpリンク・著作権お問合せ