如若LHC加速器以理想的方式运行,那么需要为全世界超过500所研究机构和大学的近5000名参与到LHC的实验的科学家提供对实验数据的访问。除此以外,在LHC预计超过15年的生命周期里,所有的数据都须是可用的。
出于经济和技术的众多理由,都强烈需求一个分布式架构:
作出采用分布式计算的方式来管理LHC数据的首要考虑还是金钱。在1999年,当LHC数据分析计算系统设计工作开始的时候,就很快认识到了其所需求的计算能力远远超出了CERN的资助能力。另一方面,大多数LHC的合作实验和院校都有国家级或地区级计算设施的使用权。明显的一个问题就是:这些设施能整合起来为LHC提供一个统一的计算服务吗?高速发展的广域网——能力和容量的增长伴随着成本的显著降低——使之看似可行。从那时起,LHC计算网格的发展路线就确定了。
在LHC计算网格的研发过程中,分布式系统的许多附加优势开始显现:
- 不同的站点能保有数据的多份拷贝,保证了所有参与其中的科学家都能访问,独立于地理位置。
- 允许多个计算中心的闲置能力得到最优化的使用,提升了效率。
- 在多个时区都拥有计算中心使昼夜不停的监控易如反掌并保证了可靠的专业支持。
- 不存在单点失效。
- 维护和升级的成本是分散的,因为单个机构负责资助本地的计算资源并保有相应责任,与此同时仍然对全球化的目标作出了贡献。
- 独立掌控资源鼓励了计算和分析的新兴手段。
- 所谓的“人才流失”,研究员不得不离开本土以获取资源,当资源从他们桌面即可获取时,这一现象被大大地减少了。
- 系统只需简易重新配置即可应对新的挑战,使其能随着LHC的生命周期动态的演进,能力不断成长,以满足每年采集数据增加引起的需求上升。
- 对于在什么地点以及怎样扩充未来的计算资源留出了足够的灵活性。
- 允许社区享用新技术带来的提升的易用性,成本效益或能源效率。
整体项目的规模给LCG团队带来了一些有趣的挑战:
- 管理需要在网格间可靠传输的庞大数据。
- 掌管每个站点的存储空间。
- 跟踪9000名物理学家分析数据所产生的几千万的文件。
- 保证足够的网络带宽:主站点之间用光纤链接,而最远程的站点也需要可靠的链接。
- 保证大量独立站点之间的安全同时最小化官僚作风,确保认证用户易于访问。
- 维护多个站点安装的软件版本一致连贯。
- 处理异构的硬件。
- 提供会计机制,基于不同级别的需求和对基础设施的贡献,保证公平的访问。
对于如此巨大的分布系统来说,安全同样是个重要的挑战。据“每日电讯”报道,9月10日,当第一束粒子环绕粒子加速器呼啸而过时,来自希腊的黑客曾获取了CERN中一台LHC计算系统的片刻权限。
在CERN,运营着这个庞然大物的机构,科学家们担心黑客们一旦得手将会做什么,因为他们离控制这一机器中一个庞大探测器的计算机系统仅“一步之遥”。这是个重达12500吨的磁体,长近21米,宽高15米。
如果他们进入到第二道计算机网络,他们可以关掉这大型探测器的一部分。内部人士说:“就算没人捣乱要让它们工作起来都够困难了。”
攻击造成的后果是,在写这篇文章的时候,公众仍然无法访问cmsmon.cern.ch这一站点。
驱动LCG的操作系统是Scientific Linux发行版 更多详细信息,请您微信关注“计算网”公众号: