云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

域名注册_域名解析查询_高性价比

小七 141 0

下一代CERN加速器日志服务体系结构

这是CERN物理实验室软件工程师和项目技术负责人Jakub Wozniak的社区来宾博客,进一步阐述和补充了他在都柏林举行的欧盟Spark峰会上的主题演讲。欧洲核子研究所是一个物理实验室,成立于1954年,专注于基础物理和标准模型领域的研究、技术和教育,其加速器充当巨型显微镜,允许发现物质基本组成部分的特殊性。欧洲核子研究所由22个成员国提供资金,约2500名员工和10000多名活跃用户来自世界各地,是世界上最大、最强大的粒子加速器——大型强子对撞机(LHC)的所在地。到目前为止,这是最复杂的科学实验,导致在2012年发现希格斯玻色子(标准模型预测的粒子),正如ATLAS和CMS实验所宣布的那样。作为复杂且相互关联的粒子加速器,它们每天共同产生大量的数据。在这个博客中,我想分享我们的日志服务架构,以及我们如何使用apachespark大规模收集和处理数据。但首先,有一点关于CERN加速器家族的背景。欧洲核子研究中心的粒子加速器链大型强子对撞机(LHC)加速器本身由一个27公里长的超导磁体环组成,它带有若干加速腔,以增加环内循环粒子的能量。但欧洲核子研究所本身并不仅仅是大型强子对撞机。实际上,它是一个相互连接的粒子加速器的综合体,每一个连续的机器都能进一步增加粒子的能量。束流的产生从直线加速器2的一个简单的氢瓶开始,这是链上第一个将质子加速到50mev能量的加速器。随后,这些束流被注入质子同步加速器助推器,在那里质子束形成并进一步加速到1.4gev。链中的下一个加速器被称为质子同步加速器,它形成束流的最终形状,并将束流提升到25gev。这些粒子随后被送入超级质子同步加速器,在那里它们被加速到450gev,从那里它们被注入到LHC的两个管道中。这是在实验地点,光束朝相反的方向去碰撞的地方。将所需的粒子束填满LHC,并将其加速到6.5TeV的最终能量,大约需要25分钟。每一个质子的能量大约相当于一只会飞的蚊子的能量;然而,来自每束116e09个质子和束流中2800束的总累积能量提供了一个巨大的能量,相当于一艘航母以5节的速度巡航。实验地点的大型探测器观测到的碰撞每秒产生1PB的事件,这些事件被过滤成每年30-50PB的可用物理数据。粒子的旅程、设备和数据采集器尽管大型强子对撞机无疑是欧洲核子研究所的旗舰实验,但实验室工程师、加速器操作员和束流物理学家都在努力将各种类型的光束传送到位于该复合体周围较小加速器的其他实验中。在用户(即实验物理学家)能够分析碰撞数据之前,需要付出巨大的努力使整个复杂系统以高度同步和协调的方式工作。典型的加速器是由多种不同类型的磁铁组成的,比如用来弯曲粒子的偶极子,聚焦粒子的四极磁铁,或者从其他加速器中注入/提取束流的冲击器。束流的加速是用射频腔来实现的,而精确的束流诊断仪器用来测量产生的粒子束的特性。在束流产生过程中还涉及许多其他系统,如轨道反馈、定时、同步、联锁、安全、辐射防护等。对于像大型强子对撞机这样的高能加速器来说,低温技术也扮演着非常重要的角色。当然,所有这些设备也需要真空、电力和通风设备。为了控制所有相关设备,操作团队需要控制系统来监控和操作机器。在欧洲核子研究所,即使是最小的加速器,也通常由数千个具有数百种不同性质的装置组成。所有这些设备都有不同的设置,并产生一些可观察的输出。这些输出值需要提供给操作员,以帮助他们了解机器的当前状态,并允许他们对加速器链中每秒发生的事件做出响应。数据可以在线监控或离线查询的形式使用。软件应用程序用于日常操作,并显示设备的当前状态、警报、故障、光束属性等。离线查询需要对控制数据进行各种研究,这些数据旨在提高机器性能、光束质量、提供新的光束类型,设计新的实验甚至未来的加速器。每天的数据分析和存储需求到目前为止,所有获得的控制数据都存储在一个基于两个Oracle数据库的系统中,该系统称为"CERN加速器日志服务"(CALS)。该系统订阅了20000个不同的设备,并记录了总计150万个不同信号的数据。它在欧洲核子研究中心拥有大约1000个用户,每天产生500万个查询(主要来自自动化应用程序)。CALS每天存储710亿条记录,这些记录每天占用约2TB的未过滤数据。由于这一数量对于存储非常重要,因此将积极应用重过滤,并在3个月后过滤掉95%的数据。从2003年开始,长期存储的重要数据大约有1PB。旧系统的局限性和延迟性作为一个已经投入生产很长时间(开发始于2001年)的系统,一些十年前看起来很好的设计原则确实显示出一些老化的迹象,特别是在当前的数据负载下。例如,oracledb很难横向扩展,当涉及到不同于简单标量的数据结构时,它并不是一个执行特别好的大数据分析解决方案。最大的问题之一是,为了进行分析,必须提取数据,这可能是一个漫长的过程。对于一些分析用例来说,提取一天的数据需要半天的时间。此外,数据传输速率不太可能下降,甚至不会保持不变。欧洲核子研究所理事会已经批准了高亮度大型强子对撞机(HL-LHC)项目,升级LHC以产生更高的亮度(亮度是衡量碰撞速率的指标,也是对撞像LHC这样粒子的加速器的一个优点)。这将导致频率从1Hz到100Hz的更高数据、更大的矢量数据以及对有限滤波的需求,这不可避免地与本项目早期阶段增加的设备测试和操作调整有关。甚至更大的加速器也在积极讨论,比如未来的环形对撞机(FCC),它的隧道设计周长约100公里,延伸至汝拉山脉和日内瓦湖下的阿尔卑斯山之间。撇开未来的挑战不谈,目前基于甲骨文的CALS系统从2014年初开始就面临着一个具有挑战性的现实,当时大型强子对撞机(LHC)在经过2年的计划维护后进入了所谓的"运行2"阶段(见下图)。在随后的3年大型强子对撞机的运行中,数据记录速率从"运行1"中观察到的稳定的150 GB/天的平稳速率增加到目前长期存储的900 GB/天的线性增长。突然之间,这个系统遇到了一个完全没有准备好的局面。基于apachespark的下一代可伸缩大数据体系结构这些问题迫使负责的团队研究大数据解决方案的领域,并启动了一个名为"下一个CAL"(NXCAL)的新项目。初步的可行性研究旨在从太丰富的apachehadoop生态系统中为手头的工作选择合适的工具。在使用各种工具和技术进行了3个月的原型设计之后,Apache Spark被选为提取和分析控制数据的最佳工具(优于Apache Impala和Oracle),这些数据由Apache HBase和基于Apache Parquet文件的Hadoop存储协同作用备份。对于可视化来说,很难忽略Python和Jupyter笔记本电脑的出现,这在CERN和其他涉及数据科学和科学计算的研究所正在发生。这项研究真正地设置了场景,显示了如何向用户显示控件数据的方向。新系统的可扩展性依赖于基于OpenStack的CERN内部云服务,可提供250000个内核。经过18个月的开发,新的NXCALS系统架构由分布式apachekafka代理组成,这些代理将数据传输到Hadoop,并使用apachespark增强的NXCALS数据源API将数据呈现给客户机。最后的想法更多的事情要发生了,可视化正在欧洲核子研究中心的一个新项目中成形,该项目名为基于Web的分析服务(SWAN),该项目基于Jupyter笔记本电脑和Python,形成了一个真正统一的软件平台,类似于在云端进行交互式数据分析的统一分析平台,Apache Spark是那里的一等公民。这种协同作用的潜力很高,第一个版本的NXCALS on SWAN最早将于2018年第一季度上市,帮助欧洲核子研究所的科学家进行日常分析工作。阅读更多要阅读更多关于欧洲核子研究中心项目的信息,我推荐以下资源:请访问我们的CERN主页在都柏林举行的欧盟火花峰会上的演讲在都柏林的Spark峰会上介绍Apache Spark性能故障排除的规模、挑战、工具和方法查看NXCALS代码免费试用Databricks。得到