提高 HPC 可用性以进行科学研究
劳伦斯·利弗莫尔国家实验室借助 Elastic 最大化其 HPC 系统的可用性,以进行突破性的国家安全和科学研究。
自动化任务以释放安全资源
LLNL 使用 Ansible 进行配置管理,可以在不到一小时的时间内启动一个新的 Elastic 集群,并将资源集中于合规性、威胁搜寻和其他有益任务。
最大化预计将成为全球最快超级计算机的性能
Elastic 可观测性使 LLNL 能够分析数据并优化未来百亿亿次级 El Capitan(很可能成为全球最快超级计算机)的性能。
劳伦斯·利弗莫尔国家实验室于 1952 年由加州大学伯克利分校创立,隶属于美国能源部和国家核安全管理局,致力于运用科学和技术使世界更安全。其最重要的责任是确保美国核威慑的安全、保障和可靠性。此外,实验室的科学和工程团队还研究反恐、生物安全、能源、环境安全、先进材料和其他关键重点领域。
这些活动由高性能计算 (HPC) 环境支持。2024 年即将部署名为 El Capitan 的新型超过 2 百亿亿次浮点运算的超级计算机,这将增强实验室在建模、模拟和人工智能方面的先进能力。这可以为复杂的物理多学科问题(例如国家点火装置的惯性约束聚变 (ICF))创建更准确、更具预测性的模型。物理学家将获得对其问题的更好答案,并且可能 — 在 ICF 科学的情况下 — 节省数百万美元的聚变目标制造费用。
安全运营团队负责人 Ian Lee 负责 HPC 环境的整体安全运营,该环境托管大约 4,000 名实验室和合作者用户。“我们有多学科团队致力于应对世界上一些最重要的安全挑战。保持我们的系统可用以支持他们的任务是我们的首要任务,”他说。
安全团队从整个 HPC 环境中收集日志,以识别漏洞和问题。然后,它应用复杂的风险管理框架来确定警报的优先级,并分配资源来解决这些警报。该团队还必须响应联邦政府(例如M-21-31)不断增长的要求,这些要求会影响日志记录、扫描和修复时间表。“我们有许多仪表板和工作流程,其中数据来自系统,然后我们根据这些实时信息向我们的票务系统生成工单,”Lee 说。
将超级计算提升到新的高度
为了减轻资源压力,Lee 寻找机会自动化日志记录和修复活动,而不仅仅是向工程师发出问题警报。“如果网站下线,可能是由于维护而不是错误。如果您可以预先向负责修复警报的人员提供额外信息,那就更好了。”
该实验室已经在其HPC集群中使用Elastic组件(Logstash、Filebeat)来收集数据,并研究了是否可以将Elasticsearch和Kibana应用于所有扫描和日志记录活动。
“我们认为Elastic非常适合我们的需求,尤其是在将数据输入到集中式存储库然后可视化信息方面。Elastic的性能、响应速度和用户界面,以及处理大量数据的能力对我们的决策至关重要,因为最近的行政命令要求我们搜索长达两年的数据。”
他还与橡树岭国家实验室的同行进行了交流,他们多年来一直在使用Elastic。“他们能够描述Elastic在我们自身环境类似的条件下的性能。这让我们完全有信心深入研究Elastic生态系统。”
之后,实验室团队与一组Elastic工程师花了两个月的时间来完善解决方案架构。现在,它正在迁移到Elastic Security,用于其SIEM,包括跨HPC环境的网络分析集中式日志记录。Elastic Observability将用于日志、指标和事件数据的数据聚合、分析和评估。该团队正在配置Kibana仪表板,以警告工程师系统漏洞和错误。
该实验室看到了Elastic开箱即用的集成的优势,包括与Apache和NGINX Web服务器以及Auditd的集成,Auditd收集来自其Linux操作系统的日志。其他集成从Tenable漏洞扫描系统以及各种交换机、路由器和防火墙收集数据。
在不到一小时内开始使用
即使在部署的初始阶段,该实验室也看到了性能的改进,尤其是在后端的速度和简洁性方面。现在,大多数数据不是使用多个发送器,而是通过连接到Fleet Server的Elastic Agent进行管理,该服务器将数据直接发送到Elasticsearch。这为向主机添加日志、指标和其他类型的数据提供了一种单一的、统一的方法。如前所述,速度对于实验室至关重要,而搜索此数据的速度使团队能够快速采取行动,而以前,结果太慢了。
部署速度是另一个重要优势。该实验室正在使用Ansible playbook在其物理集群的所有不同节点上启动Elastic容器。这个过程快速且可重复,这意味着实验室可以在不到一个小时内建立一个可工作的Elastic集群。
“使用Elastic,我们花在手动升级基础设施上的时间更少,而花在合规性、威胁搜寻和其他为组织带来明显好处的任务上的时间更多。”
随着实验室为El Capitan百亿亿次超级计算机的部署做准备,Elastic Observability将监控指标数据,例如低级硬件性能、计数器数据、电压、时钟速度和物理硬件上的错误率。
平稳过渡到生产
Lee与Elastic专业服务团队合作并寻求其专业知识,尤其是在项目的早期阶段。“我们有两位专门的Elastic顾问,他们在理顺部署的各个方面时非常宝贵,”Lee说。“尤其是在从预生产环境过渡到生产环境时。”
Elastic顾问研究了实验室的环境以及以前的可观察性和安全性工作流程,以识别Elastic本地支持且更易于部署的不同方法。
现在,Elastic Security和Elastic Observability的部署开始产生结果,Lee正在研究其他潜在的Elastic用途。“我们有很多维基,以及用户依赖于获取我们HPC系统信息的内部和外部网站。我们希望创建一个统一的搜索功能,可以使用Elastic Enterprise Search对所有这些资源进行索引,”他说。
该实验室看到了通过机器学习加速和简化其流程的机会。它计划使用Elastic算法来识别正常行为,并为偏离这些基线的行为设置警报。“能够自动执行此操作是我们正在考虑并感到兴奋的事情,”Lee说。
虽然这些发展将有助于使实验室保持在安全性、创新和发现的最前沿,但Lee保持脚踏实地。“除了安全之外,我们的主要职责之一是推进美国的科学。尽管我们与Elastic合作才刚刚超过一年,但早期结果表明,我们可以继续扩大对这项使命以及这些令人兴奋的突破背后的团队的支持,”他说。
如需深入了解,请观看演示文稿。