P1 事件减少 88%
借助 Elastic 可观测性,Opala 的高严重性 IT 事件大幅减少。
提供 99.99% 的正常运行时间
借助 Elastic 可观测性,Opala 的服务可用性已从 99.3% 提高到“四个九”。
在短短 15 分钟内为威胁搜索提供丰富的上下文
借助 Elastic 安全,Opala 可以在几分钟内输入入侵指标并搜索数 PB 的历史数据。
Opala 用 Elastic 堆栈取代了 Datadog、CrowdStrike、SumoLogic 和 AWS CloudTrail,从而提高了可用性,缩短了软件部署周期,并增强了安全性。
Opala 在帮助医疗保健付款人、患者和提供商交换医疗数据方面处于领先地位,从而改善健康结果并确保准确、及时的付款。该业务使用 Elastic 存储大约 6.9 亿份医疗记录,服务于 650 万患者,以保护这些敏感、高价值的数据。
Opala 的云基础设施和网络安全总监 Joe Ben Slivka 负责 Opala 网络、系统和应用程序的安全性和效率。“我的首要目标是确保我们的环境安全、没有被入侵且始终可用,这样我们的客户甚至不必考虑它,”他说。
当 Slivka 首次加入该公司时,该公司仍在努力应对“迁移”云迁移,该迁移保留了大部分本地基础设施和设计。这包括一系列不同的可观测性和安全解决方案,导致部署周期长达一周且停机时间长。解决事件需要花费大量工程时间和手动调查来解决问题。
Slivka 对需要什么有一个清晰的愿景。“基础设施和安全是密不可分的,尤其是在云原生系统中。” 这对于每 15 分钟收集大约 56 亿个事件的企业尤其重要。“鉴于这种规模,没有理由将其聚合到单独的安全信息和事件管理 (SIEM)系统中,同时还管理可观测性解决方案。”
可观测性和安全的改变者
Slivka 曾在以前的职位中使用过 Elastic,因此他主动调查 Elastic 的最新功能,以寻求统一的安全和可观测性平台。
“一旦我探索了过去四五年中发生的变化,Elastic 的真正卖点就变得清晰起来,”Slivka 说。“除了最先进的存储和搜索之外,内置集成和可视化的可用性也是一个改变者。在单一平台上同时提供安全性和可观测性方面,Elastic 显然是领导者。”
得益于转售和服务交付合作伙伴Industrial Resolution,Elastic Stack 的部署过程非常顺畅。Industrial Resolution 的工程团队负责人 Tim Schreyer 表示:“Elastic 最棒的一点在于,我们可以通过将两个解决方案结合起来而不是运行两个系统,从而快速证明其在运营和安全方面的优势,并降低成本。”
他回忆起他和 Slivka 第一次向 Elastic 添加新数据源时的情景。“我们只需开启集成,Opala 所需的大部分内容都可以在 Elastic 的前端访问。”这包括 Kibana 仪表板。“新数据源的可视化无需等待数周,仪表板一天之内即可启动并运行,”Schreyer 说。
Slivka 补充道:“Industrial Resolution 就像我们团队的延伸。他们不只是完成任务;他们与我们合作,以实现我们需要的结果。他们甚至与我们的开发人员合作建立了一个迷你 CICD 流程,使一切变得更快、更高效。这非常重要。”
“使用 Elastic 来整合可观测性和网络安全解决方案不仅仅是节省资金。它还包括整合开发人员的知识和技能。通过 Elastic 实现基础设施的集中化,使我们的团队能够更高效地工作。”
提高服务可用性
在 Industrial Resolution 团队的帮助下,Opala 已使用 Elastic 的统一可观测性和安全平台取代了包括 Datadog、CrowdStrike 和 AWS CloudTrail 在内的云工具。因此,业务在系统、网络和应用程序性能方面都得到了显著提升。
例如,服务可用性已从 99.3% 提高到 99.99%。“最近几个月,我们已经连续多个季度实现了完全四个 9 的可用性,”Slivka 说。
得益于从 Elastic 获得的洞察,数据库性能也得到了提高。“我们能够跟踪针对 Postgres 发出的调用延迟与请求数量的关系,”Slivka 说。通过将此可观测性信息集成回开发流程,开发人员可以快速识别并纠正瓶颈、性能问题和错误,并推动变更的进行。
因此,平均中断窗口已缩短至五分钟以下。目前,Opala 平均每月发生大约 1 次 P1 事件,而在使用 Elastic 之前,每周会发生两到三次,P1 事件减少了 88%。
平均解决时间 (MTTR) 也大幅下降了 90%。问题现在可以在几分钟内解决,而不是几十个小时。“对于我们上次的中断,我们在 20 分钟内就有了可行的解决方案,”Slivka 说。“包括事后审查在内的总时间约为 6 个小时的工程时间,而之前则需要 60 多个小时。这节省了整整一周的开发时间,我们现在可以将这些时间用于交付功能并改善客户体验,”他说。
“使用 Elastic,当有人收到警报时,他们只需单击即可立即查看需要采取的操作。这种价值——无论是内部效率还是客户对解决方案可靠性的信任——都不可低估。”
发布时间也得到了显著改善。当 Slivka 加入 Opala 时,从代码在开发环境中准备就绪到生产环境平均需要大约一个月的时间。随着 Elastic 的部署,这一时间已缩短至大约 48 小时,包括开发测试、质量保证和生产。
整体的可观测性方法还改善了客户沟通。“当客户致电报告问题时,我们知道这很可能是他们的系统问题。在近 10 个月的时间里,我们没有收到过任何客户报告的中断事件,”Slivka 说。
对网络威胁的快速响应
该团队还受益于 Elastic Security,该解决方案在单一解决方案中提供云原生安全和端点保护功能。Slivka 表示:“随着 Elastic Observability 的部署,收集网络日志以供安全团队分析是否存在入侵迹象成为了自然延伸。”通过收集这些数据,他们可以进行威胁分析、检查流量模式并评估 Web 应用程序防火墙 (WAF) 的运行情况。
识别安全威胁的时间已缩短。“当出现新的威胁时,我们通常会准备好入侵指标 (IOC),”Slivka 说。“我们可以将这些指标输入到 Elastic 中,并在短短 15 分钟内启动内部威胁搜寻。这就是 Elastic 的强大之处——根本没有其他方法可以实现这种级别的响应能力。”现在,该团队正在评估 Elastic Threat Intelligence。“机器学习功能非常吸引人,”Slivka 说。“我们希望将其集成到我们的系统中,以便我们可以快速自动地提取新的指标,从而使我们能够实时了解我们的环境如何应对最新的威胁。”
明确的安全高效未来路线图
展望未来,Opala 希望利用 Elastic 的三个附加功能,包括 Elastic Observability 应用程序性能监控 (APM)。“多年来,我使用过许多不同的工具,我认为没有哪个工具能像 Elastic 的 APM 那样强大。它堪称世界一流,”Slivka 说。通过更深入地了解代码性能,开发人员可以更高效地工作,从而使 Opala 能够缩减资源并减少计算使用量。
最后,Opala 正在考虑利用 Elastic 中更多的 AI 组件,包括 Elastic AI Assistant,该助手使用户能够使用自然语言自动化诸如警报调查、事件响应和查询生成或转换之类的任务。“Elastic 的 AI 功能和路线图非常令人印象深刻。能够将业务和运营数据与自然语言界面连接起来,可以进一步增强警报调查和事件响应。”