持续集成
可以在短时间内集成大量技术和应用程序数据。
日志和指标文件的集中化
来自不同应用层的信息被集中起来,以分析所有端到端的活动,并监控不同环境中事务的运行,以实现跨职能的视图。
提高了对事件的响应速度
通过使用有针对性的分析和应用程序操作员仪表板,团队能够更好地检测异常并利用自动警报。
公司概览
BPCE 集团是法国第二大银行集团,也是欧洲十大银行集团之一。
它拥有 106,500 名员工,为 3100 万客户提供服务,其中 900 万是会员,它为法国经济提供了超过 20% 的资金。BPCE 集团为其客户提供全系列的产品和服务,包括储蓄、投资、现金、融资、保险和投资解决方案。秉承其合作性质,它帮助客户实现他们的项目,并与他们建立持久的关系。
用于安全可扩展的多业务服务平台的处理和分析能力
BPCE Infogérance et Technologies 成立于 2015 年,是 BPCE 集团 IT 子公司的共同结构。作为工业物流的结果,它是一个经济利益集团 (EIG),旨在整合基础设施和集中采购,以优化成本并提高集团整个 IT 生产的服务质量。它还为用户和信息系统提供增值基础设施服务(消息传递、视频会议等)。
BPCE-IT 将六个软件编辑器的 IT 管理活动整合在一起:IT-CE、i-BP、BPCE SA(IT 部门)、Natixis(融资、支付和证券)、Palatine 和 Crédit Coopératif。
作为 BPCE 集团“Innov 2020”战略计划的一部分,该计划旨在通过集中投资和资源来提高集体效率,并且在 IT 使用方面,明确定义了两个目标
- 为了性能和功能分析(包括基础设施和应用程序方面),最大限度地实现数据使用并确保其安全
- 改进向合作伙伴(发布商、Natixis 等内部客户)提供的服务,以便他们可以提高灵活性、敏捷性和性能
为了应对这些挑战,BPCE-IT 处理与基础设施和应用程序相关的大量日志文件,这些信息来源一直未得到充分利用。该公司选择了 Elastic Stack,因为它能够实时处理和分析大量杂项数据。此外,Elastic Stack 安全功能为存储在集群中的数据提供访问权限。这使得 BPCE-IT 能够保护其数据并优化其基础设施和管理成本。
已经实施了一种基于 Elastic Stack 的标准架构,用于实时优化处理大量数据。该系统通过允许对活动进行跨职能分析并尽早发现事件,从而大大提高了团队的响应速度,从而能够预测并更好地防止服务中断或恶化。
BPCE 集团使用 Elastic 的经验
BPCE-IT 架构和安全部门
两个团队通过从开源使用开始并评估该解决方案作为 BPCE-IT 编排的工业化服务提供的关键组件,从而推动了 Elastic Stack 在集团内的使用。
- 架构和创新部门,负责管理基础设施以及创建 IT 解决方案的转型、实验和实施路线图。
- 信息系统安全部门,负责加强 SOC 活动和 SIEM(安全信息和事件管理)的发展。
工业化日志文件的使用并创建多业务服务产品
因此,BPCE-IT 致力于为集团内部客户和合作伙伴(开发人员、集成人员、各种运营团队以及 Natixis 等子公司)开发和工业化一系列服务。该项目的几个固有挑战促使集团与 Elastic 专家合作,共同致力于实现共享平台目标。这包括分析基础设施和应用程序日志文件(远程银行、网络安全、Web API 等)、运营安全、IT 运营的性能和优化,以及根据各种用例按需部署的集群的集中管理和支持。
经过对集团数据中心初始 1200 台服务器的成功评估,Elastic 告警功能现已全面投入使用。这使得可以根据预先建立的配置优化生成的告警的相关性,并识别其他现有监控解决方案未发现的问题。最终,告警系统(目前采用电子邮件格式)将集成到工单平台中,以管理异常、事件和协助请求。
确保快速安全地访问存储在可扩展集群中的大量日志文件
BPCE-IT 正在尽快寻求一种解决方案,以便在单个平台上管理来自安全设备的大量日志文件。目标是缩短事件响应时间并了解系统状态。Elastic Stack 的开源特性、其可扩展的架构以及其在近乎实时地集成搜索和分析大量日志文件的成熟能力引起了 BPCE-IT 的兴趣。因此,BPCE-IT 决定为其 SOC(安全运营中心)项目购买 Elastic 的白金订阅,并将日志文件的收集范围扩展到其整个信息系统 (IS)。决定性的优势在于 Elastic Stack 的安全功能,特别是大规模数据访问权限的管理,这对于 BPCE-IT 的运营数据具有战略意义。Elastic 还具有易于将 SIEM 与 Logstash 集成的优点,这确保了无论使用何种 SIEM 解决方案,都能形成日志文件收集链。Elastic Stack 还提供对大量安全数据进行实时分析和临时扫描,以进行威胁狩猎。
Elastic Stack 与我们的 IS 集成得非常好。该 Stack 使我们能够回收日志文件,并实时了解我们的安全平台,以及在 SOC 内开展我们的威胁狩猎活动。
实现银行应用程序的正常运行
日志文件的集中化允许进行横向分析,以端到端地跟踪事务,从而使事件解决过程更有效率。但是,遇到的问题的性质并非总是相同的:有些与基础设施的使用有关,而另一些则与合作伙伴发布商交付的软件中的异常有关。应用程序和技术日志文件的内容揭示的异常是逐步实现 100% 软件可靠性的宝贵信息来源,尤其是在涉及新型处理时。
Elasticsearch 用于跟踪生产中的各种客户端服务,以及检查所谓的“非生产”活动,即用于软件开发的验收和认证平台。因此,开发和维护团队以及运营商能够验证新服务的运行情况,并确保不会出现回归或对整体功能产生负面影响。
通过 Kibana 以各种形式查看的应用程序日志文件的分析也通常被各种实体使用。“数字工厂”是一个作为系统融合的一部分而创建的实体,旨在创建一个所有团队都可以从中受益的独特系统,它是 BPCE-IT 提供的服务受益的内部客户的示例。另一个示例是新的实体 89C3(用 Leet Speak 语言表示 BPCE),它负责开发和启动与公司数字化转型相关的应用程序的生产。
借助告警功能,我们在响应速度方面取得了进步,尤其是在日志文件中非典型的响应时间和 HTTP 错误代码方面。根据识别出的问题,该工具会自动将故障的详细信息发送给负责的团队。它还可以通过向相关服务提供的全面诊断来衡量扩展期间的性能,以改进链接链。
由于 Elastic 集群的数量随着客户数量的增加而增加,因此快速建立一个主动且自动化的监控系统已成为必要,以提高对由解决方案的各种关联元素(Beats、Logstash、Kafka、Elasticsearch)引起的索引问题的响应速度。Elastic Stack 告警功能可以近乎实时地检测事件,以恢复服务和数据可用性,甚至在运营商意识到此类问题之前。
告警功能还可以自动汇总最关键的业务数据,并将数据重新分发到寿命更长的较轻索引中。因此,Kibana 仪表板的性能和响应时间得到了提高,并且某些索引所需的磁盘空间减少了 300 倍。
以业务为导向的实施策略
确保其系统的运营安全,并采用易于与 SIEM 集成的解决方案是 BPCE-IT 的第一步。随后,该部门开始处理和分析来自不同业务线的多个基础设施和应用程序日志文件,以便大规模利用这些数据。目标是实现一个非常横向、共享的日志文件分析平台,该平台能够管理来自各种来源的数据。
现在,在项目中几乎总是计划将日志文件集成到系统中。运行应用程序的团队现在可以自如地使用 Kibana 界面。定期实施自动告警以提高响应速度。BPCE-IT 还使用 Kibana 来生成性能指标并生成公司报告。
在未来要部署的服务中,已验证了带有机器学习插件的 POC(概念验证),以分析 Caisse d’Epargne 分支机构工作站的稳定性和使用情况。这尤其包括通过更好地识别其频率和原因,同时研究应用程序的行为来预测未来的事件并加快其解决时间。最终,集团的所有网上银行日志文件都可以收集到此平台上,以研究其远程服务的使用情况。
仪表板示例
保护日志文件集群,以按需提供多样化的服务
借助 Elastic Stack 功能的可扩展性和丰富性,BPCE-IT 履行了实施多样化服务产品的使命,现在正努力在满足集团众多内部客户和合作伙伴的各种需求的同时推广该产品。
随着多个用例在生产中的成功部署,BPCE-IT 现在正在将其非常活跃的“数字工厂”的软件和各种接口的日志文件注入到其 Elastic 集群中。一个特定的目标是能够利用 Elastic 机器学习功能来利用这些数据,以建立预测分析并检测代码异常或应用程序依赖关系。
应用程序团队会定期要求我们进行性能或功能分析,以便更好地了解其环境中发生的情况,并充分利用有时难以使用的数据。通过工业化日志文件处理,我们能够满足客户的各种请求,从而提高灵活性和敏捷性。
BPCE-IT 已验证了使用 Elastic Cloud Enterprise (ECE) 的 POC,以促进从单个控制台对所有 Elasticsearch 集群进行试点和实施。目标还在于为集团的所有内部客户提供基于访问 Elastic 白金订阅中包含的所有功能的高级服务。BPCE-IT 还打算利用许多开源集群的数据,这些集群首先需要进行保护,因为用户并非总是意识到其通常敏感的数据所面临的风险。
在以“按需集群”模式运行一年多之后,我们计划在 2019 年第一季度将 ECE 部署到生产环境中,以便在集团内部为所有人提供完整且相同的服务,并将未来应用程序开发的管理集中在这个通用管理平台上,同时逐步迁移现有部署。
Elastic Stack 的扩展将在 2019 年计划的其他项目中继续进行。信息系统安全部门计划在第一季度进行另一个机器学习 POC。其目标将是提高对银行网络欺诈和数据丢失的检测。
这些各种项目符合集团旨在通过工业化和保护数据以及增强为合作伙伴提供的服务范围来提高集体效率的“Innov 2020”战略计划。