活动回顾 |《从 SRE 到 Anthos, 三堂课详解 DevOps 工具与实践》系列课程

在不久前结束的 Google Cloud 线上课堂中,我们用三节线上课程,由浅入深地讲解了 DevOps 中最重要的工程实现——SRE 系统可靠性工程(Site Reliability Engineering),并分享了 Google 在 SRE 的成功经验,以帮助更多企业健全运维体系。

该系列线上课程由三节课组成,本文将每一节的分享重点做了汇总整理。

第一节《使用 SRE 应对可靠性挑战》

作为系列课程的第一节,《使用 SRE 应对可靠性挑战》中主要介绍了构成 SRE 的基础组件,以及 SRE 对组织、流程和工具的调整,并且对于 CUJ/SLI/SLO 等运维工程中常见的概念,也给出了明确的解释:

在 Google 内部,SRE 工程师的日常时间分配通常是 50%:30%:20% 。

其中,50% 的精力是花在开发上的时间,开发自动化工具,包括对这些工具的改进;30% 的精力是帮助业务部门审查架构,甚至包括帮助业务部门设计架构;20% 的精力用于应急响应。对于其他企业来说,这个比例会有不同,但是精力分配的原则类似,那就是需要利用自动化工具去做运维,围绕 SLO 做运维,以及利用数据做运维。

对于在企业内部建立标准化的 SRE 路径,讲师也给出了合理的规划和建议:

第二节《用 Anthos 为 SRE 助力》

第一节中对 SRE 进行了全面的分享,第二节则是针对性地分享 Google SRE 方面的最佳实践经验和输出。其中最具代表性的就是 Anthos,其包含 GKE、Anthos 配置管理、Anthos 服务网格、Cloud Run 等组件,旨在帮助企业实现 SRE 的全面落地。

Anthos 本身具有多云部署的能力,可以从运维自动化,到监控以及网络可管理性等诸多方面,全面减轻 SRE 在落地过程中的工具开发负担,加速运维管理的现代化,从而为运维团队和开发团队的顺畅协作助力。

基于 Kubernetes 提供的声明式运维平台,Anthos 配置管理(ACM)组件为 Kubernetes 提供了 GitOps 能力,并支持自动化管理。进一步来说,ACM 解决的问题有:

  • 解决多集群环境管理问题,实现统一配置视图

  • 解决安全策略一致性问题,实现统一策略视图

  • 提供对变更的审查、追踪与回滚,提高运维自动化能力

在容器运行过程中,会产生对容器间网络访问(东西向)以及容器对外网络服务(南北向)的网络管理需求。这个需求包含对网络的可见性和可控制的能力要求,服务网格则能够支持实现这个重要需求。

对于 SRE 团队来说,网络是一个非常重要的环节。Anthos 服务网格(ASM)组件为容器网络通讯提供了统一可见性能力,并且为 SLO 监控提供了重要素材,同时,也支持敏捷化流量管理,以及策略驱动的安全管理。ASM 解决的问题有:

  • 服务状态及依赖关系难以观察

  • 服务的流量管理耗费大量重复工作

  • 容器时代服务安全可控问题

网络的可见性和可管理性,充分地影响 SRE 实践,但 Anthos 的多云特性,在构建弹性应用程序时,能够做到无论应用程序在何处运行,都可以提供 SRE 所需的数据,解决运维团队的后顾之忧。

第三节《借助 GitOPS 和 Modern CI/CD 实现自动化》

在系列课程的最后一节《借助 GitOPS 和 Modern CI/CD 实现自动化》中,讲师强调了自动化在现代运维工作中的重要性和业务细节。自动化作为 SRE 实践的重要环节,使企业得以实现软件服务的可靠稳定持续交付,达成 SRE 提高系统可用性的目标。

当下,GitOps 和现代化 CI/CD 无疑是实现运维现代化最好的工具实践。Google Cloud 提供的 GitOps 和 Modern CI/CD 解决方案,可以进一步提升 SRE 的自动化水平。

目前,DevOps 团队通常需要提供一串工具链,这其中会包括:开发工具、版本管理工具、CI 持续交付工具、CD 持续发布工具、报警工具、故障处理等。

GitOps 作为一种实现云原生的持续交付模型,可以提高运维的可靠性,缩短恢复服务所需时间,并提高部署效率。Modern CI/CD 则可以通过多种工具和可重复流程,自动执行软件开发的构建、测试和部署阶段。

关于系列课程的具体内容与技术细节,欢迎访问以下链接,观看回放:

第一节:《使用 SRE 应对可靠性挑战》 

https://bit.ly/3d0twTf 

第二节:《用 Anthos 为 SRE 助力》

https://bit.ly/31SR6ur

第三节:《借助 GitOPS 和 Modern CI/CD 实现自动化》

https://bit.ly/3uxKdLv

您也可以点击阅读原文,了解更多 Google Cloud 最佳实践、各类场景典型案例,获取更多现代化运维手段与工具。

相关推荐