2023年5月中旬,某制药行业开展了一场实战与培训。同学们在中国SRE讲师第一人刘老师的带领下,对SRE和可观测性有了系统与深入的学习。
通过2天的学习,同学们对于SRE的基本概念,SLO、SLA的基本概念、可观测性的基本概念,以及相应的实施场景都有了更加深入的理解,统一了整个SRE团队的语言。同学们充分认识到应用SRE到项目中会给运维和系统稳定性带来极大的好处,提升整个团队的运维与开发效率。同时,通过系统化的培训,对于同学们现有工作以及未来的工作方向有了更加深入的一些思考与指引。
授课讲师刘老师,是互联网 IT 管理领域资深实战专家,具备超过 15 年 IT 服务管理以及开发运维一体化咨询领域工作和讲师经历。作为大中华区 SRE 讲师第一人,也是国内SRE第一批实践者。刘老师于2018 年牵头一批国内的 SRE 专家和爱好者,创办了中国第一个互联网读书会“中国 SRE 书友会”,吸引了大批学者和专业人士参加,形成了一批学习和研究成果。刘老师致力于在全国范围内推广SRE的理念、技术与实践。
一、如何定义SRE ?
SRE是Site Relibility Engineer(站点可靠性工程师)的缩写。顾名思义,SRE是为站点可靠性负责的。如果把当做研发领导的组织内部破墙的方法论,那SRE又提升了一个新的层次,就是从运维的角度去整合所有的研发,测试,运维资源.并且它指出所有的运维问题都是软件问题的先进思想。大量的重复的琐碎的工作可以通过软件工程的方法或者自动化的方法去解决,那不是更好。
SRE还指出,SRE的工作必须保证至少50%的时间是在做系统的优化工作,为了明天更好的工作。回看我们现在的运维,基本上是重复性的工作占了大多数,很少有运维会思考明天的事情。
二、 如何定义可观测性 ?
可观测性一词诞生于几十年前的控制理论。近年来,随着企业以微服务、⽆服务器和容器技术的形式迅速采⽤了AWS、阿里云等云原⽣基础设施服务。在这些分布式系统中追踪事件的起源需要在云上、本地或两者上运⾏的数千个进程。传统的监控技术和⼯具就很难跟踪这些分布式架构中的许多通信路径和相互依赖关系。更别提排查问题并定位根本原因了。
监控技术和工具革新迫在眉睫。而可观测性一词近两年火起来的导火索是 CNCF 在云原生定义中提到 Observerbility,并声称这是云原生时代的必备能力。于是从生产所需到概念发声,加之包括谷歌在内的众多大厂一拥而上,“可观测性”正式出道。
三、雅菲奥朗SRE与可观测性课堂
在整个培训的过程中,课堂学习氛围高涨,同学们上课认真听讲,并对讲义中的重要知识点进行了记录。刘老师通过案例讨论的环节,让学员切身的参与到2天的培训,能够真正有所收获。
在整个授课的过程中,刘老师系统的为同学们讲解了SRE是什么、SRE原则与实践、SRE服务水平目标和错误预算、监控和服务水平指标、SRE工具及自动化、抗脆弱,从失败中学习、SRE的组织影响、SRE其他框架与未来,以及可观测性知识体系、可观测性成熟度模型(OMM)、可观测性三大支柱、分布式跟踪等经典行业案例分享。刘老师由浅入深的进行讲解, 对整个课程进行了详细的梳理,把握课程大方向和重点难点。
同学们通过2天集中学习,充分认识到新一代的系统稳定性管理的核心理念,以及持续提升SLO、减少琐事的迫切性、重要性,以及在确保生产系统稳定的前提下,最大化迭代速度;同时,通过引入自动化、可观测性创新技术实践的分享,同学们深度学习了确保系统可靠性与稳定性,以及减少和消灭人肉运维,提高整体业务可靠性的方法和最佳实践。用来自“生产环境”的智慧来指导系统设计和全部开发过程,提升整个团队的生产力和稳定性。
同学们在课程结束后,都期盼着能重返雅菲奥朗的课堂,再次进行SRE Practitioner课程的深入学习与深造。雅菲奥朗持续引入国际先进课程和管理理念,和同学们一起面对新时代的新问题和新挑战,形成新的解决思路,持续创造真正的价值!
全球知名DevOps Institute (DOI)的代表了这个领域的最新知识体系,该认证介绍了SRE的发展及其未来的方向,并为学员提供了SRE的最新理念、实践方法和日常工具,可以帮助现有的SRE团队将现有的SRE实践和国际理论标准结合,强化SRE实践能力。雅菲奥朗携手DevOps Institute推出SRE
Foundation、SRE Practitioner和Observability可观测性认证培训,成为国内独家SRE全系列课程的授权培训和考试机构。