一、在当今的互联网时代,我们的IT运维、技术等相关人员都面临着以下这些问题和困惑:
-听说工程师薪资很高,有没有全面学习的机会?
-SRE到底是技术还是岗位?高薪的原因是什么?
-SRE和是啥关系?具体有哪些区别?
-研发团队都在做DevOps和流水线了,我作为一个运维人员,如何才能参与?
-SLO是咋回事?如何在企业内部实现?
-听说“”正在逐步取代监控,请问如何理解“可观测性”?
二、什么是SRE?
SRE的全称是SiteReliability Engineering。SRE最早是由Google提出,并且在其工程实践中发扬光大。Google出版了一本同名书籍《SiteReliability Engineering》,让这个理念在互联网工程师圈子里广泛传播。SRE(站点可靠性工程)是一门结合软件工程的各个方面并将其应用于基础架构和运维问题的学科,于2003年左右在谷歌创建,并通过SRE相关书籍进行宣传。SRE是一个学科,SRE是一种最佳实践,SRE是一类创新岗位。
三、为什么要学习SRE?
传统运维模式(Dev/Ops分离的团队模式)冲突的焦点:
战略层面:
1、直接成本相对清晰。
2、间接成本差异较大(背景、技术能力、工具习惯、工作目标)。
初步演变为目标与方向上的分歧以及内部沟通严重问题,上升到部门之间的信任与尊重。
战术层面:
传统研发团队和运维团队分歧的焦点主要在软件新版本、新配置的变更的发布速度上。
执行层面:
1、开发团队宣称不再进行大规模的程序更新,改为功能开关调整、增量更新和补丁化(大变更→小变更)。为了绕开运维团队设立的各种流程,从而更快地上线新功能。
2、绕过运维团队设立的新服务/变更发布流程,新功能上线速度是加快了,但事件仍在重现,使得服务质量很差。
冲突解决之道:SRE
SRE模型的优势:
1)运维人数相对少;
2)开发团队和运维团队的冲突焦点消除;
3)促进产品部门水平提高,因为SRE团队和研发团队之间的成员可以自由流动。
四、SRE是DevOps的最佳实践
SRE和DevOps同属开发运维一体化时代的产物,有交集很正常,他们是“殊途同归”。SRE可以是运维向运维研发的拓展,这可以适用于国内广泛的运维部门转型,事实上DevOps或者说“开发运维一体化”在国内刚刚开始落地,很多组织上仅仅通过引入DevOps理念,仍然需要面对“生产环境天天出问题,就是不知道问题出在哪”等问题。
SRE可以理解成Devops的具体实践。相比devops有更具体的工作或者角色定义。
1、SRE主要思想如下:
事故是正常的/变更应该循序渐进/工具和文化是相互关联的/度量的。
2、SRE主要原则或者核心如下:
2.1 软件问题:用软工思想来解决运维领域的问题;
2.2 通过SLOs进行管理:产品团队和SRE团队为服务及其用户群选择适当的可用性目标,并将服务管理到该SLO;
2.3 减少琐事:甄别琐事的来源以便可以最小化这些工作甚至消除;
2.4 自动化:决定什么条件下做什么自动化以及怎么自动化;
2.5 与开发者共享:工件透明,信息共享,工具同步;
2.6 持续改进:快速试错,快速改进,更高效,更可靠,提高收益;
五、雅菲奥朗,讲什么?
1.互联网时代的IT运维精英能力分析
2.如何成为稀缺高薪SRE人才
3.GoogleSRE起源与实践总结
4.SRE自动化实践
5.服务水平目标和错误预算
6.减少琐事(TOIL)
7.监控和服务水平指标
8.SRE工具及自动化
9.反脆弱性和从失败中学习
10.SRE框架和发展趋势
六、参加雅菲奥朗SRE培训,有哪些收获?
SRE代表了对行业现存管理大型复杂服务的最佳实践的一个重要突破,由于Google目前的全球领先地位,SRE模式可以为广大企业提供深度模仿或借鉴。
通过学习和掌握SRE,将带来以下收获:
-SRE的学习路径
-SRE领导的自动化
-服务水平目标(SLO)
-如何减少琐事(Toil)
-可观测性(Observability)
-DevSecOps入门知识
国际知名的DevOpsInstitute学院(DOI)推出的代表了这个领域的最新知识体系,该认证介绍了SRE的发展及其未来的方向,并为学员提供了SRE的最新理念、实践方法和日常工具,可以帮助现有的SRE团队将现有的SRE实践和国际理论标准结合,强化SRE实践能力。雅菲奥朗携手DevOpsInstitute推出SRE系列认证培训,成为国内首家SRE全系列课程的授权培训和考试机构。