最早是由 Google 提出,并且在其工程实践中发扬光大。Google出版了一本同名书籍《Site Reliability Engineering》,让这个理念在互联网工程师圈子里广泛传播。SRE(站点可靠性工程)是一门结合软件工程的各个方面并将其应用于基础架构和运维问题的学科,于2003年左右在谷歌创建,并通过SRE相关书籍进行宣传。
什么是站点可靠性工程师(SRE)?
确保站点在线 – 无论发生什么
1、站点:google.com
2、站点不可用?无论什么原因,都是我们的问题。
SRE是工程师,关注焦点是可靠性,运维具体业务服务;
Q1:SRE团队是如何构成?
1)50%~60%软件工程师。
2)其他具备85%~99%软件技能,且具备一定程度其他技能(UNIX和网络)的工程师。
Q2:SRE的人员技能要求有哪些?
● 知识(一专多能):
1. 监控管理知识
2. 应急事件处理知识
3. 问题根源分析知识
4. 测试、发布知识
5. 互联网安全知识
6. 敏捷开发知识
7. 产品设计知识
● 专业技术:
1. 精通云计算平台(AAA)
2. 掌握GitLab等研发运维平台
3. 熟悉Linux 、Docker、K8s等主流互联网技术
● 行为技巧:
1. 灾难预案与演习
2. 书写事后总结的文化
3. 自动化与降低日常运维负载
4. 结构化的、理智的决策
● 经验资格:
1. 专注可靠性设计的经验
2. 用户体验经验
3. 安全经验
Q3:SRE的技能成长目标是什么?
● 互联网软件开发:
1. 掌握1-2种互联网开发语言;
2. 掌握前端/后端开发技术;
3. 掌握主流操作系统Linux;
4.掌握1种研发运维平台(如GitLab);
● 云计算/云运维
1. 掌握云计算基础知识(含虚拟化);
2. 掌握私有云基础知识;
3. 熟悉1-2个公有云平台(AAA);
4. 掌握云运维基础知识;
● 云安全
1. 掌握信息安全专业知识;
2. 掌握云安全基础知识;
3. 掌握互联网安全审计标准;
● 职场技能
1. 掌握互联网办公基础知识;
2. 掌握时间管理、压力管理等软技能;
3. 了解金融、互联网、高端制造行业基础知识;
Q4:SRE的就业前景如何?
具备SRE技能的运维研发工程师就业形势非常好,互联网企业、高科技公司、金融企业纷纷启动招聘,如 “腾讯”、“阿里巴巴”、“百度”、 “渣打银行”等;
薪酬待遇:
•最低20k,上至40~80K;
•SRE属于互联网高端人才,待遇丰厚;
Q5:SRE人员,需要掌握开发语言吗?是掌握Java还是Python?
其实和语言无关的。Python只不过是比较简单,上手比较快。不过,必须要掌握一门语言,这个是未来的大的趋势。很早以前要求的熟悉 PHP/Perl/Python 其中一种语言优先。现在是必须掌握 PHP/Perl/Python其中一种开发语言用于日常运维。
Google的SRE并不是将运维⼯程师转为开发⼈员,⽽是直接招聘合格的开发⼈员。SRE团队本质上是⼀个开发团队,⼯作内容是⼀个系统⼯程,包含做项⽬的⽅⽅⾯⾯,项⽬管理、产品、架构、开发、测试、 CI/CD等,只不过建设内容是⾯向⽣产环境可⽤性。
⽬前国内的现状,很多开发⼈员都⽆法做出良好的软件,何谈让运维⼈员转开发,做⼀套可⽤的软件;⼀个开发⼈员的培养是需要系统化的、持续的训练,是不断在项⽬中历练出来的,让⼀个0开发基础的运维做开发:如果把这个⼈放在⼀个成熟的开发团队,需要3-5年的时间,如果是⾃学,成功的希望渺茫,就像⼀直在岸上⾃学游泳⼀个道理。
SRE应该掌握哪⻔语⾔,是整个公司的技术栈和现有⼈员的技术背景决定的。运维⼈员应该学习python,⽬的是⾃动化运维,提⾼效率,减少重复劳动;如果只是让现有的运维⼈员写⼏个python脚本,不能称为SRE⼯程师;如果企业的技术栈是JAVA,运维⼈员也应该了解JAVA,⽬的是理解运维的内容,以更好地运维。
Q6:针对SRE人员的培训,有哪些?
国际知名的 Institute学院(DOI)推出的代表了这个领域的最新知识体系,该认证介绍了SRE的发展及其未来的方向,并为学员提供了SRE的最新理念、实践方法和日常工具,可以帮助现有的SRE团队将现有的SRE实践和国际理论标准结合,强化SRE实践能力。雅菲奥朗携手DevOps Institute推出SRE 系列认证培训,成为国内首家SRE全系列课程的授权培训和考试机构。
参加SRE认证实战培训,您将会了解到:
1. 互联网时代的IT运维精英能力分析
2. 如何成为稀缺高薪SRE人才
3. Google SRE起源与实践总结
4. SRE自动化实践
5. 服务水平目标和错误预算
6. 减少琐事(TOIL)
7. 监控和服务水平指标
8. SRE工具及自动化
9. 反脆弱性和从失败中学习
10.SRE框架和发展趋势
SRE代表了对行业现存管理大型复杂服务的最佳实践的一个重要突破,由于Google目前的全球领先地位,SRE模式可以为广大企业提供深度模仿或借鉴。
通过学习和掌握SRE,将带来以下收获:
-SRE的学习路径
-SRE领导的自动化
-服务水平目标(SLO)
-如何减少琐事(Toil)
-(Observability)
-DevSecOps入门知识