2024年5月24日,第二届服务韧性工程()论坛在杭州成功举办。本次会议由中关村人才协会作为指导单位,中国移动通信集团浙江有限公司和SRE创新联合体(中关村人才协会SRE专委会)联合主办,中移动信息技术有限公司,PeopleCert,雅菲奥朗、观测云等单位协办。会议邀请了来自通信、金融、制造、互联网行业等150余位SRE领域专业人士,共同探讨在数字经济时代下,如何通过技术创新和最佳实践提升企业的服务韧性和运维效率,以及SRE和人工智能领域的最新发展、创新和未来趋势。
在数字化转型的浪潮中,北京移动积极响应云时代的挑战,通过构建多维协同的智慧运维体系,显著提升了企业的服务韧性和运营效率。在2024年第二届服务韧性工程(SRE)论坛上,中国移动北京公司信息系统部云中心经理马洪利带来《云时代的多维协同智慧运维体系建设》的主题演讲,分享了其在云原生时代的运维体系建设经验,展现了如何通过技术创新应对熵增问题,即在不确定性中寻求系统的稳定与持续发展。
马洪利 北京移动信息部云中心经理
北京移动信息部云中心经理马洪利,带来了一场主题为《云时代的多维协同智慧运维体系建设》的精彩演讲。他在演讲中深入探讨了企业IT系统在向云原生架构演进过程中所面临的复杂度和运维挑战。他阐述了北京移动对服务韧性的深刻理解,并分享了北京移动在SRE体系建设过程中的收获与经验。他强调了构建多维协同的智慧运维体系的重要性,并提出了建立常态化、场景化的攻防兼备演练机制,以提升企业IT系统的稳定性和韧性。马老师的分享不仅为通信行业提供了“数字韧性”的新视角,也为其他行业在服务韧性建设上提供了宝贵的参考与启示。
一、 企业架构演进带来的复杂度和运维困局
随着企业架构向云原生转型,虽然带来了优雅的架构和灵活的调度,但同时也增加了技术栈的复杂性和组件规模。这导致了软件交付和运维的复杂性提升,使得应用在享受云原生技术优势的同时,也面临着运维复杂和故障定位困难的问题。北京移动的业务运营支撑系统在完成云化、微服务化、容器化的技术架构升级后,需要解决由此带来的运维挑战。
二、 对于通信行业“数字韧性”的理解和认识
数字韧性是在复杂、高度不稳定和不确定的数字环境中,保持数字基础设施稳定运行的能力。其核心是保障系统稳定运行,确保业务不中断。这种韧性对系统架构设计和运维提出了更高的要求,需要运维团队通过组织、技术和机制的协同来提高系统的韧性。
三、 北京移动在服务韧性“SRE”方面的实践
北京移动以SRE运维体系为基础,构建了多维协同的智慧运维韧性矩阵。通过五级业务连续性成熟度标准,从组织、标准、场景、能力四个方面,分事前、事中、事后三个阶段,构建了攻防兼备的高韧性能力支撑矩阵。此外,北京移动还通过构建统一指挥的多维协同运维组织,以及“四位一体”的运维保障体系,提升了业务支撑的韧性。
北京移动在实践中沉淀出了多项关键能力,包括混沌工程基础平台的构建、故障监控告警、故障预测、故障定位和解决等。特别值得一提的是,北京移动通过混沌工程实验,主动注入故障,不断演练和复盘,提前发现系统缺陷,提高系统在生产环境的弹性能力和韧性。
四、 关于服务韧性“SRE”演进方向的思考
北京移动在SRE实践的基础上,将持续优化模型的完备程度与技术细节。未来的演进方向包括引入AI能力、完善混沌场景、接入更多技术组件以增强故障注入能力。目的是在风险、新特性上线速度、运维效率之间找到最佳平衡,最终实现99.99%的业务连续性目标。同时,北京移动也在思考如何在生产环境中进行更复杂的故障注入、更有效地控制故障爆炸范围,以及如何实现从人为“检验”到智能“驱动”的转变。
总结
北京移动的实践证明,通过构建云时代的智慧运维体系,不仅能够提升企业的服务韧性,还能够在快速变化的市场环境中保持领先地位。随着技术的不断进步和创新,北京移动将继续引领通信行业的数字化转型,为用户带来更可靠、更稳定的服务体验。