×
<在线客服<
描述
021-53098865


欢迎来到雅菲奥朗官网
欢迎来到雅菲奥朗官网

老娘舅:协同移动云推进自动化运维,提升系统稳定性

时间 :2024-01-14 作者 :雅菲奥朗 分类 :社区资讯
2023年12月15日,2023首届服务韧性工程(SRE)论坛在杭州成功举办。本次会议由中国信息通信研究院·稳定性保障实验室、中国移动通信集团浙江有限公司联合主办,中关村人才协会、SRE专委会、雅菲奥朗、广通优云承办。会议邀请了来自通信、金融、医疗、制造等行业100余位SRE领域专业人士,共同探讨服务韧性工程的最新发展趋势和创新实践。老娘舅餐饮股份有限公司数据与技术中台负责人沈钊带来《携手移动云共建自动化运维能力,提升系统稳定性》主题演讲。

服务韧性工程(SRE)论坛

2023年12月15日,2023首届服务韧性工程(SRE)论坛在杭州成功举办。本次会议由中国信息通信研究院·稳定性保障实验室、中国移动通信集团浙江有限公司联合主办,中关村人才协会、SRE专委会、雅菲奥朗、广通优云承办。会议邀请了来自通信、金融、医疗、制造等行业100余位SRE领域专业人士,共同探讨服务韧性工程的最新发展趋势和创新实践。老娘舅餐饮股份有限公司数据与技术中台负责人沈钊带来《携手移动云共建自动化运维能力,提升系统稳定性》主题演讲


老娘舅餐饮股份有限公司数据与技术中台负责人沈钊

老娘舅餐饮股份有限公司数据与技术中台负责人 沈钊


老娘舅餐饮股份有限公司数据与技术中台负责人沈钊,进行《携手移动云共建自动化运维能力,提升系统稳定性》的演讲。他介绍了浙江移动自23年初与老娘舅合作,支撑老娘舅将多个业务系统迁移至移动云,并与移动云携手共建自动化运维能力,着重介绍了如何提高系统稳定性的方式。同时通过案例,阐述了自动化运维对系统效率和稳定性的积极影响

 

以下为演讲实录:

老娘舅是一家深耕长三角的老牌餐饮企业,400家门店遍布江浙沪皖,老娘舅的米饭类产品可以说是全行业中的佼佼者。“追求101%的顾客满意”不仅仅是老娘舅的口号,更是实际行动。老娘舅的管理者们在餐厅的各个环节力求做到完美,再结合现代餐厅的全信息化营业模式,这也给信息系统的稳定带来了新的课题。


企业信息化介绍


公司层面能不能做到服务器、云服务、各系统的100%稳定?

答案是肯定能,但是为了这个目标老娘舅要付出极大的努力,在运维层面我把整个过程分为3个阶段,原始人、现代人、未来人原始人用人的方式去做运维,现代人用工具去做运维,未来人采用自动化运维方式。


老娘舅运维发展历程


原始人阶段早期老娘舅的服务器在线下机房中,运维工作全部由老娘舅的工程师负责。工程师的水平有限,往往只能做到事后解决,甚至于有些复杂的问题,事后都不能彻底解决。后来外包了第三方运维团队,第三方运维团队也只能做到一些简单的监控、备份,还原数据到是有了保障,但是服务器本身的稳定性随着年限越来越多问题、运维的硬件、软件、人工等成本蹭蹭蹭的往上涨。

现代人阶段:到现代人阶段的标志性事件就是上云服务器上云首先解决了硬件设备老化带来的不确定性问题,然后也减少了运维团队的工作量变相减少了运维成本。上云之后改变了原本的运维方式,从以人为运维中心的运维方式改进为以运维工具为中心的运维方式,以前运维人员主要忙活在机房里,现在运维人员忙活在电脑前。本质其实并没有变化,总结来说都是事后解决问题。

未来人阶段:今年老娘舅做了一个非常重大的改革,就是将服务器迁移到移动云上选择移动云主要看中的就是移动云的运维能力和配合度,以前云服务厂商更多的是幕后工作,只要服务器、网络没问题,就没事了。甚至于出现问题,只要客户不够专业就把问题推向资源不够用,既推卸了责任,又增加了营收,已经变成创收的另一个方式。移动云的运维团队和老娘舅紧密协作形成了一些自动化运维经验。


01.事前预防:

我主张运维工作应该是事前预防为先,事后总结为二,事中处理为末以前往往是重视事中处理,以最快的方式解决,再做事后总结,很多问题还是会不断的重复发生,往往事前预防是做的最差的,要想做好事前预防不得不从组织管理过程入手去改进。


事前预警机制

 

(1)自动化开通配置开通外网严格流程化,使用跳板机访问内网服务

通过对外网开通的限制很大程度上限制了外部对服务器漏洞的攻击,避免了很多的运维工作。修复漏洞是服务器运维过程中非常费力还容易出现新故障的事情,不仅仅是运维团队不愿意做,服务商也不愿意做。所以老娘舅和移动云的老师制订了共同参与的流程,保证每个外网开通都是必须的,限制范围的,甚至于有时效性的。访问内网的服务比如数据库则使用跳板机。这里不得不表扬一下移动云的跳板机,已经做到和真机的远程桌面几乎一样的操作体验,通常老娘舅两个显示器或者两个桌面切换非常方便。这也让很多小伙伴放下了对跳板机的不便利的反对。


(2)自动化告警:服务器告警智能化

内存超了,cpu跑满了,带宽跑满了,磁盘突然满了,这些信息早期老娘舅往往是事后分析才发现的,前几年是告警有的,但是“告警太多了没发现那个最重要的;告警只能在云平  台上看,我又不可能24小时看着云平台的网页;告警的时候正好是睡觉的时候,不知道这事情。”这都是以前运维人员告诉老娘舅的理由。

今年老娘舅和移动云的老师一起做了一个告警中心,首先将告警分重要性,设定阈值,一般的告警就在网页上展示,由移动云的老师负责关注,重要的告警通过告警中心以文字的方式告警到该服务器的管理员、服务器上应用程序的开发公司,严重的告警通过告警中心以电话的方式通知到该服务器的管理员、服务器上应用程序的开发公司,老娘舅在电话告警中设计了,排班和升级机制,我对这个电话告警的理解,就是大人物办公桌上的那个没有拨号盘的“红色电话”。而且我在这个电话告警的后面设计了一个反馈流程,一旦触发了电话告警,就会要求相关负责人填写处理结果,并上升到信息部负责人的层面。让所有的人都知道这个电话告警是最重要的事情。


(3)自动化监管:自动化监管服务器的访问权限和用户权限,以确保数据安全

以前老娘舅堡垒机账号、管理员账号开通流程浮于表面,甚至于出现过人员离职了很久账号一直没有收回的情况。

现在老娘舅对接移动云开发了一个自动化巡查中心,主要是可以透视每个账号的权限范围、对应人员状态、操作记录,这样将有风险的操作、人员及时标记出来,及时纠正。下一步还将会对重要应用程序做类似的监管,比如数据库的敏感动作、应用程序的异常发布等。避免一些人为的意外的发生,保障了服务器的稳定,也救人于不幸。


(4)自动化云产品:云产品的使用一直是云服务商优于线下机房的一个重要优势

传统的云服务厂商的云服务产品不适合于现在多云策略的实施,迁云简直是一场灾难,移动云的自动化迁云工具,已经帮助我成功迁移了一整套数据中台、各种几百G的数据库、一整套BI平台、各种应用系统更是不在话下。这种工具大大降低了服务器的迁移难度,提高了迁移的成功率,也打消了服务商对于迁移的抵触情绪。


系统稳定迁移


(5)全员培训明确责任边界落实考核措施

传统的服务器运维是由运维工程师负责,运维工程师驱动程序员、服务商去进行运维工作,往往是推不动的。老娘舅和移动云的老师一起组织全员培训,除了运维人员、程序员和厂商的服务人员都要参与,根据所负责的范围进行培训和考核。并制定了运维工程师、公司内技术人员、厂商人员的责任划分和绩效考核,对发生的生产事故责任到人,考核到人。

 

        02.事后总结

        生产事故已经发生了,当时解决了,是不是事情就结束了?以前确实就是这样的。“服务器重启了一下;内存加过了;日志清理了……”这就是以前的事后总结。老娘舅结合公司“亮灯机制”,由结合和移动云共创的告警中心,对电话告警的每一条内容都要求,进行5W反馈,核心目的是找到事故发生的真正的症结。“服务为什么挂掉了?内存之前告警过为什么没有处理?硬盘空间已经连续5天高于90%为什么没有响应”通过这样的一个一个深入人心的问题,将发生的生产事故总结后汇总到事前预防,精进事前预防的内容,更新培训教材,进一步将事故杜绝于事前预防中形成一个管理闭环。


售后事件处理

      03.事中处理

       每个系统有一个独立的事故处理流程,运维工程师明确知道对接的技术人员和服务商的联系方式,对事故处理过程的细节进行全程掌握,并编写事故处理报告。对于没有找到明确原因的事故,建立预估的监控机制,添加到事前预防机制中。对已经发生的事故在全域范围内进行排查并添加事前预防机制,以防止同类问题在其他服务器上重现。移动云老师作为老娘舅运维工程师的坚强后盾,为老娘舅快速定位问题,快速解决问题提供帮助,从原来1方定性事故,到现在2方定性事故,更好的避免了推卸责任,也更好的对事故的真实原因进行定位和处理。


        综上所述,2024年,老娘舅计划联合移动云研发三个运维中心(监控告警中心、补丁外壳中心、密码管理中心),全面提升运维智能化、合规性,确保系统稳定可靠。用运维手段保证系统101%的稳定,用服务追求101%的顾客满意。