×
<在线客服<
描述
021-53098865


欢迎来到雅菲奥朗官网
欢迎来到雅菲奥朗官网

AIOps智能运维新态势:AIGC提升智能运维的未来合集(上篇)

时间 :2023-11-21 作者 :雅菲奥朗 分类 :社区资讯
随着大规模数字化转型和企业对IT基础设施的依赖程度增加,AIOps已经成为IT运维领域的关键趋势。AIOps结合了人工智能、机器学习和数据分析,用于改进IT运维的效率和效果。AIOps可以帮助组织更好地理解和管理这些复杂的IT系统,以提高可用性和性能。AIOps智能运维新态势在线分享,我们汇集了全国范围内的智能运维领域的专家,旨在深入探讨如何将人工智能与运维实践相融合,以推动未来的技术创新和业务优化。我们将探讨如何通过AIOps技术的应用,实现智能决策、自动化运维以及实时问题识别和解决。

随着大规模数字化转型和企业对IT基础设施的依赖程度增加,AIOps已经成为IT运维领域的关键趋势。AIOps结合了人工智能、机器学习和数据分析,用于改进IT运维的效率和效果。AIOps可以帮助组织更好地理解和管理这些复杂的IT系统,以提高可用性和性能。


AIOps智能运维新态势在线分享,我们汇集了全国范围内的智能运维领域的专家,旨在深入探讨如何将人工智能与运维实践相融合,以推动未来的技术创新和业务优化。我们将探讨如何通过AIOps技术的应用,实现智能决策、自动化运维以及实时问题识别和解决。


在本次分享中,您将了解最新的AIGC在国内的目前发展现状、AIGC与开源/商业大模型的关系、AIGC在IT(研发运维)场景的应用和问题,以及AIOps趋势、最佳实践以及成功的部署案例。


一、主题分享: 职业发展新方向:AIOps


SRE和AIOps首席讲师刘峰

刘峰

AIOps首席讲师

中国SRE社区布道师


PeopleCert中国区AIOPS第一位官方认证讲师-刘峰老师分享了职业发展新方向:AIOps的主旨演讲。分享内容涉及AIOps(人工智能运维)作为职业发展的新方向,正在IT领域崭露头角。


在科技迅速发展的时代,AIOps代表了人工智能与IT运维的结合,为寻求行业前沿的专业人士带来了令人兴奋的机会。


全球AIOps人才短缺


AIOps利用机器学习和数据分析来自动化和增强IT运维的各个方面。它提供了实时监控、预测性分析和自动化故障响应等解决方案,使组织能够在问题影响终端用户之前主动解决问题。这不仅提高了IT系统的可靠性和性能,还减少了停机时间,最终提升了客户满意度


对于职场人士而言,AIOps为他们打开了AIOps工程师、数据科学家和IT自动化专家等职位的大门。这些职位需要精通机器学习、数据分析和自动化等领域,因此在当今的就业市场上备受青睐。


随着企业越来越依赖技术来推动运维,AIOps专业人士的需求预计将上升。因此,将AIOps视为职业发展道路,不仅提供了专业的职业发展机会,还有助于在数字时代为组织的成功作出重要贡献。在这个快速发展的领域,那些适应IT运维不断变化潮流的人将会为AIOps领域的光明未来做好准备。


雅菲奥朗-AIOps岗位技能要求


AIOps人员技能模型包括广泛的技术和非技术技能。技术方面,包括机器学习、数据分析、自动化运维、云计算、监控工具的熟练使用、编程能力(如Python)、故障诊断与预测技能。非技术方面,需要拥有强大的问题解决和决策能力、业务理解、团队合作、沟通和领导技能。这些技能使AIOps专业人员能够分析大规模数据、自动化运维任务、提高系统稳定性,同时与团队和业务部门合作,为组织提供卓越的运维支持。


二、圆桌论坛 : AIGC提升智能运维的未来

Q1:  智能运维现状情况是什么样的?

A1 :  首先,AIOPS在提升运维效率和有效性方面得到了许多客户和运维团队的验证。特别是对于那些复杂系统,例如在采用了Kubernetes等云原生技术后,基础架构和上层应用可能变得更加复杂,出现各种各样的问题。举例来说,有一位在华南的客户上了某个厂商的原生平台,但告警数量呈几何倍速增长,难以由人力来管理。在这种情况下,我们基于算法进行研究,帮助客户提高效率,这证明了AIOPS的有效性。


智能运维的定义可以总结为,通过应用算法、模型和深度学习,针对特定场景进行智能运维。在这个过程中,数据的关键特征决定了机器学习的效果上限。然而,模型和算法只是用来逼近这一上限的技术手段。因此,在进行许多工作时,数据治理也是一个重要的工作领域。


智能运维的现状和挑战(私域、机器学习+小模型)


举一个案例,当涉及到告警压缩时,我们首先会对告警数据流进行处理。我们使用fast text这种向量神经网络来进行语义向量化。随后,我们基于CMDB中的关联关系,通过图嵌入神经网络(Deepwalk)将拓扑结构向量化。同时,我们还会基于时间序列将时间结构向量化。最后,将这三个向量拼接在一起,用于构建分类模型,用以过滤一些告警。随后,我们还会构建聚类模型,将这些告警合并成事件。通过这种告警处理方式,我们得到的事件结果相当精确,准确率基本可以达到95%以上。


需要注意的是,我们在这个过程中依赖于CMDB的数据。CMDB的数据质量直接影响模型的训练效果。无论是根因定位、趋势预测还是异常检测,我们都可以使用相似的建模过程和数据处理方法,来训练可以复用的模型。虽然我们可以通过数学模型和算法构建有效的模型,但是这种模型的通用性有限,跨领域或者跨场景就可能会出现问题。


AIOPS,包括新一代的这个人工智能,它是一个什么样的一个关系?是一个增强型,还是一种拓展?还是一种颠覆或者取代?


AIGC到底给我们AIOps带来了什么?我认为,一方面是通识能力,另一方面是逻辑推断能力的显著增强。它不仅加强了我们的基础,还使我们的算法变得更加智能。


在前几年,我们主要侧重于数据工程、特征工程以及一些传统算法。我们试图从复杂的事件和指标中提取关系,然后进行根因分析或故障预测。这一路线在前几年遇到了一些瓶颈,不管是在泛化能力还是数据清洗和治理方面都存在一些较大的成本。


那么,AIGC呢?它的最大改变在于该模型具备了通识能力和推理能力。过去,我们的故障分析主要依赖于数据的强关联,并利用这些数据关联的特征进行故障预测。而AIGC不仅能够收集这些隐含的关联关系,还能够在我们的实践探索过程中结合一些白盒信息,例如将代码或业务特点传递给大型模型,以便发现更广泛范围内的隐藏问题。实际上,这有助于我们快速建立智能运维体系,提供了极大的帮助。


Q2: AIGC的新发展,AIGC 现在处于什么阶段?未来几年会怎么发展?对运维或运维研发有哪些场景的帮助?

A2 : 我们可以将今年视为AIGC元年,目前AI业界已经成功实现了我们期望已久的人工智能工作模式,以ChatGPT为代表的AI能通过图灵测试,能够进行一定程度的逻辑推理和创造性的生成任务;与此同时,由于具备了计算机强大的存储和计算属性,AIGC在数据处理和数据分析方面远远超越了人类大脑的能力。


当前AIGC仍然存在一些限制,主流的概率性AIGC生成模型通常被认为是不可控的。在许多场景下,它面临着不确定性和幻觉问题,尤其是当我们试图要求AIGC按照特定规则执行任务时,这种问题尤为显著。


这种现状可以从两个角度来解释:首先,AIGC(AI2.0)技术本身仍处于早期阶段,因此在在可控性等方面的薄弱是可以理解的,这方面的研究和探索仍然需要继续,并有望取得进展。其次,作为人工智能的用户,我们对其生成式大模型的内在原理和能力界限的了解也还在逐步完善,这种局限性也影响了我们对AI的使用。


近期,为了更好的发挥大模型的能力,进一步贴近类人智能,我们见证了许多新概念的提出和使用,比如Prompt Engineering、LangChain以及AI代理(AI Agent)机制。这些技术不仅降低了人类的使用门槛,同时很有希望能提升大模型的可控性、进一步完成复杂任务的规划和执行能力。这些能力可以提高到何种程度?是否有新的机制被继续提出来?这些问题仍然没有确切的答案,业界仍在积极探索中。


因此,我认为现在进入AIGC行业是一个非常有机会的时刻。一些细分领域已经可以看到AIGC的能力对生产力的提升,此外有许多可探索的未知领域,而这些领域以前是不存在的。前者已经具备一定的确定性,例如代码生成、图像生成、机器人客服等;而后者则以多AI分工协作、个性化伴侣/助手等其他形态展开。所以,对于对AIGC技术感兴趣的同学,我认为应该基于自身的兴趣来关注这两类领域。


对运维或运维研发的影响也相应的分为两类,偏落地改造既有流程的,可以通过CodeLlama/StarCoder等模型来实现代码辅助生成、通过微调模型来实现自动化的测试用例编写/漏洞检测/提交信息扩展等;而另外一类则有更大的野心,例如ChatDev/Autogen对于软件工程多角色Agent化的方式实现对既有软件工程的全部AI化,这部分工作对于复杂场景的效果目前还不够好,不过很值得关注。


Q3: AIGC给智能运维的机会,AIGC是否适合智能运维场景?

A3 : AIGC在实践中为我们带来了许多突破和场景拓展。这些方面包括但不限于IT运维中的故障根因分析、运维知识库生成、故障处理方案以及方案的自动执行。此外,在DevOps中,它可以帮助运维研发编写代码和实施工程,也可应用于测试领域中的测试方案和测试用例。另一方面,它还可以应用于更加业务场景化的领域。


例如,AIGC对于简单的磁盘告警或相关故障具有很大的提升空间,但对于复杂故障分析的完全解决仍然面临挑战。因此,了解AIGC的能力边界,明确其能够拓展的场景和能力,可以帮助我们避免过高的期望,也能更客观地评估其应用效果。


另一方面,目前的所有语言大模型都是基于概率模型的生成模型。这意味着它们在生成方案时具有潜力,例如将已发生的几种故障扩展成更多种类,并提示可能的指标和异常情况。然而,在使用AIGC生成文档内容或方案时,需要注意生成内容本质上是一个概率分布,其中可能包含许多有用的信息,但也可能包含对我们来说是冗余甚至错误的内容。因此,在使用时需要注意筛选并结合人工判断,以确保生成的内容准确和有用。


AIGC 是否适合智能运维的场景?大模型的能力能做到什么程度?比如IT运维(故障分析、方案生成、IT知识库)、运维研发(代码生成)、测试(方案生成)


首先,一方面是IT运维,包括故障根因分析、常见运维知识库的创建以及故障处理方案,甚至方案的自动执行。另一方面涉及到DevOps,即研发和运维一体化,包括一些常见的运维研发代码编写和工程实现。此外,还有一个领域是测试,包括测试方案和测试用例的设计。最后,还有一些与业务场景相关的内容。


举例来说,对于IT运维中的故障分析,我们可以初步达成共识,即语言大模型,尤其是经过少量数据微调的垂直或专有的AI OPS 语言大模型,在故障分析方面,由于具备通识和更强的推理能力,往往比传统的数据分析效果更好。但对于一些复杂场景的根因分析仍然非常具有挑战性。


一些大型公有云服务商,如AWS、谷歌、阿里云或腾讯云的故障案例中。这些故障通常由许多微小事件组成,最终导致复杂的故障。分析这些故障可能需要数小时甚至更长时间,因此目前来看,希望AI大模型能够完全解决这类问题仍然相对困难。


然而,对于相对简单且逻辑上不太复杂的问题,例如磁盘告警或多次磁盘告警直接关联到写入失败的情况,AI大模型可以提供显著的改进。因此,在实际应用时,我们需要清楚语言大模型的能力边界,以避免对其抱有过高期望或过于贬低其价值。这将有助于更客观地评估其在不同场景中的应用潜力。


我认为这在广义的代码生成领域也是一种形式,而其他领域,如测试代码生成,特别是在游戏开发企业中,提交代码时的提交信息可能不够详细,需要进行扩充,甚至需要对其提交的代码进行摘要,以确认其是否包含无效代码,或者其提交的代码内容是否与提交信息一致。


在整个DevOps领域,AIGC应该非常擅长。至于运营方面,像企业文档和企业知识库,这正是当前自然语言大型模型的擅长领域之一,工作内容已经相当成熟,我不再赘述这一点。


Q4: AIGC中大模型的价值和应用场景(智能决策,故障分析),大模型的发展现状是怎么样的呢?

A4 : 语言大模型领域,目前存在两种主要的运营类型:开源模型和商业模型。


开源模型:这些模型通常是由社区或组织开发,并以开源的方式提供给公众。这意味着任何人都可以访问模型的二进制文件、部分数据甚至是源代码,进行私有化部署或按需微调,以满足特定的需求。在海外,Facebook(Meta)的Llama系列和Hugging Face的Bloom等开源模型受到了最广泛的关注,并且得到了大量的实践层面的认可。


商业模型:这些模型通常由商业公司(如OpenAI)开发,以闭源的方式提供服务,用户只能通过API/Web等形式来使用模型,而不能直接访问模型的二进制文件、数据或代码。


在国内,智谱的ChatGLM和百川的Baichuan大模型也备受关注,他们不约而同的采用开源+商业化的模式,对于小规模参数(小于10B)的大模型提供免费的开源版本使用,同时提供更高规模参数的商业化版本。这也一定程度上证明了开源大模型和商业大模型是相辅相成的关系。


从技术角度来看,目前商业模型在性能上领先于开源模型,特别是在复杂语言理解、逻辑推理和复杂任务生成上。以Agent技术为例,截止当前,只有GPT4可以驱动Agent完成复杂任务的规划和执行。


商业模型虽然在性能上具有优势,但由于其闭源黑盒的性质,可能会引发数据隐私和可信度的问题,同时也很难支持高度私有化的场景。相比之下,开源模型更加独立透明,允许用户检查模型的内部工作方式和使用情况。这些特点也决定了商业大模型和开源大模型有各自擅长的领域。


Q5:开源大模型 VS 商业模型,该如何选择?

A5: 选择开源模型还是商业模型还是取决于具体的需求。开源模型提供了更好的可定制性和数据私密性,而商业模型通常在性能上具有优势。


在选择使用开源大模型或商业大模型时,需要权衡各自的优劣势。正如徐磊老师所提到的,一些开源项目例如Code Llama,通过在开源大模型的基础上进行微调,可以显著提升模型在特定领域的能力。国内的开源模型,例如ChatGLM/Baichuan等,也是类似的情况。


商业模型的优势主要有性能好、接口友好、稳定性更好以及用户使用门槛低(用户无需过多关注基础设施);而开源模型则提供了更好的可定制性、私密性以及生态优势。因此,模型的选择也可以从这几个角度出发:

  1. 如果需要快速开发LLM应用,而无需关心数据严格隐私等问题,则可以优先考虑商业大模型

  2. 如果对逻辑推理能力有非常高要求的场景,则可以优先考虑商业大模型

  3. 如果对数据隐私有明确要求,无法使用商业大模型的场景,则优先考虑开源大模型

  4. 如果需要大模型对特定领域能力进行微调扩展,则可以优先考虑开源大模型

  5. 如果需要私有化部署或者二次开发的,则可以优先考虑开源大模型其他情况也可以参照两者的特点来选择。

   

   Q6: 大模型领域有类似于GitHub 这样的一些巨头社区出来吗?

   A6: 首当其冲的当数Hugging Face了,作为开源大模型社区Hugging Face采取一种中立的运营模式,无论用户来自哪家公司,都可以将算法模型和数据集放     到一个这个中立的平台上。这与大型模型早期军备竞赛的各自割裂情况形成鲜明对比。截至目前, Hugging Face已经是全球最大的开源中立大模型开发者社       区。Hugging Face 还有其他的类似Papers with Code等网站,早期是深度学习研究人员的最常去的地方。大模型火了以后,这块的用户除了算法研究人员之     外,还带来了大量的大模型的直接用户,这部分的发展也更火热了。


   Q7: 中国市场的AIGC社区的机遇和挑战。

   由于一些特殊问题,Hugging Face在中国的访问变得越来越困难。国家对数据和人工智能模型的监管力度也在加强。从10月底开始,在中国访问Hugging         Face变得越来越难。从技术层面来看,这对中国人工智能生态并不是一个好消息。社区的缺位会导致技术的交流、探讨和共同提升的效率变低。鉴此背景,我     认为中国应该建立自己的AIGC大型模型生态社区,而这也是OpenCSG公司的定位所在。在此之前,国内有许多企业和组织也在致力于建立开源的大型模型社     区,例如阿里达摩院的魔搭社区等。我认为我们大家应该共同努力,将这个事情做得更好,一同构建良好的开源生态,更好的赋能国内的大模型开发者和用         户。这个过程也充满了挑战,有技术层面的、有生态层面的,也有商业层面的,但无论如何都是非常有必要、有意义的。