AIOps 这个话题近两年开始在运维圈子里面火了起来。一夜间传统和新兴的运维管理软件供应商,IT 运维系统开发商,大数据厂商,人工智能算法提供商,还有 BAT,大家都在谈论这个话题。大有“谈运维不提 AI(人工智能)就有些落伍”之势。有人认为 AIOps 是一个运维数据集中存储和展示的平台,有人认为 AIOps 是一个大数据分析平台,有人认为 AIOps 是传统的一体化运维平台,也有不少运维大咖认为 AIOps 不过就是IT运维领域一个新的炒作点。我却认为 AIOps 是一场颠覆传统运维的盛筵。它更像是一只运维领域里面的灰犀牛,从远方奔腾而来,开始所有运维厂商都不觉得威胁很大,但是当它冲到近前,才发现势不可挡。读者可能认为这是在耸人听闻,请容我细细道来。

我们先来简单看一下 AIOps 的概念。AIOps 是由 Gartner 定义的 ITOM(IT Operations Management,IT 运维管理)新的领域。如下图所示,AIOps 利用大数据和机器学习技术,实现海量数据的异常检测和多维度关联分析,它将增强或部分取代 ITOM 领域的三个重要能力,即监测,服务管理和自动化,进一步帮助 IT 运维人员准确甄别系统异常,快速定位故障根因,并对潜在系统运行风险进行预警,以实现 IT 和业务的持续洞察和改进。

AIOps 一场颠覆传统运维的盛筵 技术分享

其次,AIOps 与传统运维工具相比较,至少具有三大杀手锏。

  • 一是,传统运维工具一个最大的问题就是运维指标采集维度过于单一,运维人员在使用传统运维工具进行故障诊断时,要同时从多种监控工具中得到不同维度的运维指标,然后再把这些数据在大脑里面相互关联并根据以往运维经验进行关联分析,以期能找到故障的真正原因。但是,AIOps 产品则完全区别于传统运维工具的数据使用方式,AIOps 产品会在底层通过统一的大数据平台把各类运维指标进行汇聚和加工,将性能指标、组件指标、网络指标、事件、告警、日志、工单等 IT 数据在统一的视图上进行关联展现,从而大大减少了运维人员的故障诊断时间,并提升了运维人员的故障诊断准确性。

  • 二是,传统运维工具由于体系架构比较陈旧、采集数据总量和维度又都相对有限,无法应用当下最先进的机器学习或者人工智能算法来快速诊断系统故障。而近两年才发展起来的 AIOps 平台则明显架构更加先进、一个平台可以很容易得汇聚海量、多维度的IT数据,能够接入多种机器学习和智能分析算法,通过对历史数据的训练,针对实时数据进行实时的异常检测、异常定位、根因分析、容量预测等,从而极大幅的降低现场故障处理时间,提升运维服务质量和最终用户体验

  • 三是,一个最让甲方运维领导头痛的事就是,由于传统运维工具通常由不同厂商提供,这就导致了甲方需要准备很多运维工程师在现场来使用不同厂商的运维产品做 IT 支撑保障。一旦 IT 系统发生故障,一个典型的场景就是,使用多个运维产品的工程师们聚在一起开会讨论,但是由于代表的各自利益不同,不同厂商运维人员现场开撕的情况比比皆是,实在令人无奈!这直接导致了传统的中大型企业日常需要大量的运维工程师驻场工作,必然会产生繁杂的现场管理矛盾,而且随着 IT 技术人员薪酬的持续攀升,运维驻场人员越来越稀缺和昂贵,IT 运维成本随之大幅增加。AIOps 平台则显著区别于传统运维工具,它完全不需要大量的运维人员。 平台自身可以采集多维度、海量的IT数据,只要有少量的熟悉 AIOps 产品的运维工程师即可实现中大型企业的日常 IT 支撑保障,由于 AIOps 将海量事件进行了聚合汇总分析,只产生少量的准确告警,有利于现场人员更加快速高效的处理现场故障,并支持将故障处理方法固化在知识库系统,以便于向更加智能的自动化运维演进。

综上所述,AIOps 的确是一场对于传统运维工具的颠覆革命,每个企业都应该从现在开始,关注并尝试使用智能运维平台。

OneAPM 全新推出新一代 AIOps 平台 I2,欢迎您随时联系我们,即刻开启贵公司的智能运维之旅。