智能运维 AIOps 平台结合大数据和机器学习功能来支持 IT 运维。I&O (基础设施和运维/运营)领导人应该开始部署这样的平台,以加强目前的性能监控,但计划需要5年时间来扩展到服务台和自动化系统。

概述

关键发现

在过去的三年里,IT 部门分别部署了大数据和机器学习技术,以支持 IT 运维的监控。然而,在过去的6个月里,企业开始将他们的 IT 运维导向的大数据和机器学习项目结合起来,并将它们扩展到服务台和自动化。

企业使用人工智能进行IT运维(AIOps),以增强和偶尔地替代传统的应用程序性能监视(APM)和网络性能监视和诊断工具(NPMD)。

在过去的18个月里,面向IT运营的供应商一直倾向于专注于大数据或机器学习,而收购和发展战略的趋势则导致了两者结合起来的新一代平台的出现。

AIOps 技术的稀缺性正在改善,一方面,大学毕业生拥有快速增长的数据科学技术,另一方面,供应商简化了交付 AIOps 功能的接口。

建议

负责优化IT运维以驱动业务价值的基础设施和运维/运营(I&O)领导者应该:

通过采用侧重于历史数据的增量方法,以增量方式确保部署 AIOps 功能的成功。

通过选择能够接收和提供日志数据、文本数据、有线数据、指标、API 数据和社交媒体派生的用户情绪数据的 AIOps 平台,确保对 IT 系统的过去、现在和未来状态的全面了解。

通过选择支持有能力逐步部署 IT-运维-面向机器学习的四个阶段的工具,可视化和统计分析、自动模式发现、基于模式的预测和根本原因分析,来深化 IT 运维团队的分析技能。

战略规划设想

从今天的5%起,到2022年,40%的大型企业将结合大数据和机器学习功能,支持和部分替代监测、服务台和自动化流程和任务。

市场定义

AIOps(见注1)平台是将大数据和人工智能或机器学习功能相结合的软件系统,以增强和部分取代广泛的 IT 运维流程和任务,包括可用性和性能监视、事件相关性和分析、IT 服务管理和自动化。

其核心功能是:

  • 从各种资源中摄取数据:

  • 存储获取的数据:

  • 提供对数据的访问:

  • 在以下两方面上启用数据分析:

  • 数据输入:

  • 存储数据访问:

分析工作的目标是发现描述或能够生成正在规划的数据集的模式。因此,它们超越了数据本身,这些模式是新的元素,可以用来预测可能发生的事件和出现的情况,并及时向后看,以确定当前系统行为的根源(参见图1)。

图1 AIOps 平台使 IT 运营管理(ITOM)能够持续洞察

Gartner:AIOps「智能运维」真的来了,并且是趋势 技术分享 第1张

来源:Gartner(2017年8月)


市场方向

人工智能技术在过去的20年里断断续续地影响了 ITOM 的演变(见注2),而 AIOps 平台只是最近的一个例子。然而,从2015年到2017年初,有可能对 AIOps 采取两种截然不同的方式。在第一个方法中,一个供应商将会将对历史数据的访问、索引、存储和访问的能力打包在一起,并以最低程度的自动化程度支持基本的可视化和统计分析功能。在第二种方法中,供应商将提供一种能够自动实时模式发现流数据的引擎。在过去的6个月里,这条线开始变得模糊。

在历史数据管理中拥有强大地位的供应商要么是自主开发的,要么获得了流数据和自动模式发现和预测功能。此外,AIOps 平台倾向于扩大他们能够消化的数据类型的范围。特别是,在过去,仅支持记录日志数据的供应商现在正在扩展其范围,以包括度量和连接数据。在 Gartner 对 AIOps 的大约500个客户调查中,超过300个客户表示愿意扩大范围。因此,考虑到供需两方面的趋势,Gartner 预计,未来5年,大范围的 AIOps 平台将成为交付 AIOps 功能的实际形式。

到目前为止,AIOps 的功能主要用于支持IT运维流程,以支持监视或观察 IT 基础设施和应用程序行为。无论是采用机器学习在事件管理环境中更好地重复删除事件,还是在应用程序性能监控环境中将应用程序日志提取添加到基于字节码工具的数据收集中,AIOps 平台投资几乎总是以减少 IT 问题解决的平均时间的能力为目标。然而,在过去六个月中,在针对 AIOps 主题进行的大约500次调查中,有30次 Gartner 客户表现出越来越多的使用 AIOps 功能,通过将大数据和机器学习应用于故障排查来提高对事件和问题的参与度,及 CMDB 功能,并在开发和生产之间的界面上驱动自动化。 换句话说,AIOps 功能正在开始扩展,超越了监控,到了 ITOM 其他领域。

市场分析

到目前为止,几乎没有厂商提供全面的集成的 AIOps 平台。然而,许多供应商提供了大量的 AIOps 功能,其中的子集是相互集成的。为了更清楚地了解市场是如何演变的,以及供应商之间的相互关系,Gartner 将现有的 AIOps 能力划分为11个类别:

历史数据管理——允许对日志数据、线数据、指标和文档数据进行存储、索引和持久存储的软件或设备,由于所得到的数据库大多是非结构化的,或者更优秀的,半结构化的,并且存储的数据集本身在高容量中积累,高速变化,并根据不同的格式隐式地构造。这种历史数据管理功能可以被合理地称为“大数据管理”。

流数据管理——允许捕获、可能的归一化和索引的软件或设备,以及在下面提到的一个或多个数据类型的实时呈现。流数据管理软件不仅必须能够展示传入的数据,用户会认为实时,但是实际上还必须提供数据给用户,直接输入的时候不需要持久化数据库的访问。

日志数据摄取——允许从任何软件或硬件设备生成的日志文件中捕获字母数字文本字符串的软件,以及用于访问和分析的数据的编写,并可能为存储编入索引。

有线数据摄取——允许从网络上的源头直接捕获数据包数据的软件,所有的协议和流程信息都应该准备好进行访问和分析,并可能对存储进行索引。

度量数据摄取——允许直接捕获数字数据的软件,可以立即应用获取数据的时间序列和更一般的数学运算。

文档文本输入——允许对人类可读文档进行输入、解析和语法和语义索引的软件。这可能包括使用通常被描述为自然语言处理(NLP)的技术。

自动模式发现和预测——基于以上提到的一种或多种类型的历史或流媒体数据的软件,得出数学或结构模式描述了可能被推断出的新型关联,但并没有立即出现在数据集上。这些模式可以被用来在时间上向前推进,并以不同程度的概率预测事件。

异常检测——使用先前组件发现的模式的软件,首先确定什么是正常的系统行为,然后从正常的系统行为中辨别出偏离。

根源决定——通过自动模式发现和预测组件建立的关联关系网络删除依赖关系的链接,以提供有效干预的方法。

本地交付——一个或多个以上的 AIOps 能力作为一个本地解决方案的能力。

软件即服务——能够从云中交付一种以上的 AIOps 功能。

典型供应商

在这个市场指南中列出的供应商并不意味着一份完整详尽的列表,本部分旨在提供对市场及其产品的更多了解。

AIOps 平台供应商拥有广泛的能力,并且持续增长,值得注意的是,能够提供某种能力并不意味着能够以有效的综合方式提供能力。

在表1中,我们提供了提供 AIOps 平台功能的供应商的代表列表。

Gartner:AIOps「智能运维」真的来了,并且是趋势 技术分享 第2张

表1 代表 AIOps 供应商的能力

来源:Gartner(2017年8月)


市场建议

通过采用侧重于历史数据的增量方法,以增量方式确保部署 AIOps 功能的成功

I&O 团队必须循序渐进地逐步部署 AIOps 功能,从访问和分析历史数据开始,然后在稍后的时间点访问和分析流数据,以及应用机器学习功能。应该注意的是,历史和流数据分析都需要构建和细化描述能够生成这些数据的IT环境的模型。

AIOps 功能的有效部署,甚至局限于以监控为导向的用例,需要一种文化的改变。监控、ITSM 或自动化的概念应该根据数据源(而不是技术类型或基础设施层)重新组织它们的领域,从而颠覆了传统上设计的工具、流程和任务的大部分原则。Gartner 发现,最好从掌握各种来源的大型持久数据集开始。只有在IT运营团队熟练掌握了 AIOps 的大数据方面之后,它才会尝试掌握能力类别。因此,在选择工具或服务时,企业应该优先考虑那些允许部署数据摄取、存储和访问的供应商,这些供应商可以独立于剩下的 AIOps 组件,但仍然支持逐渐增加其他功能。

选择 AIOps 平台,能够支持广泛的历史和流数据类型

现代IT操作的目标之一是深入了解IT系统的过去状态,并将学习与当前面向总体IT平台的潜在未来状态联系起来。为了实现这一目标,I&O 领导者必须选择能够接收和提供广泛的历史和流媒体数据类型的 AIOps 平台,包括:日志数据、文本数据、有线数据、指标、API 数据和社交媒体派生的用户情绪数据。

AIOps 平台历来关注单一数据源,如日志数据或线缆数据。不幸的是,无论给定的数据集有多大或频繁更新,对单个数据类型的限制往往限制了对一个人或一个模式发现算法的集合所能获得的系统行为的洞察。这有点像盲人和大象的古老传说。每一个盲人都接触到大象身体的不同部分,得出了一个完全不同的结论,关于这个动物的形状和性质的结论是完全不同的。现代IT系统——以其模块性、动态性和分布式性——需要一个多视角的方法,即使是为了了解正在观察到的事情,更不必说计划他们的未来,或者确定使他们到达目的地的原因。因此,企业应该选择那些能够从多种来源中摄取和分析数据的AIOps平台。

选择提供可增量地部署 IT 操作的四个阶段的工具——面向操作的分析和机器学习

增强 IT 操作团队技能的关键属性之一是渐进式方法。支持增量部署和支持 IT-运维-面向机器学习的四个阶段的工具必须获得更高的投资优先级:

  • 可视化和统计分析

  • 自动化的模式发现

  • 基于模式的预测

根本原因分析

在IT运维环境中部署人工智能非常困难,必须逐步实现。IT 运营团队应该通过熟练掌握数据可视化和基本统计分析,开始他们的人工智能之旅。不惜一切代价,抵制一次做这一切的诱惑。只有在这些核心“手工”学科被掌握之后,人工智能或机器学习才会被接近。在这里,他们最初应该尝试允许软件揭示组织大量数据的模式。接下来,他们应该测试这些模式允许他们预测未来事件和事件的程度。只有当团队开始使用根本原因分析功能时,才会接近结束。最后,AI的所有四个阶段都很重要,企业应该选择尽可能多的工具。这些阶段应该以模块化的方式进行部署,但也要确保IT操作能够在学习过程中获得价值。

证据

自2016年6月以来,已经有超过500次的调查涉及 AIOps 和/或 AIOps 平台的选择。

注1

AIOps 从算法发展到人工智能

在 Gartner 的词典中,“AIOps”的首字母缩写为“算法 IT 运维”。然而,在过去的一年中,在 Gartner 和一般的市场使用中,“人工智能”一词主要指的是将自动模式发现算法应用于大型数据集,其次,尝试模仿一些人类的智力行为,比如语音。由于这些正是 AIOps 平台的特点,所以我们决定在我们对这个主题的报道中采用这种命名法。虽然算法方法毫无疑问是这个市场形成的基础步骤,但我们现在强调这个领域的“人工智能”术语,以便更好地反映对AI概念的接受和对其潜力的不断增长的投资的快速转变。

注2

AIOps 之前

从历史上看,“人工智能”一词已经被用来表示试图模仿人类的知觉和智力操作系统(硬件和软件)。20世纪50年代末,大学和国防部开始进行这样的尝试,到目前为止,已经有两个时期,这种学术和军事工作的成果进入了商业市场。第一个时期从上世纪80年代中后期开始,结束,而不是巧合,结束了冷战。第二个时期开始于过去十年的结束,至今仍