导语:AIOps 如何落地一直是当下最热门的IT运维管理话题。指标和告警管理是 AIOps 落地的两个切入点。看智能出行领域独角兽摩拜单车如何运用 OneAlert 智能告警平台从万千告警中获得更多运维洞察。
摩拜单车,于 2015 年 1 月成立,2016 年 4 月 22 日地球日当天在上海正式推出智能共享单车服务,并已先后进入中国、新加坡、英国、意大利、日本、泰国、马来西亚、美国、韩国等 9 个国家超过 180 个城市,运营着超过 700 万辆摩拜单车,为全球超过 2 亿用户提供着智能出行服务,日订单量超过 3000 万,成为全球最大的智能共享单车运营平台和移动物联网平台。摩拜单车每天产生的骑行数据超过 30TB,在全球拥有最为全面的骑行大数据,为智慧城市、健康城市、低碳城市的规划提供科学参考。
今天我们就来聊一聊摩拜单车在用户爆发性增长下,如何借助智能告警平台,大幅提高业务生产力的。
监控容易做,告警很难报
Zabbix 和 Prometheus 作为摩拜单车 IT 系统日常运维监控工具,每天至少产生1500条以上的告警。怎样从成千上万条信息中发现有用的,过滤掉重复的、抖动性的信息,或者从中找出问题根源,从来都不是一件容易的事情,所以业界流传着“监控容易做,告警很难报”的说法。
为了业务的高效运转,减少每日告警量,优化告警处理流程,采用最新的智能告警技术势在必行。摩拜单车选择了 OneAlert 智能告警解决方案:建立起有效的统一告警管理平台,将多个监控系统的告警,汇聚到一个平台中统一进行管理,同时使用 NLP、词向量、聚类、信息熵等人工智能算法和技术实现告警的降噪、聚类,将每日告警量减少到 60-100,让业务线更加聚焦于业务!
多种通知方式和升级策略,分派必达
在早期的开发运维模式下,摩拜单车告警由各业务线人员进行处理。告警的处理方式是监控系统产生告警,邮件通知给运维人员,运维人员再手动给各业务线负责人打电话,说明详细情况后安排人员处理。告警分发和处理人员超过40人。告警信息送达处理人员平均需要20分钟。
为了优化告警的处理流程,减轻运维人员的工作负担,提升告警可达率,智能告警平台 OneAlert 采用了有序分派的解决方案:首先是统一分派和升级机制,运维人员可根据业务线不同,将告警直接分派给业务线人员,无需人工中转告警,并设置多级升级机制,防止告警长时间无人响应;然后采用多方式通知,除了邮件和微信通知以外,还采用了短信通知和重要告警短信电话通知的方式,不遗漏任何一条告警信息,保障告警可达率98%,将告警送达时间缩短到1-2分钟。
分析优化,定位故障根源
当一个业务/服务有问题时,可能会触发多个维度的事件,如接口维度、机房维度、服务池维度等,如果都触发了告警,就变成了噪音,如果没有办法快速定位根本原因,一天收到成千上万个告警,基本上就等于告警无效了。
所以告警事件的收敛和聚合一直是运维工作中的重要环节。收敛和聚合一方面可以减少噪音和干扰;另一方面可以确定主要因素、定位故障。
传统告警工具,告警量多且难以定位故障根因,故障恢复慢并且没有数据作分析回顾。而 OneAlert 智能告警平台则通过有监督学习方式,结合人工标注根因或非根因,智能学习,自动推荐根因告警,帮助快速定位,快速处理问题。频发告警统计,告警规律发现,并且每周自动推送告警周报,极大的提升了告警处理以及故障回复的速度。将故障恢复时间从过去的平均4小时缩短到1.5个小时。
共享单车每日都有千万级的用户在使用,行业要持续健康的发展,良好的用户体验以及优质的产品服务必不可少。而在运维技术领域,新时代的要求是在大数据基础之上,如何高效、快速、准确地捕获系统指标和异常,如何快速诊断,如何进行报警的准确预测和评估等。OneAlert 作为 AIOps 的核心解决方案之一,解决的正是如何在大数据场景下对实时事件和告警进行处理和分析,以及智能化决策的问题。OneAlert 智能告警平台无疑大幅提高了摩拜单车在运维管理领域的生产力。
OneAlert 是北京蓝海讯通科技股份有限公司旗下产品,是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网 ,欢迎免费注册体验 。
染头发
聚一聚……
染头发
教育局……
你好
嗯讲得一般……
星雾
Lambda表达式的条件限制很多,应用面不多,我不知道是否应该要花时间来掌握这个表达式,求解……
修道小仙
感谢分享,来龙去脉,深入浅出,非常清晰……
小布丁
写的棒棒哒……
小布丁
写的真可以……
wuxin
受教了……
爱码物联
博客使用……
yancy_01
很喜欢文字的描述,特别是理论性质的,相比于代码,理论知识更加有意思,谢谢分享……