不久前,《重生——带着七旬父母去旅行》这篇文章火遍了微信朋友圈,文章的作者顾颐先生陪伴父母度过了一段非常难忘的异国之旅,他用相机记录下这段旅程的点点滴滴,感动了无数人。这篇游记就出自国内知名的自由行平台蚂蜂窝,「心若自由,行必无忧」,现在蚂蜂窝每年都会帮助过亿的旅行者制定自由行方案,赢得了无数自由行爱好者的信赖。
客户背景
蚂蜂窝旅行网创立于2006年,从2010年正式开始公司化运营。该平台提供全球60000个旅游目的地的旅游攻略、旅游问答、旅游点评等资讯,以及酒店、交通、当地游等自由行产品及服务。截至2015年9月30日,蚂蜂窝已积累1亿用户,其中80%的用户来自移动端(蚂蜂窝自由行 APP);月活跃用户数8000万,点评数量达2100万条,现已成为国内领先的自由行服务平台。
面临挑战
2006年的蚂蜂窝并未公司化运营,还是一个出于创始人兴趣建立的社区。所以早期的时候,整体的架构设计并没有考虑大流量等问题,尤其是随着移动端的爆发,服务器数量的大量扩张,保障基础组件、服务的稳定健康运行,向运维团队提出巨大挑战。
而且随着服务架构越来越复杂,服务间的关联性日趋紧密。对基础服务监控高要求的同时,告警通知的及时性,准确性也有了更高的要求。如果大量的告警重复发送,或者关联性非常强的告警消息同时发出,势必会阻碍运维人员的视线,把真正关键的告警消息遗漏掉。
最后一点,互联网公司追求的是高效率的工作,蚂蜂窝团队也不例外。那么如何对团队工作效率进行评估,如何从众多杂乱的告警中分析出最关键的信息也成了一项重大的挑战。互联网人才为重,那么又如何保障 IT 团队接收告警消息体验最好?这也是蚂蜂窝技术管理团队面临的新挑战。
为什么会选择 OneAlert?
众所周知,现在市面上各种各样的监控工具层出不穷,但随之而来的告警通知,也很容易将运维人员的邮箱「挤爆」。诚然,企业确实需要各种监控工具来确保系统的稳定运行,但是很多时候,80%的告警信息对运维人员来说都是无用的,让很多运维工作都变成了「徒劳」。
对蚂蜂窝来说,首先运维团队希望能把所有的告警都集中到一个平台上进行处理,这样就不会把时间浪费在在各个平台间切换、适应各种界面、了解各种术语上了等等。其次,蚂蜂窝希望把这些告警统一成一个格式,即标准化和结构化。然后,运维人员也希望把所有有关系的告警合并成为一个事件,这样的话,他们每处理一个事件就等于处理了一串的告警,通过这种方式,80%的告警噪音就会被消除。对比国内外的多款监控产品之后,蚂蜂窝将目光聚焦在国内首个 SaaS 模式的云告警平台 OneAlert 之上。
OneAlert 是国内 ITOM 管理平台 OneAPM 旗下的子产品,它不仅仅集成了国内外主流监控/支撑系统,而且实现了在一个平台上集中处理所有 IT 事件,提升 IT 的可靠性。而且通过使用 OneAlert 产品,可以使用多种方式的告警通知,强大的告警压缩和升级机制,个性化通知和分派,告警分析,团队协作等功能,真正将运维工作整合到了一起,大大提升了蚂蜂窝团队整体的工作效率和质量,所以很快就得到了蚂蜂窝运维团队的高度认可。
OneAlert 提供的解决方案
OneAlert 能接入十几种常见的监控工具,将告警全部在一个平台处理。并且提供多种灵活的通知方式,比如:电话、短信、微信、邮件、APP 五种告警通知方式。并且 OneAlert 多通道的告警通知,能控制告警延迟在秒级,保障告警的及时率和到达率,这样蚂蜂窝的运维人员,即使不在办公司,也能实时了解到平台的运行情况,同时也能对系统问题实时进行处理。
OneAlert 提供一系列的告警压缩方式,时间片和关联性压缩对减少告警噪音起到了非常大的作用。自从用了 OneAlert 告警平台,发现邮件和短信的数量变少了,但是团队解决故障的效率和及时性都得到了提高,出现问题影响业务的时间大大降低,这也是蚂蜂窝运维团队非常看重的一点。
OneAlert 提供告警分析的功能,能够根据应用、团队、成员三个维度进行告警内容的分析,清晰的了解到团队解决告警故障的平均响应时间,告警数量等指标,清晰认识团队整体的工作情况。并且 OneAlert 的个性化通知和分派,明确区分每个成员的职责。不同时间、不同级别、不同主机组、不同内容的告警个性分派,帮助蚂蜂窝团队的运维效率和精神状态都有了大幅度的提升。
客户反馈
蚂蜂窝的运维团队的负责人表示:「非感谢 OneAlert 这款产品,它真正的帮助我们提升了告警消息的及时率和告警到达率。而且 OneAlert 提供了非常灵活的通知和分派,帮我们建立起了多层联动协作机制,如果问题没有被及时处理,报警升级机制就会加强,让告警不存在遗漏。更重要的是,我们现在可以通过 APP 来处理告警信息,大大提升了我们的工作效率。此外,我们借助 OneAlert 这款 SaaS 产品,很多数据的整理工作通过线上就可以完成,同时让我们评估团队的工作有据可依,让运维也有了 KPI 考核,真正帮助我们实现了‘数据化’的管理。」
国内 ITOM 管理平台 OneAPM 致力于帮助企业用户提供全栈式的性能管理以及 IT 运维管理服务,通过一个探针就能够完成日志分析、安全防护、APM 基础组件监控、集成报警以及大数据分析等功能。想阅读更多优秀文章,请访问 OneAPM 官方技术博客
染头发
聚一聚……
染头发
教育局……
你好
嗯讲得一般……
星雾
Lambda表达式的条件限制很多,应用面不多,我不知道是否应该要花时间来掌握这个表达式,求解……
修道小仙
感谢分享,来龙去脉,深入浅出,非常清晰……
小布丁
写的棒棒哒……
小布丁
写的真可以……
wuxin
受教了……
爱码物联
博客使用……
yancy_01
很喜欢文字的描述,特别是理论性质的,相比于代码,理论知识更加有意思,谢谢分享……