5月29日上午11时09分,携程官网和 APP 突然无法使用引发热议,不少人对此幸灾乐祸,衍生出各种谣言段子。公众在调侃携程的同时,可能难以体会到携程技术部的巨大压力,尤其是运维部门面临的压抑和不安。

次日凌晨,原支付宝运维团队负责人智锦发表《深入解析和反思携程宕机事件》一文,让不少运维人读后深有感触,OneAPM 也感同身受。面对层出不穷的安全隐患,当下运维人员亟需一套新型高效的方法论和工具,为自身运维工作「减负」,告别加班熬夜的怪圈。

携程宕机:谁来解救水深火热的运维人员? 行业新闻  

运维重要性凸显  

在不少企业管理者眼里,运维长期处于“边缘化”角色,他们往往不知该如何评价运维价值,甚至很多运维从业者也不知该关注什么,每天任务就是到处当「救火队长 」 。

众所周知,运维和性能息息相关,网站的访问性能「速度、稳定性」,对于如今移动互联网时代的企业而言,已经成为影响公司发展过程中至关重要的一环。

以谷歌为例,网站打开速度只要差400毫秒,用户请求将会下降0.59%。更何况携程发生如此严重的宕机事件,造成损失难以估量。由此可见,企业管理者必须转变“传统运维”思考模式,积极探索新玩法。

通过携程宕机事件,OneAPM 建议 IT 企业和技术人员应痛定思痛,认真总结经验教训,认识到运维的价值和重要性。

APM 为运维工作减负

在传统时代,运维人员只能通过查询、分析各种日志文件来分析各种故障问题,基本上靠血肉之躯实现了业务部门的信息化,但已越来越难以适应新时代的运维需求。

近年来,APM「应用性能管理 」已成 SaaS 领域最火的创业方向,其能对企业关键业务应用进行监测、优化。提高企业应用可靠性和质量,保证用户得到良好的服务,降低 IT 总拥有成本「TCO」。

以 OneAPM为例,其专注于提供下一代应用性能管理软件和服务,帮助企业用户和开发者实现缓慢的程序代码和 SQL 语句的实时抓取。产品适用于复杂的现代应用程序生产环境,提供端到端应用性能管理、移动端和浏览器真实用户体验分析、业务交易实时分析,可以降低运维人员 90% 故障修复时间,减少 80% 的客服工作量。

APM 的运维价值

携程此次宕机发生后,历经17个小时才恢复正常。究其原因,主要是对大型网站而言,数据恢复远不是搞定几个应用和几个数据库服务器那么简单。一个网站的后台是一个由 SOA 「面向服务」架构组成的庞大服务器集群,每一个简单页面的背后,都由成百上千个应用子系统组成,每个子系统又包括若干台应用和数据库服务器,而且不同应用系统之间也存在耦合和依赖关系。这么多复杂的系统交织在一起,数据恢复的难度可想而知。

为此,OneAPM 提供一套新型解决方案。通过 OneAPM 的 Application Insight 产品可以实现对前端浏览器、网络传输、应用性能、中间件性能、数据库性能的自动关联及分析功能,可自动发现应用执行过程中涉及的软硬件基础架构组件,以及他们之间的交互路径。

这也意味着,使用 Application Insight 就能够根据应用拓扑和自动发现和可视化,进而实现对系统进行整体的把握。

不久前,OneAPM 客户通过后台监控发现线上服务出现异常日志,通过监控报告发现, JVM 垃圾回收指标迅速升高,运维马上进行针对性的分析,很快发现出现问题的代码行,在最短的时间内解决问题。直到半小时后,该公司使用的公有云服务商才发出告警信息。

从该层面而言,OneAPM 对运维人员的价值不言而喻,它能够帮助 IT 运维人员提前预警,快速定位到故障问题,为运维人员节省更多的时间成本和劳动强度。

除此之外, OneAPM 另一核心价值就是将黑盒运维变成白盒运维。传统的运维人员算是黑盒运维,不断去做重复性的操作,时间久了,只知道自己管理的服务器能正常对外服务,但是却不知道应用的依赖关系。

通过 OneAPM ,运维人员能真正清楚所管理的系统的功能和配置,从前端浏览器到后端应用服务器、数据库,能够有效监控和分析系统执行的每一个环节,从源头上解决运维人员到处救火的窘境。

对于携程此次宕机事故, OneAPM 建议公众应以理解和宽容心态对待。对于互联网公司而言,突发性技术故障算是稀疏平常之事,Google 、Amazon 、百度、腾讯、阿里巴巴等也难以幸免。

OneAPM 也希望通过本次携程宕机事件,让业界重新认识到运维的价值和重要性。同时建议运维人员能接触和了解 APM 。当然,并不意味使用 APM 就能一劳永逸,OneAPM 更多的是帮助运维人员提供一套高效的管理模式,以及更加智能化解决方案。