5月29日上午11时09分,携程官网和 APP 突然无法使用引发热议,不少人对此幸灾乐祸,衍生出各种谣言段子。公众在调侃携程的同时,可能难以体会到携程技术部的巨大压力,尤其是运维部门面临的压抑和不安。
次日凌晨,原支付宝运维团队负责人智锦发表《深入解析和反思携程宕机事件》一文,让不少运维人读后深有感触,OneAPM 也感同身受。面对层出不穷的安全隐患,当下运维人员亟需一套新型高效的方法论和工具,为自身运维工作「减负」,告别加班熬夜的怪圈。
运维重要性凸显
在不少企业管理者眼里,运维长期处于“边缘化”角色,他们往往不知该如何评价运维价值,甚至很多运维从业者也不知该关注什么,每天任务就是到处当「救火队长 」 。
众所周知,运维和性能息息相关,网站的访问性能「速度、稳定性」,对于如今移动互联网时代的企业而言,已经成为影响公司发展过程中至关重要的一环。
以谷歌为例,网站打开速度只要差400毫秒,用户请求将会下降0.59%。更何况携程发生如此严重的宕机事件,造成损失难以估量。由此可见,企业管理者必须转变“传统运维”思考模式,积极探索新玩法。
通过携程宕机事件,OneAPM 建议 IT 企业和技术人员应痛定思痛,认真总结经验教训,认识到运维的价值和重要性。
APM 为运维工作减负
在传统时代,运维人员只能通过查询、分析各种日志文件来分析各种故障问题,基本上靠血肉之躯实现了业务部门的信息化,但已越来越难以适应新时代的运维需求。
近年来,APM「应用性能管理 」已成 SaaS 领域最火的创业方向,其能对企业关键业务应用进行监测、优化。提高企业应用可靠性和质量,保证用户得到良好的服务,降低 IT 总拥有成本「TCO」。
以 OneAPM为例,其专注于提供下一代应用性能管理软件和服务,帮助企业用户和开发者实现缓慢的程序代码和 SQL 语句的实时抓取。产品适用于复杂的现代应用程序生产环境,提供端到端应用性能管理、移动端和浏览器真实用户体验分析、业务交易实时分析,可以降低运维人员 90% 故障修复时间,减少 80% 的客服工作量。
APM 的运维价值
携程此次宕机发生后,历经17个小时才恢复正常。究其原因,主要是对大型网站而言,数据恢复远不是搞定几个应用和几个数据库服务器那么简单。一个网站的后台是一个由 SOA 「面向服务」架构组成的庞大服务器集群,每一个简单页面的背后,都由成百上千个应用子系统组成,每个子系统又包括若干台应用和数据库服务器,而且不同应用系统之间也存在耦合和依赖关系。这么多复杂的系统交织在一起,数据恢复的难度可想而知。
为此,OneAPM 提供一套新型解决方案。通过 OneAPM 的 Application Insight 产品可以实现对前端浏览器、网络传输、应用性能、中间件性能、数据库性能的自动关联及分析功能,可自动发现应用执行过程中涉及的软硬件基础架构组件,以及他们之间的交互路径。
这也意味着,使用 Application Insight 就能够根据应用拓扑和自动发现和可视化,进而实现对系统进行整体的把握。
不久前,OneAPM 客户通过后台监控发现线上服务出现异常日志,通过监控报告发现, JVM 垃圾回收指标迅速升高,运维马上进行针对性的分析,很快发现出现问题的代码行,在最短的时间内解决问题。直到半小时后,该公司使用的公有云服务商才发出告警信息。
从该层面而言,OneAPM 对运维人员的价值不言而喻,它能够帮助 IT 运维人员提前预警,快速定位到故障问题,为运维人员节省更多的时间成本和劳动强度。
除此之外, OneAPM 另一核心价值就是将黑盒运维变成白盒运维。传统的运维人员算是黑盒运维,不断去做重复性的操作,时间久了,只知道自己管理的服务器能正常对外服务,但是却不知道应用的依赖关系。
通过 OneAPM ,运维人员能真正清楚所管理的系统的功能和配置,从前端浏览器到后端应用服务器、数据库,能够有效监控和分析系统执行的每一个环节,从源头上解决运维人员到处救火的窘境。
对于携程此次宕机事故, OneAPM 建议公众应以理解和宽容心态对待。对于互联网公司而言,突发性技术故障算是稀疏平常之事,Google 、Amazon 、百度、腾讯、阿里巴巴等也难以幸免。
OneAPM 也希望通过本次携程宕机事件,让业界重新认识到运维的价值和重要性。同时建议运维人员能接触和了解 APM 。当然,并不意味使用 APM 就能一劳永逸,OneAPM 更多的是帮助运维人员提供一套高效的管理模式,以及更加智能化解决方案。
染头发
聚一聚……
染头发
教育局……
你好
嗯讲得一般……
星雾
Lambda表达式的条件限制很多,应用面不多,我不知道是否应该要花时间来掌握这个表达式,求解……
修道小仙
感谢分享,来龙去脉,深入浅出,非常清晰……
小布丁
写的棒棒哒……
小布丁
写的真可以……
wuxin
受教了……
爱码物联
博客使用……
yancy_01
很喜欢文字的描述,特别是理论性质的,相比于代码,理论知识更加有意思,谢谢分享……