纵观程序员大军,运维人员应该算是最为「苦逼」的一波人了。因为公司管理者往往对技术了解不多。但无论是网站访问缓慢,还是系统出现各种错误,不管是因为谁,管理层首先就是找运维当这个「救火员」。


从一定意义上讲,运维同学有责任去解决这些问题,但是不排除很多情况下是因为开发同学某段代码出现了问题,所以运维「背黑锅」是常事。不仅要承担别人犯下的错误,还要拼死拼活地去解决可能非自身原因造成的问题。

亲爱的运维童鞋:你不应该只当“救火队员”  技术分享 第1张

当然,因为 IT 基础架构在企业中扮演的角色越来越重,所以这几年 IT 运维管理(ITOM)在企业级市场备受资本青睐,曾一年半时间创下 3 轮融资记录的 OneAPM,在今年 8 月份又正式挂牌新三板,再次引爆了整个企业级市场。OneAPM 联合创始人\总裁黎卫受邀参加了 2016 全球运维大会「上海站」,黎卫提出一个非常犀利的观点:运维人员,不应该只能当一个「救火员」,借助 ITOM 工具,运维人员完全可以做一些“运营”的工作。让现场很多运维同学眼界大开。


Gartner:ITOM 整体市场规模在 2018 年将达到 740 亿美金


黎卫首先列举了全球最知名的调研机构 Gartner 的几项数据:


  • 狭义的 APM 服务是 ITOM 服务的重要组成部分,目前纯 APM 服务的市场规模约 45 亿美元,每年保持 6% 的市场增速

  • 根据 J.P Morgan 最新研究报告,广义 APM 服务行业应当涵盖 ITOM、BI 和 Security Software 三个领域,每个领域均为过百亿美元的市场。预计2015 年,整体市场规模为 594 亿美元,2018 年将到达 740 亿美元

  • 亚太是移动互联网发展最快的地区,移动应用的爆发增长将极大推动对性能管理和安全服务的需求。预计亚太地区的市场规模占全球的 15%-20%,2018 年将达到 148 亿美元


通过以上这些数据,我们可以清晰地感知到,为什么这几年 IT 运维管理领域能够引起资本的青睐。一方面得益于整个互联网行业的发展,企业的 IT 系统所承担的角色愈加重要,另一方面,机器代替「人工」也是大势所趋,所以运维自动化是未来企业发展的必经之路。综合其他多方面的因素,所以不难理解,为何整个 IT 运维管理市场备受资本的「追捧」了。


ITOM 三大要素:人员、技术、流程


黎卫认为,企业如果想提供高质量的服务,离不开三个核心要素,第一是人员,第二是技术,第三个就是流程。


企业的 IT 系统正常运行,离不开「人」,无论是IT经理,数据中心领导,值班人员,还是系统维护人员(技术专家)都是必不可少的核心资源。IT 经理需要评估本部门重要系统、设备的可用性态势;数据中心领导需要摸清企业资产的分配和使用情况,做到资产心中有数,IT 投资合理性;值班人员需要及时发现系统重要告警,并通知系统维护人员,还要掌握关键业务系统整体运行状况,然后定期对重要设备进行健康检查;尤其是系统维护人员,他们不仅需要分析系统运行性能瓶颈,快速解决系统出现的重大故障,寻找出现问题频率较高设备或业务系统的故障根源,还需要进行知识总结、审核和归档。所以企业整个 IT 系统的稳定、健康运行离不开人力资源。


从服务支撑的整体工作过程提升:集中、贯通、融合


在以往,很多企业的 IT 部分往往是割裂的,相互之间的联动性非常差,这就会造成流程的瘫痪,影响企业的工作效率。而借助 IT 运维管理工作,企业的 IT 系统可以实现从服务支撑到整体工作过程的提升:集中、贯通、融合。从故障报警,到快速解决问题,再到事后根源分析,然后再对知识进行归档,当流程变得通顺,企业就能够大大提升运作效率。


我们可以把流程比作我们的神经系统,把 Web 端、屏幕和移动终端比作我们的脸面,那么眼睛负责监控,大脑负责分析,手帮助我们实现自动化,安全就是我们的免疫系统,而资源管理就是我们的骨骼,整个企业 IT 系统如果想健康运转,任何一个子系统都不能出问题。当然这样一个系统,需要决策者、管理者、开发人员、系统维护人员、应用维护人员的共同参与,共同完成从监视到分析,从管理到控制,最后完美展示到用户眼前这样的过程。而所有这些流程,在IT运维管理工具帮助下,就能够更好、更稳健地实现运转。


亲爱的运维童鞋:你不应该只当“救火队员”  技术分享 第2张


OneAPM 提供一站式 IT 集中监控管理服务


作为中国基础软件领域的新兴领军企业,OneAPM 能够为企业级用户提供一站式的 IT 管理解决方案,通过一个探针就可以完成日志分析、APM 基础组件监控、集成报警以及大数据分析等多种功能,为企业用户提供全栈式的性能管理以及 IT 运维管理服务。目前OneAPM提供的 NetWork Insight 和 .LogInsight 产品能够对企业核心业务的关键业务点实现监控,而 Application InsightBrowser InsightMobile Insight 和 Cloud Performance Test 能够实现对应用层的监控,而 Infrastructure Insight 覆盖了基础软件、基础设施以及动力环境的监控,真正意义上实现了对整个 IT 环境全栈式的性能监控和管理,帮助企业提高业务生产力。


亲爱的运维童鞋:你不应该只当“救火队员”  技术分享 第3张


客户案例分享:太平洋保险集团


在演讲的后半部分,黎卫重点阐述了太平洋保险集团的 ITOM 实践。


作为国内领先的综合性保险集团,太平洋保险(太保)也在猴年除夕当晚利用微信平台启动了「太保‘友’你,太保有礼」主题活动。活动之前,腾讯评估本次微信活动参与人次可能会达到 1.5 亿人次,高峰期并发请求量达每秒 400 万次,而现有的 IT 架构很难完全应对这种亿万级的并发,太保的 IT 运维团队面临着一个巨大的挑战,所以太保选择借助 OneAPM 为整个微信红包活动全生命周期的性能安全提供全面的保障服务。


亲爱的运维童鞋:你不应该只当“救火队员”  技术分享 第4张


OneAPM 负责监控本次微信活动所有业务节点的运行质量保障,并从测试阶段开始,到微信系统生产上线,持续性为开发人员提供代码级相关的诊断优化建议。此外,针对网络数据及业务系统运行数据,OneAPM 还为太保提供了定制化的实时监控大屏,用于展现全国网络访问质量、每秒的交易量(TPS)、PV、吞吐量以及 Apdex 等多个纬度的性能指标。最终确保了在亿万级并发下的稳定运行,赢得了太平洋保险整个 IT 运维团队的认可。


拓展运维工作边界:OneAPM 提供 IT 运营分析功能


众所周知,IT 运营分析能够通过对各类 IT 资源数据的监控,收集运营数据,使用大数据分析工具,找到影响用户体验和性能问题的根本原因,为 IT 合理投资决策提供依据,提高投资收益率,同时避免为解决用户体验问题而盲目的进行系统升级、扩容或其他动作,节省了时间成本、人力成本和物资资源成本。


亲爱的运维童鞋:你不应该只当“救火队员”  技术分享 第5张


借助 OneAPM 提供的 ITOM 管理工具,运维人员就能够自己完成性能报表、容量报表、业务统计分析报表,还可以进行大数据分析,用户画像分析,最终帮助企业实现精准营销。真正将运维同学的工作变得更自动、更系统、更专业。同时,还能够将各种 IT 数据转化为运营数据,为企业的业务发展提供方向,真正意义上将整个运维工作的边界进行了拓展。从这个层面而言,未来的运维人员,已经不再是单纯的“救火队员”,而是能够为企业业务发展提供强力支援的「价值」贡献者。