随着互联网的发展,基本需求不断得到满足,系统的迭代频率也随之上升。那么,问题来了,频繁迭代的系统,稳定性如何呢?怎样监控系统进而保证其稳定性,是一个令人头痛的问题。显然,这关系到公司的稳步发展,不容忽视。通过使用专业的应用性能管理工具,监控并保证系统的稳定性,使公司业务正常运转,变得愈发重要。

OneAPMApplication Insight 是一款帮助开发者监控系统稳定性的利器。它从 Apdex 值和报警策略两个方面监控系统的运行情况。

1. Apdex 值

Apdex 是一个[0,1]范围内用户体验量化值。其中,「1」表示所有用户都满意;「2」表示所有用户都不满意。

计算公式:Apdex=( 满意样本 + 可容忍样本/2 )/ 样本总数

通过 Apdex 值来判断系统的稳定性。首先,在 OneAPM Application Insight 功能总览页面中有个 Apdex 动态图,如下图:

系统迭代:如何监控和保证系统稳定性? 技术分享 第1张

从图中可以看出,系统在早上 6 点 40 分时的 Apdex 值为 0,说明用户在访问网站时满意度为 0,也就是无法访问网站,系统很可能在这时出现了假死或者宕机现象。

从图中可以看出,在出现假死之前,系统 Apdex 值有波动。可以研究波动时段的其他性能指标,寻找产生这些现象的真正原因。

2. 报警策略

报警策略分两种:[1.性能报警;2.错误报警]

1. 性能报警

性能报警以用户设置的 Apdex 阀值为报警触发条件,如图:

系统迭代:如何监控和保证系统稳定性? 技术分享 第2张

从图中可以看到报警的规则分为:[1.警示阀值;2.警报阀值]两种。当满足「警示阀值」时,会提醒用户系统出现性能问题;当满足「警报阀值」值时,会通知用户系统性能已有严重问题,应立即查看原因,处理故障。

2. 错误报警

错误报警以用户设置的平均错误率为报警触发条件,如图:

系统迭代:如何监控和保证系统稳定性? 技术分享 第3张

从图中可以看到,错误报警也分为「警示阀值」和「警报阀值」两种。当满足「警示阀值」时,会提醒用户系统出现错误;当满足「警报阀值」时,会通知用户系统有严重故障问题,需要立即处理。

除了以上这些,我们还有[1.分配策略2.管理用户3.通知方式]供用户自定义配置

1. 分配策略:

可以自定义分配需要监控的应用程序,如图:

系统迭代:如何监控和保证系统稳定性? 技术分享 第4张

2. 管理用户

管理需要通知的相关负责人,如图:

系统迭代:如何监控和保证系统稳定性? 技术分享 第5张

3. 通知方式

设置报警的的通知方式,如图:

系统迭代:如何监控和保证系统稳定性? 技术分享 第6张

如果在系统迭代时,您因为无法预知系统故障而头疼,那么赶紧注册一个 OneAPM 账号,下载安装一个 Application Insight 探针,相信一定会给您的工作带来惊喜和收获。

本文系 OneAPM 工程师编译整理。OneAPM 是应用性能管理领域的新兴领军企业,能帮助企业用户和开发者轻松实现:缓慢的程序代码和 SQL 语句的实时抓取。想阅读更多技术文章,请访问 OneAPM 官方博客