01. 场景简述
采用WeOps监控+健康巡检模块,将原本线下手工例行巡检工作,替换为平台上自动实现,原本需要4个人日的工作量缩短成1个人兼任即可完成,同时,对系统可用性和业务效率等带来极大提升。
02. 故事背景
该公司全国有1400+台服务器,主要分布在香港、深圳、顺德、武汉四个大区,共12个小区。
IDC数据中心关键职责是保证服务器及系统的稳定性,要求每天完成所有资源的例行巡检,主要包括:服务器资源、系统日志、备份及网络等;每个区域安排1人,以人力巡检为主,几乎需要花一整天的时间才能完成,四个区域总计每天需要4个人/日的工作量,效率低;巡检准确度低,手工容易错漏;并且由于范围广,一边还没有巡检完,另一边就有系统报障,难以实时监测,发现问题以被动为主,时效性低。
1)用WeOps健康巡检+监控,自动完成巡检工作的同时,实时监测资源运行状态
通过在香港、深圳、顺德、武汉等四个大区,共12个小区部署Proxy节点,集中接管1400+台服务器,实时监控系统资源、系统日志关键字、备份任务状态及网络状态;
配置每天巡检任务,对系统资源、备份状态等进行日常检查,自动输出巡检报告,用于趋势分析,提前消除隐患;
根据业务需求,调优告警策略,巡检的同时,保持对系统的实时监测,提升告警准确性。
2)WeOps实现效果:
03. 场景适用性
该IDC例行日检场景,对于高度关注服务器及系统稳定性、有严格的运维规范要求的客户特别适用,例如金融行业、医院等企业。系统例行检查自动化,极大提升巡检效率,变被动为主动,释放运维工程师的精力完成更有价值的工作。
申请演示