首页

/

【羊城晚报】WeOps运维监控告警改善OA访问慢的问题

发布日期:2023-09-12 16:41:44

全部案例

01. 故事背景

IT运维部门平均每月都会接收1-2次内部办公系统访问缓慢的用户反馈或投诉,月月被投诉,IT不胜其烦。经排查,绝大部分时候是由于与某个应用有关的Windows服务器的CPU资源占用奇高,导致系统无法响应用户请求,从而产生“慢”的现象。


02. 问题排查

在羊城晚报,内部办公(OA)系统需要遵循“报业网络安全等保第二级”的要求,对服务器日志进行集中收集和留存。

羊城晚报使用的日志审计系统,采用的时C/S架构,需要在每台服务器上安装一个客户端,该客户端会收集那台服务器产生的日志,并将日志转发到集中日志接收和存储系统。

可能是bug等原因,安装在Windows服务器上的日志收集客户端软件,时不时“发疯”一样抢占CPU资源,导致资源耗尽,响应卡死。该客户端安装在linux服务器上却一切正常。


03. 临时方案

临时的故障解决方法是在Windows服务器上,将该日志收集客户端先停掉,再次启动,故障即可解决。

羊城晚报数次找到日志审计系统的厂家,要求厂家解决此问题,但厂家反馈是自身日志审计系统是基于开源社区的工具进行二开,该问题属于原始工具的问题,他们也无法彻底处理,并且只在Windows服务器上不定时出现,他们暂时不会花精力投入研究,建议客户每次问题出现后,就手动处理,但每次问题出现时,都伴随对IT部门的投诉。

*厂家推测:客户端在向集中日志存储系统传送日志时,如果出现失败(比如网络中断),会再次尝试,这种再次传送行为在Windows系统上,可能触发了一些兼容性问题,导致尝试次数越多,旧的资源不会被释放,同时,不断抢占新资源,最终导致服务器资源“耗尽”。


04. WeOps应对及效果

用WeOps监控告警,先于用户发现该问题,并在用户保障前处理,避免用户投诉。

① 监控所有Windows服务器的资源情况,并设定告警规则,按照“提醒”“预警”“致命”三个层级,发送告警通知给IT管理员,管理员手工处理,与用户投诉抢时间。


② 计划进一步优化到自动化处置(技术上可行,但处置风险和管理要求在评估中),如告警后无人处理,则等待一段时间后,WeOps自动化处置并记录,无需人为干预。

作业编排脚本
重启脚本

WeOps监控告警还帮助羊城晚报加快发现其它生产故障,例如采编系统抽图异常、通讯社稿件无法入库到编辑系统稿件库等,提升核心系统的可用性。

客户感言

「WeOps监控告警不仅帮助了羊城晚报的OA访问慢问题,还加快发现其它生产故障,例如采编系统抽图异常、通讯社稿件无法入库到编辑系统稿件库等,提升核心系统的可用性。」

羊城晚报

相关解决方案

一体化智能运维解决方案

嘉为蓝鲸为中大型政企提供一体化智能运维解决方案,覆盖配置管理数据库CMDB、可观测IT运维监控、IT服务管理ITSM、自动化运维、IT灾备应急、多云管理CMP、智能运维大模型开发等企业IT运维场景。基于腾讯蓝鲸PaaS的海量实践,支持国产信创环境,提升运维效率。免费申请方案演示。

一体化监控解决方案

嘉为蓝鲸一体化监控解决方案,打造全栈运维监控平台,适配信创监控平台需求,覆盖云 / 容器 / 数据库 / 中间件等 IT 设施全场景监控。解决技术适配难、工具联动弱、故障定位慢等问题,提供智能化告警处置、故障自愈、全生命周期告警管理,已服务中信建投、广州公交、福田汽车等企业,助力提升运维效率,保障业务稳定运行。

日志管理解决方案

嘉为蓝鲸一站式企业日志管理平台,支持海量异构日志采集与统一管控,提供日志监控、日志报警、日志分析、日志可视化能力,可实现智能故障定位、安全审计、业务链路追踪,已服务公交、金融、医疗、制造等行业,助力企业提速排障效率。

应急灾备解决方案

嘉为蓝鲸应急灾备解决方案,支持应急预案编辑审批、应急演练(含灾难演练 / 故障演练 / 应急故障演练 / 应急预案演练)全流程管理,联动备份系统实现自动化处置,达成 “1 分钟发现、5 分钟响应、10 分钟恢复”,已服务公交集团、基金、汽车等多行业客户,保障业务连续不中断。

免费申请演示

联系我们

服务热线:

020-38847288

QQ咨询:

3593213400

在线沟通:

立即咨询
查看更多联系方式

申请演示

请登录后在查看!