01. 场景简述
使用WeOps服务拨测+告警,取代了原人工巡检方式,实现即时查看内部银行前置机与各银行的业务服务连接状态,一旦出现网络连接异常,两分钟内发出告警通知,帮助运维早于业务发现问题,变被动响应为主动处置,从而减小对业务的影响。
02. 故事背景
资金管理系统是财务公司最重要的业务系统,由银企直连系统①(简称:银企系统)、网络金融服务系统(简称:网银系统)等多个子系统组成。
银企系统通过内部的银行前置机,利用专线与各家银行对接,中间涉及内部网络设备、专线网络以及对端的银行网络设备三个部分,如果中间某个环节网络出现问题,将直接导致银企系统功能不可用。令该财务公司运维团队头痛的是:如何端到端对专线的可用性进行监测,曾经尝试过手工登录到前置机,利用telnet命令检查的方法,但由于以下两个问题被弃用。
过往发生过相关故障,业务部门投诉无法在银企系统上完成对农行的转账,IT运维紧急联系运营商,最终定位到是农行的网络设备老化,对端的接口连接状态出现异常。业务受影响长达2个多小时,IT被记过处分。
备注①:银企直连系统是利用运营商专线,使企业的财务系统与银行综合业务系统实现对接,企业无需专门登录网上银行,就可以利用自身财务系统自主完成对其银行账户包括分(子)公司银行账户的查询、转账、资金归集、信息下载等功能,并在财务系统中自动登记账务信息,免去了以往财务系统、网银系统两次指令录入的过程,提高了工作效率,确保了财务系统与银行综合业务系统账户信息的一致性。
03. WeOps应对及效果
用WeOps服务拨测+告警,监测前置机到银行的服务连接状态
① 对所有前置机批量下发代理,集中监管
② 利用WeOps服务拨测功能,使用TCP协议,以各个前置机为拨测节点,对各家银行的服务端口配置拨测任务,对连接状态的可用性和响应时长进行实时监测
③ 针对“可用性”和“响应时长”配置告警,当出现“可用性”小于100%、“响应时长”超过1s时,产生“致命”告警
④ 相关告警信息通过邮件和短信方式发送至指定运维同事。
04. WeOps实现效果
1)用简单的方法解决专线端到端网络可用性监测的难题
2)场景适用性
该专线连通性监测的场景,适用于内部核心业务系统与外部第三方对接,且对连通性有高要求的企业,如金融企业等,WeOps拨测功能,帮助企业实时监测专线可用性,及时发现异常,缩短对业务影响时间。
申请演示