Home

/

【鹏华基金】运维一体化平台建设实践

Post date:2024-03-04 16:49:32

全部案例

为应对新的国际竞争环境与新的国内监管形势,行业数字化转型方兴未艾。云计算、大数据、AI等技术手段已逐步从后台应用走向前端业务,渗透至投研、营销、风控、运营的各个环节。在数字化转型的浪潮下,支撑业务运行的应用系统和基础设施变得愈发复杂,维护成本及风险也越来越高,给运维管理带来很大的挑战。如何建设更加安全、高效、智能的运维管理体系,已成为行业IT建设的重点议题。

鹏华基金把数字化转型纳入到公司发展战略,践行“系统+流程+数据”三位一体的方式,将系统建设与业务流程紧密结合。在此过程中,由于涉及新系统的建设及存量系统的升级改造,团队需要管理的运维对象及场景都在发生变化。受限于“烟囱式”的运维工具体系,运维管理面临“工具孤立效率低”“管理规范难落地”“组织提升遇瓶颈”三大难题。


01. 运维一体化平台建设

为了解决运维团队在数字化转型过程中遇到的各类难题,鹏华基金以工具建设为抓手,依托理念先进的运维PaaS平台,以点带面,对运维管理体系进行全面优化升级,主要涉及工具支撑体系、流程管理体系、指标度量体系及人员组织体系的优化建设。

1)工具支撑体系:建设自主可控、联动一体的运维平台

将运维支撑工具的建设思路由“烟囱式”变为“平台化”,基于PaaS底座,建设以“管控一体、平台一体、联动一体”理念为核心的运维工具体系。

  • 管控一体:所有上层场景,如监控采集、自动化执行等场景,基于单一Agent实现,避免多Agent对服务器性能造成的性能损耗。
  • 平台一体:通过PaaS架构实现能力的治理和沉淀,包含作业、自动化编排引擎、工单流程引擎、容器管理等底层能力,使运维系统避免烟囱模式和重复投资建设,实现可持续建设。并通过平台的运维开发能力助力团队实现运维自主可控和能力升级。
  • 联动一体:以运维基础平台为底座,CMDB配置管理库为基础,通过IT管控流程建设、监控告警建设、运维自动化工具、运营可视化的建设,构建联动一体的运维工具体系,提升运营保障效率,打造差异化的竞争优势。

① 建设以消费为核心的CMDB

梳理整体配置信息,完成模型设计和定标以及对云平台、操作系统、数据库、中间件的配置自动化发现及采集,支撑监控、巡检等消费场景,并实现配置变更自动化管理,集成自动化运维场景,实现从审批流到自动化执行再到配置数据回写的闭环,如资源申请场景。申请人提单-管理员审批后实现资源的自动化注册至CMDB中。通过联动流程管理平台,实现配置数据录入及变更的流程化、规范化、自动化,保障配置数据的统一和准确性。

② 建设以事件和数据双核驱动的一体化监控体系

一体化监控体系以数据和事件双核驱动,旨在解决监控及告警信息分散管理的问题。监控中心按照硬件设施层、操作系统层、组件服务层应用性能层等维度梳理监控对象,所有监控对象都源自于CMDB,并在接入来自Zabbix、Prometheus等监控源的性能数据时,打上CMDB中的模型及实例标签,进而实现面向对象的监控指标统一管理体系,包含指标内容定义、指标自定义启停等。同时,监控中心汇总的监控数据也可作为运维大数据分析的数据源,消费于统一可视化展示、Web视图展示、报表统计展示等场景。告警中心实现告警事件的统一汇总,并通过和CMDB、自动化、ITSM等运维工具的无缝联动,在告警收敛、分派、转工单、自愈等层面实现了提质增效。

③ 建设敏捷IT服务管理工具

落地IT需求、变更、事件等管控流程以及IT内部服务流程,与监控、CMDB、运维自动化工具集成,实现管理流程和运维工具的联动,并结合飞书移动端应用落地,提升流程管理的敏捷性,显著提升部门流程处理效率及关单率。

④ 建设自主可控的自动化运维工具

结合实际运维场景需求,基于运维平台所提供的前后端开发框架,通过对平台服务的灵活调用和组装,快速构建支撑工具和运营系统。

⑤ 建设运营可视化

发布一系列大屏展示IT资产、流程、监控、安全等工程和管理视角的数据,包括IT流程驾驶舱+CMDB资源大屏+监控大屏+通过平台大屏设计器,自主设计和对接数据源开发的信息安全大屏。


2)流程管理体系:服务目录规划

按服务类型的区分规划服务目录,将服务目录划分为IT内部服务、IT管控服务以及内置审批目录三个大类。对于用户而言,便于理解和选择,可通过Web端、IM端快速提单;对于流程管理者而言,有助于针对服务的技术特点进行管理和优化。


3)人员组织体系:运维开发转型探索

运维开发转型起源于互联网行业,为应对残酷的竞争,互联网公司需要从各个维度提升经营效率、降低成本。开展运维开发转型,实现工具自主掌控,便是降本增效的路径之一。鹏华基金在引入运维PaaS体系之后,积极开展运维开发转型的培训及学习活动,鼓励团队转型升级。在这个过程中,具备一定工具开发能力,同时有更高成长追求的人率先由运维转型为运维开发,自主研发自动化巡检中心SaaS,改变原先离散型巡检方式,有效支撑部门日常巡检统一管理,整个工具构建过程可以分为三大步骤。

第一步,梳理原子能力。巡检场景可划分为获取巡检对象、执行巡检命令等操作。其中,获取巡检对象需要用到CMDB原子能力,基于CMDB批量获取巡检对象,如主机、数据库等;执行巡检命令需要用到作业执行原子能力,基于Agent在受控机器上执行作业命令,完成巡检操作。第二步,编排原子能力。将上述原子能力按串行、并行、判断、循环等逻辑判断串联起来,构建运维自动化流程。第三步,SaaS能力封装。基于PaaS平台提供的前后端开发框架及免运维托管环境,将巡检自动化流程封装为SaaS工具,提升易用性。

有了自动化巡检的成功案例,“工具文化”正逐步渗透到团队的每一个角落,不断加速运维组织转型的进程。巡检中心:利用平台开发框架,自研巡检中心,统一各业务巡检任务,并实现飞书移动端开发,有效支撑部门日常巡检统一管理

绩效看板:自研绩效门户,结合工单数据,展示研发效能看板。运维管理通知中心:对接飞书群机器人,分时段通知IT管控流程相关节点。


4)指标度量体系:持续运营、持续完善

CMDB的建设是一个逐步完善的过程。在建设过程中通过数据运营的方式可以很好地辅助配置经理“监控”CMDB的状态,数据运营的手段包含:数据孤岛、关联完整性、属性完整性及属性规范性。

  • 数据孤岛:即此实例没有跟任何实例关联,没有配置负责人维护这个实例数据,或者是现实中这个资源对象没有人使用。
  • 关联完整性:部分对象可能有重要的关联没有维护,而这个关联会影响到核心场景的消费,例如故障影响分析。
  • 属性完整性:本质是针对配置管理员认为重要的需要填充的属性进行检查,例如:检查资源对象的负责人属性是否填充。
  • 属性规范性:CMDB建设过程往往是连续的持续优化的,在建设初期对于模型属性的规范往往没有考虑清楚,为了收集数据初始化进CMDB,往往这个时间数据的质量是比较差的,在建设的过程中,逐渐根据消费场景对属性的规则有了更加清晰的定义后,我们需要通过定义某些规则,对当前的CMDB数据进行规范性的检查,本质而言是一个后置的工作。

统计事件总数、SLA、满意度调查等IT服务管理指标,持续分析和改进IT服务质量。通过ITSM工单沉淀价值数据,对需求、事件、变更的统计分析,建立效能指标数据体系,有效帮助IT内部管理。

监控管理的指标主要是监控覆盖率、告警分级、故障管理三个方面。

  • 监控覆盖率主要是监控对象采集覆盖率、监控指标策略覆盖率两个指标,主要衡量监控的推广使用情况。监控对象采集覆盖率一般通过监控任务覆盖的对象实例数和CMDB中该对象的实例总数进行对比得出;监控指标策略覆盖率,一般是某个实例的指标策略配置数和该实例的总采集指标数进行对比得出。
  • 告警分级一般分为三级,致命、警告、提醒。致命告警一般代表服务已经异常,需要马上进行处理;警告告警一般代表如果不进行及时处理,服务即将异常;提醒告警一般代表一些潜在问题,需要开始关注或提前采取行动,避免异常产生。
  • 故障管理指故障处理过程的相关指标,包含MTTI(平均故障发现时间)=发现时间-发生时间;MTTA(平均故障响应时间)=响应时间-发现时间;MTTR(平均故障恢复时间)=恢复时间-发生时间;MTBF(平均无故障时间)=运行时间-故障时间。而故障管理的根本目标便是缩短MTTR,提升MTBF。


02. 收益及展望

为满足业务数字化转型诉求,鹏华基金基于“平台一体、管控一体、联动一体”的先进理念,组合多种技术手段和管理工具,实现了数据、资源、人员的统一管理和协调,解决了过往“烟囱式”工具建设带来的难题,并通过PaaS平台的运维开发能力,开启了运维团队SRE转型之路。展望未来,面临云原生转型趋势,可建设融合Trace、Metric、Log的全栈可观测体系,解决复杂分布式架构应用的故障管理问题;面临AI技术的冲击,可尝试在运维场景中利用深度学习、自然语言处理等技术,如监控场景下的智能阈值、告警管理中的告警智能聚类等。

客户感言

「为满足业务数字化转型诉求,鹏华基金基于“平台一体、管控一体、联动一体”的先进理念,组合多种技术手段和管理工具,实现了数据、资源、人员的统一管理和协调,解决了过往“烟囱式”工具建设带来的难题,并通过PaaS平台的运维开发能力,开启了运维团队SRE转型之路。」

鹏华基金

客户成功故事

【南京证券】善用运维数据治理模型,赋能精细化运营管理

随着数字化时代的来临,企业发展离不开数字化转型。南京证券在实践企业数字化转型中的IT服务管理新实践,利用运维数据治理模型,构建业务消费的一体化场景,通过精细化管理提升IT服务质量和效率。截至2022年末,南京证券已拥有几千台物理服务器、近千台网络安全设备、近百条光纤专线,IT 基础设施初具规模。公司IT服务管理主要围绕日常业务运营来开展,确保IT服务整体运作既满足业务需求又符合制度规范。

【民生证券】从DevOps到平台工程,如何做到软件交付“1+N”变革

民生证券通过提升组织成员敏捷意识及能力成熟度,配套构建平台工程能力来持续规范研发过程,促进聚焦核心能力构建,提升研发交付效率,降低运维运营风险,并最终实现业务价值的快速构建,保持企业核心竞争力。

【北京银联商务】科技引领运维革命,嘉为蓝鲸WeOps打造运维新底座

银联商务股份有限公司是首批获得人民银行颁发《中华人民共和国支付业务许可证》的支付机构,经过20多年的精耕细作,取得了国内收单机构第一、亚太地区第二的排名以及46.3%的市场份额的不俗的业绩,作为银联商务子公司的北京银联商务有限公司(以下简称“北京银联商务”)正加快推进各项数字基础设施建设,不断夯实“科技银商”基座,为客户的发展助力,也为实体经济注入支付与科技的动能

【民生证券】敏捷转型大步迈进!民生证券敏捷实践培训圆满结束!

为快速推进敏捷方法在民生证券的进一步落地推广和成熟应用,日前民生证券携手嘉为蓝鲸开展了敏捷实践培训项目。近日,咨询培训项目圆满落幕并于现场进行颁奖仪式,这标志着民生证券的组织敏捷转型正式迈出新的步伐,为后续实现通过组织敏捷带动金融科技创新,提高工程技术能力,进一步强化企业敏捷实践能力打下了坚实的基础。

【广州银行信用卡中心】应用发布“快”且“稳”,5分钟实现一键发布!

广州银行股份有限公司信用卡中心成立于2011年,隶属于广州银行,是广州银行的分行级机构、战略部门。业务范围涵盖信用卡、消费分期等板块,拥有从金融产品研发至销售及后期风险控制、客户服务完整业务链条......

免费申请演示

联系我们

服务热线:

020-38847288

QQ咨询:

3593213400

在线沟通:

立即咨询
查看更多联系方式

申请演示

请登录后在查看!