文丨上海银行金融科技部副总经理兼数据中心总经理 陆健华
伴随着国家新基建的快速推进,传统企业数字化转型提速,数字经济占比越来越大。面对数字化大趋势,商业银行必须深化数字化转型,实现全旅程的数字化客户经营管理。上海银行金融科技部顺应时代发展趋势,围绕“全面融合,数据驱动,创新引领,安全高效”的思路开展工作,通过科技与经营管理的全面融合,推进业务线上化、数字化转型发展。
作为上海银行数字化转型的重要抓手,数据中心以“数据驱动运维”和“中台驱动运维”为建设思路,建立了以运维数据中台和运维管控中台为核心,结合配置管理平台、智能告警中心、可视化门户等多个模块的一体化智能运维体系。
概括而言,上海银行的智能运维平台建设经历了以下三个阶段。智能运维1.0阶段(2017—2018年):为了满足数据中心运维数据采集及数据加工场景需要,上海银行在2017年自研了基于大数据技术的运维平台,并于次年落地了交易监控、日志检索及即席查询等基础的运维场景。
智能运维2.0阶段(2019—2020年)
2019年,为实现运维平台的能力延伸以及自助式的数据挖掘分析,上海银行构建了多维数据分析平台,不断拓宽运维场景,并基于该平台实现了巡检、提数、运维报告等运维数据消费场景的线上化、自服务化。与此同时,上海银行为推进运维向运营转变,搭建了运营助手、信用卡业务运营等业务场景;为了减少传统静态阈值监控带来的大量重复无效告警,尝试基于AI算法的动态基线监控,实现交易级智能化分钟级监控,AI智能监控准确率约为88%。
智能运维3.0阶段(2021年至今)
随着运维数据需求的爆发式增长,上海银行现有平台已无法快速满足业务需求,为切实提高数据服务效率,需要进行平台架构优化——基于生物仿生理念,构建具有“眼、脑、手”功能的新一代智能运维平台架构(如图1所示),“眼”即各类运维监控数据,“脑”即运维数据中台,“手”即运维管控中台。
一方面,上海银行围绕数据接入、数据处理、数据开发、数据管理和数据服务五大模块,加速推进运维数据中台建设。目前,运维数据中台已涵盖数据中心的系统、网络、环境等全领域数据,日均数据吞吐量67亿条,秒级数据流量达77MB,离线批量作业数达8.2T,基本实现了秒级的监控及数据查询能力,对数据中心自动化、智能化的运维服务起到了关键的支撑作用。另一方面,上海银行新建了运维管控中台,通过集中化的运维服务治理,屏蔽下层异构技术细节,对上层提供统一的运维服务能力,为不同场景提供运维服务组合的共享能力,使数据中心能够以最有效、最高效的方式满足业务不断变化的需求,提高服务效率,提升用户体验;同时,对内打造了一条兼顾敏态和稳态,自动、高效、标准化的资源环境交付流水线。
经过多年的积极探索和建设,智能运维在日常工作中发挥着至关重要的效用,形成了具有上海银行特色的“四智”一体的智能运维能力体系。
1.统一智能告警中心和业务全景观测实现“智见”能力
目前,上海银行已完成各维度监控指标体系的建设,将各监控项纳入统一告警中心进行智能算法收敛、定级和标签丰富,告警覆盖度达到100%,有效率达到90%以上。同时,上海银行对于重要交易系统采用以业务为视角的智能化动态基线监控方式,辅以多维算法、趋势算法等多个智能算法,能在10秒内发现业务的异常情况并精准定位。针对容量类指标如数据库表空间使用率,采用自研的时序预测类算法,基于历史数据进行未来趋势的预测,化被动运维为主动运维。在可视化方面,上海银行以应用画像为入口展示了业务连续性、业务健康度、服务效能和业务全链路等多维度指标,实现了业务运行情况的全景观测。
2.一体化运维操作管理体系实现“智动”能力
上海银行通过管控中台建设实现了一体化运维管理,将分散在各处的工具以及大量的人工操作,集中在统一的一体化运维平台中,进行自动处理和统一流程管控,实现低风险、高效率运维。
基于管控中台,上海银行数据中心把各类对外运维服务(环境交付、网络开通等)以场景化方式进行整合规划,以服务目录的形式对外提供接口;对内和自动化平台对接,打造了端到端的全流程线上、快速的交付能力。
在一体化运维体系下,上海银行事件报警可自动生成工单,操作流程审批后直达自动化操作,执行结果可返回到告警中心,使运维体系形成完整闭环。目前,该方案已经在多个故障自愈场景中落地。
3.全自动采集维护的CMDB流程实现“智管”能力
2021年,上海银行数据中心打造了运维配置管理平台,该平台对数据中心各类资源进行了集中纳管,涵盖了数据中心全领域的配置项和配置数据,共涉及60多万条配置CI项和50多万条配置关联关系,实现了数据中心资产信息全生命周期管理。针对运维配置管理平台的数据采集,上海银行采用自动化的数据采集方式,自动化率超过90%。运维配置管理平台的配置数据为运维数字化转型提供了关键的数据支撑,目前已在智能故障定位、应用自动发布、应用画像和健康评分等场景落地。
4.智能化审计实现“智控”能力
上海银行自动化审计工作已经覆盖运维的各个领域,包括用户密码管理、变更操作红线等,并不断拓展到实时智能化的审计工作中,通过管控中台、门禁系统、主机登入控制系统的串联,形成多个控制点。目前,上海银行已实现运维操作人员的最小权限控制,一事一授权,如涉及授权外的高危命令、敏感信息等也可做到实时监测和实时阻断。
5.实现运维人员数字化思维转型
通过运维数据中台建设,上海银行构建了运维数据资产标准体系、管理流程和组织架构,实现了运维数据的共享,赋能一线运维人员,帮助运维人员通过数据中台实现数字化思维转型,使运维人员从之前的“看”转变为“会用数”“用好数”,主动参与到“通过数据发现自身运维能力的薄弱点,提升管理质量”的良性循环中。目前,各领域运维人员制作了22个长期和60多个临时使用的各类自助看板,实现了日常系统巡检、运营管理指标跟踪的全面线上化,相关人员通过数据分析发现了多个管理短板并及时优化。
智能化和数字化转型是数据中心未来发展的大势所趋,上海银行已踏上智能运维的新征程。未来,上海银行将加快转型步伐,从应用场景和数据标准两个方面着手不断提升自身能力。
一是紧跟前沿,深耕核心技术,拓展AIOps场景。在新一轮技术变革中,新技术层出不穷,需要不断强化关键领域新技术的场景落地。目前,上海银行已在探索研究知识图谱技术在故障定位场景中的落地应用,包括在图谱中构建应用的横向、纵向拓扑关系,利用专家经验算法,智能识别及定位到异常系统或模块。在CMDB领域,上海银行利用实体解析、关键子图算法实现自动采集的事后监督以及错误配置关系的自动算法甄别;在场景建设方面,降本增效是衡量数据中心运营管理能力的一个很重要的指标,目前上海银行正在探索智能算法在资源优化、成本核算、容量预测中的落地方案。
二是加强运维数据标准体系建设。随着数据中心智能化转型的不断推进,上海银行越来越意识到运维数据的质量是实现智能运维价值的关键要素。数据孤岛、数据不可用、数据质量不高、数据融合困难等一系列数据质量问题将导致场景落地效果不理想,因此推动运维数据标准化治理刻不容缓。2022年,上海银行建立了以“搭体系—定标准—理数据—建平台—接服务”为路径的数据治理方案,后续将在优化治理组织结构、完善数据质量管理、落实数据生命周期管理等方面不断建设完善。
2022年2月,上海银行加入智能运维国家标准研制工作组,成为智能运维国家标准起草单位,参与《信息技术服务智能运维第2部分:运维数据治理》(WG2)及《信息技术服务智能运维第4部分:智能运维技术》(WG4)的编制,同时作为应用试点单位参与团标落地评估。
智能运维团标的建立,为运维体系提供了全方位的系统化、标准化、统一化参考评价方案,将有力推动运维行业健康可持续发展,使各行各业在运维实施过程中有据可依,规范实施。上海银行希望智能运维国家标准研制工作组能借助智能运维团标的建立,积极促进同业交流合作,推动行业明确智能运维的最佳实施路径。
本文来源于《中国金融电脑》2023年第1期
原标题:构建“四智”一体的能力体系,赋能智慧化运营
金融806(金融804)
【本文标题和网址,转载请注明来源】金融电脑(金融电脑需求怎么样) http://www.gdmzwhlytsq.com/jrzs/361349.html