全牌照券商的金融科技跃升
国投证券是国家开发投资集团旗下的全牌照综合类券商,自2021年启动全面数字化转型,持续深耕金融科技,聚焦IT价值管理。在推进数字化转型的过程中,国投证券不仅注重技术研发与系统升级,更重视人才培养与创新生态构建,为数字金融的长远发展积蓄动能。
当前,国投证券的全面数字化转型已迈入深水区,各领域板块已完成信息化与数字化基础建设。在此之上,正稳步推进数字化平台“业务场景化、场景平台化、平台智能化”升级,促进数字技术与业务场景深度融合。
面对创新业务的快速发展与技术架构日益复杂的挑战,稳固可靠的数字化基石成为了转型成功的先决条件。为此,国投证券以“一个蓝图”为指引,确立了“多云融合、安全可控、高效运营”三个目标,并携手华为云Stack着力打造了坚实的混合云基础设施底座。在此基础上,加速构建现代化运维体系,其核心在于:搭建高效协同的一体化运维管理平台,构建覆盖端到端的全链路业务质量监测与可观测能力,引入主动防御的混沌工程机制验证系统韧性,并探索AI智能运维新场景。这四大关键任务的协同推进,旨在为业务的敏捷创新与用户的极致体验提供强有力的技术支撑与安全保障,为国投证券的数智化转型征程构筑坚实可靠的运维根基。
国投证券云:一个蓝图绘制方向,三个目标明确路径,四大任务构筑运维根基
业务数智化转型的背后是国投证券稳健的云平台基础设施支撑。作为业务转型的基石和引擎,国投证券构建了由16个云系统组成的国投证券云,已经有100多套自研系统100%上云,包含23套核心系统。
对于云基础设施,国投证券明确了一个递进式架构的建设蓝图,即最底层云平台一云多芯部署,保障安全;二层分布式架构技术中台实现高可用保障;三层业务中台全天候响应全业务场景;最上层业务应用实现流程数字化、服务智能化与用户体验升级。
国投证券围绕这一蓝图确立了三大建设目标:多云融合打破架构壁垒、安全可控确保安全底线、高效运营提升服务效能。为支撑目标落地,国投证券在近些年着力推进了四项关键任务构筑云平台运维根基,即建设一体化运维管理平台与故障感知平台实现运维数智化;构建全链路可观测能力支撑业务故障快速感知、定界和恢复;常态化混沌演练检验系统韧性,提前暴露潜在风险;以及基于运维知识库构建AI智能运维平台。
关键实践1:数字化和智能化双轮驱动,搭建一体化运维管理平台,构筑现代化运维新体验
在近些年IT架构演进过程中,国投证券采用了多样化的业务系统及运维工具,但这些工具独立使用且缺乏联动,因而常常给运维工作带来新的痛点。经过几年的迭代,国投证券构建了集“营、监、析、控、管”功能于一体的统一运维平台。

• 营:构建一个数字化运维管理门户,实现场景式、一站式运维服务,提升运维效能
• 监:平台整合告警、性能等数据,实时感知业务异常、实现链路追踪与可视化监控
• 析:通过对运维数据进行多维分析,深度挖掘平台问题关联度,加快故障感知处理
• 控:通过平台运维智能化干预,自动处置已知问题和风险,大大提升风险防控效率
• 管:制定运维标准和规范并通过标准化运维流程实现全栈资源统筹,提高管理效能
关键实践2:以“1-5-10”为目标构建全链路可观测能力,支撑故障快速感知、定界和恢复
随着单体架构向分布式、微服务架构逐步演进,故障的早期感知愈发滞后,定界定位如在迷宫寻路,恢复过程也因关联复杂而难度倍增。国投证券以“1分钟发现问题、5分钟定位、10分钟恢复”的“1-5-10”目标为牵引,构建了用户体验可感知、交易链路可追踪、业务指标可观测的全链路可观测能力,以支撑故障快速定界定位与恢复。
首先是智能感知平台,实现了业务自动化实时感知和告警,防患于未然,目前国投证券后端部署了多个智能感知终端,覆盖上千个业务场景。智能感知平台在运行中主动预警安全隐患超百次,有效保障了渠道、交易等核心系统的稳定运行,为业务持久稳健发挥了巨大作用。
其次是可观测能力。平台构建了基于业务链、数据链、部署链形成的“业务-数据-部署”联动监控体系,实现了从业务发起、数据流转到系统部署的全环节可观测可追踪。当前,已对核心交易等15个重要业务系统实现交易链路追踪监控,可对单笔交易进行多层关联追踪,可实时查看每笔交易的请求、响应记录,查看交易全过程。
再次是指标体系。基于一、二、三级三个维度建立的平台可观测指标体系,以及为业务系统搭建的可观测大屏,可以把核心业务指标及与其关联的应用层、系统层、基础设施层的指标进行关联和逐层级下钻,从而支撑运维人员快速故障定位,提升应用诊断分析能力。
关键实践3:混沌演练检验系统韧性,保障行情、咨询、交易三大业务安全稳定
为了提升系统应对风险的能力,国投证券采用混沌工程机制,通过主动注入故障,模拟事件验证系统韧性,以提升运维管理和应急处置的能力。原子化的演练故障库全链路覆盖了服务器到应用软件,模拟故障的场景演练可按照多种方式编排,并通过多种终止方式掌控演练过程的爆炸半径。
为最大程度发挥混沌演练的作用,国投证券成立了混沌工程跨部门协作小组开展日常演练、突袭演练、红蓝紫对抗、重要系统演练以及各种专项演练。例如,在红蓝对抗场景下,运维领导层作为紫方在应急指挥室随机注入故障,并通过摄像头观察各团队反应,以持续提升运维团队整体防护能力。
目前,国投证券已在生产环境进行了混沌演练,此外还会不定期在收市前5分钟注入一些故障进行实战演练。近三年来共识别出了百余项技术风险,大幅提升了系统韧性以及运维团队的抗风险能力。
关键实践4:基于运维知识库构建AI智能运维平台,探索运维全面智能新场景
在业务全面迈向智能化的大趋势下,国投证券运维团队也成立了AI专班探索智能化赋能运维的新场景和新能力。
目前,国投证券与华为云Stack运维团队联合探索,通过将大量运维故障案例库、经验库、工具库、知识库应用于大模型处理,用于智能知识查询、智能告警分析、智能SQL优化等场景。
在实现辅助智能协同的初期,主要聚焦在几个关键应用上,如任务智能派单、事件智能通报,确保重要事件能及时精准地通知到运维人员。最终目标是实现智能故障定位,推动运维从被动响应转向主动预防,以释放人力到运营、优化等核心运维工作中去。
运维数智化为业务持续创新发展保驾护航
得益于数智化运维体系的持续构建,国投证券多年来保持了系统安全运行率在99.99%以上。构建的统一运维平台将运维数据流转率提升了40%,运维响应速度提升了30%。通过分析全平台告警恢复时间并进行运营治理,告警恢复时间降低了80%。自感知平台上线以后,完成核心交易大版本升级39次感知覆盖,完成生产复验300多次,基本实现了全量功能覆盖验证,为系统稳定运行增添了保障。此外,通过1500多次混沌演练,发现了140多项技术风险,有效提升了系统架构韧性,降低了生产事故发生的概率。
得益于云平台的支撑、快速且弹性的能力,在2024年“924”天量行情中,国投证券应对有效,未发生任何重大生产事件。
未来,国投证券将与华为云Stack共同发力,持续提升一体化运维平台数智化能力,保障业务运行可靠性的同时,提升运维效能,为证券业务的高质量发展保驾护航。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
