推動板塊化運維,破解大規模分布式服務框架下的運維難題
- 2023-05-04 瀏覽:228
作者:工商銀行軟件開發中心副總經理 王旭光
近年來,工商銀行聚力創新變革,全面實施智慧銀行生態建設工程(ECOS),實現了從傳統集中式向全分布式的轉型突破,自主研發了全球銀行業規模最大的企業級云計算平臺,在大型銀行中率先通過全面分布式架構承載主要業務系統運行,實現了傳統單一核心銀行系統向去核心化開放生態銀行系統的代際躍升。與此同時,工商銀行將防范IT系統風險作為防范系統性風險的重點課題之一。當前,工商銀行云上節點數量超5萬個,容器規模超過30萬個,服務數量超過3萬個,日均服務調用量達160億次。對于以“云計算+分布式”為核心、涵蓋系列企業級新技術平臺的技術體系,其配套運維能力不斷提高,監管機構及客戶對銀行信息系統的安全性提出了更高的要求,這給信息系統高效、安全、穩定運行帶來新的挑戰。
一、分布式服務框架下運維工作面臨的挑戰
以分布式、微服務為代表的新架構,在部署節點數量以及服務交互復雜程度等方面都上升到了新的等級,對基礎設施、網絡環境、基礎組件的穩定性有較高要求,同時所形成的網狀拓撲結構服務調用鏈路為生產運行穩定性也帶來新的挑戰。
一是業務場景通常涉及多個應用組合服務、多個技術組件調用,鏈路較為復雜,服務組件體量巨大,進而大幅提升了鏈路分析、跟蹤、故障診斷、根因定位等的運維管控難度,在發生基礎設施故障或服務異常時,往往難以快速準確地判斷業務影響范圍。
二是故障爆炸半徑難以控制。由于服務調用關系復雜,且對基礎設施及技術組件的穩定性存在依賴,因此故障會隨調用鏈延長而持續蔓延,技術基礎組件的局部故障可能造成其上層調用的服務出現大面積故障。
三是業務場景全鏈路上應用的運維能力參差不齊,木桶效應影響了鏈路所支撐重要業務的可靠性,如何快速識別和補齊短板,確保關鍵業務鏈路穩定高效運轉成為關鍵。
四是為傳統運維組織協作模式帶來很大壓力。傳統的運維組織架構大多以應用研發組織分組進行適配管理,實際運維過程中,問題的反映通常基于業務視角,同一重要業務鏈路上的應用可能分屬不同運維組織,這將增加上下游協同的溝通和管理成本。
二、分布式服務框架下的運維破局之道
面對上述挑戰,工商銀行結合業界最佳實踐及自身實際情況,開展了基于業務運維板塊的運維轉型方案研究與實踐。按照企業級業務架構及技術架構頂層規劃,積極推動面向業務的板塊化運維體系建設和轉型,將“以業務為中心,構建安全、高效、穩定的技術運營服務”作為管理目標,以板塊為抓手,推進運維管控能力提升。
具體而言,運維體系的建設思路主要包括四個方面:一是基于業務和客戶視角,將更合理有效的端到端的業務運維板塊作為運維單位,將運維視角從單體應用延伸至業務的場景運營;二是推動各業務運維板塊內應用架構的優化及板塊間的解耦,強化面向業務板塊的基礎設施、資源部署和邊界管理,實現板塊間的風險隔離;三是提升基于業務板塊和關鍵業務場景的鏈路級監控、應急、變更管控及容災等核心生產運維能力,補齊短板,結合運維智能化轉型發展,賦能業務的數字化轉型;四是建立和完善與業務運維板塊相適配的組織保障體系,進一步優化相關管理機制及工作流程,形成面向業務的板塊化運營管控機制。
三、推動板塊化運維實施
一是定義與劃分業務運維板塊。業務運維板塊是基于工商銀行企業級業務架構及IT架構,結合業務領域劃分、業務應用分組及生產運維實際經驗,圍繞端到端的業務場景定義的,用于承接生產運維、風險管控等運維工作的一組應用或服務群組。結合工商銀行IT架構分層體系,明確業務運維板塊的三大劃分原則:
第一,面向業務的高內聚原則。將渠道、業務產品的應用或群組以業務板塊和場景為邊界進行端到端聚合,形成渠道類、業務產品類業務運維板塊。渠道類業務運維板塊如融e行板塊、遠程銀行板塊等;業務產品類業務運維板塊如對公板塊、信用卡板塊等。
第二,將業務基礎的應用或群組以面向業務的服務能力為邊界進行聚合,形成業務基礎類業務運維板塊,如快捷支付板塊、e支付板塊、清算管理板塊等。
第三,將技術基礎的應用或群組以所支撐的業務板塊為邊界進行從屬關系的劃分和聚合,確保技術基礎服務資源相對隔離。不同類型的板塊根據板塊自身特點梳理關鍵業務場景,識別服務鏈路,明確板塊建設目標。工商銀行業務運維板塊劃分示意如圖1所示。
圖1 工商銀行業務運維板塊劃分示意
二是優化運維組織架構。基于業務運維板塊進行運維組織架構調整,改變原來參考應用所屬IT架構分層和研發組織歸屬以及各運維專業進行團隊組織劃分的形式,轉為按業務運維板塊進行運維團隊的分組并輻射至業務、研發、測試部門。如圖2所示,業務板塊核心圈內的應用歸屬同一實體物理團隊運維,以此減少同一業務場景的跨部門、跨專業溝通;虛線框內為與板塊核心業務緊密相關的技術及業務基礎應用,以配備專人配合的虛擬團隊為板塊提供穩定性保障。通過對板塊化組織的調整,實現運維工作本身的解耦和內聚,加速運維視角從科技應用視角向業務視角轉換,強化科技與業務的聯動,提升問題處置的有效性和響應速度,挖掘運維數據價值,賦能業務運營。
圖2 工商銀行業務運維板塊結構示意
三是開展全鏈路服務治理及部署調優。明確各板塊的核心場景及關鍵服務調用鏈路,以板塊為邊界做好風險隔離,對標板塊內應用高內聚、松耦合的目標,做好服務調用關系管控,非關鍵鏈路服務采取異步調用、可熔斷、降級等措施與關鍵鏈路解耦,發生故障時能通過自動化應急手段避免對板塊核心業務產生影響。板塊之間的調用比照系統內外調用控制,合理劃分和部署支撐板塊業務的技術基礎平臺資源,重點保障場景基礎設施、網絡資源相對隔離,有效控制技術基礎組件故障對業務產生的影響范圍,減少系統風險在板塊間的擴散。
四是構建面向業務全鏈路的故障診斷中心。建立面向業務全鏈路的監控規范,基于流量染色等技術構建業務調用鏈拓撲能力,自動實時生成業務場景實際調用鏈的拓撲透視圖,為板塊全鏈路構建可觀測監控底座;對于板塊內重要業務場景開展業務生死線指標監控,依托可觀測監控底座,加速建設智能基線、故障定位等智能化監控體系,打造一站式全鏈路可觀測中心,提升業務連續性保障能力。
五是拉齊板塊內各相關應用的運維能水平。圍繞板塊內重要業務場景做好全鏈路性能容量管控、壓測,構建板塊的實際業務支撐能力,確保鏈路上各節點達到高可用保障要求,并完善同城、異地的災備環境,構建快速容災切換能力;提升突發業務量激增、基礎設施或應用節點故障情況下的系統自我保護能力;建立健全鏈路級應急預案、一鍵式應急處置能力,提升板塊業務連續性水平。
六是健全組織機制,挖掘運維價值,推動板塊化業務運營。結合近年來工商銀行開展的站點可靠性工程師(SRE)運維模式,建立應用運維團隊和業務部門、應用研發團隊、測試團隊的組織匹配關系,圍繞各專業板塊核心業務協同建設,共同對業務穩定性負責;同時,通過對運維領域的用數賦智場景的挖掘,完善鏈路級的技術運營能力,支撐業務運營能力的數字化轉型,賦能面向業務的運維價值提升。
以快捷支付業務板塊為例,工商銀行建立了研發、測試、生產三中心跨專業保障團隊,通過SRE運維模式共同對系統穩定性負責,推動板塊全鏈路接入全息監控、應用畫像,構建動態展示服務拓撲鏈路圖,完善一鍵式應急工具,進一步提升面向業務的異常感知能力、故障定位和應急處置能力,推動落實板塊內核心應用基礎設施內聚部署和技術支撐平臺應用單獨群組板塊劃分等重大架構調整,實現對電商大促等重要業務高峰時點備戰態資源和獨立PaaS資源池的部署調優。經過團隊全體成員的共同努力,工商銀行快捷支付業務在監管機構排名穩步提升并保持前列,電商大促保障水平逐年提升。
四、板塊化運維實施成效與展望
板塊化運維是工商銀行對運維模式的新探索,是工商銀行運維轉型的重要實踐。經過一年的建設,從試點到形成目前20余個重要業務板塊,工商銀行板塊化運維體系逐步走向成熟,系統性風險防控能力、應急處置效能等各個方面都取得了階段性進展,影響較大的問題數量降到歷年最低水平,應急處置效率不斷提高,整體運維水平保持業內領先。后續,工商銀行將繼續在以下幾個方面尋求突破:一是進一步深化板塊化運維工作,加強對智能化轉型成果的轉化和運用;二是進一步強化業務視角和全局視角,在實際工作中保持全局觀,從業務價值和業務運營視角看待板塊化運維;三是依托板塊化運維實踐,在完善運維架構的同時反哺應用架構,推動應用架構與運維架構進一步適配。
當前,工商銀行正處于數字化轉型的關鍵期。工商銀行將以“優化場景聯動、數據驅動的生產運維管理體系,防范系統性風險”為運維目標,不斷強化科技與業務的融合,使“科技”成為驅動、賦能全行業務的“業務伙伴”,助力數字工行建設;繼續運用好“目標導向、問題導向、結果導向”的科學方法,確保運維技術水平同業領先,堅守“金融為民”的初心和使命,夯實風險抵御能力,為數字中國建設貢獻“工行力量”。
本文來源:微信公眾號《中國金融電腦》2023年第4期
免責聲明:所載內容來源互聯網、微信公眾號等公開渠道,我們對文中觀點保持中立,僅供參考、交流等非商業目的。轉載的稿件版權歸原作者和機構所有,如有侵權,請聯系我們刪除。