在中國信息通信研究院與中國通信企業協會共同主辦的第二屆“鼎新杯”數字化轉型應用大賽中,北京移動和嘉為藍鯨聯合申報的“北京移動云計算智能運維平臺建設項目”,從兩千余個申報案例中脫穎而出,最終榮獲大賽二等獎。
中國移動通信集團北京有限公司(下稱北京移動)成立于1999年,隸屬于中國移動通信集團公司,秉承“正德厚生,臻于至善”的企業核心價值觀,緊密圍繞“做世界一流企業,成為移動信息專家”的戰略定位,以卓越品質鍛造一流信息服務,用創新精神努力實現從優秀向卓越的新跨越,著力推動“移動改變生活”。
一、初探自動化,轉型亟需新動能
自成立以來,北京移動始終保持行業信息化領跑者的身份,堅持“以追求卓越,讓數字化生活更美好”為使命,志愿成為“客戶首選的數字化服務的引領者”。為快速響應業務需求,IT團隊前期從技術平臺建設切入,使用開源軟件搭建了基礎的自動化運維系統,實現了腳本和文件的批量自動化,但仍存在如配置數據覆蓋不全、作業執行管控手段欠缺、運維場景化能力不足、技術架構相對簡單等問題。
為提升系統穩定性,保障業務穩定運行,北京移動攜手嘉為科技旗下研運品牌嘉為藍鯨,打造智能運維平臺,建設配置數據管理、監控管理、日志管理、統一告警管理、自動化巡檢、運營服務報表等運維場景,實現管理流程創新,完善智能運維能力,向著具備業務價值的運維模式邁進。
二、“平臺+應用”,高效擴展應用場景
通過PaaS平臺+SaaS場景的方式構建一體化運維管理體系,1個基礎平臺融合了公共能力,支撐場景應用的運行、協同、服務。場景應用包括了配置管理CMDB、IT監控告警、日志平臺、自動化巡檢、運營服務報表等5大應用,后續可快速、靈活擴展各類應用。
1、平臺規模:當前生產環境按支持納管200+節點服務器,納管8套應用系統,部署運行16個運維場景工具;
2、平臺集成:與4A系統集成對接,與郵件系統集成實現消息通知;
3、統一管控:采用管控平臺納管不同網絡區域的主機。
三、提速運維效能,保障業務穩定運行
1、CMDB自動采集,資源統一管理
構建云運維基石CMDB,實現資產數據的集中管理,為應用提供各種運維場景的配置數據服務。通過提供配置管理服務,以數據和模型相結合映射應用間的關系,保證數據的準確和一致性;并以整合的思路推進,最終面向應用消費,發揮配置服務的價值,實現IT資源集中規范化管理和消費。
·云平臺A創建模型涵蓋主機、業務、云虛擬資源、安全設備、基礎設施、網絡、服務器、云平臺等共30+個;同時完成VMware、華為云資源的接入;納管主機120+、接入業務6個;配置發現配置采集任務運行次數270+;
·云平臺B創建模型包括數據中心、機房、機柜等共計30+個,完成模型數據錄入;
·自動采集錄入虛擬機實例近1600條,計算服務器160+條,存儲服務器110+條,虛擬資源卷1200+條。
2、海量對象納管,一體化監控升級
基于平臺豐富的數據采集、數據處理及插件擴展能力,集成現有監控平臺,實現對各類網絡設備、主機設備、存儲設備、中間件、數據庫、關鍵應用進程的監控告警。通過集中管理告警信息,并采取統一的收斂、屏蔽、關聯分析、自動化處理等手段提高告警有效性,減少誤告與漏告,實現告警從接入、收斂、處理、分派的閉環管理,提升了告警處理效能,保障系統穩定運行。
·監控接入:納管4個業務系統,共計120+臺主機監控、4個網絡端口撥測監控、20+個進程監控,3個自定義腳本監控,共計70+個監控指標;
·告警接入:告警接入華為云、Zabbix、VMware等13個告警源,完全覆蓋1、2層硬件監控,3層監控覆蓋4個業務系統。
3、日志聯動告警,網絡健康隨時保障
完成日志監控數據告警配置,可通過網絡設備的日志數據分析來獲取網絡設備健康狀態,同時,對網絡設備的日志級別進行數量統計及監控展示面板。共接入70+個網絡日志數據源,創建10個網絡任務接入任務,5個網絡日志數據儀表盤,3個日志關鍵字告警任務。
4、巡檢自動化,安全防范更高效
通過自定義巡檢腳本和腳本對象,進行及時性、周期性等巡檢工作的自動化執行,替代運維人員日常手工巡檢,可根據不同運維角色,自定義不同的巡檢工作計劃,并生成標準可視化報告。輔助運維團隊全面了解各類軟硬件資源的生產健康狀態,從全量的生產系統中提前發現隱患,保障業務穩定性。
·巡檢模版:完成4個標準化主機巡檢腳本,Linux巡檢模版3個,各類巡檢指標62個;
·巡檢任務:配置巡檢任務3個,32個主機巡檢對象。
5、數據可視化,IT運行全掌握
北京移動原先并未使用專門的報表工具,用Excel手工記錄資源資產信息,工作量大且時效性低,準確率也難以保證,制作、維護、查看均不方便。本項目基于藍鯨平臺,打造了一款輕量級、可自主分析的報表制作工具,實現對各類數據源的接入,幫助運維人員全方位掌握IT資源的運行狀態及資源使用情況。
·云平臺A:完成對接華為和VMware數據接口獲取數據。在運營服務報表中創建華為報表數據源9個,VMware數據源7個,制作華為運維報表8個;制作VMware運維報表5個,包括日報,周報和月報,并實現字段篩選展示報表數據;
·云平臺B:完成5個數據文件的解析,并封裝為報表數據源接口,并根據需求生成5個類別共8張自動化運維報表,可根據時間或對象名稱進行篩選展示。
在數字化轉型浪潮中,北京移動率先出擊,打造了面向云計算運維場景的智能運維平臺,推進更精細化、自動化、智能化運維體系建設,強化系統風險和故障的早發現、早定位、早處置,保障業務穩定運行,并建設完善的運維開發能力,實現從傳統運維向運維開發的轉型。
相關稿件