掃一掃 | 微信關注
隨著全球數(shù)字化轉(zhuǎn)型的深入,數(shù)據(jù)作為新型生產(chǎn)要素已成不爭事實,其中,我國率先將數(shù)據(jù)列入核心生產(chǎn)要素范疇并大力推動數(shù)字經(jīng)濟的發(fā)展。《“十四五”國家信息化規(guī)劃》等國家政策明確提出,到2025年,數(shù)字中國建設取得決定性進展,數(shù)據(jù)要素價值將充分發(fā)揮,數(shù)字經(jīng)濟高質(zhì)量發(fā)展,數(shù)字治理效能整體提升。
而管理著企業(yè)各類IT資源數(shù)據(jù)的運維,屬于數(shù)據(jù)密集型工作,在保障業(yè)務連續(xù)性方面離不開運維數(shù)據(jù)有效治理的支撐。但運維數(shù)據(jù)使用現(xiàn)狀卻常常出現(xiàn)“運維數(shù)據(jù)質(zhì)量不一、價值不顯、缺乏抓手”等反饋。廣通優(yōu)云基于在金融、政府、央企、能源等20多個行業(yè)100+核心頭部客戶的運維數(shù)據(jù)治理生產(chǎn)實踐沉淀,不斷剖析運維數(shù)據(jù)治理的核心價值,切入運維數(shù)據(jù)治理過程中的痛點,探索運維數(shù)據(jù)治理的體系和有效建設方法論及路徑,希望能夠帶來新的思路。

*以下內(nèi)容為優(yōu)云運維數(shù)據(jù)治理專場直播內(nèi)容整理
本文內(nèi)容索引:
1、運維數(shù)據(jù)治理發(fā)展及挑戰(zhàn)
2、運維數(shù)據(jù)治理體系及方法論
3、運維數(shù)據(jù)治理服務化運營

回顧IT運維的發(fā)展歷程可以發(fā)現(xiàn),其經(jīng)歷了人工運維到專業(yè)工具運維再到當前的運維數(shù)字化階段,在運維能力、運維技術和運維工具等維度不斷豐富和快速迭代,運維的生產(chǎn)實踐也越來越依賴于運維數(shù)據(jù)的支撐。而另一方面,隨著國家《“十四五”國家信息化規(guī)劃》等綱領性文件的出臺,也逐步明確了數(shù)據(jù)價值的重要性。信通院在發(fā)布的IOMM標準中,對企業(yè)數(shù)字化轉(zhuǎn)型的一個核心評估維度也是企業(yè)的“數(shù)據(jù)價值化”建設能力成熟度。 
運維數(shù)據(jù)治理的核心價值/圖
因此可以看出,無論是從國家政策及行業(yè)發(fā)展層面,還是企業(yè)對自身運維工作的支撐,都提出了對數(shù)據(jù)形成從歸集、分析、應用到開放的一體化數(shù)據(jù)管理要求。運維數(shù)據(jù)作為數(shù)據(jù)治理中重要的治理域,是運維數(shù)字化轉(zhuǎn)型的基石,應當充分發(fā)揮運維數(shù)據(jù)的價值,為運維數(shù)字化轉(zhuǎn)型賦能。在此趨勢下,運維數(shù)據(jù)治理貫穿企業(yè)組織業(yè)務產(chǎn)品的開發(fā)、部署、上線、運營整個生命周期,然而在此過程中,也存在著許多挑戰(zhàn):在現(xiàn)實落地中,運維數(shù)據(jù)治理源頭異構(gòu)冗余、難以整合統(tǒng)籌、質(zhì)量不一不可信和數(shù)據(jù)難分析、難共享和數(shù)據(jù)安全缺乏管控機制,建設收益見效緩,難以發(fā)揮運維數(shù)據(jù)真正的價值。
![]()
那么,面對這些困點,運維數(shù)據(jù)治理又該如何破局呢?數(shù)據(jù)治理核心目標是解決數(shù)據(jù)質(zhì)量差和消費難的問題,基于此目標需要構(gòu)建運維數(shù)據(jù)治理體系,摸清運維數(shù)據(jù)的對象范圍,明確運維數(shù)據(jù)治理的定位,并從運維的人員組織、制度流程、支撐能力等管理方面做統(tǒng)一建設管理。
1、運維數(shù)據(jù)治理范圍
進行運維數(shù)據(jù)治理的前提需要明確運維數(shù)據(jù)的對象范圍,構(gòu)思需要實現(xiàn)的運維數(shù)字化場景,以終為始,梳理企業(yè)組織運維數(shù)據(jù)資產(chǎn),并進行歸類統(tǒng)籌。根據(jù)數(shù)據(jù)面向的維度和來源不同,我們根據(jù)實踐總結(jié),可以把運維數(shù)據(jù)大體分為以下8個大類:
業(yè)務類數(shù)據(jù):針對應用業(yè)務類關鍵指標數(shù)據(jù);
指標類數(shù)據(jù):面向各類資源的運行動態(tài)信息數(shù)據(jù);
日志類數(shù)據(jù):面向各類資源的運行、操作相關日志數(shù)據(jù);
告警類數(shù)據(jù):面向各類資源運行告警信息;
資源類數(shù)據(jù):面向企業(yè)IT資源信息的數(shù)據(jù);
作業(yè)類數(shù)據(jù):面向各類自動化作業(yè)任務操作數(shù)據(jù);
知識類數(shù)據(jù):面向運維知識沉淀數(shù)據(jù);
流程類數(shù)據(jù):面向流程工單數(shù)據(jù)。
2、運維數(shù)據(jù)治理四大基石
在落地思路方面,廣通優(yōu)云基于服務國內(nèi)100+頭部企業(yè)客戶的經(jīng)驗沉淀,重新總結(jié)提煉了運維數(shù)據(jù)治理建設全流程中遇到的各類挑戰(zhàn),提出了「治理體系」+「能力平臺」兩大抓手并重的運維數(shù)據(jù)治理實踐方法論,具體可涵蓋數(shù)據(jù)保障、數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量、數(shù)據(jù)支撐四大基石,通過數(shù)據(jù)保障、標準和質(zhì)量等運維治理體系形成數(shù)據(jù)的標準化管理,配合數(shù)據(jù)支撐平臺對數(shù)據(jù)的加工處置,實現(xiàn)數(shù)據(jù)的可見、可用、可運營、以及可消費。

運維數(shù)據(jù)治理四大基石/圖
1)建立運維數(shù)據(jù)組織、流程和協(xié)同保障機制
在運維數(shù)據(jù)治理工作開展初期,需充分了解企業(yè)組織運維及業(yè)務概況,根據(jù)組織現(xiàn)有架構(gòu),結(jié)合運維數(shù)據(jù)治理體系中對組織架構(gòu)的要求,對現(xiàn)有組織架構(gòu)進行分層設計,形成符合當前組織狀況的運維數(shù)據(jù)治理組織,明確管理指責,降低協(xié)同成本。

運維數(shù)據(jù)治理組織保障/圖
與此同時,需要圍繞數(shù)據(jù)的接入、申請、使用、評價等各個環(huán)節(jié),設計不同的運維數(shù)據(jù)管理制度與流程,通過標準化的流程,形成跨團隊的協(xié)作機制,減少部門墻和團隊墻的問題,達成高效的團隊運作。
2)統(tǒng)一運維數(shù)據(jù)治理標準規(guī)范
確立了組織和基本的協(xié)同流程工作后,為了規(guī)范對數(shù)據(jù)的統(tǒng)一理解,促進數(shù)據(jù)共享,統(tǒng)一運維數(shù)據(jù)治理過程中對數(shù)據(jù)的定義與使用一致性,需要進行數(shù)據(jù)標準化的工作。通過相應的標準化制度以及指導文件,后續(xù)形成規(guī)范化的運維數(shù)據(jù)治理動作,從源頭形成有質(zhì)量的數(shù)據(jù)。為后續(xù)的數(shù)據(jù)接入、整合、標簽化、處置、消費等一系列的數(shù)據(jù)動作提供有效前提。

運維數(shù)據(jù)治理標準規(guī)范/圖
3)構(gòu)建運維數(shù)據(jù)質(zhì)量度量體系和管理辦法
運維數(shù)據(jù)質(zhì)量管理是運維數(shù)據(jù)治理工作的核心,通過運維數(shù)據(jù)質(zhì)量的有力把控,才能讓數(shù)據(jù)可用、好用,發(fā)揮真正的價值。運維數(shù)據(jù)質(zhì)量管理應聚焦有效資源,圍繞組織、流程、平臺三位一體開展,構(gòu)建嚴格考核機制。

三位一體數(shù)據(jù)質(zhì)量管理辦法/圖
組織層面,通過設定質(zhì)量評價及考核體系,形成KPI;流程層面,形成標準化的流程流轉(zhuǎn)機制,包括定期的總結(jié)分析和優(yōu)化;平臺工具層面,通過技術能力進行數(shù)據(jù)質(zhì)量的檢測,提供檢測手段,共同構(gòu)建三位一體的數(shù)據(jù)質(zhì)量管理方法。
從考核對象、考核指標、考核支撐、考核執(zhí)行四個方面落地,形成運維數(shù)據(jù)治理質(zhì)量考核的閉環(huán)。
4)搭建運維數(shù)據(jù)支撐中臺并統(tǒng)一運維服務
治理體系的搭建為后續(xù)運維數(shù)據(jù)治理工作奠定了基礎,而運維數(shù)據(jù)價值的煥發(fā)同樣離不開技術工具的支撐。工具側(cè),需要基于企業(yè)數(shù)據(jù)治理實施的戰(zhàn)略規(guī)劃,借鑒數(shù)倉理念,提供集數(shù)據(jù)接入、處置、分析、服務為一體的運維數(shù)據(jù)管理能力,并向上為運維應用場景提供數(shù)據(jù)及分析支撐。
運維數(shù)據(jù)中臺/圖
通過敏捷高效的大數(shù)據(jù)技術平臺,實現(xiàn)生產(chǎn)運維過程中所產(chǎn)生的8大類運維數(shù)據(jù)的統(tǒng)一集成存儲;針對數(shù)據(jù)服務需求對源數(shù)據(jù)進行數(shù)據(jù)加工,生成對應的數(shù)據(jù)服務模型,并通過開放訪問授權(quán),提供統(tǒng)一對外數(shù)據(jù)服務輸出,同時針對不同數(shù)據(jù)消費需求場景形成多個數(shù)據(jù)集市,為上層運維數(shù)據(jù)消費提供可靠數(shù)據(jù)源,形成運維數(shù)據(jù)治理的中臺化支撐能力。

通過深入行業(yè)多年的實踐,我們發(fā)現(xiàn)許多企業(yè)用戶真正關心的點在于運維數(shù)據(jù)治理的價值該如何體現(xiàn)?前面提到,運維數(shù)據(jù)治理的核心價值是讓運維數(shù)據(jù)更好用,用得更好,前者與數(shù)據(jù)質(zhì)量相關,后者則與數(shù)據(jù)應用場景相關。

運維數(shù)據(jù)治理服務化運營/圖
因此,運維數(shù)據(jù)治理要直擊實際問題,以應用場景為驅(qū)動,在海量運維數(shù)據(jù)中將場景需要的數(shù)據(jù)做提取、加工、分析,形成數(shù)據(jù)服務和數(shù)據(jù)產(chǎn)品,供應用場景消費,最大化數(shù)據(jù)價值。下面將從2個典型場景來舉例說明:
構(gòu)建運維數(shù)據(jù)地圖
通過對元數(shù)據(jù)統(tǒng)一管理,形成“技術元數(shù)據(jù)”、“業(yè)務元數(shù)據(jù)”、“操作元數(shù)據(jù)”分類,梳理數(shù)據(jù)關聯(lián)并以可視化的數(shù)據(jù)表達方式,展現(xiàn)數(shù)據(jù)與數(shù)據(jù)之間的詳細血緣關系,能夠有效支撐各類運維場景需求。
支撐多維度告警可視化
通過應用系統(tǒng)多維度監(jiān)控指標、資源配置數(shù)據(jù)及實時告警數(shù)據(jù)的整合,形成業(yè)務系統(tǒng)端到端的告警可視化展示場景。捏合各運維團隊通過一張圖看到應用系統(tǒng)從業(yè)務、進程、中間件、數(shù)據(jù)庫、操作系統(tǒng)、主機、網(wǎng)絡之間的關聯(lián)關系、數(shù)據(jù)調(diào)用關系和告警影響分析,快速定位根告警和影響程度,為后續(xù)故障分級、快速定位、及時處置提供數(shù)據(jù)支撐。我們回顧運維數(shù)據(jù)治理建設的體系方法論和實踐應用場景,不難發(fā)現(xiàn)運維數(shù)據(jù)治理是一項復雜的工程,它是涉及到技術與管理的組織戰(zhàn)略型工作。借鑒行業(yè)內(nèi)成熟度的運維數(shù)據(jù)治理方法,將有助于運維團隊提前認識到運維數(shù)據(jù)建設過程將面臨的痛點,少走彎路,提升運維數(shù)據(jù)管理的成效,讓運維數(shù)據(jù)活起來。下一講,我們將圍繞真實企業(yè)案例,分享如何高效落地運維數(shù)據(jù)治理的實操。