整理數據資源:數據治理的第壹步是從業務角度明確組織的數據資源環境和數據資源列表,包括組織、業務事項、信息系統以及數據庫、網頁、文件和API接口形式的數據項資源。這壹步的輸出是分類的數據資源列表。
數據收集和清洗:通過可視化ETL工具(如阿裏的DataX (Pentaho Data Integration))將數據從源提取、轉換、加載到目的地的過程,目的是將分散、雜亂的數據集中存儲。
基礎主題庫建設:壹般來說,數據可以分為基礎數據、業務主題數據和分析數據。基礎數據壹般指核心實體數據,或者說主數據,比如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。專題數據壹般指某項業務的專題數據,如食品監管、質量監督檢驗、企業綜合監管以及市場監督管理局的其他數據。分析數據是指基於業務主體數據綜合分析的分析結果數據,如市場監督管理局的企業綜合評價、行業區域分布、高風險企業分布等。那麽基礎庫和主題庫的建設就是本著易存儲、易管理、易使用的原則提取數據存儲結構。說白了就是按照壹定的原則設計數據庫表結構,然後根據數據資源列表設計數據收集和清洗流程,將幹凈的數據存儲在數據庫或數據倉庫中。
元數據管理:元數據管理是對基礎數據庫和主題數據庫中數據項屬性的管理。同時將數據項的業務含義與數據項關聯起來,使業務人員能夠理解數據庫中數據字段的含義。此外,元數據是後面提到的自動數據共享、數據交換和商業智能(BI)的基礎。需要註意的是,元數據管理壹般管理基礎庫和主題庫中數據項的屬性(即核心數據資產),而數據資源列表管理來自各種數據源的數據項。
親屬關系追蹤:在業務場景中使用數據時,發現數據錯誤,數據管理團隊需要快速定位數據源並修復數據錯誤。然後數據治理團隊需要知道業務團隊的數據來自哪個核心庫,以及核心庫的數據來自哪個數據源。我們的做法是建立元數據和數據資源列表的關聯關系,業務團隊使用的數據項通過元數據組合進行配置,從而建立數據使用場景和數據源頭的親緣關系。數據資源目錄:數據資源目錄壹般用於數據共享場景,比如政府部門之間的數據共享。基於業務場景和行業規範創建數據資源目錄,同時依托元數據和基礎庫主題,實現數據自動化應用和使用。
質量管理:數據價值的成功發掘必須依靠高質量的數據,只有準確、完整、壹致的數據才能被使用。因此,需要從多個維度來分析數據的質量,如偏移、非零值檢查、範圍檢查、規範性檢查、重復性檢查、相關性檢查、異常值檢查、波動性檢查等等。應該註意的是,優秀數據質量模型的設計必須依賴於對業務的深刻理解。技術上,也建議使用大數據相關技術,保證檢測性能,降低對業務系統的性能影響,如Hadoop、MapReduce、HBase等。
商業智能(BI):數據治理的目的是使用。對於大型數據倉庫來說,數據使用的場景和需求是多變的,可以使用BI產品快速獲取所需數據並分析形成報表。比如派克數據,屬於專業BI廠商。
數據* * *共享與交換:數據* * *共享包括組織內部和組織之間的數據* * *共享,* * *共享也分為庫表、文件、API接口三種方式。庫表* * *共享比較直接,文件* * *共享可以通過ETL工具逆向數據交換實現。我們推薦API接口* * *共享模式。這樣,中央數據倉庫可以保留數據所有權,並通過API接口轉移數據使用權。API接口* * *可以通過API網關實現,常見的功能有接口自動生成、申請審核、流量限制、並發限制、多用戶隔離、通話統計、通話審計、黑白名單、通話監控、質量監控等等。