數據治理是壹個逐步實現數據價值的過程。具體而言,數據治理是指通過采集、傳輸、存儲等壹系列標準化流程,將分散的用戶數據轉化為格式規範、結構統壹的數據,並進行嚴格規範的全面數據管控;這些標準化的數據經過進壹步的處理和分析,成為具有指導意義的業務監控報告和業務監控模型,幫助業務進行輔助決策。
在數據治理過程中,涉及前端業務系統、後端業務數據庫系統、業務終端的數據分析,從源頭到終端,再回到源頭,形成閉環負反饋系統?。同樣,在數據治理的過程中,我們也需要壹套標準化的規範來指導數據的采集、傳輸、存儲和應用。
數據治理流程
數據治理過程是從數據規劃、數據采集、數據存儲管理到數據應用的壹個無序到有序的過程,也是標準化過程9的構建過程。根據每個過程的特點,我們可以把數據治理過程概括為四個字,即“理”、“采”、“存”、“用”。
1.合理性:梳理業務流程,規劃數據資源。
對於企業來說,每天的實時數據會超過TB級別。妳需要從用戶那裏收集哪些數據?這麽多數據放在哪裏,怎麽放,怎麽放?這些問題需要提前規劃,需要壹套從無序到有序的過程。這個過程需要跨部門的合作,包括前端、後端、數據工程師、數據分析師、項目經理等角色的參與。
2.采集:ETL采集、去重、脫敏、轉換、關聯、剔除異常值。
前端和後端會將收集到的數據交給數據部門,數據部門會通過ETL工具將數據從源端提取、轉換、加載到目的端,以集中存儲分散雜亂的數據。
3.存儲:大數據的高性能存儲和管理。
這麽多業務數據存在哪裏?這就需要壹個高性能的大數據存儲系統,將數據進行分類,放入其對應的庫中,為後續的管理和使用提供最大的便利。
4.用途:即時查詢、報表監控、智能分析、模型預測。
數據的最終目的是輔助業務決策,前面的流程都是在為最終的查詢、分析和監控做鋪墊。這個階段是數據分析師的家,他們可以利用這些標準化的數據進行實時查詢,建立指標體系和報告體系,分析業務問題,甚至預測模型。
數據治理包括哪些方面?
數據治理是壹套持續改進的管理機制,通常包括數據架構組織、數據模型、政策和制度制定、技術工具、數據標準、數據質量、影響分析、工作流程、監督和評估。從技術角度看,數據治理涉及的IT技術課題包括壹套由元數據、數據標準、數據質量、數據集成、主數據、數據資產、數據交換、生命周期和數據安全組成的解決方案。
元數據:收集和匯總企業系統數據屬性的信息,幫助各行各業的用戶獲得更好的數據洞察。
數據標準:提供壹套統壹的數據命名、數據定義、數據類型、賦值規則等定義標準。對於分散在各個系統中的數據,通過標準評估,確保數據在復雜的數據環境中保持企業數據模型的壹致性和規範性。
數據質量:有效識別各類數據質量問題,建立數據監管,形成數據質量管理體系,監控和揭示數據質量問題,提供詳細的問題查詢和質量改進建議。
數據集成:數據可以被清理、轉換、集成、模型管理等。它不僅可以用於糾正問題數據,還可以為數據應用提供可靠的數據模型。
主數據:幫助企業創建和維護內部數據的單壹視圖,從而提高數據質量,統壹業務實體的定義,簡化和改進業務流程,提高業務響應速度。
數據資產:收集所有能夠產生價值的數據資源,為用戶提供資產視圖,快速了解企業資產,發現不良資產,為管理員提供決策依據,提升數據資產價值。
數據交換:用於實現不同機構和系統之間數據或文件的傳輸和共享,提高信息資源的利用率。
數據安全:提供數據加密、脫敏、模糊化、賬戶監控等多種數據安全策略。,並確保在數據使用過程中采取適當的措施,如身份驗證、授權、訪問和審計。
生命周期:管理數據的生命周期,建立數據自動歸檔和銷毀,全面監控數據的生命過程。