根據每個過程的特點,我們可以把數據治理過程概括為四個字,即“理”、“采”、“存”、“用”。
1.合理性:梳理業務流程,規劃數據資源。
對於企業來說,每天的實時數據會超過TB級別。妳需要從用戶那裏收集哪些數據?這麽多數據放在哪裏,怎麽放,怎麽放?
這些問題需要提前規劃,需要壹套從無序到有序的過程。這個過程需要跨部門的合作,包括前端、後端、數據工程師、數據分析師、項目經理等角色的參與。
2.采集:ETL采集、去重、脫敏、轉換、關聯、剔除異常值。
前端和後端會將收集到的數據交給數據部門,數據部門會通過ETL工具將數據從源端提取、轉換、加載到目的端,以集中存儲分散雜亂的數據。
3.存儲:大數據的高性能存儲和管理。
這麽多業務數據存在哪裏?這就需要壹個高性能的大數據存儲系統,將數據分類放入其對應的庫中,為後續的管理和使用提供最大的便利。
4.用途:即時查詢、報表監控、智能分析、模型預測。
數據的最終目的是輔助業務決策,前面的流程都是在為最終的查詢、分析和監控做鋪墊。
這個階段是數據分析師的主場,他們可以利用這些標準化的數據進行實時查詢,建立指標體系和報表體系,分析業務問題,甚至預測模型。