企業如何進行數據治理,會采用不同的方法和路徑。就大部分企業而言,以下三步是數據治理方案落地的必經之路。
第壹步對企業數據進行歸集和標準化。
信息化領域有壹個說法就是“垃圾進,垃圾出”,意指用臟亂的數據做樣本,產生的研究成果也是毫無價值的。數據的汙染可能發生在數據產生、采集、傳輸、流轉、加工、存儲、提取、交換等各個環節,因此要保證數據治理目標的實現,就必須對數據進行全流程的管控,要在數據標準、數據質量、數據文件交換、元數據、數據生命周期、主輔數據源、數據安全、數據責任等方面形成統壹的數據治理規範。
第二步就是數據模型管理和標簽梳理。
數據治理的核心是數據模型管理。目前企業原始數據庫中存在大量的字段和表沒有註釋,意思含糊不清,同名不同義、同義不同名,冗余字段、枚舉值不壹致的現象普遍存在。這些問題都會直接影響系統對數據的識別。數據建模讓數據結構更加豐富和結構清晰化,便於數據口徑統壹。企業沈澱了大量數據模型之後,要及時做保留或刪除管理,不做數據模型管控,那麽這些歷史問題會給新壹代系統改造帶來很多困擾。
除此之外,數據標簽是對數據實體特征的符號表示,每壹個數據標簽都是我們認識、觀察和描述數據實體的壹個角度。因此內部統壹標簽也至關重要。商品標簽包含了條碼、規格、口味、圖片、包裝等信息。顧客標簽包括性別、年齡、地區、興趣愛好、產品偏好、購買力、忠誠度等等。
在實際的數據治理中,數據資源目錄、數據分類、數據標簽是相互配合、相輔相成的。建立良好的數據資源目錄的第壹步就是明確數據資源的分類,根據數據分類去組織資源、編目,之後是為數據資源打上數據標簽,讓數據資源更貼近用戶、更容易管理,以便充分發揮出數據的價值。
第三步是企業算法和人工智能應用。
在對企業數據進行歸集和標準化,並對數據模型進行管控和標簽梳理之後,就可以對數據進行管理,並輔之以相應算法和人工智能,在具體業務場景應用。
以數據模型管理為例:人工智能可以幫助企業實現經驗模型與計算機模型的完美融合,構建商品和會員的知識圖譜。
以元數據管理為例:人工智能實現對非結構化數據的采集和關鍵信息的提取,並實現元數據的維護和整理。
再以主數據管理為例:主數據是企業核心業務實體的數據,是在整個價值鏈上被重復、***享應用與多個業務流程的,並與各個業務部門與各個系統之間***享的基礎數據。在復雜數據主數據系統中,機器學習,自然語言處理等人工智能技術可以幫助定義和維護數據匹配規則,以及確定與主數據相關的記錄,建立交叉引用等規則。
億信華辰作為國內領先的數據治理、數據分析軟件廠商,在數據治理、數據分析工作開展的各個階段提供專業技術人員和解決方案支持。服務電話:4000011866轉0。
億信華辰睿治數據治理工具,是壹款榮獲DAMA數據治理優秀產品獎的大數據治理工具,融合元數據管理、數據標準管理、數據質量管理、主數據管理等模塊,可快速滿足政府、金融、稅務、醫療衛生、應急能源等100+行業數據治理方案。