由於數據清洗(DataCleaning)工具通常簡單地被稱為數據質量(Data Quality)工具,因此很多人認為數據質量管理,就是修改數據中的錯誤、是對錯誤數據和垃圾數據進行清理。這個理解是片面的,其實數據清洗只是數據質量管理中的壹步。數據質量管理(DQM),不僅包含了對數據質量的改善,同時還包含了對組織的改善。針對數據的改善和管理,主要包括數據分析、數據評估、數據清洗、數據監控、錯誤預警等內容;針對組織的改善和管理,主要包括確立組織數據質量改進目標、評估組織流程、制定組織流程改善計劃、制定組織監督審核機制、實施改進、評估改善效果等多個環節。
任何改善都是建立在評估的基礎上,知道問題在哪才能實施改進。通常數據質量評估和管理評估需通過以下幾個維度衡量。 完整性 Completeness:完整性用於度量哪些數據丟失了或者哪些數據不可用。
規範性 Conformity:規範性用於度量哪些數據未按統壹格式存儲。
壹致性 Consistency:壹致性用於度量哪些數據的值在信息含義上是沖突的。
準確性 Accuracy:準確性用於度量哪些數據和信息是不正確的,或者數據是超期的。
唯壹性 Uniqueness:唯壹性用於度量哪些數據是重復數據或者數據的哪些屬性是重復的。
關聯性 Integration:關聯性用於度量哪些關聯的數據缺失或者未建立索引。 配置管理 Config Management:此維度用於度量數據在其生命周期內的壹切資源是否得到了控制和規範,即數據的計劃、產生、變更直至消亡的過程中,與數據相關的計劃、規範、描述是否收到控制。評估指標包括:評估配置項的細化粒度、評估基線準確度和頻度以及變更流程是否合理完善等。
培訓 Training:此維度用於度量數據的生產和使用者在數據生命周期內的壹切活動中是否經過了知識和技能的培訓、培訓效果是否滿足崗位需要;受訓的知識和技能是否經過審核和確認,受訓的內容是否與企業文化和價值觀壹致;培訓流程是否合理完善等;
驗證和確認 Verify & Validation:此維度用於度量數據在其生命周期內是否得到驗證和確認。評估內容包括是否通過驗證流程確保工作產品(數據)滿足指定的要求、是否通過“確認”流程保證工作產品(數據)在計劃的環境中滿足使用的要求;“驗證”和“確認”的流程是否完善;
監督和監控 Monitoring:此維度用於度量產生和使用數據的流程在數據的整個生命周期內是否真正受控。脫離監控的信息、技術、計劃、流程、制度,會導致數據質量低下。監督和監控的流程是否完善。