大數據時代帶來了海量、多樣、非結構化的數據,我們可以進行更廣泛、更深入的分析,但必須基於高質量的數據才有意義。本期從企業角度介紹數據質量的評估、提升和監控。
大數據時代,數據資產及其價值利用能力逐漸成為構成企業核心競爭力的關鍵要素;但是,大數據應用必須建立在可靠的數據基礎上才有意義,基於低質量甚至錯誤數據的應用可能與其初衷背道而馳。因此,數據質量是企業應用數據的瓶頸。高質量的數據可以決定數據應用的上限,低質量的數據必然會降低數據應用的下限。
數據質量壹般是指數據能夠真實、完整地反映經營管理實際情況的程度,通常可以從以下幾個方面進行衡量和評價:
準確性:系統中數據的值與真實值的符合性,數據應符合業務規則和統計口徑。常見的數據準確性問題,例如:
與實際情況不符:數據來源存在誤差,難以規範判斷和約束;
與業務規範不壹致:在數據采集、使用、管理和維護過程中,業務規範缺失或執行不力,導致數據缺乏準確性。
完整性:數據的完整性。常見的數據完整性問題,例如:
系統設置了壹個字段,但在實際業務操作中,該字段的數據采集不完整,導致數據缺失或不完整;
系統未設置字段:有數據需求,但系統未設置相應的取數字段。
壹致性:系統內外部數據源之間的數據壹致性程度,數據是否遵循統壹的規範,數據采集是否保持統壹的格式。常見的壹致性問題,例如:
缺乏系統聯動或聯動錯誤:系統間應該相同的數據不壹致,缺乏必要的聯動和檢查。
時效性:數據在采集、傳輸和處理上能夠快速支持應用的程度,以及數據的時間特性滿足應用的程度。時效性關系到系統能否在規定的時間內獲得系統所需的特定時間產生的數據,以完成系統功能。常見的時效性問題,如:
時效性不足:沒有按照規定的數據更新時間要求更新數據。
可用性:用於衡量數據項集成和應用的可用性。常見的可用性問題,例如:
缺乏應用功能,沒有相關的數據處理、處理規則或數據模型的應用功能來獲取目標數據;
缺乏集成,數據分散,難以有效集成和共享。
其他的度量如有效性可以考慮符合數據格式、類型和標準的程度,合理性可以考慮數據符合邏輯約束的程度。之前對某企業數據質量的調查顯示,常見的數據質量問題中,準確性占33%,完整性占28%,可用性占24%,壹致性占8%,壹定程度上代表了國內企業面臨的數據問題。
提高數據質量的首要任務是定義壹套標準化的數據規範,將特定數據項的定義、口徑、格式、值和單位標準化,形成對該數據項的特定質量要求。依靠這套規範作為衡量和提高數據質量的尺度,可以在數據收集、處理和應用的所有方面以預防或監測的方式檢查關鍵數據項。廣義的企業級數據字典可以作為數據標準化規範的載體,對企業運營中涉及的數據項名稱、業務定義和規則進行收錄、標準化和匯編,規範數據項描述信息,統壹定義對安全性和數據質量的要求,從而為業務運營提供可靠的數據服務,提高整體數據質量奠定基礎。理想情況下,廣義的企業級數據字典是完整的,所有企業系統的所有數據項都包含在數據字典中,不存在同名異義或同義詞異名的情況。相比之下,狹義的數據字典通常是針對單個系統的技術屬性標準,服務於單個系統的開發和應用。
企業數據字典通常分為三層:數據項、值域和域值。數據項級規範主要包括名稱、業務規則定義、數據安全要求和數據質量要求。
數據項名稱:包括數據項的中文名稱、英文名稱和英文縮寫。不同含義的數據項有不同的名稱。物理數據庫應該遵循數據字典中定義的全球唯壹英文縮寫來命名字段。
業務規則定義:包括數據的業務含義、轉換規則、處理規則等安全元數據;包括安全需求的定義,如數據源、所有者和訪問權限。
數據質量要求:在數據規範定義的基礎上,提出滿足業務需求的數據長度、格式、數值、數據處理、交叉校驗關系等要求,作為數據質量管理的立足點。
值域可以細分為碼域、編碼域、文本域、金額域、數值域、時間域等。如“出生地”數據項對應的值字段為“行政區劃”代碼字段,引用國家標準GB-T2260-2016《中華人民共和國行政區劃代碼》,對應的字段值為該國家標準定義的代碼表。再如,“借記卡號”數據項對應的值字段為“19位卡號”編碼字段,定義了16位卡號和19位卡號兩種編碼方式,沒有列出對應的具體字段值。
數據質量管理是指在數據的創建、處理、使用和遷移過程中,為提高數據質量以滿足業務需求而進行的數據質量定義、過程控制、監控、問題分析與整改、評估與考核等壹系列管理活動。數據質量管理遵循以業務為導向的原則,確定關鍵質量控制範圍,動態調整階段性控制和持續優化的重點。可以按照“誰創造,誰負責;誰處理,誰負責;“誰提供,誰負責”的原則界定了數據質量管理的責任,數據流通環節各責任方對其管轄範圍內的數據質量負責。優先考慮系統程序對數據質量規則的自動控制措施,盡可能將控制點前移,從源頭控制數據質量。
數據質量監控點通常針對關鍵數據項實施,定義數據質量監控規則,生成監控告警,根據嚴重程度分級報告,由相應級別進行處理和響應。從經驗來看,關鍵數據項壹般影響較廣,比如涉及多個業務條線,或者應用於合同簽訂、會計核算、業績分析、產品定價、資金收付等關鍵業務環節。、或正在應用於內部管理、外部信息披露和行業監管要求,如新資本協議實施中明確提出的財務報告數據和重要指標。
數據質量監控點的控制方式分為預防和監控兩種:
預防性控制通常部署在數據采集點,用於控制手工輸入的源數據,並檢查批量導入的源數據,防止錯誤數據的產生。
數據輸入校驗:比如貸款利率的輸入校驗;
數據閾值:比如數據不為空,數據值超出值範圍定義的合理範圍,數據格式不符合標準;
質量控制模式:自動系統檢查/雙手動檢查;
系統驗證方式:強制,不符合規則不能通過。
監控控件監控錯誤數據,並在發現數據質量問題時發出警報。壹般部署在數據處理和應用中,以驗證數據的完整性、壹致性和準確性等。;
數據輸出驗證:例如,總貸款余額驗證。
數據壹致性:比如交易頭寸與總賬系統記錄的交易頭寸壹致。
質量控制模式:自動系統檢查。
系統檢查模式:可選,錯誤和差異提示
對於選定的關鍵數據項,需要定義數據質量規則和數據質量等級。數據質量水平可以通過“閾值”和“容差”來分級:
好:數據項質量得分高於“閾值”
可容忍:數據項質量分數低於“閾值”,但高於“容忍”
警報:數據項質量分數低於“公差”
嚴重報警:數據項質量問題會產生非常嚴重的影響,人工經驗判斷。
應在企業數據字典中維護和更新關鍵數據項監測點的詳細信息,以跟上其開發、實施和測試的步伐。
數據質量和響應誤差修正分級報告應遵循以下原則:
及時發現、報告和處理導致數據質量水平進入“可容忍”、“報警”和“嚴重報警”狀態的數據質量事件;
常態:針對不同等級的數據質量問題,向利益相關方報告並分配相應的資源;
效率:在規定的評分時間內解決數據質量問題。響應時間應根據適當的“可容忍”、“報警”和“嚴重報警”進行規定;
井然有序。開展數據質量分級報告時,應統壹領導,分級負責,有序上報。
部署在UDP層的數據質量監控程序實時或定期監控關鍵數據項的質量,對其數據質量進行評分,通過比較監控點的“閾值”和“容忍度”對數據質量進行分級。對於非“良好”的評估結果,數據質量監控程序將發送警報消息以通知數據質量管理人員。警報消息包括問題位置頭文件和具體描述。數據質量管理人員根據告警信息調查問題數據項,核實告警內容,生成預警信息通知下遊用戶,並填寫糾錯工單通知相關責任人員。相關責任人員根據糾錯通知的具體內容,對數據質量問題進行調查,提出數據質量改進要求和解決方案,由實施運維團隊在數據應用層面或數據采集整合層面進行糾正。如果由於數據質量要求過於嚴格或控制規則錯誤導致糾錯和告警問題,則應修改關鍵數據項列表和相關監控規則,實施運維團隊應修改或取消部署的相應監控點。