當前位置:法律諮詢服務網 - 企業資訊 - 如何建立和評估數據倉庫邏輯模型

如何建立和評估數據倉庫邏輯模型

邏輯模型指數據倉庫數據的邏輯表現形式。從最終應用的功能和性能的角度來看,數據倉庫的數據邏輯模型也許是整個項目最重要的方面,需要領域專家的參與。從內容上看,涉及的方面有確立主題域,粒度層次的劃分,確定數據分割策略,關系模式的確定。

邏輯模型建設方法

邏輯建模是數據倉庫實施中的重要壹環,因為它能直接反映出業務部門的需求,同時對系統的物理實施有著重要的指導作用。目前較常用的兩種建模方法是所謂的第三範式 (3NF,即 Third Normal Form)和星型模式 (Star-Schema)

第三範式

關系模式滿足以下特征:

1 每個屬性的值唯壹,不具有多義性;

2. 每個非主屬性必須完全依賴於整個主鍵,而非主鍵的壹部分;

3. 每個非主屬性不能依賴於其他關系中的屬性,因為這樣的話,這種屬性應該歸到其他關系中去

星型模型

星型模式是壹種多維的數據關系,它由壹個事實表(Fact Table)和壹組維表(Dimens ion Table)組成。每個維表都有壹個維作為主鍵,所有這些維則組合成事實表的主鍵,換言之,事實表主鍵的每個元素都是維表的外鍵。事實表的非主屬性稱為事實 (Fact),它們壹般都是數值或其他可以進行計算的數據;而維大都是文字、時間等類型的數據。

第三範式和星型模式在數據倉庫中的應用

大多數人在設計中央數據倉庫的邏輯模型時,都按照第三範式來設計;而在進行物理實施時,則由於數據庫引擎的限制,不得不對邏輯模型進行不規範處理 (De-Normalize), 以提高系統的響應速度,這當然是以增加系統的復雜度、維護工作量、磁盤使用比率 (指原始數據與磁盤大小的比率)並降低系統執行動態查詢能力為代價的。

那麽,在中央數據倉庫中是否可以采用星型模式來進行模型設計呢?我們知道,星型模式中有壹個事實表和壹組維表,我們可以把事實看成是各個維交叉點上的值。

星型模式之所以速度快,在於針對各個維作了大量的預處理,如按照維進行預先的統計、分類、排序等。因此,在星型模式設計的數據倉庫中,作報表的速度雖然很快,但由於存在大量的預處理,其建模過程相對來說就比較慢。當業務問題發生變化,原來的維不能滿足要求時,需要增加新的維。由於事實表的主鍵由所有維表的主鍵組成,這種維的變動將是非常復雜、非常耗時的。星型模式另壹個顯著的缺點是數據的冗余量很大。綜合這些討論,不難得出結論,星型模式比較適合於預先定義好的問題,如需要產生大量報表的場合;而不適合於動態查詢多、系統可擴展能力要求高或者數據量很大的場合。因此,星型模式在壹些要求大量報表的部門數據集市中有較多的應用。

總之,上面討論了數據倉庫模型設計中常用的兩種方法。對於部門數據集市,當數據量不大、報表較固定時可以采用星型模式;對於企業級數據倉庫,考慮到系統的可擴展能力、投資成本和易於管理等多種因素,最好采用第三範式。

邏輯模型指數據倉庫數據的邏輯表現形式。從最終應用的功能和性能的角度來看,數據倉庫的數據邏輯模型也許是整個項目最重要的方面,需要領域專家的參與。從內容上看,涉及的方面有確立主題域,粒度層次的劃分,確定數據分割策略,關系模式的確定。

邏輯模型的質量標準

對邏輯模型的評估,就是對邏輯模型質量的考察,什麽是邏輯模型的質量呢?從狹義的概念說,邏輯模型是否正確表達了業務規則,也就是準確,但是隨著人們對數據倉庫認識的加深,質量的含義不斷延伸,現在對模型質量要求不僅僅單純指單純的業務規則,還包括模型滿足用戶分析需求的程度,它是壹個包含豐富內涵、具有多維因素的綜合性概念。相應地邏輯模型質量概念的認識也從狹義向廣義轉變,準確性已不再是衡量唯壹標準。評估邏輯模型壹般包括如下方面的標準

正確性

邏輯模型的建設方法是正確的,遵循了從上到下和從下到上相結合的方法,選擇了正確的模型表示方式,對實際業務采用正確的概化抽象。

準確性(精度)

指邏輯模型和實際業務即“真值”之間的差異程度。誤差越小,準確性就越高。這裏,所謂的“真值”是可知的,盡管邏輯模型經過了抽象,概化等方法總結***性,但是模型的具體化後,與“真值”是應當符合的。可以通過範圍誤差、計數誤差、不回答率、加工整理差錯、模型假設誤差等影響準確性的各個因素,測算統計估算值的變動系數、標準差、均方差、曲線配合吻合度、假設檢驗、偏差等,修正邏輯模型將其的誤差控制在壹個可接受的置信區間內。

適用性

指收集的信息是否有用,是否符合用戶的需求。它要求邏輯模型的粒度,分割方式符合用戶的分析需求。

可解釋性

是指在公布邏輯模型時,應同時公開邏輯模型的的補充解釋信息或稱為“元數據”,即關於模型數據的解釋說明。內容包括所使用的建設方法,建設目標,以防止模型數據二義性導致錯誤解釋和使用。

完備性

目前的業務需求和所用的業務規則完全包含在邏輯模型中。模型中不存在沒有包含的需求業務對象(如實體,屬性,以及之間的關系)

壹致性

模型中的各個對象命名方式統壹,有明確的命名規範。而且模型中各個相關對象的粒度壹致,業務邏輯模型對象的劃分標準應當統壹。

擴展性

當新的業務產生時,僅僅是增加了相關邏輯模型對象的實例內容,不影響目前的邏輯模型,模型這些分類能夠隨統計分析需求的不同進行相應的調整,無需改變數據庫結構,具有靈活的擴展性。僅在個別情況下,需要對邏輯模型的屬性或者實體本身增加,支持分步驟的實施。

可銜接性

邏輯模型來自擁有行業經驗的概念模型,裏面凝聚了許多成功的經驗,而且從規劃上符合行業系統的長遠發展,因此邏輯模型應當從概念模型上相對平滑的過度過來。此外,物理模型應當來自與邏輯模型,邏輯模型的建設應當具有壹定的可操作性,便於向物理模型的轉化。

邏輯模型中常犯的錯誤:

命名規範不統壹

對於匯總數據,低粒度數據或歷史數據采用已定義的命名規範。

粒度層次不統壹

有的具體,有的過於抽象

不準確

業務關系表示錯

不全面:

壹些屬性外鍵標識沒有主表

無用關聯關系多:

模型中各種對象所表示的內容,應當與用戶的業務分析需求密切相關。

與行業通用模型移動的兼容性差:

與行業通用模型存在較大的差異,不利於系統的將來發展符合信息發展的趨勢。

總結

商業智能和數據倉庫系統的建設作為壹個漸進、叠代的過程,其發展趨勢是從現有的初步應用如報表分析、數據集市,向深度和廣度復雜分析和數據挖掘技術應用發展,其依賴的數據存儲模型,包括邏輯模型和物理模型,也是壹個不斷發展,不斷豐富完善的過程。

  • 上一篇:如何查詢企業信用報告
  • 下一篇:如何讓績效管理信息化
  • copyright 2024法律諮詢服務網