當前位置:法律諮詢服務網 - 企業資訊 - 數據倉庫的數據粒度

數據倉庫的數據粒度

確定數據倉庫中數據的適當粒度是數據倉庫開發人員需要面對的最重要的設計問題。數據粒度主要針對指標數據的計算範圍,比如人口數據項在統計部門是統計在街區範圍還是壹個社區範圍。人口數據精細化程度越高,粒度級別越小;反之,細化程度越低,粒度級別越大。粒度是數據倉庫的主要設計問題,因為它極大地影響數據倉庫中存儲的數據的大小以及數據倉庫可以回答的查詢的類型。在設計數據倉庫時,我們應該權衡數據量的大小和查詢類型,以獲得合理的粒度。下面通過規劃、設計、建設來說明數據倉庫粒度的確定。

1.規劃階段

“規劃”——思考和考慮未來的整體性、長期性、基礎性問題,設計未來的壹整套行動方案。在規劃階段,先對數據量進行粗略的估算,估算的目的是掌握數據倉庫中壹個範圍的數據量。第二步,預測未來數據集市中應用所需的粒度,數據倉庫存儲數據集市使用的最小粒度。

1.1.建立良好的循環反饋機制非常重要。

首先要建立完善的循環反饋機制。數據倉庫是面對模糊需求建立的,粒度無法壹次性規劃。先導入少量數據,建立壹些應用提交給用戶,聽取用戶意見,根據用戶意見調整粒度。

1.2.對存儲數據的粗略估計對於設計架構的人來說非常有用。

粗略估計數據倉庫的數據量,規劃好數據倉庫架構。如果數據只有10 000行,那麽數據倉庫使用較小的粒度級別進行數據存儲,所有詳細數據都存儲在數據倉庫中。如果明細數據有1000000行,需要對進入數據倉庫的數據進行初步匯總。如果有1000億行,數據倉庫不僅需要高粒度級別,還可能將大部分數據移動到溢出內存。

估算方法如下:

1.3.有必要預測數據集市中可能使用的數據粒度。

為了正確填充所有數據集市,數據倉庫中的數據必須處於所有數據集市所需的最低粒度級別。

規劃階段的結果是數據倉庫建設的重要基礎。在規劃階段,對組織結構、數據的大小以及後期的應用有壹個透徹的了解,才能做出規劃,對可能的結果有壹個預知,避免設計中可能出現的問題。

2.施工階段

2.1.根據估計的空間結果,可以在架構設計中根據數據的大小來選擇存儲設備。需要多少直接存取存儲設備,是否需要雙粒度設計。

2.2.設計溢出數據的管理。溢出數據是指數據倉庫不經常訪問的過時數據,轉移到存儲容量更大、訪問速度更慢的存儲器中。管理溢出數據有助於索引和定位歷史數據,並快速檢索數據。

跨媒體存儲管理器和數據活動監視器可以有效地管理溢出數據。磁盤存儲和大容量低速存儲之間的數據移動由壹個叫做“跨媒體存儲管理器(CMSM)”的軟件控制。數據活動監視器,用於確定哪些數據正在被訪問,哪些沒有被訪問。數據活動監視器可以提供數據存儲的位置信息。

2.3.數據倉庫實施過程中粒度的確定是壹個往復的過程。利用規劃階段建立的反饋環方法,可以得到分析師的反饋,不斷優化數據倉庫。

從圖中可以看出,數據倉庫的成功建立離不開分析人員的配合。建設者應該不斷聽取分析師的意見。分析師不知道他們在構建數據倉庫時需要什麽。只有看到最終的分析結果,他們才能告訴數據倉庫的工作人員什麽才是真正有用的。為了有效地獲得反饋,可以參考以下技巧:

快速建立數據倉庫的小子集,認真聽取用戶反饋;

?使用原型法;

?參考別人的經驗;

?與有經驗的用戶壹起工作;

?以企業現有的功能需求為參考;

?定期召開數據倉庫建設會議。

3.舉壹個小銀行粒度的例子

3.1.銀行環境中的粒度級別。下圖是銀行數據粒度的壹個例子。

銀行的運營層以日常粒度存儲數據。銀行各業務系統只存儲最近60天的交易活動明細,方便用戶查詢最近兩個月的交易信息明細。在此期間,用戶最關心的是交易數據的細節。

數據倉庫層將數據聚合成月度粒度的匯總數據。銀行根據每個賬戶每月的交易信息,匯總過去十年的數據,存儲在直存設備中,供高速查詢和訪問。用戶不關心過去很長時間的交易明細,但是用戶需要快速查詢並得到結果。這時候提供月度匯總數據就可以滿足用戶的需求了。

所有歷史數據都按日存儲在溢出存儲區,數據量巨大,訪問頻率極低。銀行壹般不接受十年歷史明細數據查詢的請求。如果壹些特殊情況需要查詢十幾年的歷史數據,查詢時間會相當慢。

4.摘要

數據倉庫粒度的確定是壹個困難的過程,需要壹個合適的級別,不能太高也不能太低。

選擇粒度級別很大程度上是基於常識。施工前做好規劃,預估數據量,建立相應的反饋系統。在實現的過程中,數據倉庫的壹小部分首先被分析師建立和使用。然後聽取他們的意見,根據他們的反饋對粒度級別進行適當的調整。

  • 上一篇:事業編制和企業編制有什麽不同
  • 下一篇:稅務解讀重點群體創業就業有關稅收政策
  • copyright 2024法律諮詢服務網