經過幾年的積累,大部分中大型的企事業單位已經建立了比較完善的CRM、ERP、OA等基礎信息化系統。這些系統的統壹特點都是:通過業務人員或者用戶的操作,最終對數據庫進行增加、修改、刪除等操作。上述系統可統壹稱為OLTP(Online Transaction Process,在線事務處理),指的就是系統運行了壹段時間以後,必然幫助企事業單位收集大量的歷史數據。但是,在數據庫中分散、獨立存在的大量數據對於業務人員來說,只是壹些無法看懂的天書。業務人員所需要的是信息,是他們能夠看懂、理解並從中受益的抽象信息。此時,如何把數據轉化為信息,使得業務人員(包括管理者)能夠充分掌握、利用這些信息,並且輔助決策,就是商業智能主要解決的問題。如何把數據庫中存在的數據轉變為業務人員需要的信息?大部分的答案是報表系統。簡單說,報表系統已經可以稱作是BI了,它是BI的低端實現。
國外的企業,大部分已經進入了中端BI,叫做數據分析。有壹些企業已經開始進入高端BI,叫做數據挖掘。而我國的企業,大部分還停留在報表階段。
數據報表不可取代
傳統的報表系統技術上已經相當成熟,大家熟悉的Excel、水晶報表、Reporting Service等都已經被廣泛使用。但是,隨著數據的增多,需求的提高,傳統報表系統面臨的挑戰也越來越多。
1. 數據太多,信息太少
密密麻麻的表格堆砌了大量數據,到底有多少業務人員仔細看每壹個數據?到底這些數據代表了什麽信息、什麽趨勢?級別越高的領導,越需要簡明的信息。如果我是董事長,我可能只需要壹句話:我們的情況是好、中還是差?
2. 難以交互分析、了解各種組合
定制好的報表過於死板。例如,我們可以在壹張表中列出不同地區、不同產品的銷量,另壹張表中列出不同地區、不同年齡段顧客的銷量。但是,這兩張表無法回答諸如“華北地區中青年顧客購買數碼相機類型產品的情況”等問題。業務問題經常需要多個角度的交互分析。
3. 難以挖掘出潛在的規則
報表系統列出的往往是表面上的數據信息,但是海量數據深處潛在含有哪些規則呢?什麽客戶對我們價值最大,產品之間相互關聯的程度如何?越是深層的規則,對於決策支持的價值越大,但是,也越難挖掘出來。
4. 難以追溯歷史,數據形成孤島
業務系統很多,數據存在於不同地方。太舊的數據往往被業務系統備份出去,導致宏觀分析、長期歷史分析難度很大。
因此,隨著時代的發展,傳統報表系統已經不能滿足日益增長的業務需求了,企業期待著新的技術。數據分析和數據挖掘的時代正在來臨。值得註意的是,數據分析和數據挖掘系統的目的是帶給我們更多的決策支持價值,並不是取代數據報表。報表系統依然有其不可取代的優勢,並且將會長期與數據分析、挖掘系統壹起並存下去。
八維以上的數據分析
如果說OLTP側重於對數據庫進行增加、修改、刪除等日常事務操作,OLAP(Online Analytics Process,在線分析系統)則側重於針對宏觀問題,全面分析數據,獲得有價值的信息。
為了達到OLAP的目的,傳統的關系型數據庫已經不夠了,需要壹種新的技術叫做多維數據庫。
多維數據庫的概念並不復雜。舉壹個例子,我們想描述2003年4月份可樂在北部地區銷售額10萬元時,牽扯到幾個角度:時間、產品、地區。這些叫做維度。至於銷售額,叫做度量值。當然,還有成本、利潤等。
除了時間、產品和地區,我們還可以有很多維度,例如客戶的性別、職業、銷售部門、促銷方式等等。實際上,使用中的多維數據庫可能是壹個8維或者15維的立方體。
雖然結構上15維的立方體很復雜,但是概念上非常簡單。
數據分析系統的總體架構分為四個部分:源系統、數據倉庫、多維數據庫、客戶端。
·源系統:包括現有的所有OLTP系統,搭建BI系統並不需要更改現有系統。
·數據倉庫:數據大集中,通過數據抽取,把數據從源系統源源不斷地抽取出來,可能每天壹次,或者每3個小時壹次,當然是自動的。數據倉庫依然建立在關系型數據庫上,往往符合叫做“星型結構”的模型。
·多維數據庫:數據倉庫的數據經過多維建模,形成了立方體結構。每壹個立方體描述了壹個業務主題,例如銷售、庫存或者財務。
·客戶端:好的客戶端軟件可以把多維立方體中的信息豐富多彩地展現給用戶。
數據分析案例:
在實際的案例中,我們利用Oracle9i搭建了數據倉庫,Microsoft Analysis Service 2000搭建了多維數據庫,ProClarity 6.0 作為客戶端分析軟件。
分解樹好像壹個組織圖。分解樹在回答以下問題時很?最高的銷售額?
·在特定的產品種類內,各種產品間的銷售額分布如何?
·哪個銷售人員完成了最高百分比的銷售額?
在圖1中,可以對PC機在各個地域的銷售額和所占百分比壹目了然。任意壹層分解樹都可以根據不同維度隨意展開。在該分解樹中,在大區這壹層是按國家展開,在國家這壹層是按產品分類展開。
投影圖(圖3)使用散點圖的格式,顯示兩個或三個度量值之間的關系。數據點的集中預示兩個變量之間存在強的相關關系,而稀疏分布的數據點可能顯示不明顯的關系。
投影圖很適合分析大量的數據。在顯示因果關系方面有明顯效果,比如例外的數據點就可以考慮進壹步研究,因為它們落在“正常”的點群範圍之外。
數據挖掘看穿妳的需求
廣義上說,任何從數據庫中挖掘信息的過程都叫做數據挖掘。從這點看來,數據挖掘就是BI。但從技術術語上說,數據挖掘(Data Mining)特指的是:源數據經過清洗和轉換等成為適合於挖掘的數據集。數據挖掘在這種具有固定形式的數據集上完成知識的提煉,最後以合適的知識模式用於進壹步分析決策工作。從這種狹義的觀點上,我們可以定義:數據挖掘是從特定形式的數據集中提煉知識的過程。數據挖掘往往針對特定的數據、特定的問題,選擇壹種或者多種挖掘算法,找到數據下面隱藏的規律,這些規律往往被用來預測、支持決策。