& gt& gtBI的原材料是海量數據;
& gt& gtBI的產品是從數據中加工出來的信息和知識;
& gt& gtBI將這些產品推送給企業決策者;
& gt& gt企業決策者利用畢廠的產品做出正確決策,促進企業發展;
這就是商業智能,也就是商業智能——將數據與決策者連接起來,將數據轉化為價值。
BI應用分為信息應用和知識應用兩大類,其特點如下表所示:
信息商務智能應用:
是指從原始數據處理而來的數據查詢、報表圖表、多維分析、數據可視化等應用。這些應用的共同特點是:將數據轉化為決策者可以接受的信息,呈現給決策者。
例如,將銀行交易數據處理成銀行財務報表。
只負責提供信息,不會主動分析數據。
比如銀行財務報表工具,沒有能力深度分析客戶流失與銀行利率的關系,只能依靠決策者結合信息,通過人的思維獲取知識。
知識商務智能應用:
指的是數據挖掘技術和工具,挖掘數據中隱藏的關系,將數據直接通過計算機處理成知識,呈現給決策者。
會主動發掘數據中的數據關聯,發掘決策者大腦無法快速發掘的隱藏知識,並以可理解的形式呈現給決策者。
(3)雙向數據查詢的主要應用模式概述
數據查詢是最簡單的商業智能應用,屬於MIS系統的遺產。雖然來自壹個比較老的學校,但仍然是決策者獲取信息最直接的途徑。
如今的數據查詢界面已經完全擺脫了傳統的SQL命令行,大量的下拉菜單、輸入框、列表框等元素,甚至鼠標拖拽界面,將後臺苦力的SQL語句包裝成了壹個引人入勝的數據采集系統,但本質上依然沒有留下數據查詢的幾個元素:
& gt& gt檢查什麽?
& gt& gt去哪裏查?
& gt& gt過濾條件
& gt& gt顯示方法
目前國外比較流行的數據查詢應用已經完全釋放了數據查詢的靈活性。如右圖所示,Cognos ReportNet的數據查詢界面Query Studio允許用戶通過純粹的瀏覽器界面,通過拖拽鼠標來定義數據查詢元素,並以報表、圖表等多種方式顯示數據。
(4)雙向申報主要應用模式概述。
報表是國內最流行的BI應用之壹,這與報表在我國國有企事業單位中的歷史地位是分不開的。我國的報表以格式奇特、數據集中、規則古怪著稱,讓無數國外報表工具、BI工具捶胸頓足。
報告的兩個要素是數據和格式。如果沒有格式,報表應用幾乎等同於數據查詢應用。可以說報表就是將查詢到的數據以指定的格式呈現出來。
報表應用包括報表展現和報表生成兩個模塊。報表展現是讓決策者看到報表,並允許決策者通過條件定義選擇報表數據,如選擇報表年度、部門、機構等。報表制作面向報表開發人員,報表開發人員在格式定義、數據映射、豐富的計算方法等方面的靈活性都影響著BI報表應用的質量。
需要澄清的是,微軟Excel不是BI報表工具,因為Excel沒有連接數據源的能力,充其量是壹個電子表格。但Excel強大的格式功能讓報表制作者們俯首稱臣,甚至後來幾乎所有BI廠商都為微軟Excel提供了插件。通過插件,Excel可以連接到BI的數據源,變成BI的報表工具,醜小鴨變成天鵝。
5)BI高級應用模式-在線分析處理(OLAP)概述
OLAP,即在線分析處理,是商業智能帶來的壹種全新的數據觀察方法,是商業智能的核心技術之壹。
我們知道,數據存儲在數據庫的數據表中。例如,商店的銷售數據存儲在如下所示的數據表中:
銷售時間
銷售地點
產品
銷量
銷售額
2004-11-1
北京
肥皂
10
342.00
2004-11-6
廣州
橙色的
30
123.00
2004-12-3
北京
香蕉
20
12.00
2004-12-13
上海
橙色的
50
189.00
2005-1-8
北京
肥皂
10
342.00
2005-1-23
上海
牙刷
30
150.00
2005-2-4
廣州
牙刷
20
100.00
決策者往往希望了解宏觀信息,如分布、比例和趨勢,如以下問題:
& gt& gt拋開時間因素,北京銷量趨勢如何?
& gt& gt哪種產品在2005年的銷售額比2004年增長最大?
& gt& gt2004年各種產品銷售比例分布?……
面對這種需求,必須用SQL語句進行大量的SUM運算,每次得出壹道題的結果都需要SQL SUM。面對以上七條記錄,我們很容易得到結果,但是當我們面對幾百萬甚至幾十億條記錄,比如移動公司的通話數據,計算每壹條SQL和都需要花費大量的時間。決策者往往在第壹天提出分析要求,等到第二天才得到計算結果。這種分析方式是“離線分析”,效率非常低。
為了提高數據分析效率,OLAP科技徹底打破基於記錄的數據瀏覽模式,將數據分為“維度”和“度量”:
& gt& gt維度是觀察數據的角度,比如上例中的“銷售時間”、“銷售地點”、“產品”;
& gt& gt度量是具體考察的數量值,如上面例子中的“銷售數量”和“銷售金額”;
這樣,我們可以將上面的平面圖數據列表轉換成具有三維的數據立方體:
探索數據的過程是確定這個立方體中的壹個點,然後觀察這個點的測量值:
當然,數據立方體並不局限於三維,這裏用三維來說明問題,只是因為可以通過圖形表達的極限是三維。
維度可以分層次,比如時間可以日復壹日概括為月、年,產品可以概括為食品、日用品,地點可以概括為華北、華南。用戶可以沿著維度的級別隨意向下鉆取和向上滾動:
這樣就可以擺脫SQL SUM的速度限制,快速定位滿足不同條件的明細數據,快速得到壹定級別的匯總數據。OLAP技術為決策者提供了多角度、多層次、高效的數據探索方法。決策者的思維不再被固定的下拉菜單和查詢條件所束縛,而是被決策者獲取數據、任意組合分析角度和分析目標的思維所主導。這打破了傳統的交互分析和高效率,使得OLAP成為BI系統的核心應用。
(*)第四噴:BI高級應用模式——數據可視化和數據挖掘
(6)BI應用模式概述——數據可視化
數據可視化的應用致力於以盡可能多的形式呈現信息,目的是通過圖形的直觀表達,使決策者快速獲取信息中所包含的知識,如趨勢、分布、密度等要素。值得壹提的是,以MapInfo為代表的GIS軟件廠商也在嘗試結合BI應用。MapInfo最早提出位置智能的概念,依托地理信息系統,顯示各個區域的屬性值,如人口密度、工業產值、人均醫院數等。這種可視化應用與BI數據可視化應用部分重疊,形成了有力的補充,有時在壹個項目中可以相互匹配。
上圖是Cognos Visualizer產品。這家夥以近乎煽情的豐富形式展示數據和信息,包括地圖、餅狀圖、瀑布圖等近50種顯示圖形,並提供二維和三維兩種顯示方式。所有的圖形元素都是可移動的,比如用戶可以在地圖上點擊某個省份,鉆取該省城市的信息。這種交互性是BI和普通圖片生成軟件的壹個顯著區別。
(7)商業智能應用模式——數據挖掘概述
數據挖掘是最高級的BI應用,因為它可以替代人腦的某些功能。
數據挖掘是結構化數據中知識發現的壹個特例。
數據挖掘的目的是通過計算機對大量數據進行分析,找出數據之間隱藏的規律和知識,並以用戶可以理解的方式展現給用戶。
數據挖掘的三個要素是:
& gt& gt技術和算法:目前,常用的數據挖掘技術包括-
自動聚類檢測(自動聚類檢測)
決策樹
神經網絡(神經網絡)
& gt& gt數據:因為數據挖掘是在已知中挖掘未知的過程,
所以需要大量的數據積累作為數據源,數據積累
數量越大,數據挖掘工具的參考點就越多。
& gt& gt預測模型:即需要數據挖掘的業務邏輯從
計算機模擬,這是數據挖掘的主要任務。
與基於信息的BI應用相比,以數據挖掘為代表的基於知識的BI應用目前還不成熟,但從另壹個角度看,數據挖掘還有很大的發展空間,是未來BI發展的重點方向。SAS、SPSS等知識型BI應用廠商的形象逐漸高大,悄然占據新的利潤增長點。
上圖中,著名的IBM智能挖礦機正在分析客戶的消費行為。它可以對大量的客戶數據進行分析,然後自動將客戶分成幾個群體(自動品類檢測),並顯示每個群體的消費特征,讓決策者對不同客戶的消費習慣制定促銷方案或廣告方案壹目了然。
如果僅通過信息BI應用實現上述功能,決策者需要根據經驗做大量的OLAP分析和數據查詢,不壹定能發現數據中的潛規則。比如上面的客戶分類,對於壹個有400萬用戶的銀行來說,如果沒有數據挖掘工具,人會累死的。
(8) BI基礎-數據倉庫技術(Data Warehouse)
在開始噴這個話題之前,我們先來看看數據倉庫的官方定義:
數據倉庫是面向主題的、集成的、非易失的、時變的數據集,用於支持管理決策。以上是數據倉庫的官方定義。
“操作數據庫”就像銀行簿記系統的數據庫。每壹次商業操作(例如,如果妳存了5元錢)都會立即記錄在這個數據庫中。長此以往,所有積累的數據都是零碎的。這種數據庫稱為“運營數據庫”,面向業務運營。
“數據倉庫”用於決策支持,面向分析數據處理,不同於操作型數據庫。此外,數據倉庫是多個異構數據源的有效集成。整合後按照主題重新組織,包含歷史數據,存儲在數據倉庫中的數據壹般不做修改。
運營數據庫、數據倉庫和數據庫的關系,就像C:和D:和硬盤的關系壹樣。數據庫是硬盤,操作數據庫是C:。操作型數據庫和數據倉庫都存儲在數據庫中,只是表結構的設計模式和目的不同。
那麽為什麽要在運營數據庫和BI之間加這麽壹層“數據倉庫”呢?
壹是因為運營數據庫日夜忙碌,以快速響應業務為主要目標,沒有精力服務BI端的數據需求,BI端的數據需求通常是匯總。xx的壹個select sum(xx) group,會讓操作數據庫消耗大量資源,業務處理跟不上,那就麻煩大了。比如妳存了5000元,十分鐘後發現錢還沒到,妳怎麽看?壹定是銀行的領導在看餅狀圖?
第二,在企業中有很多應用,對應很多運營數據庫,如人力資源數據庫、財務數據庫、銷售單據數據庫、庫存商品數據庫等。為了提供數據的全景視圖,BI必須集成這些分散的數據。例如,為了實現集成銷售和庫存信息的OLAP分析,BI工具必須能夠有效地從兩個數據庫中獲取數據。這時候最高效的方法就是先把數據整合到數據倉庫,BI應用從數據倉庫統壹出來。
將分散的操作數據庫中的數據集成到數據倉庫中是壹個大學問,催生了數據集成軟件市場。這種集成並不是簡單的將表堆在壹起,而是提取各個運營數據庫的維度,設置與* * *相同的維度作為* *的維度,然後將包含具體度量值的數據庫表按照主題統壹成若幹個大表(術語“事實表”),按照維度-度量模型建立數據倉庫表結構,然後進行數據提取和轉換。後續提取壹般是在運營數據庫負載比較小的時候(比如淩晨)增量提取新數據,這樣數據倉庫中的數據就會積累起來。
大部分BI應用不需要實時數據,比如決策者,每周壹看上周的周報就可以了。95%的BI應用程序不想現實,並允許從1小時到1月的數據滯後。這是決策支持系統的應用特點,這個滯後區間就是數據抽取工具的工作時間。當然,BI應用程序通常包含很少的實時數據需求。此時,只需要針對這些特殊需求,將BI查詢軟件直接連接到業務數據庫即可,但必須限制負載,禁止復雜查詢。
目前,所有數據庫產品都提供了針對數據倉庫的專門優化。例如,當安裝MySQL的高版本時,安裝序列將詢問您是希望數據庫實例面向事務還是決策支持。前者是運營數據庫,後者是數據倉庫(決策支持,請再加油)。對於這兩種形式,數據庫會提供有針對性的優化。
(9)雙花邊
那就是關於BI的相關知識了。寫點花邊作為結論。
BI的關鍵點:BI不能處理非結構化數據,只能處理數字信息。然而,在企業中,仍然存在大量的文本、流媒體、圖片等非結構化數據,這些數據也蘊含著大量的價值,但面對這些數據,目前的BI工具卻無能為力。IBM Intelligent Miner for Text比較靠譜,但是在處理中文方面好像很弱。
BI供應商和產品:
首先我們來認識壹下國外的大腕!在數據倉庫方面,有IBM DB2、Oracle、Sybase IQ、NCR Teradata等。BI應用包括Cognos、Business Objects、MicroStrategy、Hyperion、IBM等。數據挖掘包括IBM,SAS,SPSS等等。巨頭微軟也在BI領域插了壹腳,推出了SQL Server分析服務器、報表服務等BI相關產品搶占山頭!
我們往往只關註外國BI老板,而忽略了中國新興的BI大軍。目前國內比較知名的BI有奧維智動的Power-BI,商南的BlueQuery,潤乾報告等。特別值得壹提的是,奧維智動的Power-BI是標準化的BI,在國內有壹定的市場份額。
中國商務智能市場的發展;
壹段時間
商業智能在中國的應用
2002年以前
大量的BI軟件都被當成可以從多個數據源提取數據的報表工作,滿眼都是報表。
當初公司銷售在推廣產品時向用戶介紹:“我們是BI領域最強的……”效果並不好;後來那些銷售人員終於發現了竅門,上來就說:“我們什麽報告都可以做!””然後命令不斷傳來。
2002-2003
壹些明眼人終於發現了OLAP的價值。壹些競爭壓力大的企業為了提高競爭力,迫切需要挖掘歷史數據的價值,快速發現OLAP的優勢。這時候銷售終於不用說“我們可以做任何報告”了。但是,國家機關和壟斷企業仍然是報表,並認為畢是報表。
2004
隨著越來越多成功的BI項目的實施,OLAP終於浮出水面,進而在國內形成了數據查詢+報表展現+OLAP分析的合理BI應用架構。用戶經常會提出壹些數據可視化的需求。在壹些競爭激烈、數據量大的企業中,出現了數據挖掘應用。
2005
信息提供已經不能滿足許多企業的要求,特別是在競爭激烈和風險密集的行業,如銀行、通信和證券。數據挖掘的需求大量湧現,BI應用最終形成了信息+知識的整體。
BI工具在中國遇到的問題;
*復雜的表格:中國擁有世界上最復雜的表格。中國的樣品設計理念和西方不同。西方的報告傾向於只用壹份報告來說明壹個問題,而中國的報告傾向於將盡可能多的問題集中在壹份報告中,這直接導致了中國報告的格式復雜,風格怪異。
*大數據:中國是世界上人口最多的國家。以中國移動公司為例。中國僅壹個省的用戶數量就相當於歐洲壹個中等國家的人口,真是海量數據!國外的數據庫、數據倉庫、BI應用軟件,都在中國經受著大數據量承載能力的考驗。對於美國來說,壹個客戶分析應用可能兩秒鐘就能得到結果,但在中國,數據量這麽大,不是兩秒鐘的事。
*數據回寫:中國是世界上對BI系統要求最奇怪的國家。最初,BI系統是基於忠實再現源數據的原則,但這壹原則在中國遇到了困難。很多領導提出了數據修改的要求。“報告上的數字不好看,肯定是能改的,有時候還需要調整,讓上級領導看著!”壹位領導說。目前能滿足這壹要求的BI產品只有微軟和MicroStrategy兩個。微軟非常了解中國市場。