“大數據”近幾年來可謂蓬勃發展,它不僅是企業趨勢,也是壹個改變了人類生活的技術創新。大數據對行業用戶的重要性也日益突出。掌握數據資產,進行智能化決策,已成為企業脫穎而出的關鍵。因此,越來越多的企業開始重視大數據戰略布局,並重新定義自己的核心競爭力。
國內做大數據的公司依舊分為兩類:壹類是現在已經有獲取大數據能力的公司,如百度、騰訊、阿裏巴巴等互聯網巨頭以及華為、浪潮、中興等國內領軍企業,做大數據致店壹叭柒三耳領壹泗貳五零,涵蓋了數據采集,數據存儲,數據分析,數據可視化以及數據安全等領域;另壹類則是初創的大數據公司,他們依賴於大數據工具,針對市場需求,為市場帶來創新方案並推動技術發展。其中大部分的大數據應用還是需要第三方公司提供服務。
越來越多的應用涉及到大數據,這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長的復雜性,所以,大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基於此,對大數據進行分析的產品有哪些比較倍受青睞呢?
而在這裏面,最耀眼的明星當屬Hadoop,Hadoop已被公認為是新壹代的大數據處理平臺,EMC、IBM、Informatica、Microsoft以及Oracle都紛紛投入了Hadoop的懷抱。對於大數據來說,最重要的還是對於數據的分析,從裏面尋找有價值的數據幫助企業作出更好的商業決策。下面,我們就來看看以下十大企業級大數據分析利器吧。
隨著數據爆炸式的增長,我們正被各種數據包圍著。正確利用大數據將給人們帶來極大的便利,但與此同時也給傳統的數據分析帶來了技術的挑戰,雖然我們已經進入大數據時代,但是“大數據”技術還仍處於起步階段,進壹步地開發以完善大數據分析技術仍舊是大數據領域的熱點。
在當前的互聯網領域,大數據的應用已經十分廣泛,尤其以企業為主,企業成為大數據應用的主體。大數據真能改變企業的運作方式嗎?答案毋庸置疑是肯定的。隨著企業開始利用大數據,我們每天都會看到大數據新的奇妙的應用,幫助人們真正從中獲益。大數據的應用已廣泛深入我們生活的方方面面,涵蓋醫療、交通、金融、教育、體育、零售等各行各業。
可視化分析
大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話壹樣簡單明了。
2. 數據挖掘算法
大數據分析的理論核心就是數據挖掘算法,各種數據挖掘的算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統計
學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。另外壹個方面也是因為有這些數據挖掘的算法才能更快速的處理大數據,如
果壹個算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
3. 預測性分析
大數據分析最終要的應用領域之壹就是預測性分析,從大數據中挖掘出特點,通過科學的建立模型,之後便可以通過模型帶入新的數據,從而預測未來的數據。
4. 語義引擎
非結構化數據的多元化給數據分析帶來新的挑戰,我們需要壹套工具系統的去分析,提煉數據。語義引擎需要設計到有足夠的人工智能以足以從數據中主動地提取信息。
5.數據質量和數據管理。 大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面,當然更加深入大數據分析的話,還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。
大數據的技術
數據采集: ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取: 關系數據庫、NOSQL、SQL等。
基礎架構: 雲存儲、分布式文件存儲等。
數據處理:
自然語言處理(NLP,Natural Language
Processing)是研究人與計算機交互的語言問題的壹門學科。處理自然語言的關鍵是要讓計算機”理解”自然語言,所以自然語言處理又叫做自然語言理解也稱為計算語言學。壹方面它是語言信息處理的壹個分支,另壹方面它是人工智能的核心課題之壹。
統計分析:
?假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、 方差分析 、
卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、
因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數據挖掘:
分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity
grouping or association rules)、聚類(Clustering)、描述和可視化、Description and
Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測 :預測模型、機器學習、建模仿真。
結果呈現: 雲計算、標簽雲、關系圖等。
大數據的處理
1. 大數據處理之壹:采集
大數據的采集是指利用多個數據庫來接收發自客戶端(Web、App或者傳感器形式等)的
數據,並且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型數據庫MySQL和Oracle等來存儲每壹筆事務數據,除
此之外,Redis和MongoDB這樣的NoSQL數據庫也常用於數據的采集。
在大數據的采集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶
來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數據庫才能支撐。並且如何在這些數據庫之間
進行負載均衡和分片的確是需要深入的思考和設計。
2. 大數據處理之二:導入/預處理
雖然采集端本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這
些來自前端的數據導入到壹個集中的大型分布式數據庫,或者分布式存儲集群,並且可以在導入基礎上做壹些簡單的清洗和預處理工作。也有壹些用戶會在導入時使
用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。
3. 大數據處理之三:統計/分析
統計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲於其內的海量數據進行普通
的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,壹些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於
MySQL的列式存儲Infobright等,而壹些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。
4. 大數據處理之四:挖掘
與前面統計和分析過程不同的是,數據挖掘壹般沒有什麽預先設定好的主題,主要是在現有數
據上面進行基於各種算法的計算,從而起到預測(Predict)的效果,從而實現壹些高級別數據分析的需求。比較典型算法有用於聚類的Kmeans、用於
統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的算法很復雜,並
且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。